Изкуствен интелект

Нов и по-прост метод Deepfake, който превъзхожда предишните подходи

Обновено on Декември 9, 2022

Сътрудничество между китайска изследователска група за изкуствен интелект и базирани в САЩ изследователи разработи това, което може би е първата истинска иновация в технологията за дълбоки фалшификати, откакто феноменът се появи преди четири години.

Новият метод може да извършва смени на лица, които превъзхождат всички други съществуващи рамки при стандартни тестове за възприемане, без да е необходимо изчерпателно да събирате и подготвяте големи специални набори от данни и да ги обучавате до една седмица само за една самоличност. За примерите, представени в новия документ, моделите бяха обучени на цялост от два популярни набора от данни за знаменитости, на един графичен процесор NVIDIA Tesla P40 за около три дни.

Пълният видеоклип е вграден в края на тази статия. В тази извадка от видеоклип в допълнителните материали за новия вестник лицето на Скарлет Йохансон е прехвърлено върху изходното видео. CihaNet премахва проблема с маскирането на ръба при извършване на суап, като формира и въвежда по-дълбоки връзки между изходната и целевата самоличност, което означава край на „очевидните граници“ и други проблеми с наслагването, които се случват при традиционните подходи на deepfake. Източник: Източник: https://mitchellx.github.io/#video

Пълният видеоклип е достъпен в края на тази статия. В тази извадка от видео в допълнителни материали, предоставени от един от авторите на новия документ, лицето на Скарлет Йохансон е прехвърлено върху изходното видео. CihaNet премахва проблема с маскирането на ръба при извършване на суап, като формира и въвежда по-дълбоки връзки между изходната и целевата самоличност, което означава край на „очевидните граници“ и други проблеми с наслагването, които се случват при традиционните подходи на deepfake. източник: Източник: https://mitchellx.github.io/#video

Новият подход премахва необходимостта от „вмъкване“ на трансплантираната идентичност грубо в целевото видео, което често води до издайнически сигнал артефакти които се появяват там, където свършва фалшивото лице и започва истинското, скрито лице. По-скоро „халюцинационните карти“ се използват за извършване на по-дълбоко смесване на визуални аспекти, тъй като системата разделя идентичността от контекста много по-ефективно от настоящите методи и следователно може да смеси целевата идентичност на по-дълбоко ниво.

От хартията. Трансформациите на CihaNet се улесняват чрез карти на халюцинации (долния ред). Системата използва контекстна информация (т.е. посока на лицето, коса, очила и други оклузии и т.н.) изцяло от изображението, върху което ще бъде насложена новата самоличност, и информация за самоличността на лицето изцяло от лицето, което трябва да бъде вмъкнато в изображението. Тази способност за отделяне на лицето от контекста е критична за успеха на системата. Източник: https://dl.acm.org/doi/pdf/10.1145/3474085.3475257

Ефективно новата карта на халюцинациите предоставя по-пълен контекст за размяната, за разлика от твърдите маски, които често изискват обширно лечение (и в случая на DeepFaceLab, отделно обучение), като същевременно осигурява ограничена гъвкавост по отношение на реалното включване на двете идентичности.

От мостри, предоставени в допълнителните материали, използвайки както наборите от данни на FFHQ, така и на Celeb-A HQ, през VGGFace и Forensics++. Първите две колони показват произволно избраните (реални) изображения за размяна. Следващите четири колони показват резултатите от размяната, използвайки четирите най-ефективни метода, налични в момента, докато последната колона показва резултата от CihaNet. Използвано е хранилището FaceSwap вместо по-популярния DeepFaceLab, тъй като и двата проекта са разклонения на оригиналния код на Deepfakes от 2017 г. в GitHub. Въпреки че оттогава към всеки проект са добавени модели, техники, разнообразни потребителски интерфейси и допълнителни инструменти, основният код, който прави възможни дълбоките фалшификации, никога не се е променял и остава общ и за двата. Източник: https://dl.acm.org/action/downloadSupplement?doi=10.1145%2F3474085.3475257&file=mfp0519aux.zip

- хартия, озаглавена Едноетапна мрежа за халюцинации на контекст и идентичност, е създаден от изследователи, свързани с JD AI Research и Университета на Масачузетс Амхърст, и е подкрепен от Националната ключова научноизследователска и развойна програма на Китай под грант № 2020AAA0103800. Той беше представен на 29-ата международна конференция за мултимедия на ACM, на 20-24 октомври в Ченду, Китай.

Няма нужда от паритет „Face-On“.

Както най-популярният настоящ софтуер за дълбоко фалшифициране, DeepFaceLab, така и конкурентният форк FaceSwap изпълняват трудни и често ръчно курирани работни потоци, за да идентифицират накъде е наклонено лицето, какви препятствия има по пътя, които трябва да бъдат отчетени (отново ръчно) , и трябва да се справят с много други дразнещи пречки (включително осветление), които правят използването им далеч от преживяването „посочи и щракни“, неточно изобразено в медиите след появата на deepfakes.

Обратно, CihaNet не изисква две изображения да са обърнати директно към камерата, за да извлече и използва полезна информация за самоличност от едно изображение.

В тези примери набор от претенденти за дълбоко фалшив софтуер са изправени пред задачата да разменят лица, които не само се различават по идентичност, но и не са обърнати по същия начин. Софтуерът, извлечен от оригиналното хранилище deepfakes (като изключително популярните DeepFaceLab и FaceSwap, на снимката по-горе), не може да се справи с несъответствието в ъглите между двете изображения, които трябва да бъдат разменени (вижте третата колона). Междувременно CihaNet може да абстрахира правилно самоличността, тъй като „позата“ на лицето не е присъща част от информацията за самоличността.

архитектура

Проектът CihaNet, според авторите, е вдъхновен от сътрудничеството през 2019 г. между Microsoft Research и Пекинския университет, т.нар. FaceShifter, въпреки че прави някои забележителни и критични промени в основната архитектура на по-стария метод.

FaceShifter използва две адаптивни нормални инстанции (АдаИН) мрежи за обработка на информация за самоличност, които данни след това се транспонират в целевото изображение чрез маска, по начин, подобен на настоящия популярен софтуер за дълбоко фалшифициране (и с всичките му свързани ограничения), като се използва допълнителен HEAR-Net (което включва отделно обучена подмрежа, обучена на оклузионни препятствия – допълнителен слой на сложност).

Вместо това, новата архитектура директно използва тази „контекстуална“ информация за самия процес на трансформация, чрез двуетапна единична операция за каскадно адаптивно нормализиране на екземпляри (C-AdaIN), която осигурява последователност на контекста (т.е. кожата на лицето и оклузиите) на ID- съответните области.

Втората подмрежа от решаващо значение за системата се нарича Swapping Block (SwapBlk), която генерира интегрирана функция от контекста на референтното изображение и вградената информация за „идентификация“ от изходното изображение, заобикаляйки множеството етапи, необходими за постигането на това чрез конвенционални текущи средства.

За да помогнете за разграничаване между контекст и идентичност, a карта на халюцинациите се генерира за всяко ниво, като замества маска за меко сегментиране и действа върху по-широк набор от функции за тази критична част от процеса на deepfake.

С нарастването на стойността на картата на халюцинациите (на снимката долу вдясно) се появява по-ясен път между идентичностите.

По този начин целият процес на размяна се извършва на един етап и без последваща обработка.

Данни и тестване

За да изпробват системата, изследователите обучиха четири модела на два много популярни и разнообразни набора от данни с отворени изображения – CelebA-HQ и Flickr-Faces-HQ Dataset на NVIDIA (FFHQ), всяко съдържащо съответно 30,000 70,000 и XNUMX XNUMX изображения.

Не е извършено съкращаване или филтриране на тези базови набори от данни. Във всеки случай изследователите обучиха целия набор от данни на единичния графичен процесор на Tesla в продължение на три дни, със скорост на обучение от 0.0002 при оптимизация на Adam.

След това те направиха поредица от произволни размени сред хилядите личности, включени в наборите от данни, без да вземат предвид дали лицата са сходни или дори съвпадащи по пол, и сравниха резултатите на CihaNet с изхода от четири водещи deepfake frameworks: Размяна на лице (което замества по-популярните DeepFaceLab, тъй като споделя основна кодова база в оригинално хранилище за 2017 г който донесе deepfakes на света); гореспоменатия FaceShifter; ФСГАН; И SimSwap.

При сравняване на резултатите чрез VGG-Лице, FFHQ, CelebA-HQ и FaceForensics ++, авторите установиха, че техният нов модел превъзхожда всички предишни модели, както е посочено в таблицата по-долу.

Трите показателя, използвани при оценката на резултатите, бяха структурно сходство (SSIM), грешка в оценката на позата намлява Точност на извличане на ID, което се изчислява въз основа на процента на успешно извлечените двойки.

Изследователите твърдят, че CihaNet представлява превъзходен подход по отношение на качествени резултати и забележителен напредък спрямо текущото състояние на технологиите за дълбоки фалшиви технологии, като премахва тежестта на екстензивните и трудоемки маскиращи архитектури и методологии и постига по-полезен и приложимо отделяне на идентичността от контекста.

Разгледайте по-долу, за да видите още видео примери за новата техника. Можете да намерите пълнометражното видео тук.