кочан Откриване на Deepfake въз основа на оригинални човешки биометрични черти - Unite.AI
Свържете се с нас

Изкуствен интелект

Откриване на Deepfake, базирано на оригинални човешки биометрични характеристики

mm
Обновено on
Изображения, произведени от deepfakers в DeepFaceLab Discord Channel
Изображения, произведени от deepfakers в DeepFaceLab Discord Channel

Нова статия от изследователи от Италия и Германия предлага метод за откриване на дълбоки фалшиви видеоклипове, базирани на биометрично поведение на лицето и гласа, а не на артефакти, създадени от системи за синтез на лица, скъпи решения за водни знаци или други по-тромави подходи.

Рамката изисква въвеждане на 10 или повече разнообразни, нефалшиви видеоклипа на темата. Не е необходимо обаче да бъде специално обучен, преквалифициран или разширен за видеоклипове за всеки случай, тъй като неговият вграден модел вече е абстрахирал вероятните векторни разстояния между истински и фалшиви видеоклипове по широко приложим начин.

Контрастното обучение е в основата на подхода на POI-Forensics. Векторите, извлечени от изходен материал за всеки отделен случай, се сравняват със същите вектори в потенциално фалшиво видео, като аспектите и характеристиките са извлечени от видео и аудио компоненти на потенциално фалшивия запис. Източник: https://arxiv.org/pdf/2204.03083.pdf

Контрастното обучение е в основата на подхода на POI-Forensics. Векторите, извлечени от изходния материал за всеки отделен случай, се сравняват със същите вектори в потенциално фалшиво видео, като аспектите и характеристиките са извлечени от видео и аудио компоненти на потенциално фалшивия запис. Източник: https://arxiv.org/pdf/2204.03083.pdf

Озаглавен POI-Криминалистика, подходът разчита на движение и звукови сигнали, уникални за истинския индивид, който е дълбоко фалшифициран.

Въпреки че подобна система би могла да позволи напълно автоматизирани, „предварително изобразени“ рамки за удостоверяване на знаменитости, политици, влиятелни лица в YouTube и други хора, за които е лесно достъпно голямо количество видеоматериал, тя също може да бъде адаптирана в рамка, в която обикновените жертви на технологиите deepfake биха могли потенциално да имат платформа за доказване на неавтентичността на атаките срещу тях.

Визуализации на извлечени функции от истински и фалшиви видеоклипове в четири обекта в POI-Forensics, чрез t-SNE рамката.

Визуализации на извлечени функции от истински и фалшиви видеоклипове в четири обекта в POI-Forensics, чрез t-SNE рамка.

Авторите твърдят, че POI-Forensics постига ново ниво на изкуството в дълбокото откриване на фалшификати. В различни общи набори от данни в тази област се съобщава, че рамката постига подобрение в AUC резултатите от 3%, 10% и 7% съответно за висококачествени, нискокачествени и „атакувани“ видеоклипове. Изследователите обещават да пуснат кода скоро.

Ефективността на POI-Forensics срещу конкурентни SOTA рамки pDFDC, DeepFakeTIMIT, FakeAVCelebV2 и KoDF. Обучението във всеки случай беше извършено на FaceForensics++, ID-Reveal и метода на авторите на VoxCeleb2. Резултатите включват видеоклипове с високо и ниско качество.

Ефективността на POI-Forensics срещу конкурентни SOTA рамки pDFDC, DeepFakeTIMIT, FakeAVCelebV2, и KoDF. Във всеки случай беше извършено обучение FaceForensics ++ и на авторите ID-Разкриване на VoxCeleb2. Резултатите включват видеоклипове с високо и ниско качество.

Авторите заявяват:

„Обучението се извършва изключително върху видеозаписи с реални говорещи лица, като по този начин детекторът не зависи от никакъв специфичен метод на манипулиране и дава най-висока способност за обобщение. В допълнение, нашият метод може да открие както едномодални (само аудио, само видео), така и мултимодални (аудио-видео) атаки и е устойчив на нискокачествени или повредени видеоклипове, като се основава само на семантични характеристики на високо ниво .'

Новото хартия, който включва елементи от някои от авторските визии, базирани ID-Разкриване проект на 2021 г., е озаглавен Аудио-визуално откриване на интересни лица DeepFake, и е съвместно усилие между Университета на Федерико II в Неапол и Техническия университет в Мюнхен.

Надпреварата във въоръжаването Deepfake

За да победят система за откриване от такова естество, системите за дълбок фалш и човешки синтез ще изискват способността поне да симулират визуални и аудио биометрични знаци от предвидената цел на синтеза – технология, която е много години далеч и вероятно ще остане в обсега на скъпи и патентовани затворени системи, разработени от VFX компании, които ще имат предимството на сътрудничеството и участието на предвидените цели (или техните имоти, в случай на симулация на починали хора).

Предишният подход на авторите, ID-Reveal, се концентрира изцяло върху визуалната информация. Източник: https://arxiv.org/pdf/2012.02512.pdf

Предишният подход на авторите, ID-Reveal, се концентрира изцяло върху визуалната информация. Източник: https://arxiv.org/pdf/2012.02512.pdf

Успешни и популярни deepfake методи като напр Размяна на лице намлява DeepFaceLab/Живея в момента имат нулев капацитет за създаване на такива детайлни биометрични приближения, разчитайки в най-добрия случай на талантливи двойници на когото е наложена фалшивата самоличност и много по-често върху подходящи кадри в дивата природа на „подобни“ хора. Нито структурата на основния код 2017, който има малка модулност и който остава източникът нагоре по веригата за DFL и FaceSwap, не прави добавянето на този вид функционалност възможно.

Тези два доминиращи пакета deepfake се основават на автоенкодери. Алтернативните методи за човешки синтез могат да използват Generative Adversarial Network (GAN) или Neural Radiance Field (NeRF) подход за пресъздаване на човешката идентичност; но и двете направления на изследване имат години работа дори за създаване на напълно фотореалистично човешко видео.

С изключение на аудио (фалшиви гласове), биометричната симулация е много далеч в списъка на предизвикателствата, пред които е изправен синтезът на човешки образ. Във всеки случай, възпроизвеждането на тембъра и други качества на човешкия глас не възпроизвежда неговите ексцентричности и „разказвания“, или начина, по който истинският субект използва семантична конструкция. Следователно дори съвършенството на генерираната от AI гласова симулация не разрешава потенциалната защитна стена на биометричната автентичност.

Само в Arxiv има няколко стратегии и иновации за откриване на deepfake издава всяка седмица. Последните подходи зависят от Хомогенност на гласа и лицето, Хистограма на локален двоичен модел (FF-LBPH), човешко възприемане на аудио дийпфейкове, анализиране на границите на лицето, отчитане на влошаването на видеото, и „Съдебна балистика“ – сред много други.

анализът на истограма е сред най-новите техники, предлагани за подобряване на откриването на дълбоки фалшиви данни. Източник: https://arxiv.org/pdf/2203.09928.pdf

Анализът на сегментираната хистограма е сред най-новите техники, предлагани за подобряване на откриването на дълбоки фалшиви данни. Източник: https://arxiv.org/pdf/2203.09928.pdf

Подход, данни и архитектура

POI-Forensics използва мултимодален подход към проверката на самоличността, използвайки меки биометрични данни, базирани на визуални и аудио знаци. Рамката разполага с отделни аудио и видео мрежи, които в крайна сметка извличат характерни векторни данни, които могат да бъдат сравнени със същите извлечени характеристики в потенциално дълбоко фалшиво видео, което се изследва.

Архитектурата на POI-Forensics.

Концептуалната архитектура на POI-Forensics.

Както отделен (аудио или видео), така и синтезиран анализ може да се извърши върху целеви клипове, достигайки накрая до индекс на сходство на POI. Използваната функция за контрастни загуби се основава на 2021 академично сътрудничество между Google Research, Бостънския университет, Snap Inc. и MIT.

Базовият набор от данни беше разделен на базата на идентичност. За обучение са използвани 4608 самоличности, като 512 са останали за валидиране. 500-те самоличности, използвани във FakeAVCelebV2 (кандидат за тестване, вижте по-долу), бяха изключени, за да се получат неполяризирани резултати.

Двете мрежи бяха обучени за 12 епохи при необичайно голям размер на партида от 2304 партиди на епоха, като всяка партида се състои от 8×8 видео сегмента – 8 сегмента за 8 различни самоличности. Оптимизаторът на Adam е използван с отделено разпадане на теглото при скорост на учене 10-4и намаляване на теглото от 0.01.

Тестване и резултати

Deepfake наборите от данни, тествани за проекта, бяха визуализация на набор от данни на DeepFake Detection Challenge, който включва размяна на лица на 68 субекта, от които са избрани 44 самоличности, които имат повече от девет свързани видеоклипа, общо 920 истински видеоклипа и 2925 фалшиви видеоклипа; DeepFake-TIMIT, базиран на GAN набор от данни, включващ 320 видеоклипа на 32 теми, общо 290 истински видеоклипа и 580 фалшиви видеоклипа с продължителност най-малко четири секунди; FakeAVCelebV2, включващ 500 реални видеоклипа от Voxceleb2и приблизително 20,000 XNUMX фалшиви видеоклипа от различни набори от данни, към които е добавено фалшиво клонирано аудио с SV2TTS за съвместимост; и KoDF, корейски deepfake набор от данни с 403 самоличности, фалшифицирани чрез FaceSwap, DeepFaceLab и ФСГАН, както и три модела на движение от първи ред (FOMM).

Последният също така включва аудио управляван синтез на лица ATFHP, и изход от Wav2Lip, като авторите използват извлечен набор от данни, включващ 276 реални видеоклипа и 544 фалшиви видеоклипа.

Използваните показатели включват площ под кривата на работната характеристика на приемника (AUC), и приблизително 10% „процент на фалшиви аларми“, което би било проблематично в рамки, които включват и обучават фалшиви данни, но това безпокойство се премахва от факта, че POI-Forensics приема само истински видеозапис като вход.

Методите са тествани срещу Сефербеков deepfake детектор, който постигна първо място в Kaggle Deepfake Detection Предизвикателство; FTCN (Fully Temporal Convolution Network), сътрудничество между китайския университет Ксиамен и Microsoft Research Asia; LipForensics, съвместна работа от 2021 г. между Imperial College London и Facebook; и ID-Разкриване, предишен проект на няколко от изследователите на новия документ, който пропуска аудио аспект и който използва 3D Morphable Models в комбинация със сценарий на състезателна игра за откриване на фалшив изход.

В резултатите (вижте по-ранната таблица по-горе), POI-Forensics превъзхожда референтния лидер Сефербеков с 2.5% по AUC и 1.5% по отношение на точност. Производителността беше по-конкурентна в сравнение с други набори от данни в централата.

Въпреки това, новият подход демонстрира значително предимство пред всички конкурентни референтни методи за видеоклипове с ниско качество, които остават най-вероятният сценарий в които дълбоките фалшификати са склонни да заблудят случайните зрители въз основа на контексти от „реалния свят“.

Авторите твърдят:

„Наистина, в този предизвикателен сценарий само подходи, базирани на идентичност, продължават да осигуряват добро представяне, тъй като разчитат на семантични характеристики на високо ниво, доста устойчиви на повреди на изображението.“

Като се има предвид, че PIO-Forensics използва само реално видео като изходен материал, постижението е несъмнено увеличено и предполага, че използването на естествените биометрични черти на потенциални жертви на deepfake е полезен път напред към избягване на „студената война на артефактите“ между софтуера deepfake и откриването на deepfake решения.

В последния тест изследователите добавиха състезателен шум към входа, метод, който може надеждно да заблуди класификаторите. Сега почитаемият метод на бърз градиентен знак все още се оказва особено ефективен в това отношение.

Предсказуемо, състезателните стратегии за атака понижиха процента на успеваемост във всички методи и набори от данни, като AUC намаляваше на стъпки между 10% до 38%. Въпреки това, само POI-Forensics и по-ранният метод на авторите ID-Reveal успяха да поддържат разумна производителност при този сценарий на атака, което предполага, че функциите на високо ниво, свързани с меката биометрия, са изключително устойчиви на избягване на откриване на дълбоки фалшиви данни.

Авторите заключават:

„Като цяло вярваме, че нашият метод е първата стъпка; по-специално, използването на семантични характеристики от по-високо ниво е обещаващ бъдещ път за бъдещи изследвания. В допълнение, мултимодалният анализ може да бъде допълнително обогатен чрез включване на повече информация от други области, като например текстови данни.

 

Първо публикувано на 8 април 2022 г.