Штучний інтелект
Виявлення глибоких підробок на основі оригінальних біометричних ознак людини

Нова робота дослідників з Італії та Німеччини пропонує метод виявлення відео з глибокими підробками на основі біометричного поведінки обличчя та голосу, а не артефактів, створених системами синтезу обличчя, дорогими рішеннями водяних знаків або іншими більш громіздкими підходами.
Фреймворк вимагає введення 10 або більше різноманітних, не підроблених відео суб’єкта. Однак йому не потрібно бути конкретно натренованим, перетренованим або доповненим на відео в кожному випадку, оскільки його включена модель вже абстрагувала ймовірні векторні відстані між справжніми та підробленими відео у широко застосовному вигляді.

Контрастне навчання лежить в основі підходу POI-Forensics. Вектори, отримані з джерельного матеріалу в кожному випадку, порівнюються з тими ж векторами в потенційно фальшивому відео, з ознаками та рисами, взятими з обох відео- та аудіо-компонентів потенційно підроблених кадрів. Джерело: https://arxiv.org/pdf/2204.03083.pdf
Названий POI-Forensics, підхід спирається на рухові та аудіо сигнали, унікальні для реальної людини, яку підробляють.
Хоча така система могла б дозволити повністю автоматизовані, “до-рендерені” рамки автентифікації для знаменитостей, політиків, впливових осіб YouTube та інших людей, для яких велика кількість відеоматеріалу легко доступна, вона також могла б бути адаптована у рамках, де звичайні жертви технологій глибоких підробок потенційно могли б мати платформу для доведення неавтентичності атак проти них.

Візуалізації витягнутих ознак з справжніх і підроблених відео по чотирьом суб’єктам у POI-Forensics, через каркас t-SNE.
Автори стверджують, що POI-Forensics досягнув нового стану мистецтва у виявленні глибоких підробок. По різних загальних наборах даних у цій галузі фреймворк повідомляється про покращення результатів у 3%, 10% та 7% для високоякісних, низькоякісних та “атакованих” відео відповідно. Дослідники обіцяють випустити код скоро.

Результати POI-Forensics проти суперницьких фреймворків pDFDC, DeepFakeTIMIT, FakeAVCelebV2 та KoDF. Навчання в кожному випадку проводилось на FaceForensics++ та власному ID-Reveal авторів на VoxCeleb2. Результати включають високоякісні та низькоякісні відео.
Автори зазначають:
‘Навчання проводиться виключно на справжніх відео з розмовлячими обличчями, тому детектор не залежить від конкретного методу маніпуляції та забезпечує найвищу здатність до узагальнення. Крім того, наш метод може виявляти як одномодальні (тільки аудіо, тільки відео), так і багатомодальні (аудіо-відео) атаки, і є стійким до низькоякісних або пошкоджених відео, будуючи лише на високорівневих семантичних ознаках.’
Нова праця, яка включає елементи деяких попередніх візуальних проектів авторів ID-Reveal 2021 року, називається Аудіо-Візуальне Виявлення Глибоких Підробок Особи і є спільною роботою між Університетом Федеріко II у Неаполі та Технічним університетом Мюнхена.
Гонка Глибоких Підробок
Щоб перемогти систему виявлення такого типу, глибокі підробки та системи синтезу людини повинні мати можливість хоча б симулювати візуальні та аудіо біометричні сигнали від цільової людини – технологію, яка знаходиться за багато років вперед, і, ймовірно, залишиться у сфері дорогих і пропріетарних закритих систем, розроблених компаніями VFX, які матимуть перевагу у співробітництві та участі цільових осіб (або їх спадкоємців у випадку симуляції померлих людей).

Попередній підхід авторів, ID-Reveal, зосереджувався виключно на візуальній інформації. Джерело: https://arxiv.org/pdf/2012.02512.pdf
Успішні та популярні методи глибоких підробок, такі як FaceSwap та DeepFaceLab/Live, зараз не мають жодної можливості створити такі детальні біометричні наближення, спираючись на талановитих імітаторів на яких накладається підроблена ідентичність, і ще частіше на відповідну кадри з людей, схожих на цільову особу. Крім того, структура основного коду 2017 року, який має мало модульності і залишається джерелом для DFL та FaceSwap, не дозволяє додавати таку функціональність.
Ці два домінантні пакети глибоких підробок базуються на автоенкодерах. Альтернативні методи синтезу людини можуть використовувати підхід генеративної суперницької мережі (GAN) або підхід нейронного радіанційного поля (NeRF) для відтворення людської ідентичності; однак обидва ці напрямки досліджень мають роки роботи вперед, навіть для створення повністю фотореалістичних відео людини.
За винятком аудіо (підроблені голоси), біометрична симуляція знаходиться дуже далеко внизу списку проблем, які стоять перед синтезом людського зображення. У будь-якому випадку, відтворення тимбру та інших якостей людського голосу не відтворює його особливостей та “ознак”, або те, як реальна людина використовує семантичну конструкцію. Тому навіть досконалість симуляції голосу штучного інтелекту не розв’язує потенційну проблему біометричної автентичності.
На Arxiv самому щотижня випускаються кілька стратегій виявлення глибоких підробок та інновацій. Недавні підходи спиралися на гомогенність голосу та обличчя, локальний бінарний гістограмний шаблон (FF-LBPH), сприйняття людьми аудіо глибоких підробок, аналіз меж обличчя, врахування погіршення відео та ‘форензичні балістику’ – серед багатьох інших.

Сегментований аналіз гістограми є однією з останніх технік, запропонованих для поліпшення виявлення глибоких підробок. Джерело: https://arxiv.org/pdf/2203.09928.pdf
Підхід, Дані та Архітектура
POI-Forensics застосовує багатомодальний підхід до верифікації ідентичності, використовуючи м’які біометричні ознаки, засновані на візуальних та аудіо сигналах. Фреймворк включає окремі аудіо- та відео-мережі, які в кінцевому підсумку витягують характеристичні векторні дані, які можна порівняти з тими ж витягнутими ознаками у потенційному відео з глибокими підробками, яке вивчається.

Концептуальна архітектура POI-Forensics.
Обидва окремі (аудіо або відео) та ф’юзіонний аналіз можна проводити на цільових кліпах, доходячи в кінцевому підсумку до індексу подібності POI. Функція контрастної втрати, використовувана в цьому підході, заснована на співпраці 2021 року між Google Research, Бостонським університетом, Snap Inc. та MIT.
Базовий набір даних був розділений на основі ідентичності. 4608 ідентичностей використовувалися для навчання, а 512 залишилися для перевірки. 500 ідентичностей, використаних у FakeAVCelebV2 (кандидаті на тестування, див. нижче), були виключені, щоб отримати неполяризовані результати.
Дві мережі були натреновані протягом 12 епох за незвично великим розміром пакету 2304 пакетів на епоху, з кожним пакетом, що складається з 8х8 відео-сегментів – 8 сегментів для 8 різних ідентичностей. Оптимізатор Adam був використаний з від’єднаним衰减 на швидкості навчання 10−4 та衰减 ваги 0,01.
Тестування та Результати
Набори даних глибоких підробок, протестовані для проекту, були попереднім набором даних DeepFake Detection Challenge, який включає обміни обличчями по 68 суб’єктам, з яких 44 ідентичності були вибрані, які мають понад дев’ять пов’язаних відео, всього 920 справжніх відео та 2925 підроблених відео; DeepFake-TIMIT, набір даних, заснований на GAN, який включає 320 відео 32 суб’єктів, всього 290 справжніх відео та 580 підроблених відео тривалістю не менше чотирьох секунд; FakeAVCelebV2, який складається з 500 справжніх відео з Voxceleb2 та близько 20 000 підроблених відео з різних наборів даних, до яких були додані підроблені клонові аудіо з SV2TTS для сумісності; та KoDF, корейський набір даних глибоких підробок з 403 ідентичностями, підробленими через FaceSwap, DeepFaceLab та FSGAN, а також три моделі руху першого порядку (FOMM).
Останній також включає аудіо-драйвені синтез обличчя ATFHP та вихід з Wav2Lip, з авторами, які використовують похідний набір даних, що включає 276 справжніх відео та 544 підроблених відео.
Метрики, які використовувалися, включали площу під кривою прийняття-відхилення (AUC) та приблизний 10% “фальшивий спрацьовування”, який був би проблематичним у рамках, які включають та тренують підроблені дані, але який проблему усуває той факт, що POI-Forensics приймає лише справжнє відео як свій вхід.
Методи були протестовані проти детектора глибоких підробок Seferbekov, який зайняв перше місце у конкурсі виявлення глибоких підробок Kaggle; FTCN (повністю тимчасова конволюційна мережа), співпраця між Університетом Сіамена у Китаї та дослідницьким центром Microsoft Asia; LipForensics, спільна робота 2021 року між Імператорським коледжем Лондона та Facebook; та ID-Reveal, попередній проект деяких дослідників нової праці, який опускає аудіо-аспект та використовує 3D-моделі морфології у поєднанні з суперницькою грою для виявлення підроблених виходів.
У результатах (див. вище таблицю) POI-Forensics перевершив лідера Seferbekov на 2,5% за AUC та на 1,5% за точність. Продуктивність була більш конкурентоспроможною над іншими наборами даних на високому рівні якості.
Однак, новий підхід продемонстрував помітне лідерство над усіма суперницькими методами для низькоякісних відео, які залишаються найбільш імовірним сценарієм, у якому глибокі підробки схильні обманути випадкових глядачів, на основі “реальних” контекстів.
Автори стверджують:
‘Дійсно, у цьому складному сценарії лише підходи, засновані на ідентичності, продовжують забезпечувати хорошу продуктивність, оскільки вони спираються на високорівневі семантичні ознаки, досить стійкі до пошкоджень зображення.’
Ураховуючи, що PIO-Forensics використовує лише справжнє відео як джерельний матеріал, досягнення можна вважати ще більш значущим, і це свідчить про те, що використання рідних біометричних ознак потенційних жертв глибоких підробок є корисним шляхом для виходу з “холодної війни артефактів” між програмним забезпеченням глибоких підробок та рішеннями виявлення глибоких підробок.
У фінальному тесті дослідники додали до входу суперницький шум, метод, який може надійно обманути класифікатори. Тепер вже старий швидкий метод знаку градієнта все ще доводить свою особливу ефективність у цьому відношенні.
Предумовно, стратегії суперницької атаки знижували рівень успіху по всіх методах та наборах даних, з AUC, що знижувався на 10% до 38%. Однак лише POI-Forensics та попередній метод авторів ID-Reveal були здатні підтримувати прийнятну продуктивність під цією атакою, що свідчить про те, що високорівневі ознаки, пов’язані з м’якими біометриками, надзвичайно стійкі до уникнення виявлення глибоких підробок.
Автори висновують:
‘Загалом, ми вважаємо, що наш метод є першим каменем; зокрема, використання вищих рівнів семантичних ознак є перспективним напрямком для майбутніх досліджень. Крім того, багатомодальний аналіз можна ще більше збагатити, включаючи більше інформації з інших доменів, таких як текстові дані.’
Перша публікація 8 квітня 2022 року.












