Штучний інтелект

Визначення глибоких підробок знаменитостей з зовнішніх областей обличчя

Published March 4, 2022

Updated May 24, 2026

Martin Anderson

Нова співпраця між Microsoft та китайським університетом запропонувала новий спосіб визначення глибоких підробок знаменитостей, використовуючи обмеження поточних технік глибоких підробок для розпізнавання ідентичностей, які були “проєктовані” на інших людей.

Цей підхід називається Трансформатор ідентичної консистентності (ICT), і працює шляхом порівняння зовнішніх частин обличчя (підборіддя, скули, лінії волосся та інші зовнішні ознаки) з внутрішньою частиною обличчя. Система використовує широко доступні публічні дані зображень відомих людей, які обмежують її ефективність до популярних знаменитостей, чиї зображення доступні у великій кількості у широко доступних наборах даних комп’ютерного зору та в інтернеті.

Покриття підроблених обличь через сім технік: DeepFake в FF+; DeepFake в Google DeepFake Detection; DeepFaceLab; Face2Face; FSGAN; і DF-VAE. Джерело: https://arxiv.org/pdf/2203.01318.pdf

Покриття підроблених обличь через сім технік: DeepFake в FF+; DeepFake в Google DeepFake Detection; DeepFaceLab; Face2Face; FSGAN; і DF-VAE. Популярні пакети, такі як DeepFaceLab і FaceSwap, забезпечують подібне обмежене покриття. Джерело: https://arxiv.org/pdf/2203.01318.pdf

Як ілюструє вище зображення, поточні методи глибоких підробок досить обмежені ресурсами і залежать від підходящих “хост-обличь” (зображення або відео людини, чиє обличчя буде замінено глибокою підробкою), щоб мінімізувати докази заміни обличчя.

Хоча різні методи можуть охоплювати всю лоб і велику частину підборіддя та скул, всі вони більш або менш обмежені рамками хост-обличя.

Карта салєнції, яка підкреслює “внутрішню” і “зовнішню” ідентичності, розраховану за допомогою ICT. Якщо внутрішня ідентичність встановлена, але зовнішня ідентичність не відповідає, ICT оцінює зображення як хибне.

У тестах ICT продемонстрував здатність виявляти глибокі підробки у фальшивих умовах, таких як низька роздільна здатність відео, де весь вміст відео погіршується артефактами стиснення, що допомагає приховати залишкові докази процесу глибокої підробки – обставина, яка плутає багато конкуруючих методів виявлення глибоких підробок.

ICT перевершує конкурентів у розпізнаванні глибоких підробок. Дивіться відео, вкладене в кінці статті, для більшої кількості прикладів і кращої роздільної здатності. Дивіться вкладене джерельне відео в кінці статті для подальших прикладів. Джерело: https://www.youtube.com/watch?v=zgF50dcymj8

Стаття стаття називається Захист знаменитостей за допомогою трансформатора ідентичної консистентності і походить від дев’яти дослідників, які належать до Університету науки і технологій Китаю, Microsoft Research Asia та Microsoft Cloud + AI.

Пропуск довіри

Є принаймні кілька причин, чому популярні алгоритми заміни обличь, такі як DeepFaceLab і FaceSwap, ігнорують зовнішню область заміщених ідентичностей.

По-перше, навчання моделей глибоких підробок займає багато часу і ресурсів, а використання “сумісних” хост-обличь/тіл звільняє цикли GPU і епохи для концентрації на відносно незмінних внутрішніх областях обличчя, які ми використовуємо для розпізнавання ідентичності (оскільки змінні, такі як коливання ваги і старіння, найменше ймовірно змінюють ці основні риси обличчя в короткостроковій перспективі).

По-друге, більшість підходів до глибоких підробок (і це точно так у випадку з DeepFaceLab, програмним забезпеченням, яке використовується найбільш популярними або відомими практиками) мають обмежену здатність реплікувати “кінець обличчя” маргини, такі як скули та підборіддя, і обмежені тим, що їхній апстрім-код (2017) не широко розглядав цю проблему.

У випадках, коли ідентичності не збігаються добре, алгоритм глибокої підробки повинен “закрасити” фонові області навколо обличчя, що він робить неуміло навіть у руках найкращих глибоких підробок, таких як Ctrl Shift Face, чиї результати були використані у дослідженнях статті.

<img class="wp-image-180492 size-full" src="https://www.unite.ai/wp-content/uploads/2022/03/ctrl-shift-face.jpg" alt="Найкраще з найкращих: кадри з відео глибокої підробки від відомого глибокого підробника Ctrl-Shift-Face, який замінив Джима Керрі на Гері Олдмана. Ця робота, ймовірно, представляє деякі з найкращих результатів, які зараз доступні за допомогою DeepFaceLab і технік постобробки. Тим не менш, заміни залишаються обмеженими відносно скупої уваги, яку DFL приділяє зовнішньому обличчю, що вимагає геркулесових зусиль для кураторства даних і навчання для звернення до зовнішніх ознак. Джерело: https://www.youtube.com/watch?v=x8igrh1eyLk

Це “обман” або відволікання уваги в основному уникає публічної уваги в поточній турботі щодо зростаючої реалістичності глибоких підробок, оскільки наші критичні здібності щодо глибоких підробок ще розвиваються після стадії “шок і здивування”.

Роз’єднані ідентичності

Нова стаття зазначає, що більшість попередніх методів виявлення глибоких підробок залежать від артефактів, які зраджують процес заміни, таких як невідповідні положення голови і моргання, серед багатьох інших технік. Лише цього тижня інша нова стаття про виявлення глибоких підробок пропонує використовувати “підпис” різних типів моделей у рамках FaceSwap для допомоги у визначенні підроблених відео, створених за допомогою нього (див. зображення нижче).

Визначення глибоких підробок шляхом характеристики підписів різних типів моделей у рамках FaceSwap. Джерело: https://arxiv.org/pdf/2202.12951.pdf

Натомість архітектура ICT створює дві окремі вкладені ідентичності для людини, кожна з яких повинна бути перевірена до того, як вся ідентичність буде висновована як “справжня” відео або зображення.

Архітектура фази навчання і тестування ICT.

Роз’єднання ідентичностей здійснюється за допомогою візуального трансформатора, який здійснює розпізнавання обличь перед розділенням обстежуваних областей на токени, що належать до внутрішніх або зовнішніх ідентичностей.

Розподіл патчів серед двох паралельних ідентифікаторів ICT.

Стаття зазначає:

‘На жаль, існуючі методи верифікації обличь схильні характеризувати найбільш дискримінативну область, тобто внутрішнє обличчя для верифікації, і не здатні захопити інформацію про ідентичність у зовнішньому обличчі. З допомогою трансформатора ідентичної консистентності ми навчаємо модель вивчати пару векторів ідентичності, один для внутрішнього обличчя і інший для зовнішнього обличчя, проектуючи трансформатор таким чином, щоб внутрішня і зовнішня ідентичності могли бути вивчені одночасно в єдиній моделі.’

Оскільки не існує існуючої моделі для цього протоколу ідентифікації, автори винайшли новий вид консистентної втрати, який може діяти як метрика автентичності. “Внутрішній токен” і “зовнішній токен”, які результатуються з моделі витягування ідентичності, додаються до більш традиційних патч-ембеддінгів, вироблених фреймворками ідентифікації обличь.

Дані та навчання

Мережа ICT була навчена на наборі даних Microsoft Research MS-Celeb-1M, який містить 10 мільйонів зображень обличь знаменитостей, що охоплюють один мільйон ідентичностей, включаючи акторів, політиків та інших відомих осіб. За процедурою попереднього методу Face X-ray (іншієї ініціативи Microsoft Research), власний режим генерації підробок ICT заміняє внутрішні та зовнішні області обличь, витягнутих з цього набору даних, щоб створити матеріал для тестування алгоритму.

Для виконання цих внутрішніх замінять ICT ідентифікує два зображення в наборі даних, які демонструють подібні положення голови та ознаки обличчя, генерує маску центральних рис (у яку можна виконати заміну), і здійснює глибоку заміну з корекцією кольору RGB.

Причина, по якій ICT обмежений ідентифікацією знаменитостей, полягає в тому, що він залежить (у своїй найбільш ефективній варіації) від нового набору посилань, який включає виведені вектори обличь з центральної корпусу (у цьому випадку MS-Celeb-1M, хоча посилання могли бути розширені до мережевих зображень, які, ймовірно, існували б у достатній якості та кількості лише для відомих публічних осіб).

Ці парні вектори, отримані з цих методів, діють як токени автентичності для верифікації внутрішніх та зовнішніх областей обличчя одночасно.

Автори зазначають, що токени, отримані цими методами, представляють “високорівневі” риси, що призводить до процесу виявлення глибоких підробок, який більш імовірно переживе складні середовища, такі як низька роздільна здатність або погіршене відео.

Критично, що ICT не шукає докази, засновані на артефактах, а скоріше зосереджується на методах верифікації ідентичності, більш узгоджених з техніками розпізнавання обличь – підхід, який є складним при низькому обсязі даних, як у випадку з розслідуванням випадків глибоких підробок помсти проти невідомих цілей.

Тести

Навчений на MS-Celeb-1M, ICT був потім розділений на версії алгоритму з посиланням і “сліпу” версію, і протестований проти ряду конкуруючих наборів даних і методів. Серед них були FaceForensics++ (FF++), набір з 1000 автентичних і глибоких підробок відео, створених за допомогою чотирьох методів, включаючи Face2Face і FaceSwap; Deepfake Detection (DFD) від Google, який також складається з тисяч відео глибоких підробок, створених компанією Google; Celeb-DeepFake v1 (CD1), який містить 408 реальних і 795 синтезованих відео з низькими артефактами; Celeb-DeepFake v2, розширення V1, яке містить 590 реальних і 5 639 підроблених відео; і китайський Deeper-Forensics (Deeper) 2020 року.

Це набори даних; методи виявлення глибоких підробок у тестових викликах були Мультитаск, MesoInc4, Capsule, Xception-c0, c2 (метод, використаний у FF++), FWA/DSP-FW з Університету Олбані, Two-Branch, PCL+I2G і метод контекстної несумісності Юваля Ніркіна.

Виклики виявлення глибоких підробок спрямовані на виявлення конкретних типів маніпуляції обличчям. Крім цих методів, автори нової статті протестували більш загальні пропозиції виявлення глибоких підробок Face X-ray, FFD від Університету Мічигану, CNNDetection і Patch-Forensics від MIT CSAIL.

Найбільш очевидні результати з тесту полягають у тому, що конкуруючі методи значно знижують свою ефективність при зниженні роздільної здатності відео та якості. Оскільки деякі з найбільш серйозних потенційних глибоких підробок проникнення в наші дискримінативні сили лежать (не в останню чергу зараз) у не-HD або інших низькоякісних відео, це, здається, є суттєвим результатом.

У графіку вище синя та червона лінії вказують на стійкість методів ICT до погіршення зображення в усіх областях, крім перешкоди гауссового шуму (що не є ймовірним у відео Zoom і веб-камер), тоді як конкуруючі методи втрачають свою надійність.

У таблиці результатів нижче ми бачимо ефективність різних методів виявлення глибоких підробок на невидимих наборах даних. Сірі та позначені результати вказують на порівняння з оригінальними опублікованими результатами у закритих проектах, які не можуть бути зовнішньо перевірені. По майже всіх порівнюваних рамках ICT перевершує конкуруючі підходи до виявлення глибоких підробок (показані жирним шрифтом) у тестових наборах.

Як додатковий тест, автори запустили вміст з каналу YouTube відомого глибокого підробника Ctrl Shift Face і виявили, що конкуруючі методи досягли помітно нижчих балів:

Помітно, що методи FF++ (Xception-c23) і FFD, які досягли деяких з найвищих балів у деяких тестових даних у загальних тестах нової статті, тут досягли значно нижчого балу, ніж ICT у “реальному світі” високої якості глибоких підробок.

Автори закінчують статтю з надією, що її результати спрямують спільноту виявлення глибоких підробок до подібних ініціатив, які зосереджуються на більш легко узагальнених високорівневих рисах, і відходять від “холодної війни” виявлення артефактів, у якій останні методи регулярно обходяться розвитком глибоких підробок, або іншими чинниками, які роблять такі методи менш стійкими.

Перегляньте супровідне додаткове відео нижче для більшої кількості прикладів ідентифікації глибоких підробок ICT, які часто обходять альтернативні методи.

Опубліковано вперше 4 березня 2022 року.

Martin Anderson

Писатель про машинне навчання, домен-спеціаліст у сфері синтезу зображень людини. Колишній керівник дослідницького контенту в Metaphysic.ai.
Особистий сайт: martinanderson.ai
Контакт: [email protected]