Штучний інтелект

Чому Deepfakes не можуть передавати нюанси емоцій на даний час

Published February 3, 2022

Updated April 5, 2026

Martin Anderson

Вчора відбулася прем’єра 6-го епізоду спін-оффу “Зоряні війни” під назвою “Книга Боби Фетта”, яка, здається, розділила думку фанатів. Прийнята з загальною схваленням, існує поширений припущення в соціальних мережах, що значно покращена реконструкція молодого Марка Хемілла (у порівнянні з попереднім появою персонажа в 2-му сезоні “Мандалорця” у 2020 році) є прямим результатом того, що Industrial Light and Magic найняли аматорського практика deepfakes Shamook (який суттєво покращив свою роботу з відкритим програмним забезпеченням); і що зображення персонажа повинно бути поєднанням технології deepfakes, можливо, очищеної за допомогою CGI.

На даний момент існує обмежене підтвердження цього, хоча Shamook сказав мало світу після підписання договору про нерозголошення інформації з ILM. Тим не менш, робота є надзвичайним покращенням порівняно з CGI 2020 року; демонструє деяку “блискучість”, пов’язану з моделями deepfakes, отриманими з архівних робіт; і загалом відповідає найкращому поточному візуальному стандарту для deepfakes.

Інша частина думки фанатів полягає в тому, що нова спроба створити “Молодого Люка” має інший набір недоліків порівняно з попередньою. Можливо, найбільш виразно, відсутність виразності та тонких, відповідних емоцій у дуже довгих послідовностях з новою реконструкцією Скайвокера є більш типовими для deepfakes, ніж для CGI; The Verge описала симуляцію “Боби Фетта” у термінах “неприємної, порожньої подоби замороженого обличчя Марка Хемілла 1983 року”.

Незалежно від технологій, що стоять за новою реконструкцією ILM, трансформації deepfakes мають фундаментальну проблему з нюансами емоцій, яку важко вирішити як за допомогою змін у архітектурі, так і за допомогою покращення джерельного навчального матеріалу, і яку зазвичай уникають за допомогою ретельних виборів, які роблять вірусні deepfakers при виборі цільового відео.

Обмеження фасадної відповідності

Два найбільш поширених відкритих репозиторіїв deepfakes – це DeepFaceLab (DFL) і FaceSwap, обидва отримані з анонімного та спірного джерельного коду 2017 року, при цьому DFL має великий відрив у галузі VFX, незважаючи на його обмежену інструментальність.

Кожна з цих пакетів спочатку призначена для витягування орієнтаційних точок обличчя з облич, які вона змогла ідентифікувати у джерельному матеріалі (тобто кадрів відео та/або статичних зображень).

Сітка фасадної відповідності Адріана Булата (FAN) у дії, з офіційного репозиторію. Джерело: https://github.com/1adrianb/face-alignment

Сітка фасадної відповідності (FAN) у дії, з офіційного репозиторію. Джерело: https://github.com/1adrianb/face-alignment

Обидва DFL і FaceSwap використовують бібліотеку Фасадної відповідності (FAN). FAN може створювати 2D- та 3D-орієнтаційні точки для витягнутих облич. 3D-орієнтаційні точки можуть враховувати орієнтацію обличчя, аж до екстремальних профілів та відносно гострих кутів.

Однак очевидно, що ці орієнтаційні точки є дуже примітивними вказівками для керування та оцінки пікселів:

З форуму FaceSwap, приблизний вказівник доступних орієнтаційних точок для фасадних ліній. Джерело: https://forum.faceswap.dev/viewtopic.php?f=25&t=27

Базові лінії обличчя дозволені: очі можуть розширятися та закриватися, як і щелепа, тоді як базові конфігурації рота (наприклад, посмішка, хмурість тощо) можуть бути відстежені та адаптовані. Обличчя може обертатися в будь-якому напрямку до близько 200 градусів від точки зору камери.

Поза цим, ці орієнтаційні точки є досить грубими огорожами для поведінки пікселів у цих межах, і представляють єдині математично точні фасадні вказівки у всьому процесі deepfakes. Процес навчання просто порівнює розташування пікселів у межах або поблизу цих орієнтаційних точок.

Навчання в DeepFaceLab. Джерело: https://medium.com/geekculture/realistic-deepfakes-with-deepfacelab-530e90bd29f2

Оскільки немає передбачення топології підчастин обличчя (конвексності та конкавності щік, деталей старіння, ямочок тощо), навіть не можливо спробувати збігнути такі “тонкі” підозначення між джерельним (“обличчя, яке ви хочете написати над”) та цільовим (“обличчя, яке ви хочете вставити”) ідентичністю.

Зробіть з обмеженими даними

Отримання збігнутих даних між двома ідентичностями для цілей навчання deepfakes не легко. Чим незвичайніший кут, який вам потрібно збігнути, тим більше вам доведеться компрометувати щодо того, чи даний (рідкісний) кут збігу між ідентичностями А та Б фактично містить ту ж саму表情.

Близько, але не зовсім збігається.

У наведеному вище прикладі дві ідентичності досить схожі за диспозицією, але це якнайближче, що може бути до точного збігу.

Чіткі відмінності залишаються: кут і об’єктив не зовсім збігаються, і не збігається освітлення; суб’єкт А не має повністю закритих очей, на відміну від суб’єкта Б; якість зображення та стиснення гірше у суб’єкта А; і якимось чином суб’єкт Б здається значно щасливішим, ніж суб’єкт А.

Але, ви знаєте, це все, що у нас є, тому нам доведеться тренуватися на цьому в будь-якому випадку.

Оскільки цей збіг А та Б має так багато незвичайних елементів, ви можете бути впевнені, що таких парувань у наборі даних небагато, якщо взагалі є. Тому навчання буде або недооцінювати його, або переоцінювати його.

Недооцінити: Якщо цей збіг є справжньою меншістю (тобто батьківський набір даних досить великий і рідко містить характеристики цих двох фотографій), він не отримає багато часу навчання порівняно з більш “популярними” (тобто легкими/нейтральними) парами. Відповідно ця кут/вираз не буде добре представлений у deepfake, створеному за допомогою навченої моделі.

Переоцінити: У відчаї через нестачу збігнутих даних для таких рідкісних пар А та Б, deepfakers іноді дублікують пару багато разів у наборі даних, щоб він мав кращий шанс стати особливістю у фінальній моделі. Це призведе до переоцінювання, де deepfake-відео, створені за допомогою моделі, будуть схильні педантично повторювати розбіжності, які є очевидними між двома фотографіями, такими як різна міра, в якій очі закриті.

На наведеному нижче зображенні ми бачимо Володимира Путіна, якого тренують у DeepFaceLab для виконання заміни на Кевіна Спейсі. Тут навчання відносно просунуто на 160 000 ітерацій.

Джерело: https://i.imgur.com/OdXHLhU.jpg

Безпосередній спостерігач міг би стверджувати, що Путін виглядає трохи, ну, космічніше, ніж Спейсі в цих тестових змінах. Давайте побачимо, що онлайн-програма розпізнавання емоцій робить із розбіжністю у виразах:

Джерело: https://www.noldus.com/facereader/measure-your-emotions

Згідно з цим оракулом, який аналізує значно більш детальну топографію обличчя, ніж DFL і Faceswap, Спейсі менше сердитий, обурений і зневажливий, ніж результатуючий Путін у цій парі.

Нерівні вирази приходять у складі заплутаного пакету, оскільки популярні програми deepfakes не мають можливості реєструвати або збігувати вирази чи емоції, крім тих, що роблять це неявно, як сурове відображення пікселя до пікселя.

Для нас ці відмінності величезні. Ми вчимося читати вирази обличчя як базовий засіб виживання з наших перших років, і продовжимо покладатися на цей навик у дорослому віці для цілей соціальної інтеграції та прогресу, парування та як постійного каркасу оцінки загрози. Оскільки ми дуже чутливі до мікровиразів, технології deepfakes врешті-решт повинні врахувати це.

Против течії

Хоча революція deepfakes принесла обіцянку вставляння “класичних” кінозірок у сучасні фільми та телешоу, AI не може повернутися в минуле і зняти їх класичні роботи у більш сумісному визначенні та якості, що є важливим для цього використання.

Припускаючи (і для наших цілей це не має значення, чи це неправильно), що реконструкція Хемілла у “Бобі Фетті” була в основному роботою навченої моделі deepfakes, набір даних для моделі мав би використати кадри з періоду близько до хронології шоу (тобто Хемілл як рання тридцятилітня людина під час виробництва “Повернення джедая” у 1981-1983 роках).

Фільм був знятий на плівці Eastman Color Negative 250T 5293/7293, емульсію 250ASA, яка вважалася середньої до тонкої зернистості на той час, але була перевершена навіть до кінця 1980-х років за ясністю, кольоровим діапазоном та вірністю. Це плівка свого часу, і оперний масштаб “Джедая” дозволив небагато крупних планів навіть провідним акторам, роблячи проблеми зернистості ще більш критичними, оскільки джерельні обличчя займають лише частину кадру.

Різноманітність сцен Хемілла у Поверненні джедая (1983).

Крім того, багато спецефектних кадрів з Хеміллом пройшли через оптичний принтер, збільшуючи зернистість плівки. Однак доступ до архівів Lucasfilm – які, як передбачається, добре зберегли мастер-негативи і могли б пропонувати додаткові години невикористаного сирого матеріалу – міг би подолати цю проблему.

Іноді можливо покрити ряд років виходу актора, щоб збільшити та розрізняти набір даних deepfakes. У випадку з Хеміллом deepfakers обмежені його зміною зовнішності після автомобільної аварії у 1977 році, і тим, що він майже відразу почав свою другу кар’єру як аклаймовий актор озвучування після “Джедая”, роблячи джерельний матеріал відносно нечисленним.

Обмежений діапазон емоцій?

Якщо вам потрібно, щоб ваш deepfaked актор розігрував сцену, вам потрібно джерельне відео, яке містить незвично широкий діапазон виразів обличчя. Можливо, що єдине відео відповідного віку не містить багатьох з цих виразів.

Наприклад, до моменту, коли відбулася сюжетна арка “Повернення джедая”, персонаж Хемілла в основному оволодів своїми емоціями, розвиток, абсолютно центральний для оригінальної міфології франшизи. Тому якщо ви створюєте модель deepfakes Хемілла з даних “Джедая”, вам доведеться працювати з більш обмеженим діапазоном емоцій та незвичайною фасадною композицією, яку вимагала від нього роль у той час, порівняно з його попередніми входами у франшизу.

Дажи якщо ви вважаєте, що є моменти у “Поверненні джедая”, коли персонаж Скайвокера піддається стресу, і міг би надати матеріал для більшого діапазону виразів, матеріал обличчя у цих сценах тимчасовий і піддається руховому розмиттю та швидкому монтажу, типовому для сцен дії; тому дані досить несбалансовані.

Генералізація: Збіг емоцій

Якщо реконструкція Скайвокера у “Бобі Фетті” дійсно є deepfake, відсутність виразного діапазону, який був висунутий проти нього з деяких сторін, не буде повністю спричинений обмеженим джерельним матеріалом. Процес навчання кодера-декодера deepfakes шукає загальний модель, яка успішно відображає центральні особливості тисяч зображень, і хоча б спробує глибоко фейкувати кут, який був відсутній або рідкісний у наборі даних.

Якщо б не ця гнучкість, архітектура deepfakes просто копіювала та вставляла базові морфи на кадр за кадром, не розглядаючи ні тимчасової адаптації, ні контексту.

Однак болісна ціна за цю універсальність полягає в тому, що вірність виразу ймовірно стане жертвою процесу, і будь-які вирази, які є “тонкими”, можуть не бути правильними. Ми всі граємо свої обличчя як 100-штучний оркестр, і добре обладнані для цього, тоді як програмне забезпечення deepfakes аргументно не має хоча б струнного відділу.

Розбіжність афекту в виразах

Рухи обличчя та їхній вплив на нас не є уніфікованою мовою для всіх облич; піднята брова, яка виглядає безтурботно на Роджера Мура, може виглядати менш рафіновано на Сета Рогана, тоді як сексуальна привабливість Мерілін Монро може перекладатися на негативнішу емоцію, якщо глибоко фейкована на людину, чиї найкращі дані доступні для ролі “сердитої” або “недовольної” (наприклад, персонажа Обрі Плази протягом семи сезонів “Парків та зон відпочинку”).

Тому піксель до пікселя еквівалентність між наборами А/Б не обов’язково корисна в цьому відношенні; але це все, що пропонується у програмному забезпеченні deepfakes останнього покоління.

Що аргументно потрібно, це rámework deepfakes, який не тільки може розпізнавати вирази та інферувати емоції, але також має можливість втілювати високорівневі концепції, такі як сердитий, сексуальний, знуджений, втомлений тощо, і категоризувати ці емоції та пов’язані з ними вирази в кожній з двох ідентичностей обличчя, а не розглядати та реплікувати розташування рота чи повік.

Перша публікація 3 лютого 2022 року. Оновлено 7:47 вечора EET, неправильне ім’я атрибуції.

Martin Anderson

Писатель про машинне навчання, домен-спеціаліст у сфері синтезу зображень людини. Колишній керівник дослідницького контенту в Metaphysic.ai.
Особистий сайт: martinanderson.ai
Контакт: [email protected]