Штучний Інтелект
Розплутування — це наступна революція Deepfake
Розширення даних CGI використовується в новому проекті, щоб отримати більший контроль над зображеннями deepfake. Хоча ви все ще не можете ефективно використовувати CGI-голови, щоб заповнити відсутні прогалини в наборах даних про обличчя deepfake, нова хвиля досліджень роз’єднання ідентичності з контексту означає, що незабаром вам, можливо, не доведеться цього робити.
Творці деяких із найуспішніших вірусних дипфейкових відео за останні кілька років дуже ретельно відбирають вихідні відео, уникаючи постійних знімків у профілі (тобто таких знімків збоку, які популяризують процедури арешту поліцією), гострих кутів і незвичайних або перебільшених виразів. . Все частіше демонстраційні відео, створені вірусними дипфейкерами, є відредагованими компіляціями, які вибирають «найпростіші» ракурси та вирази для дипфейку.
Насправді, найкраще цільове відео, у яке можна вставити підроблену знаменитість, це те, де оригінальна особа (чию особу буде стерто підробкою) дивиться прямо в камеру з мінімальною кількістю виразів.
Оскільки технології deepfake, такі як DeepFaceLab та Заміна обличчя виконувати ці простіші обміни дуже добре, ми настільки вражені їхніми досягненнями, щоб не помічати, на що вони нездатні, і – часто – навіть не намагаємось:
нове дослідження з Ізраїлю пропонує новий метод використання синтетичних даних, таких як CGI-голови, щоб перенести дипфейк у 2020-ті роки, справді відокремлюючи ідентифікацію обличчя (тобто основні характеристики обличчя «Тома Круза» з усіх боків) від їх контексту (тобто дивлячись, дивлячись збоку, насуплений, хмуриться в темряві, брови насуплені, очі закритіІ т.д.).
Це не просто deepfake head-puppetry, техніка, більш придатна для аватарів і синхронізації часткових облич, і яка має обмежений потенціал для повноцінного глибокого фейкового перетворення відео.
Скоріше це являє собою шлях вперед для фундаментального поділу інструментальності (наприклад, "змінити кут нахилу голови", "створити хмурий погляд") від ідентичності, пропонуючи шлях до високорівневої, а не «похідної» структури глибокого фейку на основі синтезу зображень.
Нова стаття має назву Delta-GAN-Encoder: кодування семантичних змін для явного редагування зображень, використовуючи декілька синтетичних зразків, і походить від дослідників Техніону – Ізраїльського технологічного інституту.
Щоб зрозуміти, що означає ця робота, давайте подивимося, як глибокі фейки в даний час виробляються всюди, від глибоких фейкових порносайтів до Промислове світло та магія (оскільки сховище з відкритим кодом DeepFaceLab наразі домінує як у «аматорському», так і в професійному дипфейку).
Що стримує поточну технологію Deepfake?
Deepfakes наразі створюються шляхом навчання an кодер/декодер модель машинного навчання на двох папках зображень обличчя – людини, яку ви хочете «зафарбувати» (у попередньому прикладі це Арні), і людини, яку ви хочете накласти на кадр (Слай).
Тоді система кодера/декодера порівнює кожне зображення у кожній папці один до одного, підтримуючи, покращуючи та повторюючи цю операцію протягом сотень тисяч ітерацій (часто протягом тижня), поки він не зрозуміє основні характеристики обох ідентичностей достатньо добре, щоб міняти їх місцями за бажанням.
Те, що архітектура deepfake дізнається про особистість кожного з двох людей, які обмінюються в процесі заплутаний контекстом. Він не може вивчити та застосувати принципи загальної пози «назавжди», але потребує численних прикладів у навчальному наборі даних для кожної особистості, яка буде залучена до зміни обличчя.
Тому, якщо ви хочете поміняти місцями дві особистості, які роблять щось більш незвичне, ніж просто посміхаються або дивляться прямо в камеру, вам знадобиться багато екземпляри цієї конкретної пози/ідентичності на двох наборах обличчя:
Якщо набір A містить незвичайну позу, але набір B її не має, вам майже не пощастило; незалежно від того, як довго ви тренуєте модель, вона ніколи не навчиться добре відтворювати цю позу між ідентичностями, тому що вона мала лише половину необхідної інформації під час навчання.
Навіть якщо у вас є відповідні зображення, цього може бути недостатньо: якщо набір A має відповідну позу, але з різким боковим освітленням, порівняно з рівно освітленою еквівалентною позою в іншому наборі обличчя, якість заміни виграла не буде таким хорошим, якби кожен мав спільні характеристики освітлення.
Чому даних мало
Якщо вас регулярно не арештовують, у вас, напевно, не так багато знімків у профіль. Усе, що з’явилося, ви, швидше за все, викинули. Оскільки фотоагенції роблять те ж саме, фотографії обличчя в профіль знайти важко.
Deepfakers часто включають кілька копій обмежених даних профілю бокового вигляду, які вони мають для ідентичності, у набір обличчя, щоб ця поза отримала принаймні трохи уваги та часу під час навчання, замість того, щоб бути зниженим як чуже.
Але існує набагато більше можливих типів зображень обличчя збоку, ніж, імовірно, доступно для включення в набір даних – посміхатися, насупившись, кричущий, плач, темно-освітлений, зневажливий, нудьгуючий, веселий, освітлений спалахом, дивлячись, дивлячись униз, очі відкриті, очі закриті…і так далі. Будь-яка з цих поз у кількох комбінаціях може знадобитися в цільовому відео для цільового дипфейку.
І це тільки профілі. Скільки у вас фотографій, на яких ви дивитесь прямо? У вас достатньо, щоб широко представити 10,000 XNUMX можливих виразів ви можете одягнути, утримуючи саме цю позу під таким кутом камери, охоплюючи принаймні деякі з них один мільйон можливих середовищ освітлення?
Швидше за все, у вас навіть немає один зображення, на якому ви дивитеся вгору. І це лише два ракурси зі ста чи більше, необхідних для повного покриття.
Навіть якби можна було згенерувати повне покриття обличчя з усіх кутів за різних умов освітлення, отриманий набір даних був би занадто великим для навчання, порядку сотень тисяч зображень; і навіть якщо це може Навчання, характер процесу навчання для поточних фреймворків deepfake відкидає переважну більшість цих додаткових даних на користь обмеженої кількості похідних функцій, оскільки поточні фреймворки є редукціоністськими та не надто масштабованими.
Синтетична заміна
З самого початку дипфейків дипфейкери експериментували з використанням зображень у стилі CGI, голов, створених у 3D-додатках, таких як Cinema4D і Maya, для створення цих «відсутніх поз».
Від цього методу, як правило, рано відмовляються нові практики глибокого фейку, тому що, хоча він може забезпечити пози та вирази, які інакше недоступні, синтетичний вигляд CGI-облич зазвичай просочується до свопів через заплутаність ID та контекстної/семантичної інформації.
Це може призвести до раптового спалаху облич «страшної долини» у переконливому deepfake-відео, оскільки алгоритм починає використовувати єдині дані, які він може мати для незвичайної пози чи виразу – явно фальшиві обличчя.
Обличчя CGI як окремі, концептуальні настанови
Натомість новий метод Delta-GAN Encoder (DGE) від ізраїльських дослідників є більш ефективним, оскільки поза та контекстна інформація із зображень CGI були повністю відокремлені від інформації про «ідентифікацію» цілі.
Ми можемо побачити цей принцип у дії на зображенні нижче, де різні орієнтації голови були отримані за допомогою зображень CGI як орієнтира. Оскільки ідентифікаційні характеристики не пов’язані з контекстними особливостями, немає жодного просвічування ані фальшивого синтетичного вигляду CGI-обличчя, ані ідентифікації, зображеної на ньому:
Це поділ ідентичності та контексту досягається на етапі навчання. Конвеєр для нової архітектури deepfake шукає прихований вектор у попередньо підготовленій Generative Adversarial Network (GAN), яка відповідає зображенню, яке потрібно трансформувати — методологія Sim2Real, яка базується на 2018 році. проект із відділу досліджень штучного інтелекту IBM.
Дослідники спостерігають:
«Використовуючи лише кілька зразків, які відрізняються певним атрибутом, можна навчитися розлученій поведінці попередньо навченої заплутаної генеративної моделі. Немає потреби в точних реальних зразках для досягнення цієї мети, що не обов’язково можливо.
«Використовуючи нереалістичні зразки даних, можна досягти тієї ж мети завдяки використанню семантики закодованих латентних векторів. Застосування бажаних змін до існуючих зразків даних можна здійснити без явного дослідження поведінки в прихованому просторі.'
Дослідники передбачають, що ключові принципи розплутування, досліджені в проекті, можна буде перенести в інші області, такі як симуляція внутрішньої архітектури, і що метод Sim2Real, прийнятий для Delta-GAN-Encoder, може врешті-решт увімкнути інструментальність deepfake на основі простих ескізів, а не Введення в стилі CGI.
Можна стверджувати, що ступінь, до якого нова ізраїльська система може або не зможе синтезувати глибокі фейкові відео, набагато менш значущий, ніж прогрес, досягнутий дослідженнями у розмежуванні контексту з ідентичністю, у процесі отримання більшого контролю над латентним простором. GAN.
Disentanglement є активною сферою дослідження синтезу зображень; у січні 2021 року дослідження під керівництвом Amazon папір продемонстрував подібний контроль пози та розплутування, а в 2018 році a папір з Інституту передових технологій Шеньчженя Китайської академії наук досягли прогресу в створенні довільних точок зору в GAN.