Погляд Anderson

Додавання діалогу до реального відео за допомогою штучного інтелекту

mm
Montage of subjects from the demonstration video-clips for FacEDiT. Source: https://facedit.github.io/

Нова система штучного інтелекту може переписати, видалити або додати слова людини у відео без перезнімання, у єдиній системі з кінця в кінець.

 

Три роки тому, інтернет був би шокований будь-якою з 20-30 систем штучного інтелекту, які публікуються щотижня в академічних порталах; як це є, ця популярна галузь досліджень зараз стала настільки плідною, що майже складається з іншої гілки “Штучного інтелекту”, і я висвітлюю значно менше таких випусків, ніж два чи три роки тому.

Однак одна з поточних випусків цієї галузі привернула мою увагу: інтегрована система, яка може втрутитися в реальні відеокліпи і вставити нову мову в існуюче відео (а не створювати весь генеративний кліп з обличчя чи кадру, що є набагато більш поширеним).

У прикладах нижче, які я склав з великої кількості зразкових відео, доступних на сайті проекту project website, ми спочатку бачимо реальний джерельний кліп, а потім, нижче, нав’язану штучну мову в середині кліпу, включаючи синтез голосу та синхронізацію губ:

Натисніть, щоб відіграти. Місцеве редагування з шиттям – один з декількох режимів, запропонованих FacEDiT. Будь ласка, зверніться до веб-сайту джерела для кращої роздільності. Джерело – https://facedit.github.io/

Цей підхід є одним з трьох, розроблених для нової методики, ця методика називається “місцеве редагування з шиттям”, і це той, який найбільше цікавить авторів (а також мене). По суті, кліп розширюється шляхом використання одного з середніх кадрів як початкової точки для нової інтерпретації штучного інтелекту, а наступного (реального) кадру як цілі, до якої генеративний вставлений кліп повинен відповідати. У кліпах, які бачимо вище, ці “посівні” та “цільові” кадри представлені верхнім відео, яке зупиняється, тоді як нижній змінений відеокліп забезпечує генеративний заповнювач.

Автори розглядають цей підхід до синтезу обличчя та голосу як перший повністю інтегрований метод штучного інтелекту для редагування відео цього типу, спостерігаючи потенціал повністю розробленої системи цього типу для виробництва телебачення та кіно:

‘Фільмамакери та виробники медіа часто повинні переглядати конкретні частини записаних відео – можливо, слово було вимовлено неправильно або сценарій змінився після зйомок. Наприклад, в іконічній сцені з Титаніка (1997), де Роуз говорить, “Я ніколи не відпущу, Джек,” режисер пізніше міг вирішити, що це повинно бути “Я ніколи не забуду тебе, Джек”.

‘Традиційно, такі зміни вимагають перезйомки всієї сцени, що є дорогим і часоємним. Синтез обличчя пропонує практичну альтернативу, автоматично змінюючи рух обличчя для відповідності зміненому мовленню, усуваючи необхідність у перезйомці.’

Хоча втручання штучного інтелекту цього типу можуть зустріти культурний або промисловий опір, вони також можуть складати новий тип функціональності в системах візуальних ефектів людини та інструментальних наборах. У будь-якому випадку, на даний момент, виклики є строго технічними.

Окрім розширення кліпу шляхом додавання штучної мови, нова система також може змінити існуючу мову:

Натисніть, щоб відіграти. Приклад зміни існуючої мови замість додавання додаткової мови. Будь ласка, зверніться до веб-сайту джерела для кращої роздільності.

Стан справ

На даний момент немає систем з кінця в кінець, які б пропонували цю можливість синтезу; хоча зростаюча кількість платформ штучного інтелекту, таких як серія Veo компанії Google, можуть генерувати аудіо, і різні інші системи можуть створювати deepfaked аудіо, зараз потрібно створити досить складну систему різних архітектур і трюків, щоб втрутитися в реальне відео так, як це може зробити нова система – названа FacEDiT.

Система використовує Diffusion Transformers (DiT) у поєднанні з Flow Matching для створення руху обличчя, умовного щодо навколишніх (контекстних) рухів і аудіо-мовного вмісту. Система використовує існуючі популярні пакети, які займаються відновленням обличчя, включаючи LivePortrait (недавно придбаний компанією Kling).

Окрім цього методу, оскільки їхній підхід є першим, який інтегрує ці виклики в єдине рішення, автори створили новий бенчмарк, названий FacEDiTBench, разом з декількома новими метриками оцінки, відповідними цьому конкретному завдання.

Нова робота new work називається FacEDiT: Єдина система редагування та генерації обличчя через заповнення руху обличчя, і походить від чотирьох дослідників з Pohang University of Science and Technology (POSTECH ), Korea Advanced Institute of Science & Technology (KAIST), і The University of Texas at Austin.

Метод

FacEDiT навчається відновлювати рух обличчя, навчаючись заповнювати відсутні частини оригінальної гри актора, виходячи з навколишнього руху і аудіо-мовного вмісту. Як показано в схемі нижче, цей процес дозволяє моделі діяти як заповнювач пробілів під час навчання, передбачаючи рух обличчя, який відповідає голосу, залишаючись при цьому узгодженим з оригінальним відео:

Огляд системи FacEDiT, який показує, як рух обличчя вивчається через само-監督оване заповнення під час навчання, кероване редагованим мовленням під час висновку, і нарешті відтворюється назад у відео шляхом повторного використання зовнішнього вигляду оригінального відео, заміняючи лише цільовий рух.. Джерело - https://arxiv.org/pdf/2512.14056

Огляд системи FacEDiT, який показує, як рух обличчя вивчається через само-監督оване заповнення під час навчання, кероване редагованим мовленням під час висновку, і нарешті відтворюється назад у відео шляхом повторного використання зовнішнього вигляду оригінального відео, заміняючи лише цільовий рух. Джерело

У час висновку,相同на архітектура підтримує два різних виводи, залежно від того, скільки відео маскуються: часткові редагування, де змінюється лише фраза, а решта залишається незмінною; або генерація повної речення, де новий рух синтезується повністю з нуля.

Модель навчається шляхом flow matching, який розглядає редагування відео як一种 шлях між двома версіями руху обличчя.

Замість того, щоб навчати модель гадати, яким повинно бути редаговане обличчя, починаючи з нуля, flow matching навчає рухатися поступово та гладко між шумовим маркером і правильним рухом. Для цього система представляє рух обличчя як компактний набір чисел, витягнутих з кожного кадру за допомогою версії вищезгаданої системи LivePortrait (див. схему вище).

Ці вектори руху призначені для опису виразів та положення голови без заплутування ідентичності, щоб зміни мови могли бути локалізовані без впливу на загальний вигляд людини.

Навчання FacEDiT

Для навчання FacEDiT кожен відеокліп був розбитий на серію знімків руху обличчя, а кожен кадр був спарований з відповідним фрагментом аудіо. Випадкові частини даних руху були потім приховані, а модель запитувалася про те, яким повинні бути ці відсутні рухи, використовуючи як мовлення, так і навколишній незамаскований рух для контексту.

Оскільки масковані ділянки та їх позиції змінюються від одного навчального прикладу до іншого, модель поступово вчиться обробляти як маленькі внутрішні редагування, так і довші прогалини, для генерації повної послідовності, залежно від того, скільки інформації їй надається.

Система використовує cross-attention, щоб допомогти системі відповідати руху губ більш точно до аудіо-мовного вмісту.

Для збереження реалізму під час редагувань, увага налаштовується на сусідні кадри, а не на весь таймлайн, що змушує модель зосередитися на локальній безперервності та запобігати мерехтінню чи стрибкам руху на краях змінених ділянок. Позиційні вкладення (які повідомляють моделі, де кожен кадр з’являється в послідовності) далі допомагають моделі підтримувати природний часовий потік та контекст.

Під час навчання, система вчиться передбачати відсутній рух обличчя, відновлюючи масковані ділянки на основі мови та навколишнього незамаскованого руху. У час висновку,相同на система використовується, але з масками, тепер керованими редагуванням мови.

Коли слово чи фраза вставляється, видаляється або змінюється, система знаходить постраждалу ділянку, маскує її та регенерує рух, який відповідає новій аудіо. Генерація повної послідовності розглядається як особливий випадок, де вся ділянка маскується та синтезується з нуля.

Дані та тести

Система складається з 22 шарів для Diffusion Transformer, кожен з 16 головками уваги і розмірами фідфорвардних нейронних мереж 1024 і 2024 пікселів. Ознаки руху та зовнішнього вигляду витягуються за допомогою заморожених компонентів LivePortrait, а мовлення кодується за допомогою WavLM і модифікується за допомогою VoiceCraft.

Виділяється окремий шар проєкції, який відображає 786-мірні ознаки мови в латентний простір DiT, з яких тільки DiT і модуль проєкції навчаються з нуля.

Навчання проводиться під керуванням оптимізатора AdamW з ціловим темпом навчання 1e-4, протягом одного мільйона кроків, на двох GPU A6000 (кожна з 48 ГБ відеопам’яті), при загальному розмірі партії вісім.

FacEDiTBench

Датасет FacEDiTBench містить 250 прикладів, кожен з яких складається з відеокліпу оригінальної та редагованої мови, а також транскрипцій для обох. Відео походять з трьох джерел, з 100 кліпів з HDTF, 100 з Hallo3, і 50 з CelebV-Dub. Кожен був перевірений вручну, щоб підтвердити, що як аудіо, так і відео достатньо чіткі для оцінки.

GPT-4o був використаний для редагування кожної транскрипції, щоб створити граматично правильні редагування. Ці редаговані транскрипції, разом з оригінальною мовою, були передані до VoiceCraft для генерації нової аудіо; і на кожному етапі, як транскрипція, так і згенероване мовлення були перевірені вручну на якість.

Кожен зразок був позначений типом редагування, часом зміни та тривалістю зміненої ділянки, а редагування були класифіковані як вставки, видаляння або заміни. Кількість змінених слів варіювалася від коротких редагувань по 1-3 слова до середніх редагувань по 4-6 слів і довших редагувань по 7-10 слів.

Було визначено три спеціальні метрики для оцінки якості редагування. Фотометрична безперервність, для вимірювання того, наскільки добре освітлення та колір редагованої ділянки поєднуються з навколишнім відео, шляхом порівняння розходжень на рівні пікселів на межах; безперервність руху, для оцінки узгодженості руху обличчя, шляхом вимірювання змін оптичного потоку через редаговані та нередаговані кадри; і збереження ідентичності, для оцінки того, чи залишається вигляд суб’єкта незмінним після редагування, шляхом порівняння вкладень обличчя з оригінальної та згенерованої послідовностей за допомогою моделі розпізнавання обличчя ArcFace.

Тести

Модель тестування була навчена на матеріалах з трьох вище згаданих датасетів, загалом близько 200 годин відео контенту, включаючи відеоблоги та фільми, а також відео високої роздільності з YouTube.

Для оцінки редагування обличчя використовувався датасет FacEDiTBench, а також тестовий розріз HDTF, який став стандартом для цієї групи завдань.

Оскільки не було прямих порівнюваних систем, які могли б охопити цю функціональність з кінця в кінець, автори обрали різноманітні системи, які відтворювали хоча б частину цільової функціональності, і могли діяти як базові лінії; зокрема, KeyFace; EchoMimic; EchoMimicV2; Hallo; Hallo2; Hallo3; V-Express; AniPortrait; і SadTalker.

Було також використано декілька встановлених метрик для оцінки якості генерації та редагування, з точністю синхронізації губ, оціненою за допомогою SyncNet, повідомляючи як абсолютну похибку між рухом губ та аудіо (LSE-D), так і показник впевненості (LSE-C); Fréchet Video Distance (FVD) для кількісної оцінки реалізму відео в цілому; і Learned Perceptual Similarity Metrics (LPIPS), для вимірювання сприйманої подібності між згенерованими та оригінальними кадрами.

Для редагування всі метрики, крім LPIPS, застосовувалися лише до зміненої ділянки; для генерації вся відео оцінювалася, з виключенням безперервності меж.

Кожна модель була змусена синтезувати відео-сегмент, який потім був вставлений у оригінальний кліп (дослідники відзначають, що цей метод часто вводить видимі розриви, де редагована ділянка зустрічається з навколишнім відео). Був також протестований інший підхід, при якому весь відеокліп регенерувався з модифікованого аудіо – але це неминуче перезаписувало нередаговані ділянки та не зберігає оригінальну гру:

Порівняння якості редагування між системами, спочатку розробленими для генерації обличчя, з FacEDiT, який випереджає всі базові лінії за всіма метриками, досягнувши нижчу похибку синхронізації губ (LSE-D), вищу впевненість у синхронізації (LSE-C), сильніше збереження ідентичності (IDSIM), більшу реалістичність (FVD), і гладші переходи через межі редагування (Pcontinuity, Mcontinuity). Сірі колони виділяють ключові критерії для оцінки якості меж; жирні та підкреслені значення вказують на найкращі та другі за якістю результати, відповідно

Порівняння якості редагування між системами, спочатку розробленими для генерації обличчя, з FacEDiT, який випереджає всі базові лінії за всіма метриками, досягнувши нижчу похибку синхронізації губ (LSE-D), вищу впевненість у синхронізації (LSE-C), сильніше збереження ідентичності (IDSIM), більшу реалістичність (FVD), і гладші переходи через межі редагування (Pcontinuity, Mcontinuity). Сірі колони виділяють ключові критерії для оцінки якості меж; жирні та підкреслені значення вказують на найкращі та другі за якістю результати, відповідно

Відносно цих результатів, автори коментують:

‘[Наша] модель значно випереджає існуючі методи на задачі редагування. Вона досягає сильної безперервності меж та високого збереження ідентичності, демонструючи свою здатність підтримувати часову та візуальну узгодженість під час редагування. Крім того, її вища точність синхронізації губ та низька FVD відображають реалізм згенерованого відео.’

Натисніть, щоб відіграти. Результати, зібрані автором з опублікованих відео на сайті проекту. Будь ласка, зверніться до веб-сайту джерела для кращої роздільності.

Крім того, було проведено дослідження з людьми, щоб оцінити сприйману якість як редагування, так і генерації.

Для кожного порівняння учасники переглядали шість відео та ранжировали їх за загальною якістю, розглядаючи точність синхронізації губ, природність та реалізм руху голови:

Середні рейтинги, призначені людьми-оцінювачами, де нижче означає краще. У разі редагування учасники також оцінювали гладкість переходів між редагованими та нередагованими сегментами:

Середні рейтинги, призначені людьми-оцінювачами, де нижче означає краще. У разі редагування учасники також оцінювали гладкість переходів між редагованими та нередагованими сегментами:

У дослідженні FacEDiT був послідовно оцінений як найвищий учасниками з великою перевагою, як за якістю редагування, так і за гладкістю переходів, а також отримав високі оцінки у випадку генерації, що свідчить про те, що його виміряні переваги перекладаються у сприймані користувачами переваги.

Через відсутність місця, ми посилаємо читача до джерельної статті для отримання додаткових деталей про дослідження та додаткових тестів, проведених у цій роботі. Насправді, прототипні дослідження цього типу часто мають труднощі з генерацією значущих результатів розділу тестів, оскільки сама система вже є потенційною базовою лінією для подальших робіт.

Висновок

Дажи для висновку, системи цього типу можуть вимагати значних обчислювальних ресурсів, що робить складним для кінцевих користувачів – тут, мабуть, студій візуальних ефектів – тримати роботу на місці. Тому підходи, які можуть бути адаптовані до реалістичних місцевих ресурсів, завжди будуть перевагою для постачальників, які перебувають під юридичною зобов’язанням захистити клієнтські кадри та загальний інтелектуальний капітал.

Це не означає критику нового пропозиції, яке може працювати досконало під квантованими вагами або іншими оптимізаціями, і яке є першим пропозицією цього типу, яке привернуло мене до цього напрямку дослідження за досить тривалий час.

 

Опубліковано вперше у середу, 17 грудня 202. Відредаговано 20.10 EET, того ж дня, для додаткового простору у першому абзаці.

Писатель про машинне навчання, домен-спеціаліст у сфері синтезу зображень людини. Колишній керівник дослідницького контенту в Metaphysic.ai.
Особистий сайт: martinanderson.ai
Контакт: [email protected]