Штучний Інтелект
Створення кращого відео ШІ лише з двох зображень

Інтерполяція кадрів відео (VFI) є відкрита проблема у генеративному відеодослідженні. Завдання полягає в тому, щоб створити проміжні кадри між двома наявними кадрами у відеопослідовності.
Натисніть, щоб відтворити. Фреймворк FILM, створений у співпраці між Google і Університетом Вашингтона, запропонував ефективний метод інтерполяції кадрів, який залишається популярним серед аматорів і професіоналів. Ліворуч ми бачимо дві окремі та відмінні рамки, накладені один на одного; посередині «кінцева рамка»; праворуч — остаточний синтез між кадрами. Джерела: https://film-net.github.io/ та https://arxiv.org/pdf/2202.04901
Загалом кажучи, ця техніка існує вже понад століття використовується в традиційній анімації відтоді. У цьому контексті головні «ключові кадри» генеруватимуться головним художником анімації, тоді як роботу з «анімації» проміжних кадрів виконуватимуть інші співробітники, як більш чорне завдання.
До появи генеративного ШІ інтерполяція кадрів використовувалася в таких проектах, як Оцінка проміжного потоку в реальному часі (RIFE), Інтерполяція кадрів відео з урахуванням глибини (DAIN) і Google Кадрова інтерполяція для великого руху (ФІЛЬМ – див. вище) для збільшення частоти кадрів наявного відео або ввімкнення штучно створених ефектів уповільненої зйомки. Це досягається шляхом поділу існуючих кадрів кліпу та генерації оцінених проміжних кадрів.
VFI також використовується при розробці кращих відеокодеків і, загалом, у оптичний потіксистеми на основі (включаючи генеративні системи), які використовують попередні знання про наступні ключові кадри для оптимізації та формування проміжного вмісту, який їм передує.
Кінцеві кадри в генеративних відеосистемах
Сучасні генеративні системи, такі як Luma та Kling, дозволяють користувачам вказувати початковий і кінцевий кадри, і можуть виконувати це завдання, аналізуючи ключові точки на двох зображеннях і оцінюючи траєкторію між двома зображеннями.
Як ми можемо бачити в наведених нижче прикладах, надання «закриваючого» ключового кадру краще дозволяє системі генеративного відео (у цьому випадку Kling) підтримувати такі аспекти, як ідентичність, навіть якщо результати не ідеальні (особливо з великими рухами).
Натисніть, щоб відтворити. Kling є одним із дедалі більшої кількості відеогенераторів, включаючи Runway і Luma, які дозволяють користувачеві вказувати кінцевий кадр. У більшості випадків мінімальний рух призведе до найбільш реалістичних результатів із найменшими недоліками. Джерело: https://www.youtube.com/watch?v=8oylqODAaH8
У наведеному вище прикладі особистість людини є узгодженою між двома наданими користувачем ключовими кадрами, що призводить до відносно узгодженої генерації відео.
Там, де надається лише початковий кадр, вікно уваги генеративної системи зазвичай недостатньо велике, щоб «запам’ятати», як людина виглядала на початку відео. Швидше, ідентичність, швидше за все, буде трохи змінюватися з кожним кадром, доки не буде втрачена вся схожість. У наведеному нижче прикладі було завантажено початкове зображення, а рух людини керувався текстовою підказкою:
Натисніть, щоб відтворити. Без кінцевого кадру Kling має лише невелику групу безпосередньо попередніх кадрів, щоб керувати створенням наступних кадрів. У випадках, коли необхідний будь-який значний рух, ця атрофія ідентичності стає серйозною.
Ми бачимо, що схожість актора не є стійкою до інструкцій, оскільки генеративна система не знає, як би він виглядав, якби посміхався, і він не посміхається на вихідному зображенні (єдиний доступний еталон).
Більшість вірусних генеративних кліпів ретельно підібрані, щоб зменшити акцент на цих недоліках. Однак розвиток тимчасово узгоджених генеративних відеосистем може залежати від нових розробок у дослідницькому секторі щодо кадрової інтерполяції, оскільки єдиною можливою альтернативою є залежність від традиційного CGI як керуючого, «керівного» відео (і навіть у цьому випадку , узгодженості текстури та освітлення зараз важко досягти).
Крім того, повільно-ітераційний характер отримання нового кадру з невеликої групи останніх кадрів робить дуже важко для досягнення великих і сміливих рухів. Це пов’язано з тим, що об’єкт, який швидко рухається по кадру, може переходити з одного боку на інший у просторі одного кадру, на відміну від більш поступових рухів, на яких система, ймовірно, була навчена.
Так само значна і смілива зміна пози може призвести не тільки до зміни ідентичності, але й до яскравих неконгруентностей:
Натисніть, щоб відтворити. У цьому прикладі від Luma запитуваний рух не є добре представленим у навчальних даних.
Фреймер
Це підводить нас до цікавої недавньої статті з Китаю, яка стверджує, що досягла нового рівня мистецтва в інтерполяції автентичного кадру – і яка є першою у своєму роді, яка пропонує взаємодію користувача на основі перетягування.
Framer дозволяє користувачеві керувати рухом за допомогою інтуїтивно зрозумілого інтерфейсу на основі перетягування, хоча він також має «автоматичний» режим. Джерело: https://www.youtube.com/watch?v=4MPGKgn7jRc
Програми, орієнтовані на перетягування, стали частий in літератури Останнім часом дослідницький сектор намагається надати засоби для генеративної системи, які не базуються на досить грубих результатах, отриманих за допомогою текстових підказок.
Нова система під назвою Фреймер, може не тільки слідувати керованому користувачем перетягуванню, але також має більш звичайний режим «автопілота». Окрім звичайного анімації кадрів, система здатна виробляти сповільнене моделювання, а також морфінг і нові види вхідного зображення.

Проміжні кадри, створені для симуляції сповільненої зйомки у Framer. Джерело: https://arxiv.org/pdf/2410.18978
Щодо створення нових зображень, Framer трохи переходить на територію полів нейронного випромінювання (NeRF), хоча для цього потрібно лише два зображення, тоді як для NeRF зазвичай потрібно шість або більше вхідних зображень.
У тестах Framer, який базується на Stability.ai Стабільне розповсюдження відео модель генеративного відео з латентною дифузією, змогла перевершити апроксимовані конкурентні підходи в дослідженні користувачів.
На момент написання коду планується випустити на GitHub. Зразки відео (з яких отримано наведені вище зображення) доступні на сайті проекту, і дослідники також випустили YouTube відео.
Команда новий папір має титул Framer: інтерполяція інтерактивного кадру, і походить від дев’яти дослідників з Чжецзянського університету та підтримуваної Alibaba Ant Group.
Метод
Framer використовує інтерполяцію на основі ключових точок у будь-якій із своїх двох модальностей, де вхідне зображення оцінюється для базової топології, а «рухомі» точки призначаються, якщо це необхідно. По суті, ці точки еквівалентні орієнтирам обличчя в системах на основі ідентифікатора, але узагальнюються на будь-якій поверхні.
Дослідники тонко налаштований Стабільна відеодифузія (SVD) на OpenVid-1M набір даних, додаючи додаткову можливість синтезу останнього кадру. Це полегшує механізм керування траєкторією (угорі праворуч на зображенні схеми нижче), який може оцінювати шлях до кінцевого кадру (або назад від нього).

Схема для Framer.
Щодо додавання кондиціонування останнього кадру, автори стверджують:
«Щоб максимально зберегти візуальний пріоритет попередньо навченого SVD, ми дотримуємося парадигми кондиціонування SVD і вводимо умови кінцевого кадру в латентний простір і семантичний простір відповідно.
«Зокрема, ми об’єднуємо закодовану VAE латентну функцію першого [кадру] з шумовим латентом першого кадру, як це було в SVD. Крім того, ми об’єднуємо латентну особливість останнього кадру, zn, з шумовим латентом кінцевого кадру, враховуючи, що умови та відповідні шумові латенти просторово вирівняні.
«Крім того, ми витягуємо вбудоване зображення CLIP із першого та останнього кадрів окремо та об’єднуємо їх для введення функції перехресної уваги».
Для роботи на основі перетягування модуль траєкторії використовує Meta Ai-led CoTracker рамки, яка оцінює численні можливі шляхи попереду. Вони зведені до 1-10 можливих траєкторій.
Потім отримані координати точки перетворюються за допомогою методології, натхненної DragNUWA та DragAnything архітектури. Це отримує a Теплова карта Гауса, який індивідуює цільові зони для руху.
Згодом дані надходять до механізмів кондиціонування ControlNet, допоміжна система відповідності, спочатку розроблена для стабільної дифузії, а згодом адаптована до інших архітектур.
Для режиму автопілота відповідність функцій спочатку виконується за допомогою SIFT, який інтерпретує траєкторію, яку потім можна передати механізму автоматичного оновлення, натхненного цим DragGAN та DragDiffusion.

Схема для оцінки траєкторії точки у Framer.
Дані та тести
Для точного налаштування Framer використовувалися блоки просторової уваги та залишкових елементів заморожені, і були вражені лише часові шари уваги та залишкові блоки.
Модель була навчена протягом 10,000 XNUMX ітерацій Адам В, на а рівень навчання з 1e-4, і a розмір партії з 16. Навчання проходило на 16 графічних процесорах NVIDIA A100.
Оскільки попередні підходи до проблеми не пропонують редагування на основі перетягування, дослідники вирішили порівняти режим автопілота Framer зі стандартною функціональністю старих пропозицій.
Фреймворки, протестовані для категорії поточних систем генерації відео на основі дифузії, були LDMVFI; Динамічний CrafterІ SVDKFI. Конкуруючими фреймворками були «традиційні» відеосистеми AMT; РАЙФ; FLAVR; і вищезгаданий ФІЛЬМ.
Окрім дослідження користувачів, були проведені тести на ДЕВІС та UCF101 набори даних.
Якісні тести можуть бути оцінені лише об’єктивними здібностями дослідницької групи та дослідженнями користувачів. Проте, зазначає видання, традиційні кількісний метрики значною мірою не підходять для даної пропозиції:
«Метрики [реконструкції], такі як PSNR, SSIM і LPIPS, не в змозі точно зафіксувати якість інтерпольованих кадрів, оскільки вони покарають інші правдоподібні результати інтерполяції, які не вирівняні за пікселями з вихідним відео.
«Хоча метрики генерації, такі як FID, пропонують деякі покращення, вони все одно не вистачають, оскільки не враховують узгодженість у часі та оцінюють кадри окремо».
Незважаючи на це, дослідники провели якісні тести з кількома популярними показниками:

Кількісні результати для Framer проти конкуруючих систем.
Автори зазначають, що, незважаючи на те, що всі шанси проти них, Framer все ще досягає найкращого показника FVD серед протестованих методів.
Нижче наведено зразки результатів статті для якісного порівняння:

Якісне порівняння з попередніми підходами. Щоб отримати кращу роздільну здатність, перегляньте документ, а також результати відео на сторінці https://www.youtube.com/watch?v=4MPGKgn7jRc.
Автори коментують:
«[Наш] метод створює значно чіткіші текстури та природний рух порівняно з існуючими методами інтерполяції. Він особливо добре працює в сценаріях із суттєвими відмінностями між вхідними кадрами, де традиційні методи часто не вдається точно інтерполювати вміст.
«У порівнянні з іншими методами на основі дифузії, такими як LDMVFI і SVDKFI, Framer демонструє чудову адаптивність до складних випадків і пропонує кращий контроль».
Для дослідження користувачів дослідники зібрали 20 учасників, які оцінили 100 випадково впорядкованих відеорезультатів за різними тестованими методами. Таким чином, було отримано 1000 рейтингів, які оцінюють найбільш «реалістичні» пропозиції:

Результати дослідження користувачів.
Як видно з графіка вище, користувачі переважно віддали перевагу результатам Framer.
Проект супроводжує YouTube відео окреслює деякі потенційні інші способи використання фреймеру, включно з морфінгом і мультиплікаційними проміжками – з чого почалася вся концепція.
Висновок
Важко переоцінити, наскільки важливий цей виклик зараз для створення відео на основі ШІ. На сьогоднішній день старіші рішення, такі як FILM і (не AI) EbSynth, використовувалися як аматорськими, так і професійними спільнотами для анімації між кадрами; але ці рішення мають помітні обмеження.
Через нещире курування офіційних прикладів відео для нових фреймворків T2V існує широке хибне уявлення про те, що системи машинного навчання можуть точно виводити геометрію в русі, не вдаючись до механізмів керування, таких як 3D-моделі, що змінюються (3DMM), або інших допоміжних підходів, таких як як LoRAs.
Якщо чесно, то твінінг сам по собі, навіть якщо його можна виконати ідеально, є лише «хаком» або обманом цієї проблеми. Тим не менш, оскільки часто легше створювати два добре вирівняних кадрових зображення, ніж здійснювати вказівки за допомогою текстових підказок або поточного діапазону альтернатив, добре спостерігати ітераційний прогрес у версії цього старішого методу на основі ШІ.
Вперше опубліковано у вівторок, 29 жовтня 2024 р