Штучний інтелект

Постійне редагування відеоконтенту штучного інтелекту з текстовим вводом

Published April 7, 2022

Updated April 28, 2026

Martin Anderson

Хоча професійна спільнота візуальних ефектів зацікавлена – і часом відчуває певну загрозу – новими інноваціями в галузі синтезу зображень і відео, відсутність тимчасової безперервності в більшості проектів редагування відео на основі штучного інтелекту відводить багато цих зусиль до сфери “психоделічної” сфери, з мерехтливими і швидко змінюваними текстурами і структурами, неконсистентними ефектами і那种 грубої технологічної обробки, яка нагадує епоху фотохімічних візуальних ефектів.

Якщо ви хочете змінити щось дуже конкретне у відео, що не належить до сфери глибоких підробок (тобто, накладення нового ідентифікатора на існуючі кадри людини), більшість сучасних рішень працюють під досить серйозними обмеженнями щодо точності, необхідної для виробництва візуальних ефектів високої якості.

Одна з винятків – це триваюча робота вільної асоціації вчених з Інституту науки Вейцмана. У 2021 році троє його дослідників, у співпраці з Adobe, оголосили про новий метод розкладу відео і накладення внутрішньої карти – шарованої нейронної атласу – у композитний вихід, повний з альфа-каналами і тимчасово когерентним виходом.

З папери 2021 року: оцінка повного проходження дороги в джерельному кліпі редактується через нейронну мережу таким чином, який традиційно потребував би великої ротоскопії і матч-мувінга. Оскільки фонові і передні елементи обробляються різними мережами, маски є真正 ‘автоматичними’. Джерело: https://layered-neural-atlases.github.io/

Хоча це належить до сфери, покритої оптичним потоком в трубопроводах VFX, шарований атлас не має прямого еквівалента в традиційних потоках CGI, оскільки він фактично складається з ‘тимчасової текстурної карти’, яку можна створювати і редагувати через традиційні програмні методи. У другому зображенні вище, фон дороги представлений (фігурально) протягом усього часу відео. Зміна цієї базової картинки (третє зображення зліва вище) призводить до послідовної зміни фону.

Зображення “розгорнутого” атласа вище представляють лише окремі інтерпретовані кадри; послідовні зміни в будь-якому цільовому кадрі відео відображаються назад до оригінального кадру, зберігаючи будь-які необхідні окулювання і інші необхідні ефекти сцени, такі як тіні або відблиски.

Основна архітектура використовує багатошаровий перцептрон (MLP) для представлення розгорнутих атласів, альфа-каналів і відображень, всі з яких оптимізуються спільно, і повністю в двовимірному просторі, усуваючи необхідність попередніх знань про 3D-геометрію, карти глибини і подібні атрибути CGI.

Посилання на атлас окремих об’єктів також можна надійно змінити:

Послідовна зміна рухомого об’єкта під впливом рамки 2021 року. Джерело: https://www.youtube.com/watch?v=aQhakPFC4oQ

По суті, система 2021 року поєднує в собі вирівнювання геометрії, матч-мувінг, відображення, пере-текстурізацію і ротоскопію в дискретний нейронний процес.

Text2Live

Троє оригінальних дослідників папери 2021 року, разом з NVIDIA Research, серед інших учасників нової інновації на основі цієї техніки, яка поєднує потужність шарованих атласів з текстово-керованим технологією CLIP, яка повернулася до популярності цього тижня з випуском OpenAI DALL-E 2.

Нова архітектура, означена Text2Live, дозволяє кінцевому користувачеві створювати локалізовані редагування фактичного відеоконтенту на основі текстових підказок:

Два приклади редагування переднього плану. Для кращої роздільності і визначення дивіться оригінальні відео на https://text2live.github.io/sm/pages/video_results_atlases.html

Text2Live пропонує семантичне і високо локалізоване редагування без використання попередньо натренованого генератора, шляхом використання внутрішньої бази даних, специфічної для відеокліпу, який піддається впливу.

Передній і фоновий (об’єкт) перетворення під впливом Text2Live. Джерело: https://text2live.github.io/sm/pages/video_results_atlases.html

Техніка не вимагає масок, наданих користувачем, таких як традиційна ротоскопія або зелений екран, а радше оцінює карти релевантності через техніку бутстрепінгу на основі дослідження 2021 року з Школи комп’ютерних наук Тель-Авівського університету і Facebook AI Research (FAIR).

Вихідні карти, згенеровані через трансформерну модель загальної уваги.

Нова робота означена Text2LIVE: Текст-кероване шароване редагування зображень і відео. Оригінальна команда 2021 року приєдналася до Омера Бар-Тала з Вейцманського інституту науки і Йоні Кастана з NVIDIA Research.

Архітектура

Text2Live складається з генератора, натренованого на одному вхідному зображенні і цільових текстових підказках. Модель CLIP, попередньо натренована на 400 мільйонах текстово-ізображень пар, забезпечує асоційовані візуальні матеріали, з яких можна інтерпретувати користувацькі перетворення.

Генератор приймає вхідне зображення (кадр) і видає цільовий RGBA-шар, який містить інформацію про колір і прозорість. Цей шар потім компонується в оригінальне відео з додатковими доповненнями.

Альфа-канал у згенерованому RGBA-шарі забезпечує внутрішню композиційну функцію без звернення до традиційних трубопроводів, що включають програмне забезпечення на рівні пікселів, таке як After Effects.

Натреновуючись на внутрішніх зображеннях, що стосуються цільового відео або зображення, Text2Live уникнув вимоги або інвертувати вхідне зображення в латентний простір Генеративної Адверсарної Мережі (GAN), що зараз далеко від точного для вимог виробництва відеоредагування, або використовувати модель Дифузії, яка більш точна і конфігурована, але не може зберегти вірність цільовому відео.

Різноманітні редагування на основі підказок з Text2Live.

Попередні підходи використовували методи, засновані на пропагації, або підходи, засновані на оптичному потоці. Оскільки ці техніки є певною мірою кадровими, жодна з них не здатна створювати послідовний тимчасовий вигляд змін у вихідному відео. Шарований нейронний атлас, натомість, забезпечує єдиний простір, в якому можна адресувати зміни, які можуть потім залишатися вірними до здійснених змін під час програвання відео.

Немає ‘шипіння’ або випадкових галюцинацій: Text2Live отримує інтерпретацію текстової підказки ‘іржавий джип’ і застосовує її один раз до нейронного шарованого атласу автомобіля у відео, замість того, щоб перезапускати перетворення для кожного інтерпретованого кадру.

Потік послідовного перетворення Джипа в іржавий релікт з допомогою Text2Live.

Text2Live ближче до прориву в AI-композитінгу, ніж у плідній текстово-ізображеневій сфері, яка привернула таку увагу цього тижня з випуском другої генерації OpenAI DALL-E (яка може включати цільові зображення як частини перетворень, але залишається обмеженою в своїй здатності безпосередньо втручатися в фото, крім цензурування джерельних даних тренування і впровадження фільтрів, розроблених для запобігання зловживанню користувачами).

Натомість, Text2Live дозволяє кінцевому користувачеві витягнути атлас і редагувати його в одному проході в висококонтрольних піксельних середовищах, таких як Photoshop (і, можливо, навіть більш абстрактних кадрах синтезу зображень, таких як NeRF), перш ніж повернути його в правильно орієнтоване середовище, яке, тим не менш, не залежить від 3D-оцінки або CGI-орієнтованих підходів.

Крім того, Text2Live, як стверджують автори, є першою порівнюваною рамкою, яка досягає маскування і композитінгу цілком автоматичним чином.

Перша публікація 7 квітня 2022 року.

Martin Anderson

Писатель про машинне навчання, домен-спеціаліст у сфері синтезу зображень людини. Колишній керівник дослідницького контенту в Metaphysic.ai.
Особистий сайт: martinanderson.ai
Контакт: [email protected]

Unite.AI

Постійне редагування відеоконтенту штучного інтелекту з текстовим вводом

Text2Live

Архітектура

You may like