Штучний Інтелект

Узгоджене редагування відеоконтенту AI із введенням тексту

оновлений on 9 Грудня, 2022

У той час як професійна спільнота VFX заінтригована – і іноді відчуває трохи погрожували – завдяки новим інноваціям у синтезі зображень і відео відсутність безперервності в часі в більшості проектів редагування відео на основі штучного інтелекту відносить багато з цих зусиль до «психоделічної» сфери, з мерехтливий і швидко змінюється текстури та структури, непослідовні ефекти та вид грубої технологічної суперечки, яка нагадує фотохімічна ера візуальних ефектів.

Якщо ви хочете змінити щось дуже конкретне у відео, яке не підпадає під сферу дипфейків (тобто нав’язування нової ідентичності наявним кадрам із зображенням людини), більшість поточних рішень працюють із досить суворими обмеженнями, з точки зору точність, необхідна для створення якісних візуальних ефектів.

Єдиним винятком є поточна робота вільного об’єднання вчених з Інституту науки Вейцмана. У 2021 році троє його дослідників у співпраці з Adobe оголошений новий метод декомпозиції відео та накладання узгодженого внутрішнього відображення – a шаровий нейронний атлас – у комбінований вихід, укомплектований альфа-каналами та тимчасово зв’язаним виходом.

Зі статті 2021 року: оцінка повного проходження дороги у вихідному кліпі редагується за допомогою нейронної мережі у спосіб, який традиційно вимагав би широкого ротоскопування та переміщення збігів. Оскільки елементи фону та переднього плану обробляються різними мережами, маски справді «автоматичні». Джерело: https://layered-neural-atlases.github.io/

Хоча потрапляє кудись у царство, охоплене оптичний потік у конвеєрах VFX багатошаровий атлас не має прямого еквівалента в традиційних робочих процесах CGI, оскільки він, по суті, являє собою «карту тимчасової текстури», яку можна створювати та редагувати традиційними програмними методами. На другому зображенні на ілюстрації вище фон дорожнього покриття представлено (фігурально) протягом усього часу виконання відео. Зміна базового зображення (третє зображення зліва на ілюстрації вище) призводить до послідовної зміни фону.

Зображення «розгорнутого» атласу вище представляють лише окремі інтерпретовані кадри; послідовні зміни в будь-якому цільовому відеокадрі повертаються до вихідного кадру, зберігаючи будь-які необхідні оклюзії та інші необхідні ефекти сцени, такі як тіні або відображення.

Основна архітектура використовує багатошаровий персептрон (MLP) для представлення розгорнутих атласів, альфа-каналів і відображень, усі вони оптимізовані разом і повністю в 2D-просторі, уникаючи попередніх знань у стилі NeRF про точки 3D-геометрії, карти глибини, і подібні атрибути стилю CGI.

Довідковий атлас окремих об'єктів також можна надійно змінити:

Послідовна зміна на рухомий об’єкт згідно з рамками 2021 року. Джерело: https://www.youtube.com/watch?v=aQhakPFC4oQ

По суті, система 2021 поєднує вирівнювання геометрії, переміщення збігів, відображення, повторне текстурування та ротоскопування в дискретний нейронний процес.

Text2Live

Троє дослідників статті 2021 року разом із дослідницькою компанією NVIDIA є одними з учасників нової інновації в техніці, яка поєднує потужність багатошарових атласів із технологією CLIP із текстовим керуванням, яка цього тижня знову стала популярною завдяки OpenAI звільнити рамки DALL-E 2.

Нова архітектура під назвою Text2Live, дозволяє кінцевому користувачеві створювати локалізовані редагування фактичного відеовмісту на основі текстових підказок:

Два приклади редагування на передньому плані. Щоб отримати кращу роздільну здатність і чіткість, перегляньте оригінальні відео на сторінці https://text2live.github.io/sm/pages/video_results_atlases.html

Text2Live пропонує семантичне та дуже локалізоване редагування без використання попередньо навченого генератора, використовуючи внутрішню базу даних, яка стосується відеокліпу, на який впливає.

Перетворення фону та переднього плану (об’єкта) у Text2Live. Джерело: https://text2live.github.io/sm/pages/video_results_atlases.html

Техніка не вимагає наданих користувачем масок, таких як типовий ротоскопічний процес або робочий процес із зеленим екраном, а скоріше оцінки карти релевантності через техніку завантаження, засновану на 2021 дослідження від Школи комп’ютерних наук Тель-Авівського університету та Facebook AI Research (FAIR).

Вихідні карти, згенеровані за допомогою моделі загальної уваги на основі трансформатора.

Новий папір має титул Text2LIVE: багатошарове редагування зображень і відео на основі тексту. До оригінальної команди 2021 року приєдналися Омер Бар-Тал з Вейцмана та Йоні Кастен з дослідження NVIDIA.

архітектура

Text2Live містить генератор, навчений на єдиному вхідному зображенні та цільових текстових підказках. Модель Contrastive Language-Image Pretraining (CLIP), попередньо навчена на 400 мільйонах пар текст/зображення, надає пов’язаний візуальний матеріал, з якого можна інтерпретувати введені користувачем перетворення.

Генератор приймає вхідне зображення (кадр) і виводить цільовий шар RGBA, що містить інформацію про колір і непрозорість. Цей шар потім об’єднується в оригінальний відеоматеріал із додатковими доповненнями.

Альфа-канал у згенерованому шарі RGBA забезпечує внутрішню функцію композиції без звернення до традиційних конвеєрів із залученням програмного забезпечення на основі пікселів, наприклад After Effects.

Навчаючись на внутрішніх зображеннях, які стосуються цільового відео або зображення, Text2Live уникає вимоги інвертувати вхідне зображення в латентний простір Generative Adversarial Network (GAN), практика, яка зараз далеко не достатньо точно для вимог редагування виробничого відео або скористайтеся моделлю дифузії, яка є точнішою та налаштовуваною, але не може зберегти вірність до цільового відео.

Різні зміни на основі підказок із Text2Live.

Використовувалися попередні підходи методи на основі розмноження or на основі оптичного потоку підходи. Оскільки ці методи тією чи іншою мірою базуються на кадрах, жодна з них не здатна створити послідовний часовий вигляд змін вихідного відео. Навпаки, шаровий нейронний атлас надає єдиний простір для внесення змін, який потім може залишатися вірним внесеним змінам під час просування відео.

Жодного «шипіння» чи випадкових галюцинацій: Text2Live отримує інтерпретацію текстової підказки «іржавий джип» і застосовує її один раз до нейронного атласу автомобіля у відео, замість того, щоб перезапускати перетворення для кожного інтерпретованого кадру.

Послідовне перетворення джипа на іржаву реліквію за допомогою Text2Live.

Text2Live ближче до прориву в композиції на основі штучного інтелекту, а не до плідного простору перетворення тексту в зображення, який привернув стільки уваги цього тижня з випуском друге покоління фреймворку OpenAI DALL-E (який може включати цільові зображення як частину процесу трансформації, але залишається обмеженим у своїй здатності безпосередньо втручатися у фотографію, на додаток до цензура вихідних навчальних даних і накладення фільтрів, призначений для запобігання зловживанню користувачами).

Натомість Text2Live дозволяє кінцевому користувачеві видобувати атлас, а потім редагувати його за один прохід у середовищах із високим рівнем контролю на основі пікселів, таких як Photoshop (і, можливо, навіть у більш абстрактних структурах синтезу зображень, таких як NeRF), перш ніж повертати його назад у правильно орієнтоване середовище, яке, тим не менш, не покладається на 3D-оцінку чи ретроспективні підходи на основі CGI.

Крім того, Text2Live, як стверджують автори, є першим подібним фреймворком, який забезпечує маскування та композицію повністю автоматичним способом.

Вперше опубліковано 7 квітня 2022 р.

Вгору Далі

Deepfeke Detection на основі оригінальних біометричних ознак людини

Не пропустіть

Дослідники наблизилися до досягнення «емоційно розумного» ШІ

Мартін Андерсон

Письменник про машинне навчання, штучний інтелект і великі дані.
Особистий сайт: martinanderson.ai
Контактна особа: [захищено електронною поштою]
Twitter: @manders_ai