заглушки DynamiCrafter: анімація зображень відкритого домену за допомогою попередніх програм Video Diffusion - Unite.AI
Зв'язатися з нами

Штучний Інтелект

DynamiCrafter: анімація зображень відкритого домену за допомогою попередніх програм Video Diffusion

mm

опублікований

 on

DynamiCrafter: анімація зображень відкритого домену за допомогою попередніх програм Video Diffusion

Комп'ютерний зір є однією з найбільш захоплюючих і добре досліджених областей у спільноті штучного інтелекту сьогодні, і, незважаючи на швидке вдосконалення моделей комп’ютерного зору, давня проблема, яка все ще турбує розробників, – це анімація зображень. Навіть сьогодні фреймворкам анімації зображень важко перетворити нерухомі зображення у відповідні відеоподібні, які відображають природну динаміку, зберігаючи оригінальний вигляд зображень. Традиційно фреймворки для анімації зображень зосереджені в основному на анімації природних сцен за допомогою предметно-специфічних рухів, таких як людське волосся чи рухи тіла, або стохастичної динаміки, як рідини та хмари. Хоча цей підхід до певної міри працює, він обмежує застосовність цих фреймворків анімації до більш загального візуального вмісту. 

Крім того, звичайні підходи до анімації зображень зосереджені насамперед на синтезі коливальних і стохастичних рухів або на налаштуванні для конкретних категорій об’єктів. Однак помітним недоліком цього підходу є сильні припущення, які накладаються на ці методи, що зрештою обмежує їхню застосовність, особливо в загальних сценаріях, таких як анімація зображень у відкритому домені. За останні кілька років, Моделі T2V або Text to Video продемонстрували надзвичайний успіх у створенні яскравих і різноманітних відео за допомогою текстових підказок, і ця демонстрація моделей T2V є основою для структури DynamiCrafter. 

Фреймворк DynamiCrafter — це спроба подолати поточні обмеження моделей анімації зображень і розширити їхню застосовність до загальних сценаріїв із зображеннями відкритого світу. Інфраструктура DynamiCrafter намагається синтезувати динамічний вміст для відкритих зображень, перетворюючи їх на анімаційні відео. Ключова ідея DynamiCrafter полягає в тому, щоб включити зображення як орієнтир у генеративний процес у спробі використати рух перед уже існуючими моделями розповсюдження тексту у відео. Для даного зображення модель DynamiCrafter спочатку реалізує перетворювач запитів, який проектує зображення в простір представлення насиченого контексту, вирівняний за текстом, полегшуючи відеомодель перетравлювати вміст зображення сумісним чином. Проте модель DynamiCrafter все ще намагається зберегти деякі візуальні деталі в отриманих відео. Ця проблема вирішується моделлю DynamiCrafter шляхом передачі повного зображення в модель дифузії шляхом об’єднання зображення з початковими шумами, отже, доповнюючи модель більш точним зображенням. інформації. 

Ця стаття має на меті детально висвітлити фреймворк DynamiCrafter, і ми досліджуємо механізм, методологію, архітектуру фреймворку разом із його порівнянням із сучасними фреймворками створення зображень і відео. Тож почнемо. 

DynamiCrafter: анімація зображень відкритого домену

Анімація нерухомого зображення часто створює привабливий візуальний досвід для аудиторії, оскільки вона ніби оживляє нерухоме зображення. Протягом багатьох років численні фреймворки досліджували різні методи анімації нерухомих зображень. Початкові фреймворки анімації реалізували підходи, засновані на фізичному моделюванні, які зосереджувалися на моделюванні руху конкретних об’єктів. Однак через незалежне моделювання кожної категорії об’єктів ці підходи не були ані ефективними, ані мали можливість узагальнення. Щоб відтворити більш реалістичні рухи, з’явилися методи на основі еталонних зображень, які передають інформацію про рух або зовнішній вигляд із еталонних сигналів, таких як відео, у процес синтезу. Хоча підходи, засновані на еталонах, дали кращі результати з кращою часовою узгодженістю порівняно з підходами, заснованими на моделюванні, вони потребували додаткових вказівок, які обмежували їх практичне застосування. 

Останніми роками більшість фреймворків анімації зосереджені в основному на анімації природних сцен зі стохастичними, предметно-залежними або коливальними рухами. Хоча підхід, реалізований цими фреймворками, працює до певної міри, результати, які генерують ці фреймворки, не є задовільними, і є значне місце для вдосконалення. Чудові результати, досягнуті генеративними моделями «Текст у відео» за останні кілька років, надихнули розробників фреймворку DynamiCrafter використовувати потужні генеративні можливості моделей «Текст у відео» для анімації зображень. 

Ключовою основою структури DynamiCrafter є включення умовного зображення в спробі керувати процесом створення відео Моделі дифузії тексту у відео. Однак кінцева мета анімації зображень все ще залишається нетривіальною, оскільки анімація зображень вимагає збереження деталей, а також розуміння візуальних контекстів, необхідних для створення динаміки. Однак мультимодальні контрольовані моделі розповсюдження відео, такі як VideoComposer, намагалися увімкнути створення відео за допомогою візуальних інструкцій із зображення. Однак ці підходи не підходять для анімації зображень, оскільки вони або призводять до різких часових змін, або до низької візуальної відповідності вхідному зображенню через їхні менш комплексні механізми введення зображення. Щоб подолати цю перешкоду, платформа DyaniCrafter пропонує двопотоковий підхід, що складається з візуальних детальних інструкцій і вирівняного текстового представлення контексту. Підхід до введення подвійного потоку дозволяє структурі DynamiCrafter гарантувати, що модель розповсюдження відео синтезує динамічний вміст із збереженням деталей у взаємодоповнюючий спосіб. 

Для певного зображення фреймворк DynamiCrafter спочатку проектує зображення в простір представлення контексту з вирівняним текстом за допомогою спеціально розробленої мережі навчання контексту. Точніше кажучи, простір представлення контексту складається з перетворювача запитів, який можна вивчати, щоб сприяти його адаптації до моделей розповсюдження, і попередньо навченого кодувальника зображень CLIP для вилучення елементів зображення, вирівняного за текстом. Потім модель використовує розширені контекстні функції за допомогою шарів перехресної уваги, а модель використовує стробований синтез, щоб поєднати ці текстові функції з шарами перехресної уваги. Однак цей підхід замінює вивчені представлення контексту візуальними деталями, вирівняними за текстом, що полегшує семантичне розуміння контексту зображення, дозволяючи синтезувати розумну та яскраву динаміку. Крім того, намагаючись доповнити додаткові візуальні деталі, фреймворк об’єднує повне зображення з початковим шумом у модель дифузії. Як наслідок, підхід подвійного впровадження, реалізований фреймворком DynamiCrafter, гарантує візуальну відповідність, а також правдоподібний динамічний вміст вхідному зображенню. 

Дифузійні моделі або DM продемонстрували надзвичайну продуктивність і генеративну майстерність у створенні T2I або Text to Image. Щоб відтворити успіх моделей T2I для створення відео, пропонується VDM або Video Diffusion Models, які використовують факторизовану просторово-часову архітектуру U-New у просторі пікселів для моделювання відео з низькою роздільною здатністю. Перенесення знань із фреймворків T2I до фреймворків T2V допоможе зменшити витрати на навчання. Незважаючи на те, що моделі VDM або Video Diffusion Models можуть створювати відео високої якості, вони приймають лише текстові підказки як єдине семантичне керівництво, яке може не відображати справжніх намірів користувача або бути розпливчастим. Однак результати більшості моделей VDM рідко відповідають вхідному зображенню та страждають від проблеми нереалістичної тимчасової зміни. Підхід DynamiCrafter побудовано на моделях розповсюдження відео з текстовими умовами, які використовують свій багатий динамічний попередній для анімації відкритих зображень. Це робиться шляхом включення індивідуальних конструкцій для кращого семантичного розуміння та відповідності вхідному зображенню. 

DynamiCrafter: метод і архітектура

Для заданого нерухомого зображення структура DyanmiCrafter намагається анімувати зображення у відео тобто створити короткий відеокліп. Відеокліп успадковує візуальний вміст із зображення та демонструє природну динаміку. Однак існує ймовірність того, що зображення може з’явитися в довільному місці результуючої послідовності кадрів. Поява зображення в довільному місці є особливою проблемою, яка спостерігається в задачах генерації відео з умовами зображення з високими вимогами до візуальної відповідності. Фреймворк DynamiCrafter долає цю проблему, використовуючи генеративні пріоритети попередньо навчених моделей дифузії відео. 

Динаміка зображення від Video Diffusion Prior

Як правило, відомі моделі розповсюдження тексту у відкритому домені для відображення динамічного візуального вмісту, змодельованого кондиціонуванням текстових описів. Щоб анімувати нерухоме зображення за допомогою генерації тексту у відео, фреймворки повинні спочатку всебічно ввести візуальну інформацію в процес генерації відео. Крім того, для динамічного синтезу модель T2V повинна переварювати зображення для розуміння контексту, а також мати можливість зберігати візуальні деталі у згенерованих відео. 

Представлення контексту з вирівнюванням тексту

Щоб керувати створенням відео з контекстом зображення, структура DynamiCrafter намагається спроектувати зображення у вирівняний простір для вбудовування, що дозволяє відеомоделі використовувати інформацію про зображення сумісним способом. Після цього фреймворк DynamiCrafter використовує кодувальник зображень для вилучення характеристик зображення з вхідного зображення, оскільки вбудовані тексти генеруються за допомогою попередньо навченого кодувальника тексту CLIP. Тепер, незважаючи на те, що глобальні семантичні маркери кодувальника зображень CLIP узгоджені з підписами до зображень, він головним чином представляє візуальний вміст на семантичному рівні, тому не вдається захопити повний обсяг зображення. Фреймворк DynamiCrafter реалізує повні візуальні маркери з останнього рівня кодувальника CLIP, щоб отримати більш повну інформацію, оскільки ці візуальні маркери демонструють високу точність у завданнях створення умовного зображення. Крім того, фреймворк використовує вбудовування контексту та тексту для взаємодії з проміжними функціями U-Net за допомогою подвійних рівнів перехресної уваги. Конструкція цього компонента сприяє здатності моделі поглинати умови зображення залежно від шару. Крім того, оскільки проміжні шари архітектури U-Net більше асоціюються з позами або формами об’єктів, очікується, що особливості зображення переважно впливатимуть на зовнішній вигляд відео, особливо тому, що два кінцеві шари більше пов’язані із зовнішнім виглядом. 

Візуальне детальне керівництво

Фреймворк DyanmiCrafter використовує багатоінформативне представлення контексту, яке дозволяє моделі розповсюдження відео у своїй архітектурі створювати відео, які дуже схожі на вхідне зображення. Однак, як показано на наведеному нижче зображенні, створений вміст може відображати деякі розбіжності через обмежені можливості попередньо навченого кодувальника CLIP щодо повного збереження вхідної інформації, оскільки він розроблений для узгодження мови та візуальних функцій. 

Для покращення візуальної відповідності фреймворк DynamiCrafter пропонує надати моделі розповсюдження відео додаткові візуальні деталі, витягнуті з вхідного зображення. Щоб досягти цього, модель DyanmiCrafter об’єднує умовне зображення з початковим шумом для кожного кадру та передає їх компоненту U-Net для зменшення шуму як керівництво. 

Парадигма навчання

Фреймворк DynamiCrafter інтегрує умовне зображення через два взаємодоповнюючі потоки, які відіграють важливу роль у детальному керівництві та контролі контексту. Щоб полегшити це, модель DynamiCrafter використовує триетапний процес навчання

  1. На першому кроці модель навчає мережу представлення контексту зображення. 
  2. На другому кроці модель адаптує мережу представлення контексту зображення до моделі Text to Video. 
  3. На третьому й останньому кроці модель точно налаштовує мережу представлення контексту зображення спільно з компонентом Visual Detail Guidance. 

Щоб адаптувати інформацію про зображення для сумісності з моделлю Text-to-Video (T2V), фреймворк DynamiCrafter пропонує розробити мережу представлення контексту, P, призначену для захоплення вирівняних за текстом візуальних деталей із даного зображення. Визнаючи, що P вимагає багатьох кроків оптимізації для конвергенції, підхід фреймворку передбачає його початкове навчання за допомогою простішої моделі Text-to-Image (T2I). Ця стратегія дозволяє мережі представлення контексту зосередитися на вивченні контексту зображення перед інтеграцією його з моделлю T2V шляхом спільного навчання з P і просторовими шарами, на відміну від часових шарів моделі T2V. 

Щоб забезпечити сумісність з T2V, структура DyanmiCrafter поєднує вхідне зображення з кадровим шумом, переходячи до точного налаштування просторових шарів P і моделі візуальної дискримінації (VDM). Цей метод вибрано для підтримки цілісності існуючих часових даних моделі T2V без несприятливих наслідків щільного злиття зображень, яке може погіршити продуктивність і відхилитися від нашої основної мети. Більше того, структура використовує стратегію випадкового вибору відеокадру як умови зображення для досягнення двох цілей: (i) уникнути розробки мережею передбачуваного шаблону, який безпосередньо пов’язує об’єднане зображення з певним розташуванням кадру, та (ii) щоб заохочувати більш адаптивне представлення контексту, запобігаючи наданню занадто жорсткої інформації для будь-якого конкретного кадру. 

DynamiCrafter : експерименти та результати

Фреймворк DynamiCrafter спочатку навчає мережу представлення контексту та шари перехресної уваги зображення на Stable Diffusion. Потім каркас замінює Стабільна дифузія компонент із VideoCrafter і додатково налаштовує мережу представлення контексту та просторові шари для адаптації та конкатенації зображень. Під час висновку структура використовує вибірку DDIM із вказівками без класифікаторів із кількома умовами. Крім того, щоб оцінити часову когерентність і якість відео, синтезованих як у часовій, так і в просторовій областях, структура повідомляє FVD або відеовідстань Фреше, а також KVD або кернельну відеовідстань, і оцінює продуктивність нульового кадру для всіх методів. тестів MSR-VTT і UCF-101. Щоб дослідити перцептивну відповідність між згенерованими результатами та вхідним зображенням, структура вводить PIC або Perceptual Input Conformity і приймає перцептивну метрику відстані DreamSim як функцію відстані. 

На наступному малюнку показано візуальне порівняння створеного анімаційного вмісту з різними стилями та вмістом. 

Як можна помітити, серед усіх різних методів фреймворк DynamiCrafter добре дотримується умов вхідного зображення та генерує тимчасово когерентні відео. У наведеній нижче таблиці наведено статистичні дані користувацького дослідження за участю 49 учасників щодо коефіцієнта переваги для часової когерентності (TC) і якості руху (MC), а також коефіцієнта вибору для візуальної відповідності вхідному зображенню. (IC). Як можна помітити, фреймворк DynamiCrafter здатний значно перевершити існуючі методи. 

На наступному малюнку показано результати, досягнуті за допомогою методу двопотокової ін’єкції та парадигми навчання. 

Заключні думки

У цій статті ми говорили про DynamiCrafter, спробу подолати поточні обмеження моделей анімації зображень і розширити їхню застосовність до загальних сценаріїв із зображеннями відкритого світу. Інфраструктура DynamiCrafter намагається синтезувати динамічний вміст для відкритих зображень, перетворюючи їх на анімаційні відео. Ключова ідея DynamiCrafter полягає в тому, щоб включити зображення як орієнтир у генеративний процес у спробі використати рух перед уже існуючими моделями розповсюдження тексту у відео. Для даного зображення модель DynamiCrafter спочатку реалізує перетворювач запитів, який проектує зображення в простір представлення насиченого контексту, вирівняний за текстом, полегшуючи відеомодель перетравлювати вміст зображення сумісним чином. Проте модель DynamiCrafter все ще намагається зберегти деякі візуальні деталі в отриманих відео. Ця проблема вирішується моделлю DynamiCrafter шляхом передачі повного зображення в модель дифузії шляхом об’єднання зображення з початковими шумами, отже, доповнюючи модель більш точним зображенням. інформації. 

«За фахом інженер, душею — письменник». Кунал є технічним письменником, який глибоко любить і розуміє штучний інтелект і машинне навчання, відданий справі спрощення складних концепцій у цих сферах за допомогою своєї цікавої та інформативної документації.