Штучний інтелект
AnimateLCM: Анімація персоналізованих дифузійних моделей
За останні кілька років дифузійні моделі досягли величезного успіху та визнання для завдань генерації зображень та відео. Особливо відеодифузійні моделі привертають значну увагу завдяки своїй здатності генерувати відео з високою узгодженістю та вірогідністю. Ці моделі генерують високоякісні відео, використовуючи ітеративний процес денойзингу в своїй архітектурі, який поступово перетворює високовимірний гаусівський шум у реальні дані.
Стабільна дифузія є однією з найбільш представницьких моделей для завдань генерації зображень, що використовує варіаційний автоенкодер (VAE) для відображення між реальним зображенням та знизованими латентними ознаками. Це дозволяє моделі зменшити витрати на генерацію, а механізм крос-аттенції в її архітектурі полегшує генерацію зображень за умовою тексту. Нещодавно стабільна дифузійна модель стала основою для декількох плагінних адаптерів для досягнення більш інноваційних та ефективних завдань генерації зображень чи відео. Однак ітеративний процес генерації, використовуваний більшістю відеодифузійних моделей, робить процес генерації зображень тривалим і відносно дорогим, обмежуючи його застосування.
У цій статті ми поговоримо про AnimateLCM, персоналізовану дифузійну модель з адаптерами, спрямовану на генерацію високоякісних відео з мінімальними кроками та обчислювальними витратами. Фреймворк AnimateLCM заснований на моделі узгодженості, яка прискорює вибірку з мінімальними кроками шляхом дистиляції попередньо тренованих моделей дифузії зображень. Крім того, успішне розширення моделі узгодженості, латентна модель узгодженості (LCM), полегшує умовну генерацію зображень. Замість проведення навчання узгодженості безпосередньо на сурових відеоданих, фреймворк AnimateLCM пропонує використовувати стратегію дистиляції, що відокремлює дистиляцію рухових та зображеньних попередніх знань, що дозволяє моделі підвищити візуальну якість генерованих даних та покращити ефективність тренування одночасно.
Ця стаття має на меті висвітлити фреймворк AnimateLCM у глибину. Ми досліджуємо механізм, методологію та архітектуру фреймворка, а також його порівняння з найкращими моделями генерації зображень та відео. Тому давайте почнемо.
AnimateLCM: Анімація персоналізованих дифузійних моделей
Дифузійні моделі були основним фреймворком для завдань генерації зображень та відео завдяки їхній ефективності та можливостям у генеративних завданнях. Більшість дифузійних моделей використовують ітеративний процес денойзингу для генерації зображень, який поступово перетворює високовимірний гаусівський шум у реальні дані. Хоча цей метод дає певні результати, ітеративний процес та кількість ітерацій сповільнюють процес генерації та додають обчислювальні витрати дифузійним моделям, які значно повільніші за інші генеративні фреймворки, такі як GAN чи Генеративні суперницькі мережі.
За останні кілька років моделі узгодженості були запропоновані як альтернатива ітеративним дифузійним моделям для прискорення процесу генерації, зберігаючи при цьому обчислювальні витрати постійними. Основна особливість моделей узгодженості полягає в тому, що вони вивчають відображення узгодженості, яке підтримує самозбереження траєкторій, введених попередньо тренованими моделями дифузії.
Процес навчання моделей узгодженості дозволяє їм генерувати високоякісні зображення з мінімальними кроками та усуває необхідність обчислювально інтенсивних ітерацій. Крім того, латентна модель узгодженості, побудована на основі стабільної дифузійної моделі, може бути інтегрована у веб-інтерфейс з існуючими адаптерами для досягнення ряду додаткових функцій, таких як генерація зображень у реальному часі.
Від того, що існуючі відеодифузійні моделі дають прийнятні результати, проте прогрес все ще потрібно зробити у сфері прискорення генерації відео, що має велике значення через високі обчислювальні витрати генерації відео.
Це приводить нас до AnimateLCM, високоякісного фреймворку генерації відео, який потребує мінімальної кількості кроків для завдань генерації відео. Слідуючи за латентною моделлю узгодженості, фреймворк AnimateLCM розглядає зворотній процес дифузії як розв’язання рівняння керованого ймовірнісного потоку, і тренує модель для передбачення розв’язку таких ймовірнісних потоків безпосередньо у латентному просторі.
Однак замість проведення навчання узгодженості безпосередньо на сурових відеоданих, які вимагають високих витрат на тренування та обчислювальних ресурсів, і часто призводять до поганої якості, фреймворк AnimateLCM пропонує використовувати стратегію дистиляції, що відокремлює дистиляцію рухових та зображеньних попередніх знань.
Фреймворк AnimateLCM спочатку проводить дистиляцію узгодженості для адаптації базової моделі дифузії зображень до моделі узгодженості зображень, а потім проводить 3D-інфляцію як для моделі узгодженості зображень, так і для моделі дифузії зображень, щоб забезпечити наявність 3D-ознак. В кінцевому підсумі фреймворк AnimateLCM отримує модель узгодженості відео шляхом проведення дистиляції узгодженості на відеоданих.
Крім того, для усунення потенційної корупції ознак внаслідок процесу дифузії, фреймворк AnimateLCM пропонує використовувати стратегію ініціалізації.

Додатково, для тренування конкретних адаптерів з нуля або для кращого підлаштування публічно доступних адаптерів, фреймворк AnimateLCM пропонує ефективну стратегію прискорення для адаптерів, які не потребують тренування конкретних вчительських моделей.
Вклад фреймворка AnimateLCM можна підсумувати як: запропонований фреймворк AnimateLCM спрямований на досягнення високоякісної, швидкої та високої вірогідності генерації відео, і для цього фреймворк пропонує стратегію дистиляції, що відокремлює рухові та зображеньні попередні знання, що призводить до кращої якості генерації та підвищення ефективності тренування.
InstantID: Методологія та архітектура
У своїй основі фреймворк InstantID сильно заснований на дифузійних моделях та стратегіях прискорення вибірки. Дифузійні моделі, також відомі як моделі генерації на основі оцінки, продемонстрували видатні можливості генерації зображень.
Фреймворк InstantID побудований на основі стабільної дифузійної моделі, що дозволяє йому застосовувати відповідні поняття. Модель розглядає дискретний прямий процес дифузії як неперервний часовий варіант SDE.
Для досягнення високоякісної генерації відео з мінімальною кількістю кроків фреймворк AnimateLCM підкоряє стабільну дифузійну модель відео слідувати властивості самозбереження.

Перехід від дифузійних моделей до моделей узгодженості
Фреймворк AnimateLCM вводить свою власну адаптацію стабільної дифузійної моделі до моделі узгодженості, слідуючи за дизайном латентної моделі узгодженості.
Відокремлена узгодженість навчання
Для процесу дистиляції узгодженості розробники спостерігали, що дані, використані для тренування, сильно впливають на якість кінцевої генерації моделей узгодженості.
Відокремлена стратегія дистиляції пропонує відокремити дистиляцію рухових та зображеньних попередніх знань.

На початку тренування узгодженості попередньо треновані просторі LoRA-ваги інтегруються виключно в онлайн-модель узгодженості, залишаючи цільову модель узгодженості без вставки.
Вчительська адаптація
Стабільні дифузійні моделі та плагінні адаптери часто використовуються разом.

AnimateLCM: Експерименти та результати
Фреймворк AnimateLCM використовує стабільну дифузійну модель v1-5 як базову модель та реалізує розв’язувач ODE для тренування.
Якість результатів
Наступна фігура демонструє результати чотирикрокового методу генерації, реалізованого фреймворком AnimateLCM, для завдань текст-відео, зображення-відео та контрольованої генерації відео.

Як можна спостерігати, результати, отримані кожним з них, є задовільними, а згенеровані результати демонструють здатність фреймворка AnimateLCM слідувати властивості узгодженості навіть з різними кроками висновку, зберігаючи подібний рух та стиль.


Кількісні результати
Наступна фігура ілюструє кількісні результати та порівняння фреймворка AnimateLCM з методами DDIM та DPM++.

Як можна спостерігати, фреймворк AnimateLCM перевершує існуючі методи на значну міру, особливо у режимі низьких кроків, що варіюється від 1 до 4 кроків.
Фінальні думки
У цій статті ми говорили про AnimateLCM, персоналізовану дифузійну модель з адаптерами, спрямовану на генерацію високоякісних відео з мінімальними кроками та обчислювальними витратами.












