Моделі та платформи ШІ

Стабільна відеодифузія: Латентні відеодифузійні моделі для великих наборів даних

Опубліковано 30 листопада 2023

Оновлено 22 травня 2026

Kunal Kejriwal

Генеративний ІІ є рушійною силою в спільноті ІІ вже деякий час, і досягнення в галузі генеративного моделювання зображень, особливо з використанням дифузійних моделей, допомогли генеративним відеомоделям значно просунутися не тільки в дослідженні, але й у реальних застосуваннях. Традиційно генеративні відеомоделі тренуються з нуля або частково чи повністю дофінуєтуються з попередньо тренованих моделей зображень з додатковими тимчасовими шарами на змішаних наборах даних зображень і відео.

Розробляючи досягнення в генеративних відеомоделях, у цій статті ми поговоримо про Стабільну відеодифузію, латентну відеодифузійну модель, здатну генерувати високоякісний, сучасний контент зображення до відео та текст до відео. Ми поговоримо про те, як латентні дифузійні моделі, треновані для синтезу 2D-зображень, покращили можливості та ефективність генеративних відеомоделей додаванням тимчасових шарів та дофінуєтуванням моделей на малих наборах даних, що складаються з високоякісних відео. Ми глибше розглянемо архітектуру та роботу Стабільної відеодифузії та оцінимо її продуктивність на різних метриках та порівняємо з поточними сучасними рамками для генерації відео. Тому почнімо.

Стабільна відеодифузія та генеративні відеомоделі: Введення

Дякуючи майже необмеженому потенціалу, Генеративний ІІ є основною темою дослідження для практиків ІІ та МЛ вже деякий час, і останні кілька років бачили швидкий прогрес як у плані ефективності, так і продуктивності генеративних моделей зображень. Дослідження з генеративних моделей зображень дозволили дослідникам і розробникам зробити прогрес у генеративних відеомоделях, що призвело до покращення практичності та реальних застосувань. Однак більшість досліджень, спрямованих на покращення можливостей генеративних відеомоделей, зосереджуються в основному на точному розташуванні тимчасових і просторових шарів, приділяючи мало уваги вивченню впливу вибору правильних даних на результат цих генеративних моделей.

Дякуючи прогресу, досягнутому генеративними моделями зображень, дослідники спостерігали, що вплив розподілу тренувальних даних на продуктивність генеративних моделей є суттєвим і недискусійним. Крім того, дослідники також спостерігали, що попереднє тренування генеративної моделі зображення на великому і різноманітному наборі даних, а потім дофінуєтування її на меншому наборі даних з кращою якістю, часто призводить до суттєвого покращення продуктивності. Традиційно генеративні відеомоделі реалізують знання, отримані з успішних генеративних моделей зображень, і дослідники ще не вивчили вплив даних і стратегій тренування. Стабільна відеодифузія є спробою покращити можливості генеративних відеомоделей, займаючись раніше не дослідженими територіями з особливим акцентом на виборі даних.

Останні генеративні відеомоделі покладаються на дифузійні моделі та підхід умовної текстової або зображенняної генерації для синтезу декількох послідовних кадрів відео чи зображення. Дифузійні моделі відомі своєю здатністю вивчати, як поступово очищувати зразок з нормального розподілу шляхом реалізації ітеративного процесу уточнення, і вони демонструють бажані результати на високоякісному відео та текстовій генерації зображень. Використовуючи той же принцип у своєму ядрі, Стабільна відеодифузія тренує латентну відеодифузійну модель на своєму відеодаті разом з використанням генеративних суперницьких мереж (GAN) та автoregresивних моделей до певної міри.

Стабільна відеодифузія слідує унікальній стратегії, яку ніколи не реалізовували жодні генеративні відеомоделі, оскільки вона покладається на латентні відеодифузійні базові моделі з фіксованою архітектурою та фіксованою стратегією тренування, а потім оцінює вплив кураторських даних. Стабільна відеодифузія має на меті зробити наступні внески у сфері генеративного відеомоделювання.

Представити систематичний і ефективний робочий процес кураторських даних у спробі перетворити велику колекцію некураторських відеозразків на високоякісний набір даних, який потім використовується генеративними відеомоделями.
Тренувати сучасні моделі зображення до відео та текст до відео, які перевершують існуючі рамки.
Провести експерименти, специфічні для області, для вивчення 3D-розуміння та сильної передумови руху моделі.

Тепер Стабільна відеодифузія реалізує знання з латентних відеодифузійних моделей та технік кураторських даних у своєму основному фундаменті.

Латентні відеодифузійні моделі

Латентні відеодифузійні моделі чи Video-LDM слідують підходу тренування основної генеративної моделі у латентному просторі з зменшеною обчислювальною складністю, і більшість Video-LDM реалізують попередньо треновану текстову модель зображення, поєднану з додаванням тимчасових змішувальних шарів у попередньо тренованій архітектурі. Як результат, більшість латентних відеодифузійних моделей тренують лише тимчасові шари або зовсім не тренують, на відміну від Стабільної відеодифузії, яка дофінуєтує всю рамку. Крім того, для синтезу текстових даних до відео Стабільна відеодифузія безпосередньо умовно залежить від текстового запиту, і результати свідчать про те, що отримана рамка може бути легко дофінуєтована у багатоглядну синтез або модель зображення до відео.

Кураторські дані

Кураторські дані є суттєвим компонентом не лише Стабільної відеодифузії, але й усіх генеративних моделей, оскільки важливо попередньо тренувати великі моделі на великомасштабних наборах даних для підвищення продуктивності у різних завданнях, включаючи мовну модель, дискримінативну генерацію зображень тексту та багато іншого. Кураторські дані були успішно реалізовані на генеративних моделях зображень за допомогою можливостей ефективних мовно-зображень представлень, хоча такі обговорення ніколи не зосереджувалися на розробці генеративних відеомоделей. Є кілька перешкод, з якими розробники стикаються при кураторських даних для генеративних відеомоделей, і для подолання цих проблем Стабільна відеодифузія реалізує триетапну стратегію тренування, що призводить до покращених результатів та суттєвого підвищення продуктивності.

Кураторські дані для високоякісної відеосинтези

Як обговорювалося у попередньому розділі, Стабільна відеодифузія реалізує триетапну стратегію тренування, що призводить до покращених результатів та суттєвого підвищення продуктивності. Етап I – це тренування зображення, яке використовує 2D-текстову дифузійну модель зображення. Етап II – це тренування відео, під час якого рамка тренується на великому обсязі відеоданих. Нарешті, у нас є Етап III для фіне-тюнінгу відео, під час якого модель уточнюється на малим підмножині високоякісних та високорозширених відео.

Однак до того, як Стабільна відеодифузія реалізує ці три етапи, важливо обробити та анотувати дані, оскільки вони служать основою для етапу II чи етапу попереднього тренування відео, і грають критичну роль у забезпеченні оптимальної продуктивності. Для забезпечення максимальної ефективності рамка спочатку реалізує каскадний трубопровід виявлення розрізів на трьох різних рівнях кадрів у секунду, і необхідність цього трубопроводу демонструється на наступному зображенні.

Далі Стабільна відеодифузія анотує кожен відеокліп за допомогою трьох різних синтетичних методів капціонування. Наступна таблиця порівнює набори даних, використані у Стабільній дифузійній рамці до та після процесу фільтрації.

Етап I: Тренування зображення

Перший етап у триетапному трубопроводі, реалізованому у Стабільній відеодифузії, – це тренування зображення, і для досягнення цього початкова рамка Стабільної відеодифузії заснована на попередньо тренованій дифузійній моделі зображення, зокрема моделі Стабільна дифузія 2.1, яка забезпечує її сильнішою візуальною репрезентацією.

Етап II: Тренування відео

Другий етап – це етап попереднього тренування відео, і він будується на знаннях про те, що використання даних кураторських у багатомодальних генеративних моделях зображень часто призводить до кращих результатів та підвищення ефективності разом з потужною дискримінативною генерацією зображень. Однак через відсутність таких же потужних готових репрезентацій для фільтрації нежаданих зразків для генеративних відеомоделей Стабільна відеодифузія покладається на людські уподобання як вхідні сигнали для створення відповідного набору даних, використаного для попереднього тренування рамки. Наступне зображення демонструє позитивний ефект попереднього тренування рамки на кураторському наборі даних, який допомагає підвищити загальну продуктивність для попереднього тренування відео на менших наборах даних.

Щоб бути більш конкретним, рамка використовує різні методи для кураторських підмножин латентної відеодифузії та розглядає рейтинг моделей LVD, тренованих на цих наборах даних. Крім того, Стабільна відеодифузійна рамка також виявила, що використання кураторських наборів даних для тренування рамки допомагає підвищити продуктивність рамки та дифузійних моделей загалом. Крім того, стратегія кураторських даних також працює на більших, більш актуальних та високопрактичних наборах даних. Наступне зображення демонструє позитивний ефект попереднього тренування рамки на кураторському наборі даних, який допомагає підвищити загальну продуктивність для попереднього тренування відео на менших наборах даних.

Етап III: Фіне-тюнінг високої якості

До етапу II Стабільна відеодифузійна рамка зосереджується на покращенні продуктивності до попереднього тренування відео, а на третьому етапі рамка зосереджується на оптимізації або подальшому підвищенні продуктивності рамки після фіне-тюнінгу високої якості відео, і того, як перехід від етапу II до етапу III здійснюється у рамці. На етапі III рамка використовує тренувальні техніки, запозичені з латентних моделей дифузії зображень, і збільшує розширення тренувальних прикладів.

Результати та висновки

Прийшов час розглянути, як Стабільна відеодифузійна рамка працює на реальних завданнях, і як вона порівнюється з поточними сучасними рамками. Стабільна відеодифузійна рамка спочатку використовує оптимальний підхід до даних для тренування базової моделі, а потім проводить фіне-тюнінг для генерації декількох сучасних моделей, кожна з яких виконує певне завдання.

Вище зображення представляє високоякісні зразки зображення до відео, згенеровані рамкою, тоді як наступне зображення демонструє здатність рамки генерувати високоякісні зразки тексту до відео.

Попередньо тренована базова модель

Як обговорювалося раніше, Стабільна відеодифузійна модель побудована на основі рамки Стабільної дифузії 2.1, і на основі останніх висновків було важливо для розробників прийняти графік шуму та збільшити шум, щоб отримати зображення з кращим розширенням під час тренування моделей дифузії зображень. Завдяки цьому підходу Стабільна відеодифузійна базова модель вивчає потужні рухові репрезентації, і в процесі перевершує базові моделі для генерації відео з тексту у нульовому режимі, і результати відображені в наступній таблиці.

Інтерполяція кадрів та багатоглядна генерація

Стабільна відеодифузійна рамка дофінуєтує модель зображення до відео на багатоглядних наборах даних для отримання декількох нових виглядів об’єкта, і ця модель відома як SVD-MV або Стабільна відеодифузія – Багатоглядна модель. Оригінальна модель SVD дофінуєтується за допомогою двох наборів даних таким чином, що рамка вхідного сигналу один зображення повертає послідовність багатоглядних зображень як свій вихід.

Як можна побачити на наступних зображеннях, Стабільна відеодифузійна багатоглядна рамка демонструє високопродуктивну продуктивність, порівнянну з сучасними рамками Scratch Multi View, і результати явно демонструють здатність SVD-MV використовувати знання, отримані з оригінальної рамки SVD, для багатоглядної генерації зображень. Крім того, результати також свідчать про те, що виконання моделі протягом відносно меншої кількості ітерацій допомагає досягти оптимальних результатів, як і у випадку з більшою частиною моделей, дофінуєтованих з рамки SVD.

На вищому зображенні метрики вказані на лівій стороні, і як можна побачити, Стабільна відеодифузійна багатоглядна рамка перевершує Scratch-MV і SD2.1 Multi-View рамку на приємний розрив. Друге зображення демонструє вплив кількості тренувальних ітерацій на загальну продуктивність рамки у плані Clip Score, і рамки SVD-MV демонструють стабільні результати.

Фінальні думки

У цій статті ми говорили про Стабільну відеодифузію, латентну відеодифузійну модель, здатну генерувати високоякісний, сучасний контент зображення до відео та текст до відео. Стабільна відеодифузія слідує унікальній стратегії, яку ніколи не реалізовували жодні генеративні відеомоделі, оскільки вона покладається на латентні відеодифузійні базові моделі з фіксованою архітектурою та фіксованою стратегією тренування, а потім оцінює вплив кураторських даних.

Ми говорили про те, як латентні дифузійні моделі, треновані для синтезу 2D-зображень, покращили можливості та ефективність генеративних відеомоделей додаванням тимчасових шарів та дофінуєтуванням моделей на малих наборах даних, що складаються з високоякісних відео. Для збору даних попереднього тренування рамка проводить дослідження масштабу та слідує систематичним практикам збору даних, і в кінцевому підсумку пропонує метод кураторських великих обсягів відеоданих та перетворення шумових відео на вхідні дані, придатні для генеративних відеомоделей.

Крім того, Стабільна відеодифузійна рамка використовує три різні етапи тренування відеомоделей, які аналізуються незалежно для оцінки їхнього впливу на продуктивність рамки. Рамка в кінцевому підсумку виводить відеорепрезентацію, достатньо потужну для дофінуєтування моделей для оптимальної відеосинтези, і результати порівнянні з сучасними моделями генерації відео, які вже використовуються.

Kunal Kejriwal

Інженер за професією, письменник серцем. Kunal є технічним письменником з глибокою любов'ю та розумінням AI і ML, присвяченим спрощенню складних концепцій у цих галузях завдяки його цікавим та інформативним документам.