Штучний інтелект

Приготування оповідальної консистентності для генерації довгих відео

Published January 16, 2025

Updated April 3, 2026

Martin Anderson

ChatGPt 4o: 'an image with a width of 1792px and a height of 1024px. It should depict an orthographic view of an AI factory where rows of white-coated computer analysts are seated in front of PCs, and on the other side of their section is a conveyer belt with multiple stages of a recipe for a cake. Three video cameras are situated equidistant across the conveyer belt, aimed at the food items.'

Недавній публічний реліз моделі генерації відео Hunyuan інтенсифікував тривалі дискусії про потенціал великих багатомодальних моделей бачення та мови створити повністю фільми.

Однак, як ми спостерігали, це дуже віддалена перспектива на даний момент, з кількох причин. Одна з них полягає в тому, що дуже коротке вікно уваги більшості генераторів відео штучного інтелекту, які борються за підтримання консистентності навіть у короткій одній кадрі, не кажучи вже про серію кадрів.

Інша полягає в тому, що послідовні посилання на вміст відео (наприклад, досліджувані середовища, які не повинні змінюватися випадково, якщо ви повторно проходите через них) можуть бути досягнуті лише в моделях дифузії за допомогою технік налаштування, таких як низькорозрядна адаптація (LoRA), що обмежує можливості моделей-основ.

Отже, еволюція генеративного відео, як здається, зазнає застою, якщо не будуть розроблені нові підходи до оповідальної безперервності.

Рецепт для безперервності

З урахуванням цього, нове співробітництво між США та Китаєм запропонувало використання інструктивних відеороликів з приготовлення їжі як можливого шаблону для майбутніх систем оповідальної безперервності.

Натисніть, щоб відтворити. Система проекту VideoAuteur систематизує аналіз частин процесу приготування їжі, щоб створити новий датасет з тонкими підписами та метод оркестрування для генерації відеороликів з приготовлення їжі. Див. джерельний сайт для кращої роздільності. Джерело: https://videoauteur.github.io/

Названа VideoAuteur, ця робота пропонує двостадійний трубопровід для генерації інструктивних відеороликів з приготовлення їжі, використовуючи узгоджені стани, що поєднують ключові кадри та підписи, досягнувши найкращих результатів у – зізнаємося, – недооціненому просторі.

Сторінка проекту VideoAuteur також містить ряд досить привабливих відеороликів, які використовують ту ж техніку, наприклад, запропонований трейлер для (неіснуючого) кросовера Marvel/DC:

Натисніть, щоб відтворити. Два супергерої з альтернативних всесвітів зустрічаються у фальшивому трейлері від VideoAuteur. Див. джерельний сайт для кращої роздільності.

На сторінці також представлені подібні промо-відеоролики для аналогічного неіснуючого серіалу Netflix про тварин та реклами автомобіля Tesla.

Під час розробки VideoAuteur автори експериментували з різними функціями втрат та іншими новими підходами. Для розробки рецепта генерації інструктивних відеороликів вони також створили CookGen, найбільший датасет, орієнтований на область приготування їжі, що містить 200 000 відеокліпів із середньою тривалістю 9,5 секунд.

У середньому 768,3 слова на відео, CookGen є найбільш розширеним датасетом свого типу. Різні моделі бачення/мови були використані, серед інших підходів, для забезпечення того, щоб описи були якнайдетальніші, актуальними та точними.

Відеоролики з приготування їжі були обрані тому, що інструктивні відеоролики з приготування мають структуровану та незаперечну оповідь, що робить анотацію та оцінку легшою задачею. Окрім відеороликів для дорослих (ймовірно, вони скоро з’являться в цьому просторі), важко уявити інший жанр, який був би візуально та оповідально “формульним”.

Автори заявляють:

‘Наш запропонований двостадійний автoregresивний трубопровід, який включає довгу оповідальну директрису та візуально-умову генерацію відео, демонструє перспективні поліпшення семантичної консистентності та візуальної вірогідності у згенерованих довгих оповідальних відео.

Через експерименти на нашому датасеті, ми спостерігаємо поліпшення просторової та часової когерентності у відеопослідовностях.

‘Ми сподіваємося, що наша робота зможе сприяти подальшим дослідженням у генерації довгих оповідальних відео.’

Нова робота називається VideoAuteur: До генерації довгих оповідальних відео, і походять від восьми авторів з університету Джона Хопкінса, ByteDance та ByteDance Seed.

Кураторство датасету

Для розробки CookGen, який живить двостадійну систему генерації відеороликів з приготування їжі штучним інтелектом, автори використали матеріал з колекцій YouCook та HowTo100M. Автори порівнюють масштаб CookGen з попередніми датасетами, орієнтованими на розвиток оповіді у генерації відео, такими як датасет Flintstones, мультиплікаційний датасет Pororo, StoryGen, StoryStream від Tencent та VIST.

Порівняння зображень та текстової довжини між CookGen та найближчими найбільш населеними аналогічними датасетами. Джерело: https://arxiv.org/pdf/2501.06173

CookGen фокусується на реальних оповідях, особливо на процедурних діях, таких як приготування їжі, пропонуючи ясніші та легші для анотації історії порівняно з датасетами на основі зображень коміксів. Він перевершує найбільший існуючий датасет StoryStream, з 150-кратним більшим кільком зображень та 5-кратним густишою текстовою анотацією.

Дослідники дофінували модель підписів, використовуючи методологію LLaVA-NeXT як базу. Псевдо-етикети автоматичного розпізнавання мови (ASR), отримані для HowTo100M, були використані як “дії” для кожного відео, а потім уточнені далі великими мовними моделями (LLM).

Наприклад, ChatGPT-4o був використаний для створення датасету підписів, і йому було доручено зосередитися на взаємодії суб’єкта-об’єкта (наприклад, руки, що обробляють кухонні прилади та їжу), атрибутах об’єктів та часових динаміках.

Оскільки сценарії ASR, ймовірно, містять неточності та загалом “шумні”, було використано перехоплення над об’єднанням (IoU) як метрику для вимірювання того, наскільки підписи відповідали розділу відео, який вони адресували. Автори зазначають, що це було важливим для створення оповідальної консистентності.

Відібрані кліпи були оцінені за допомогою відстані Fréchet для відео (FVD), яка вимірює розбіжність між реальними прикладами (дійсним світом) та згенерованими прикладами, як з ключовими кадрами, так і без них, що призвело до результату:

Використання FVD для оцінки відстані між відео, згенерованими з новими підписами, як з використанням ключових кадрів, захоплених з зразкових відео.

Крім того, кліпи були оцінені GPT-4o та шістьма людськими анотаторами, слідуючи визначенню “галюцинації” (тобто здатності моделі вигадувати вигаданий контент) LLaVA-Hound.

Дослідники порівняли якість підписів з колекцією Qwen2-VL-72B, отримавши трохи покращений результат.

Порівняння оцінок FVD та людської оцінки між Qwen2-VL-72B та колекцією авторів.

Метод

Генеративна фаза VideoAuteur розділена між довгою оповідною директрисою (LND) та візуально-умовою моделлю генерації відео (VCVGM).

LND генерує послідовність візуальних вкладень або ключових кадрів, які характеризують оповідальну течію, подібну до “есенційних висвітлень”. VCVGM генерує відеокліпи на основі цих виборів.

Схема трубопроводу обробки VideoAuteur. Довга оповідна директриса робить відповідні вибори для підгодування генеративного модуля Seed-X.

Автори обговорюють різноманітні переваги інтерлеївної моделі зображення-текст та мовно-орієнтованої директриси ключових кадрів, і висновують, що перший підхід є більш ефективним.

Інтерлеївна модель директриси генерує послідовність, чергуючи текстові токени та візуальні вкладення, використовуючи автoregresивну модель для передбачення наступного токена на основі спільного контексту тексту та зображень. Це забезпечує тісну відповідність між візуальними та текстовими елементами.

Натомість мовно-орієнтована директриса ключових кадрів синтезує ключові кадри, використовуючи текстово-умовну модель дифузії, засновану лише на підписах, без включення візуальних вкладень до процесу генерації.

Дослідники виявили, що хоча мовно-орієнтований метод генерує візуально привабливі ключові кадри, він не має консистентності між кадрами, стверджуючи, що інтерлеївний метод досягає вищого рівня реалізму та візуальної консистентності. Вони також виявили, що цей метод краще вчиться реалістичному візуальному стилю під час навчання, хоча іноді з деякими повторюваними або шумними елементами.

Незвично, у дослідницькій гілці, домінуючій за допомогою кооптовання Stable Diffusion та Flux у робочі процеси, автори використали багатомодальну мовну модель SEED-X від Tencent як основу для свого генеративного трубопроводу (хоча ця модель використовує випуск Stability.ai SDXL для обмеженої частини своєї архітектури).

Автори заявляють:

‘На відміну від класичної трубопроводу Image-to-Video (I2V), який використовує зображення як початковий кадр, наш підхід використовує [регресовані візуальні латенти] як безперервні умови на всьому протязі [послідовності].

‘Крім того, ми покращуємо стійкість та якість згенерованих відео, адаптуючи модель для обробки шумних візуальних вкладень, оскільки регресовані візуальні латенти можуть бути не ідеальними через помилки регресії.’

Хоча типові візуально-умовні генеративні трубопроводи цього типу часто використовують початкові ключові кадри як початкову точку для керівництва моделлю, VideoAuteur розширює цей парадигму, генеруючи багатокомпонентні візуальні стани у семантично-співвідносному латентному просторі, уникając потенційного зміщення, заснованого лише на “початкових кадрах”.

Схема використання візуальних станів вкладень як вищого умовного методу.

Тести

У відповідності з методами SeedStory, дослідники використовують SEED-X для застосування дофінування LoRA на своєму оповідальному датасеті, описуючи результат як “модель типу Sora”, попередньо натреновану на великомасштабних відео-текстових парах, і здатну приймати як візуальні, так і текстові промпти та умови.

32 000 оповідальних відео були використані для розробки моделі, з 1000, відкладених як валідні зразки. Відео були обрізані до 448 пікселів на короткій стороні, а потім обрізані до 448×448 пікселів.

Для навчання генерація оповіді була оцінена переважно на валідному датасеті YouCook2. Датасет Howto100M був використаний для оцінки якості даних та також для генерації зображення-відео.

Для візуальної умовної втрати автори використовували втрату дифузії з DiT та роботи 2024 року, заснованої на Stable Diffusion.

Щоб довести свою тезу про те, що інтерлеювання є вищим підходом, автори протиставили VideoAuteur кільком методам, які покладаються виключно на текстовий вхід: EMU-2, SEED-X, SDXL та FLUX.1-s.

Для глобального промпта ‘Крок за кроком: приготування мапо-тофу’, інтерлеївна директриса генерує дії, підписи та зображенні вкладення послідовно, щоб оповідати процес. Перші два ряди показують ключові кадри, декодовані з просторів латентних EMU-2 та SEED-X. Ці зображення реалістичні та консистентні, але менш полішовані, ніж ті, що отримані з просунутими моделями, такими як SDXL та FLUX[/em>

Автори заявляють:

‘Мовно-орієнтований підхід, який використовує текстово-зображенні моделі, генерує візуально привабливі ключові кадри, але страждає від відсутності консистентності між кадрами через обмежену взаємну інформацію. Натомість інтерлеївний метод генерації використовує мовно-визначені візуальні латенти, досягаючи реалістичного візуального стилю під час навчання.

‘Однак, він іноді генерує зображення з повторюваними або шумними елементами, оскільки автoregresивна модель бореться за створення точних вкладень за один прохід.’

Людська оцінка далі підтверджує тезу авторів про покращену продуктивність інтерлеївного підходу, з інтерлеївними методами, які досягають найвищих оцінок у опитуванні.

Порівняння підходів з людського дослідження, проведеного для статті.

Однак ми відзначаємо, що мовно-орієнтовані підходи досягають найкращих естетичних оцінок. Автори стверджують, однак, що це не є центральною проблемою у генерації довгих оповідальних відео.

Натисніть, щоб відтворити. Сегменти, згенеровані для відео про будівництво піци, від VideoAuteur.

Висновок

Найпопулярніший напрямок досліджень щодо цієї проблеми, тобто оповідальної консистентності у генерації довгих відео, стосується окремих зображень. Проекти цього типу включають DreamStory, StoryDiffusion, TheaterGen та ConsiStory від NVIDIA.

У певному сенсі VideoAuteur також належить до цієї “статичної” категорії, оскільки він використовує початкові зображення, з яких генеруються секції кліпів. Однак інтерлеювання відео та семантичного контенту призводить процес на крок ближче до практичного трубопроводу.

Перша публікація четверга, 16 січня 2025

Martin Anderson

Писатель про машинне навчання, домен-спеціаліст у сфері синтезу зображень людини. Колишній керівник дослідницького контенту в Metaphysic.ai.
Особистий сайт: martinanderson.ai
Контакт: [email protected]