Искусственный интеллект
Приготовление повествовательной последовательности для генерации длинных видео

Недавний публичный выпуск модели генеративного ИИ Hunyuan Video усилил продолжающиеся обсуждения о потенциале крупных многомодальных моделей зрения и языка однажды создать целые фильмы.
Однако, как мы наблюдаем, это очень далекая перспектива на данный момент, по нескольким причинам. Одна из них – очень короткое окно внимания большинства генераторов видео ИИ, которые борются за поддержание последовательности даже в коротком отдельном кадре, не говоря уже о серии кадров.
Другая заключается в том, что последовательные ссылки на видеоконтент (такие как исследуемые среды, которые не должны меняться случайно, если вы повторно проходим через них) можно достичь в моделях диффузии только с помощью методов настройки, таких как низкоранговая адаптация (LoRA), что ограничивает возможности базовых моделей.
Следовательно, эволюция генеративного видео, кажется, готова застыть, если не будут разработаны новые подходы к повествовательной непрерывности.
Рецепт последовательности
С учетом этого нового сотрудничества между США и Китаем предложено использовать инструктивные видеоролики по приготовлению пищи в качестве возможного шаблона для будущих систем повествовательной непрерывности.
Нажмите, чтобы воспроизвести. Система VideoAuteur проекта систематизирует анализ частей процесса приготовления, чтобы произвести тонко подписанную новую базу данных и метод оркестровки для генерации видеороликов по приготовлению пищи. Перейдите на исходный сайт для лучшего разрешения. Источник: https://videoauteur.github.io/
Названная VideoAuteur, работа предлагает двухэтапный конвейер для генерации инструктивных видеороликов по приготовлению пищи, используя согласованные состояния, сочетающие ключевые кадры и подписи, достигая лучших результатов в – признаем, – подписанном пространстве.
Страница проекта VideoAuteur также включает несколько более привлекательных видеороликов, которые используют тот же метод, такой как предложенный трейлер для (несуществующего) кроссовера Marvel/DC:
Нажмите, чтобы воспроизвести. Два супергероя из альтернативных вселенных сталкиваются в фальшивом трейлере от VideoAuteur. Перейдите на исходный сайт для лучшего разрешения.
Страница также включает аналогичные видеоролики для равно несуществующего сериала Netflix об животных и рекламного ролика Tesla.
При разработке VideoAuteur авторы экспериментировали с различными функциями потерь и другими новыми подходами. Чтобы разработать рецепт, как генерировать видеоролики по приготовлению пищи, они также курировали CookGen, самую большую базу данных, ориентированную на область приготовления пищи, в которой представлено 200 000 видеоклипов со средней продолжительностью 9,5 секунд.
В среднем 768,3 слова на видео CookGen – это наиболее подробно аннотированная база данных своего рода. Различные модели зрения/языка использовались, среди других подходов, чтобы обеспечить, что описания были как можно более подробными, актуальными и точными.
Видеоролики по приготовлению пищи были выбраны потому, что инструктивные видеоролики по приготовлению пищи имеют структурированное и недвусмысленное повествование, что делает задачу аннотации и оценки более легкой. Кроме порнографических видеороликов (которые, скорее всего, войдут в это пространство скоро), трудно придумать любой другой жанр, который был бы так же визуально и повествовательно ‘формульным’.
Авторы заявляют:
‘Наш предложенный двухэтапный автoreгрессивный конвейер, который включает длинного повествовательного директора и визуально-условную модель генерации видео, демонстрирует перспективные улучшения в семантической последовательности и визуальной точности в сгенерированных длинных повествовательных видео.
Через эксперименты на нашей базе данных мы наблюдаем улучшения в пространственной и временной согласованности по всей последовательности видео.
‘Мы надеемся, что наша работа сможет облегчить дальнейшие исследования в области генерации длинных повествовательных видео.’
Новая работа озаглавлена VideoAuteur: к генерации длинных повествовательных видео, и исходит от восьми авторов из Университета Джонса Хопкинса, ByteDance и ByteDance Seed.
Курирование базы данных
Чтобы разработать CookGen, который питает двухэтапную генеративную систему для производства видеороликов по приготовлению пищи ИИ, авторы использовали материал из YouCook и HowTo100M коллекций. Авторы сравнивают масштаб CookGen с предыдущими базами данных, ориентированными на развитие повествования в генеративном видео, такими как Flintstones dataset, Pororo мультфильм база данных, StoryGen, Tencent’s StoryStream, и VIST.

Сравнение изображений и длины текста между CookGen и ближайшими наиболее населенными подобными базами данных. Источник: https://arxiv.org/pdf/2501.06173
CookGen фокусируется на реальных повествованиях, особенно на процедурных действиях, таких как приготовление пищи, предлагая более ясные и легкие для аннотации истории по сравнению с базами данных на основе изображений комиксов. Она превышает самую большую существующую базу данных, StoryStream, с 150-кратным количеством кадров и 5-кратной плотностью текстовых описаний.
Исследователи настроили модель подписей с помощью методологии LLaVA-NeXT в качестве основы. Псевдо-метки автоматического распознавания речи (ASR), полученные для HowTo100M, использовались в качестве ‘действий’ для каждого видео, и затем уточнялись дальше с помощью больших языковых моделей (LLM).
Например, ChatGPT-4o использовался для производства базы данных подписей и был попросен сосредоточиться на взаимодействиях между субъектом и объектом (таких как руки, обрабатывающие кухонные принадлежности и пищу), атрибуты объектов и временную динамику.
Поскольку сценарии ASR, скорее всего, содержат неточности и generally ‘шум’, Пересечение над объединением (IoU) использовалось в качестве метрики для измерения того, насколько близко подписи соответствовали части видео, которую они адресовали. Авторы отмечают, что это было крайне важно для создания повествовательной последовательности.
Курированные клипы оценивались с помощью Fréchet Video Distance (FVD), которая измеряет разницу между реальными примерами и сгенерированными примерами, как с реальными ключевыми кадрами, так и без них, в результате чего получается результат:

Использование FVD для оценки расстояния между видео, сгенерированными с новыми подписями, как с использованием ключевых кадров, так и без них.
Кроме того, клипы оценивались как GPT-4o, так и шестью человеческими аннотаторами, следующими LLaVA-Hound определению ‘галлюцинации’ (т.е. способности модели изобретать вымышленный контент).
Исследователи сравнили качество подписей с Qwen2-VL-72B коллекцией, получив немного улучшенный результат.

Сравнение FVD и оценок человеческих оценщиков между Qwen2-VL-72B и коллекцией авторов.
Метод
Генеративная фаза VideoAuteur разделена между Длинным повествовательным директором (LND) и визуально-условной моделью генерации видео (VCVGM).
LND генерирует последовательность визуальных вложений или ключевых кадров, которые характеризуют повествовательный поток, подобно ‘эссенциальным моментам’. VCVGM генерирует видеоклипы на основе этих выборов.

Схема конвейера обработки VideoAuteur. Длинный повествовательный директор делает подходящие выборы, чтобы накормить модуль генерации Seed-X.
Авторы подробно обсуждают различные достоинства интерлеированного директора изображения-текста и языково-ориентированного директора ключевых кадров и приходят к выводу, что первый подход более эффективен.
Интерлеированный директор изображения-текста генерирует последовательность, чередуя токены текста и визуальные вложения, используя авторегрессивную модель для прогнозирования следующего токена на основе объединенного контекста как текста, так и изображений. Это обеспечивает плотную связь между визуальными и текстовыми данными.
Напротив, языково-ориентированный директор ключевых кадров синтезирует ключевые кадры, используя тексто-условную модель диффузии, основанную только на подписях, без включения визуальных вложений в процесс генерации.
Исследователи обнаружили, что хотя языково-ориентированный метод генерирует визуально привлекательные ключевые кадры, он лишен последовательности между кадрами, утверждая, что интерлеированный метод достигает более высоких оценок в реализме и визуальной последовательности. Они также обнаружили, что этот метод лучше учитывает реалистичный визуальный стиль через обучение, хотя иногда с некоторыми повторяющимися или шумными элементами.
Необычно, в исследовательской ветви, доминирующей в области Stable Diffusion и Flux в рабочих процессах, авторы использовали 7-байтовую многомодальную модель LLM от Tencent SEED-X для своего генеративного конвейера (хотя эта модель использует выпуск Stability.ai SDXL Stable Diffusion для ограниченной части своей архитектуры).
Авторы заявляют:
‘В отличие от классического конвейера Image-to-Video (I2V), который использует изображение в качестве начального кадра, наш подход использует [регрессированные визуальные латенты] в качестве непрерывных условий на протяжении всей [последовательности].
‘Кроме того, мы улучшаем устойчивость и качество сгенерированных видео, адаптируя модель для обработки шумных визуальных вложений, поскольку регрессированные визуальные латенты могут быть не идеальными из-за ошибок регрессии.’
Хотя типичные визуально-условные генеративные конвейеры этого типа часто используют начальные ключевые кадры в качестве начальной точки для руководства модели, VideoAuteur расширяет этот парадигму, генерируя многочастные визуальные состояния в семантически согласованном латентном пространстве, избегая потенциального предвзятости, основанной на начальном кадре.

Схема использования визуальных состояний в качестве лучшего метода условирования.
Тесты
В соответствии с методами SeedStory, исследователи используют SEED-X для применения настройки LoRA на своей повествовательной базе данных, загадочно описывая результат как ‘Sora-подобную модель’, предобученную на крупномасштабных видео/текстовых связях, и способную принимать как визуальные, так и текстовые подсказки и условия.
32 000 повествовательных видео использовались для разработки модели, с 1000 отложенными в качестве валидационных образцов. Видео были обрезаны до 448 пикселей на короткой стороне, а затем обрезаны до 448x448px.
Для обучения генерация повествования оценивалась в основном на валидационном наборе YouCook2. Набор Howto100M использовался для оценки качества данных и также для генерации изображения-видео.
Для визуально-условной потери авторы использовали диффузионную потерю из DiT и 2024 работы, основанной на Stable Diffusion.
Чтобы доказать свою точку зрения о том, что интерлеирование является лучшим подходом, авторы противопоставили VideoAuteur нескольким методам, которые полагаются исключительно на текстовый ввод: EMU-2, SEED-X, SDXL и FLUX.1-schnell (FLUX.1-s).

Учитывая глобальную подсказку, ‘Пошаговое руководство по приготовлению ма-по тофу’, интерлеированный директор генерирует действия, подписи и вложения изображений последовательно, чтобы рассказать историю. Первые два ряда показывают ключевые кадры, декодированные из пространств латентных EMU-2 и SEED-X. Эти изображения реалистичны и последовательны, но менее отполированы, чем те, которые от более продвинутых моделей, таких как SDXL и FLUX.
Авторы заявляют:
‘Языково-ориентированный подход, использующий модели текст-изображение, производит визуально привлекательные ключевые кадры, но страдает от недостатка последовательности между кадрами из-за ограниченной взаимной информации. Напротив, интерлеированный метод генерации использует языково-согласованные визуальные латенты, достигая реалистичного визуального стиля через обучение.
‘Однако он иногда генерирует изображения с повторяющимися или шумными элементами, поскольку авторегрессивная модель борется с созданием точных вложений за один проход.’
Оценка человека进一步 подтверждает утверждение авторов о лучшей производительности интерлеированного подхода, с интерлеированными методами, достигающими最高 оценок в опросе.

Сравнения подходов из человеческого исследования, проведенного для статьи.
Однако мы отмечаем, что языково-ориентированные подходы достигают лучших эстетических оценок. Авторы утверждают, однако, что это не является центральной проблемой в генерации длинных повествовательных видео.
Нажмите, чтобы воспроизвести. Сегменты, сгенерированные для видео по построению пиццы, от VideoAuteur.
Заключение
Самый популярный исследовательский поток, касающийся этой проблемы, т.е. повествовательной последовательности в генерации длинных видео, связан с отдельными изображениями. Проекты этого типа включают DreamStory, StoryDiffusion, TheaterGen и ConsiStory от NVIDIA.
В某ком смысле VideoAuteur также попадает в эту ‘статическую’ категорию, поскольку он использует начальные изображения, из которых генерируются секции клипов. Однако интерлеирование видео и семантического контента приближает процесс к практическому конвейеру.
Опубликовано впервые в четверг, 16 января 2025












