Угол Андерсона

Улучшение генеративного видео ИИ за счет перемешивания кадров во время обучения

опубликованный 21 марта 2025

Мартин Андерсон

Adobe Firefly, различные подсказки и правки.

Новая статья, опубликованная на этой неделе в Arxiv, рассматривает проблему, с которой сталкивается любой, кто принял Видео Хуньюань or Ван 2.1 Генераторы видео на основе ИИ к настоящему моменту уже столкнулись с: временные аберрации, где генеративный процесс имеет тенденцию резко ускорять, объединять, опускать или иным образом портить важные моменты в сгенерированном видео:

Нажмите, чтобы играть. Некоторые временные сбои, которые становятся знакомыми пользователям новой волны генеративных видеосистем, выделены в новой статье. Справа — улучшающий эффект нового подхода FluxFlow. Источник: https://haroldchen19.github.io/FluxFlow/

В приведенном выше видео показаны отрывки из тестовых видеороликов (предупреждаем: довольно хаотично) Сайт проекта для статьи. Мы видим, как несколько все более известных проблем решаются методом авторов (на фото справа на видео), который фактически является предварительная обработка набора данных метод применим к любой генеративной видеоархитектуре.

В первом примере, где изображены «двое детей, играющих с мячом», сгенерированном CogVideoX, мы видим (слева в видеокомпиляции выше и в конкретном примере ниже), что поколение аборигенов быстро перескакивает через несколько важных микродвижений, ускоряя активность детей до уровня «мультяшного» звука. Напротив, тот же набор данных и метод дают лучшие результаты с новой техникой предварительной обработки, названной FluxFlow (справа от изображения на видео ниже):

Нажмите, чтобы играть.

Во втором примере (с использованием НОВА-0.6Б) мы видим, что центральное движение с участием кошки было каким-то образом искажено или существенно недооценено на этапе обучения, до такой степени, что генеративная система становится «парализованной» и неспособной заставить субъект двигаться:

Нажмите, чтобы играть.

Этот синдром, при котором движение или объект «застревает», является одной из наиболее часто упоминаемых проблем HV и Wan в различных группах по синтезу изображений и видео.

Некоторые из этих проблем связаны с проблемами субтитров видео в исходном наборе данных, которые мы посмотрел на этой неделе; однако авторы новой работы вместо этого сосредотачивают свои усилия на временных качествах обучающих данных и приводят убедительный аргумент о том, что рассмотрение проблем с этой точки зрения может дать полезные результаты.

Как упоминалось в предыдущей статье о субтитрах видео, некоторые спортивный особенно сложно выделить ключевые моменты, а это означает, что критические события (например, слэм-данк) не получают необходимого им внимания во время тренировки:

Нажмите, чтобы играть.

В приведенном выше примере генеративная система не знает, как перейти к следующему этапу движения, и нелогично переходит от одной позы к другой, изменяя при этом положение и геометрию игрока.

Это крупные движения, которые теряются в процессе тренировок, но не менее уязвимы и гораздо более мелкие, но важные движения, такие как взмахи крыльев бабочки:

Нажмите, чтобы играть.

В отличие от слэм-данка, взмах крыльев не является «редким», а скорее постоянным и монотонным событием. Однако его последовательность теряется в процессе выборки, поскольку движение настолько быстрое, что его очень трудно установить по времени.

Это не особенно новые проблемы, но теперь, когда мощные генеративные видеомодели стали доступны энтузиастам для локальной установки и бесплатной генерации, им уделяется все больше внимания.

Сообщества Reddit и Discord изначально рассматривали эти проблемы как «связанные с пользователем». Это понятное предположение, поскольку рассматриваемые системы очень новые и минимально документированы. Поэтому различные эксперты предлагали различные (и не всегда эффективные) средства для устранения некоторых из описанных здесь сбоев, например, изменение настроек в различных компонентах различных типов рабочих процессов ComfyUI для Hunyuan Video (HV) и Wan 2.1.

В некоторых случаях вместо того, чтобы производить быстрое движение, и HV, и Wan будут производить медленной Движение. Предложения от Reddit и ChatGPT (который в основном использует Reddit) включают изменение количества кадров в запрашиваемом поколении или радикально снизить частоту кадров*.

Все это отчаянные меры; выясняется, что мы пока не знаем точной причины или точного решения этих проблем; очевидно, что изменение настроек генерации для их решения (особенно если это ухудшает качество вывода, например, при слишком низкой частоте кадров в секунду) — это лишь короткий путь, и приятно видеть, что исследовательская среда так быстро решает возникающие проблемы.

Итак, помимо рассмотрения на этой неделе того, как субтитры влияют на обучение, давайте рассмотрим новую статью о временной регуляризации и о том, какие улучшения она может предложить для современной генеративной видеосцены.

Основная идея довольно проста и незначительна, и это ничуть не ухудшает ее; тем не менее, статья несколько раздута, чтобы достичь предписанных восьми страниц, и мы будем пропускать эти раздутия по мере необходимости.

Рыба в нативной генерации фреймворка VideoCrafter статична, в то время как измененная FluxFlow версия фиксирует необходимые изменения. Источник: https://arxiv.org/pdf/2503.15417

Рыба в нативной генерации фреймворка VideoCrafter статична, тогда как измененная FluxFlow версия фиксирует необходимые изменения. Источник: https://arxiv.org/pdf/2503.15417

Территория новая работа называется Временная регуляризация делает ваш видеогенератор мощнееи подготовлен восемью исследователями из Everlyn AI, Гонконгского университета науки и технологий (HKUST), Университета Центральной Флориды (UCF) и Университета Гонконга (HKU).

(на момент написания статьи возникли некоторые проблемы с сопроводительным материалом к статье) Сайт проекта)

FluxFlow

Центральная идея, лежащая в основе FluxFlow, новая схема предварительной подготовки авторов, призвана преодолеть широко распространенные проблемы мерцание и временная непоследовательность путем перетасовки блоков и групп блоков во временных порядках кадров по мере того, как исходные данные подвергаются процессу обучения:

Основная идея FluxFlow заключается в перемещении блоков и групп блоков в неожиданные и невременные позиции в качестве формы дополнения данных.

В статье объясняется:

«[Артефакты] возникают из-за фундаментального ограничения: несмотря на использование крупномасштабных наборов данных, современные модели часто полагаются на упрощенные временные закономерности в обучающих данных (например, фиксированные направления ходьбы или повторяющиеся переходы между кадрами), а не на изучение разнообразной и правдоподобной временной динамики.

«Эта проблема еще больше усугубляется отсутствием явного временного дополнения во время обучения, что делает модели склонными к переобучению ложным временным корреляциям (например, «кадр № 5 должен следовать за № 4»), а не к обобщению для различных сценариев движения».

Авторы объясняют, что большинство моделей создания видео по-прежнему слишком многое заимствуют из изображение синтез, фокусирующийся на пространственной точности, в то время как временная ось в значительной степени игнорируется. Хотя такие методы, как обрезка, переворот и дрожание цвета, помогли улучшить качество статического изображения, они не являются адекватными решениями при применении к видео, где иллюзия движения зависит от последовательных переходов между кадрами.

В результате возникают такие проблемы, как мерцающие текстуры, резкие переходы между кадрами, а также повторяющиеся или слишком упрощенные модели движения.

Нажмите, чтобы играть.

В статье утверждается, что хотя некоторые модели, включая Стабильная диффузия видео и ЛамаГен – компенсировать это все более сложными архитектурами или инженерными ограничениями, это влечет за собой затраты с точки зрения вычислений и гибкости.

Поскольку временное дополнение данных уже доказало свою полезность в видео понимание задачи (в таких фреймворках, как FineCliper, СеФАР и SVFormer) авторы утверждают, что удивительно, что эта тактика редко применяется в генеративном контексте.

Деструктивное поведение

Исследователи утверждают, что простые, структурированные нарушения временного порядка во время обучения помогают моделям лучше обобщать реалистичные, разнообразные движения:

«Обучаясь на неупорядоченных последовательностях, генератор учится восстанавливать правдоподобные траектории, эффективно регулируя временную энтропию. FLUXFLOW устраняет разрыв между дискриминативным и генеративным временным увеличением, предлагая готовое к использованию решение для улучшения временно правдоподобного видеогенерирования, одновременно улучшая общее [качество].

«В отличие от существующих методов, которые вносят архитектурные изменения или полагаются на постобработку, FLUXFLOW работает непосредственно на уровне данных, внося контролируемые временные возмущения во время обучения».

Нажмите, чтобы играть.

Возмущения на уровне кадров, утверждают авторы, вносят мелкозернистые нарушения в последовательность. Этот тип нарушения не отличается от маскировка аугментации, где разделы данных случайным образом блокируются, чтобы предотвратить систему переобучения на основе данных и поощрения лучшего обобщение.

Tests

Хотя основная идея здесь не выливается в полноценную статью из-за ее простоты, тем не менее, есть тестовый раздел, который мы можем рассмотреть.

Авторы протестировали четыре запроса, связанных с улучшением временного качества при сохранении пространственной точности; способностью изучать динамику движения/оптического потока; сохранением временного качества при генерации экстратермов; и чувствительностью к ключевым гиперпараметрам.

Исследователи применили FluxFlow к трем генеративным архитектурам: на основе U-Net, в форме ВидеоCrafter2; DIT-основанный на CogVideoX-2B; и AR- на основе препарата НОВА-0.6Б.

Для справедливого сравнения они доработали базовые модели архитектур с помощью FluxFlow в качестве дополнительной фазы обучения, например эпоха, На OpenVidHD-0.4M набор данных.

Модели оценивались по двум популярным эталонным показателям: УЦФ-101и VBench.

Для UCF, Расстояние видео Фреше (ФВД) и Начальная оценка Были использованы метрики (IS). Для VBench исследователи сосредоточились на временном качестве, покадровом качестве и общем качестве.

Количественная первоначальная оценка FluxFlow-Frame.

Количественная начальная оценка FluxFlow-Frame. «+ Original» обозначает обучение без FLUXFLOW, а «+ Num × 1» показывает различные конфигурации FluxFlow-Frame. Лучшие результаты затенены; вторые по качеству подчеркнуты для каждой модели.

Комментируя эти результаты, авторы заявляют:

«Оба метода — FLUXFLOW-FRAME и FLUXFLOW-BLOCK — значительно улучшают временное качество, о чем свидетельствуют показатели в таблицах 1, 2 (т. е. FVD, Subject, Flicker, Motion и Dynamic) и качественные результаты на [изображении ниже].

«Например, движение дрейфующей машины в VC2, кошки, гоняющейся за своим хвостом в NOVA, и серфера, катающегося на волне в CVX, становятся заметно более плавными с FLUXFLOW. Важно, что эти временные улучшения достигаются без ущерба для пространственной точности, о чем свидетельствуют четкие детали брызг воды, дымовых следов и текстур волн, а также пространственные и общие метрики точности».

Ниже мы приводим выборку из качественных результатов, на которые ссылаются авторы (полные результаты и лучшее разрешение см. в оригинальной статье):

Выборка из качественных результатов.

В статье предполагается, что хотя и возмущения на уровне кадров, и возмущения на уровне блоков улучшают временное качество, методы на уровне кадров, как правило, работают лучше. Это объясняется их более мелкой гранулярностью, что позволяет выполнять более точные временные корректировки. Возмущения на уровне блоков, напротив, могут вносить шум из-за тесно связанных пространственных и временных шаблонов внутри блоков, что снижает их эффективность.

Заключение

Эта статья, наряду с Bytedance-Tsinghua сотрудничество в области субтитров опубликованный на этой неделе, ясно дал мне понять, что очевидные недостатки нового поколения моделей генеративного видео могут быть вызваны не ошибками пользователей, институциональными просчетами или ограничениями финансирования, а скорее направленностью исследований, которые, как и следовало ожидать, отдали приоритет более насущным проблемам, таким как временная согласованность и последовательность, а не этим менее важным проблемам.

До недавнего времени результаты работы свободно доступных и загружаемых систем генеративного видео были настолько скомпрометированы, что сообщество энтузиастов не предприняло никаких серьезных усилий для решения проблем (не в последнюю очередь потому, что проблемы были фундаментальными и не поддавались тривиальному решению).

Теперь, когда мы намного приблизились к давно предсказанной эре фотореалистичного видео, создаваемого исключительно искусственным интеллектом, очевидно, что как исследовательское, так и любительское сообщества проявляют более глубокий и продуктивный интерес к решению оставшихся проблем; если повезет, эти препятствия не окажутся непреодолимыми.

* Собственная частота кадров Вана составляет жалкие 16 кадров в секунду, и в ответ на мои собственные проблемы я отмечаю, что на форумах предлагалось снизить частоту кадров до 12 кадров в секунду, а затем использовать FlowFrames или другие системы повторной обработки на основе искусственного интеллекта для интерполяции промежутков между таким редким количеством кадров.

Впервые опубликовано Пятница, 21 марта 2025 г.

Как NVIDIA Isaac GR00T N1 меняет представление о человекоподобной робототехнике

Не пропустите

Почему открытая сеть находится под угрозой в эпоху роботов с искусственным интеллектом

Мартин Андерсон

Автор статей о машинном обучении, специалист по синтезу человеческих изображений. Бывший руководитель исследовательского контента в Metaphysic.ai.
Личный сайт: Мартинандерсон.ай
Контактное лицо: [электронная почта защищена]
Твиттер: @manders_ai