Искусственный интеллект

DynamiCrafter: Анимация открытых изображений с помощью видеодиффузионных приоров

Опубликовано 25 марта 2024

Обновлено 22 мая 2026

Kunal Kejriwal

DynamiCrafter: Animating Open-domain Images with Video Diffusion Priors

Компьютерное зрение – одна из наиболее интересных и хорошо исследованных областей в сообществе ИИ, и несмотря на быстрое улучшение моделей компьютерного зрения, долгосрочной проблемой, которая до сих пор беспокоит разработчиков, является анимация изображений. Даже сегодня, фреймворки анимации изображений борются с конвертацией статических изображений в их соответствующие видеоэквиваленты, которые демонстрируют естественную динамику, сохраняя при этом исходный вид изображений. Традиционно, фреймворки анимации изображений фокусируются в основном на анимации естественных сцен с доменс-специфическими движениями, такими как движения человеческих волос или тела, или стохастическими динамиками, такими как жидкости и облака. Хотя этот подход работает до определенной степени, он ограничивает применимость этих фреймворков анимации к более общему визуальному контенту.

Более того, традиционные подходы к анимации изображений концентрируются в основном на синтезе колебательных и стохастических движений или на настройке для конкретных категорий объектов. Однако заметным недостатком этого подхода является то, что на эти методы наложены сильные предположения, которые в конечном итоге ограничивают их применимость, особенно в общих сценариях, таких как анимация открытых изображений. В течение последних нескольких лет, модели T2V или Text to Video продемонстрировали замечательный успех в генерации ярких и разнообразных видео, используя текстовые подсказки, и это демонстрация моделей T2V является тем, что образует основу для фреймворка DynamiCrafter.

Фреймворк DynamiCrafter – это попытка преодолеть текущие ограничения моделей анимации изображений и расширить их применимость к общим сценариям, включающим открытые изображения. Фреймворк DynamiCrafter пытается синтезировать динамический контент для открытых изображений, конвертируя их в анимированные видео. Ключевая идея за DynamiCrafter заключается в том, чтобы включить изображение в качестве руководства в генеративный процесс, пытаясь использовать приор движения уже существующих моделей диффузии текста в видео. Для данного изображения, модель DynamiCrafter сначала реализует запросный трансформер, который проецирует изображение в пространство богатого контекстного представления, совместимого с видеомоделью, облегчая видеомодели возможность переварить контент изображения в совместимом виде. Однако модель DynamiCrafter все еще борется с сохранением некоторых визуальных деталей в результирующих видео, проблему, которую модель DynamiCrafter преодолевает, подając полное изображение в модель диффузии, конкатенируя изображение с начальными шумами, тем самым дополняя модель более точной информацией об изображении.

Эта статья направлена на то, чтобы покрыть фреймворк DynamiCrafter в глубину, и мы исследуем механизм, методологию, архитектуру фреймворка, а также его сравнение с современными фреймворками генерации изображений и видео. Итак, давайте начнем.

DynamiCrafter: Анимация открытых изображений

Анимация статического изображения часто предлагает увлекательный визуальный опыт для аудитории, поскольку оно кажется оживляющим статическое изображение. На протяжении многих лет, многочисленные фреймворки исследовали различные методы анимации статических изображений. Первоначальные фреймворки анимации реализовывали подходы, основанные на физическом моделировании, которые фокусировались на моделировании движения конкретных объектов. Однако из-за независимого моделирования каждой категории объектов, эти подходы были неэффективными и не имели общности. Чтобы реплицировать более реалистичные движения, появились методы, основанные на ссылках, которые передавали информацию о движении или внешнем виде из ссылочных сигналов, таких как видео, в процесс синтеза. Хотя методы, основанные на ссылках, доставили лучшие результаты с лучшей временной когерентностью по сравнению с подходами, основанными на моделировании, они требовали дополнительного руководства, что ограничивало их практические применения.

В последние годы, большинство фреймворков анимации фокусируются в основном на анимации естественных сцен с стохастическими, доменс-специфическими или колебательными движениями. Хотя подход, реализованный этими фреймворками, работает до определенной степени, результаты, которые эти фреймворки генерируют, не удовлетворительны, с значительным пространством для улучшения. Замечательные результаты, достигнутые моделями Text to Video в последние годы, вдохновили разработчиков фреймворка DynamiCrafter на использование мощных генеративных возможностей моделей Text to Video для анимации изображений.

Ключевая основа фреймворка DynamiCrafter заключается в том, чтобы включить условное изображение в попытке управлять процессом генерации видео моделей диффузии текста в видео. Однако конечная цель анимации изображения остается нетривиальной, поскольку анимация изображения требует сохранения деталей, а также понимания визуальных контекстов, необходимых для создания динамики. Однако много-модальные контролируемые видео-модели диффузии, такие как VideoComposer, пытались включить видео-генерацию с визуальным руководством от изображения. Однако эти подходы не подходят для анимации изображений, поскольку они либо приводят к внезапным временным изменениям, либо к низкой визуальной конформности к входному изображению из-за их менее полных механизмов инъекции изображения. Чтобы преодолеть это препятствие, фреймворк DynamiCrafter предлагает двойной подход к инъекции, состоящий из визуального руководства деталей и текстово-выровненного контекстного представления. Двойной подход к инъекции позволяет фреймворку DynamiCrafter обеспечить, чтобы модель диффузии видео синтезировала контент, сохраняющий детали, в дополнительном виде.

Для данного изображения, фреймворк DynamiCrafter сначала проецирует изображение в пространство текстово-выровненного контекстного представления, используя специально разработанную сеть контекстного обучения. Чтобы быть более конкретным, пространство контекстного представления состоит из обучаемого запросного трансформера, чтобы еще больше способствовать его адаптации к моделям диффузии, и предварительно обученного кодировщика изображений CLIP, чтобы извлечь текстово-выровненные особенности изображения. Затем модель использует богатые контекстные особенности, используя слои кросс-аттенции, и модель использует шлюзовую фузию, чтобы объединить эти текстовые особенности с слоями кросс-аттенции. Однако этот подход обменивает выученные контекстные представления на текстово-выровненные визуальные детали, что облегчает семантическое понимание контекста изображения, позволяя разумным и ярким динамикам быть синтезированными. Кроме того, в попытке дополнить дополнительные визуальные детали, фреймворк конкатенирует полное изображение с начальными шумами в модель диффузии. В результате, двойной подход к инъекции, реализованный фреймворком DynamiCrafter, гарантирует визуальную конформность, а также правдоподобный динамический контент для входного изображения.

Двигаясь дальше, модели диффузии или DM продемонстрировали замечательную производительность и генеративную мощность в генерации изображений из текста. Чтобы реплицировать успех моделей T2I в генерации видео, предлагаются модели видео-диффузии или VDM, которые используют факторизованную архитектуру U-Net в пространстве пикселей, чтобы моделировать видео низкого разрешения. Передача знаний из фреймворков T2I в фреймворки T2V поможет уменьшить затраты на обучение. Хотя модели VDM имеют возможность генерировать высококачественные видео, они принимают только текстовые подсказки в качестве единственного семантического руководства, которое может не отражать истинные намерения пользователя или может быть неясным. Однако результаты большинства моделей VDM редко придерживаются входного изображения и страдают от нереалистичной временной вариации. Подход DynamiCrafter основан на текстово-условных видео-моделях диффузии, которые используют их богатый динамический приор для анимации открытых изображений. Он делает это, включая адаптированные конструкции для лучшего семантического понимания и конформности к входному изображению.

DynamiCrafter: Метод и Архитектура

Для данного статического изображения, фреймворк DynamiCrafter пытается анимировать изображение в видео, т.е. производить короткий видеоклип. Видеоклип наследует визуальный контент от изображения и демонстрирует естественную динамику. Однако существует возможность того, что изображение может появиться в произвольном месте результирующей последовательности кадров. Появление изображения в произвольном месте – это особый вид проблемы, наблюдаемой в задачах генерации видео, условленных изображением, с высокими требованиями к визуальной конформности. Фреймворк DynamiCrafter преодолевает эту проблему, используя генеративные приоры предварительно обученных моделей видео-диффузии.

Изображение динамики из видео-диффузионного приора

Обычно, открытые текстовые модели видео-диффузии известны тем, что демонстрируют динамический визуальный контент, условленный текстовыми описаниями. Чтобы анимировать статическое изображение с помощью генеративных приоров Text to Video, фреймворки должны сначала ввести визуальную информацию в процесс генерации видео в комплексном виде. Кроме того, для динамического синтеза, модель T2V должна переварить изображение для контекстного понимания, а также должна быть в состоянии сохранить визуальные детали в сгенерированных видео.

Текстово-выровненное контекстное представление

Чтобы руководить генерацией видео с помощью контекста изображения, фреймворк DynamiCrafter пытается спроецировать изображение в выровненное пространство вложений, позволяя видеомодели использовать информацию об изображении в совместимом виде. Следуя этому, фреймворк DynamiCrafter использует кодировщик изображений, чтобы извлечь особенности изображения из входного изображения, поскольку текстовые вложения генерируются с помощью предварительно обученного кодировщика текста CLIP. Теперь, хотя глобальные семантические токены из кодировщика изображений CLIP выровнены с подписями изображений, они в основном представляют визуальный контент на семантическом уровне, поэтому не могут захватить полный объем изображения. Фреймворк DynamiCrafter реализует полные визуальные токены из последнего слоя кодировщика CLIP, чтобы извлечь более полную информацию, поскольку эти визуальные токены демонстрируют высокую точность в задачах генерации изображений.

Визуальное руководство деталей

Фреймворк DynamiCrafter использует богатое контекстное представление, которое позволяет видео-модели в его архитектуре производить видео, которые похожи на входное изображение. Однако, как демонстрируется на следующем изображении, сгенерированный контент может демонстрировать некоторые расхождения из-за ограниченной способности предварительно обученного кодировщика CLIP сохранить информацию об изображении полностью, поскольку он был разработан для выравнивания языка и визуальных особенностей.

Чтобы улучшить визуальную конформность, фреймворк DynamiCrafter предлагает предоставить видео-модели дополнительные визуальные детали, извлеченные из входного изображения. Чтобы достичь этого, модель DynamiCrafter конкатенирует условное изображение с пер-фреймовым начальными шумами и подает их в компонент денойзинга U-Net в качестве руководства.

Парадигма обучения

Фреймворк DynamiCrafter интегрирует условное изображение через два дополнительных потока, которые играют значительную роль в руководстве деталей и контекстном контроле. Чтобы облегчить это, модель DynamiCrafter использует трехэтапный процесс обучения

На первом этапе, модель обучает сеть контекстного представления изображения.
На втором этапе, модель адаптирует сеть контекстного представления изображения к модели Text to Video.
На третьем и последнем этапе, модель дообучает сеть контекстного представления изображения совместно с компонентом визуального руководства деталей.

Чтобы адаптировать информацию об изображении для совместимости с моделью Text-to-Video (T2V), фреймворк DynamiCrafter предлагает разработать сеть контекстного представления, P, разработанную для захвата текстово-выровненных визуальных деталей из данного изображения. Признавая, что P требует многих шагов оптимизации для сходимости, подход фреймворка включает в себя первоначальное обучение его с помощью более простой модели Text-to-Image (T2I). Эта стратегия позволяет сети контекстного представления сосредоточиться на обучении контекста изображения, прежде чем интегрировать его с моделью T2V через совместное обучение с P и пространственными слоями, а не временными слоями, модели T2V.

Чтобы обеспечить совместимость с T2V, фреймворк DynamiCrafter объединяет входное изображение с пер-фреймовым шумом, а затем дообучает как P, так и пространственные слои модели VDM. Этот метод выбран для сохранения целостности существующих временных знаний модели T2V, не влияя на производительность и не отклоняясь от нашей основной цели. Кроме того, фреймворк использует стратегию случайного выбора видео-кадра в качестве условного изображения, чтобы достичь двух целей: (i) избежать развития сети предсказуемой закономерности, которая напрямую ассоциирует объединенное изображение с определенным местом кадра, и (ii) поощрить более адаптивное контекстное представление, предотвращая предоставление слишком жесткой информации для любого конкретного кадра.

DynamiCrafter: Эксперименты и результаты

Фреймворк DynamiCrafter сначала обучает сеть контекстного представления и слои кросс-аттенции на модели Stable Diffusion. Затем фреймворк заменяет компонент Stable Diffusion на VideoCrafter и дообучает сеть контекстного представления и пространственные слои для адаптации, а также с конкатенацией изображения. На этапе вывода, фреймворк использует метод DDIM с много-условным классификатором- бесплатным руководством. Кроме того, чтобы оценить временную когерентность и качество сгенерированных видео как в временной, так и в пространственной области, фреймворк сообщает о FVD или расстоянии Фричета видео, а также о KVD или ядерном расстоянии видео, и оценивает нулевую производительность на всех методах MSR-VTT и UCF-101. Чтобы исследовать перцептивную конформность между сгенерированными результатами и входным изображением, фреймворк вводит PIC или перцептивную конформность входного изображения, и принимает метрику перцептивного расстояния DreamSim в качестве функции расстояния.

Следующая фигура демонстрирует визуальное сравнение сгенерированного анимированного контента с различными стилями и контентом.

Как можно наблюдать, среди всех различных методов, фреймворк DynamiCrafter хорошо придерживается условий входного изображения и генерирует временно когерентные видео. Следующая таблица содержит статистику из пользовательского исследования с 49 участниками о предпочтении скорости для временной когерентности (T.C), качества движения (M.C), а также скорости выбора для визуальной конформности к входному изображению (I.C). Как можно наблюдать, фреймворк DynamiCrafter способен превосходить существующие методы на значительную величину.

Следующая фигура демонстрирует результаты, достигнутые с помощью двойного подхода к инъекции и парадигмы обучения.

Окончательные мысли

В этой статье мы говорили о DynamiCrafter, попытке преодолеть текущие ограничения моделей анимации изображений и расширить их применимость к общим сценариям, включающим открытые изображения. Фреймворк DynamiCrafter пытается синтезировать динамический контент для открытых изображений, конвертируя их в анимированные видео. Ключевая идея за DynamiCrafter заключается в том, чтобы включить изображение в качестве руководства в генеративный процесс, пытаясь использовать приор движения уже существующих моделей диффузии текста в видео. Для данного изображения, модель DynamiCrafter сначала реализует запросный трансформер, который проецирует изображение в пространство богатого контекстного представления, совместимого с видеомоделью, облегчая видеомодели возможность переварить контент изображения в совместимом виде. Однако модель DynamiCrafter все еще борется с сохранением некоторых визуальных деталей в результирующих видео, проблему, которую модель DynamiCrafter преодолевает, подając полное изображение в модель диффузии, конкатенируя изображение с начальными шумами, тем самым дополняя модель более точной информацией об изображении.

Kunal Kejriwal

"Инженер по профессии, писатель по сердцу". Кунал - технический писатель с глубокой любовью и пониманием ИИ и МО, посвященный упрощению сложных концепций в этих областях посредством своей увлекательной и информативной документации.