Искусственный интеллект

CameraCtrl: включение управления камерой для преобразования текста в видео

опубликованный 23 мая 2024

Кунал Кеджривал

Последние платформы, пытающиеся преобразовать текст в видео или T2V, используют модели диффузии для повышения стабильности процесса обучения, а модель Video Diffusion, одна из пионеров в системах генерации текста в видео, расширяет архитектуру диффузии 2D-изображений в попытке приспособить видеоданные и совместно обучать модель на видео и изображении с нуля. Опираясь на то же самое и чтобы реализовать мощный предварительно обученный генератор изображений, такой как Stable Diffusion, недавние работы расширяют свою 2D-архитектуру путем чередования временных слоев между предварительно обученными 2D-слоями и точной настройки новой модели на невидимых больших наборах данных. Несмотря на свой подход, модели распространения текста в видео сталкиваются с серьезной проблемой, поскольку неоднозначность исключительно используемых текстовых описаний для создания образца видео часто приводит к тому, что модель преобразования текста в видео имеет более слабый контроль над генерацией. Чтобы преодолеть это ограничение, некоторые модели обеспечивают расширенное управление, в то время как другие работают с точными сигналами для точного управления сценой или движениями человека в синтезированных видеороликах. С другой стороны, существует несколько фреймворков преобразования текста в видео, которые используют изображения в качестве управляющего сигнала для видеогенератора, что приводит либо к точному моделированию временных отношений, либо к высокому качеству видео.

Можно с уверенностью сказать, что управляемость играет решающую роль в задачах создания изображений и видео, поскольку она позволяет пользователям создавать желаемый контент. Однако существующие структуры часто упускают из виду точный контроль позы камеры, который служит кинематографическим языком, позволяющим лучше передать более глубокие нюансы повествования модели. Чтобы устранить текущие ограничения управляемости, в этой статье мы поговорим о CameraCtrl, новой идее, которая пытается обеспечить точное управление позой камеры для моделей преобразования текста в видео. После точной параметризации траектории камеры модель обучает модуль камеры Plug and Play на модели преобразования текста в видео, оставляя другие компоненты нетронутыми. Кроме того, модель CameraCtrl также проводит всестороннее исследование влияния различных наборов данных и предполагает, что видео со схожим внешним видом и различным распределением камер могут улучшить общую управляемость и возможности обобщения модели. Эксперименты, проведенные для анализа производительности модели CameraCtrl в реальных задачах, показывают эффективность платформы в достижении точного и адаптивного к предметной области управления камерой, прокладывая путь вперед для создания настраиваемого и динамичного видео на основе положения камеры и текстовых вводов.

Целью этой статьи является более глубокое освещение платформы CameraCtrl, и мы исследуем механизм, методологию, архитектуру платформы, а также ее сравнение с современными платформами. Итак, давайте начнем.

CameraCtrl: управление камерой для генерации T2V.

Недавняя разработка и развитие моделей диффузии значительно продвинули создание видео с текстовым сопровождением за последние годы и произвели революцию в рабочих процессах дизайна контента. Управляемость играет важную роль в практических приложениях для создания видео, поскольку позволяет пользователям настраивать генерируемые результаты в соответствии со своими потребностями и требованиями. Благодаря высокой управляемости модель способна повысить реалистичность, качество и удобство использования созданных ею видеороликов, и хотя ввод текста и изображений обычно используется моделями для повышения общей управляемости, им часто не хватает точного контроля над движением и контентом. . Чтобы преодолеть это ограничение, некоторые платформы предложили использовать управляющие сигналы, такие как скелет позы, оптический поток и другие мультимодальные сигналы, чтобы обеспечить более точное управление для управления созданием видео. Еще одно ограничение, с которым сталкиваются существующие платформы, заключается в том, что им не хватает точного контроля над стимуляцией или корректировкой точек камеры при создании видео, поскольку возможность управления камерой имеет решающее значение, поскольку она не только повышает реалистичность создаваемых видео, но и позволяет настраивать точки обзора. повышает вовлеченность пользователей — функцию, которая необходима при разработке игр, дополненной и виртуальной реальности. Кроме того, умелое управление движениями камеры позволяет создателям подчеркнуть взаимоотношения персонажей, подчеркнуть эмоции и направить внимание целевой аудитории, что имеет большое значение в кино- и рекламной индустрии.

Чтобы справиться и преодолеть эти ограничения, используется платформа CameraCtrl, обучаемый и точный модуль камеры с функцией Plug and Play с возможностью управления точками обзора камеры для создания видео. Однако интеграция настроенной камеры в существующий конвейер модели преобразования текста в видео — это задача, которую легче сказать, чем сделать, поэтому платформа CameraCtrl вынуждена искать способы эффективного представления и внедрения камеры в архитектуру модели. В то же время платформа CameraCtrl использует встраивания plucker в качестве основной формы параметров камеры, и причина выбора встраивания plucker может быть связана с их способностью кодировать геометрические описания информации о положении камеры. Кроме того, чтобы обеспечить обобщаемость и применимость постобучения модели CameraCtrl, в модель введена модель управления камерой, которая принимает в качестве входных данных только встраивания щипцов. Чтобы обеспечить эффективное обучение модели управления камерой, платформа и ее разработчики проводят комплексное исследование, чтобы выяснить, как различные данные обучения влияют на структуру, от синтетических до реалистичных данных. Результаты экспериментов показывают, что реализация данных с различным распределением поз камеры и внешним видом, аналогичным исходной базовой модели, позволяет достичь наилучшего компромисса между управляемостью и обобщаемостью. Разработчики платформы CameraCtrl реализовали эту модель поверх платформы AnimateDiff, что обеспечивает точный контроль создания видео в различных персонализированных версиях, демонстрируя ее универсальность и полезность в широком диапазоне контекстов создания видео.

Платформа AnimateDiff использует эффективную ЛоРА подход к точной настройке для получения весов модели для разных типов выстрелов. Платформа Direct-a-video предлагает реализовать средство внедрения камер для управления положением камер в процессе генерации видео, но оно зависит только от трех параметров камеры, ограничивая возможности управления камерой большинством основных типов. С другой стороны, платформы, в том числе MotionCtrl, создают контроллер движения, который принимает более трех входных параметров и способен создавать видео с более сложными позами камеры. Однако необходимость точной настройки частей сгенерированных видеороликов затрудняет обобщение модели. Кроме того, некоторые платформы включают в процесс дополнительные сигналы структурного контроля, такие как карты глубины, для повышения управляемости генерации изображений и текста. Обычно модель подает эти управляющие сигналы в дополнительный кодер, а затем вводит сигналы в генератор с помощью различных операций.

CameraCtrl: архитектура модели

Прежде чем мы сможем взглянуть на архитектуру и парадигму обучения кодера камеры, нам жизненно важно понять различные представления камеры. Как правило, поза камеры относится к внутренним и внешним параметрам, и один из простых вариантов использования условия видеогенератора для позы камеры — это подача в генератор необработанных значений, касающихся параметров камеры. Однако реализация такого подхода может не улучшить точное управление камерой по нескольким причинам. Во-первых, хотя матрица вращения ограничена ортогональностью, вектор перемещения обычно не имеет ограничений по величине и приводит к несоответствию в процессе обучения, что может повлиять на согласованность управления. Во-вторых, прямое использование необработанных параметров камеры может затруднить сопоставление модели этих значений с пикселями изображения, что приведет к снижению контроля над визуальными деталями. Чтобы избежать этих ограничений, платформа CameraCtrl выбирает встраивания щипцов в качестве представления позы камеры, поскольку встраивания щипцов имеют геометрические представления каждого пикселя видеокадра и могут предоставить более подробное описание информации о позе камеры.

Управляемость камерой в видеогенераторах

Поскольку модель параметризирует траекторию камеры в последовательность встраивания щипцов, т. е. в пространственные карты, у модели есть возможность использовать модель кодировщика для извлечения характеристик камеры, а затем объединять функции камеры в видеогенераторы. Похожий на текст к изображению адаптер, модель CameraCtrl представляет собой кодировщик камеры, разработанный специально для видео. Кодер камеры включает временную модель внимания после каждого сверточного блока, что позволяет ему фиксировать временные отношения поз камеры на протяжении всего видеоклипа. Как показано на следующем изображении, кодер камеры принимает только входные данные для встраивания щипцов и обеспечивает многомасштабные функции. После получения многомасштабных функций камеры модель CameraCtrl стремится плавно интегрировать эти функции в архитектуру U-net модели преобразования текста в видео и определяет слои, которые следует использовать для эффективного включения информации о камере. Более того, поскольку большинство существующих платформ используют архитектуру, подобную U-Net, которая содержит как временной, так и пространственный уровни внимания, модель CameraCtrl вводит представления камеры в блок временного внимания, решение, которое подкреплено способностью временного внимания. слои для фиксации временных отношений, согласующиеся с присущим случайным и последовательным характером траектории камеры со слоями пространственного внимания, изображающими отдельные кадры.

Изучение распределения камер

Обучение компонента кодировщика камеры в рамках CameraCtrl на видеогенераторе требует большого количества хорошо размеченных и аннотированных видеороликов, при этом модель способна получать траекторию камеры с использованием структуры на основе движения или подхода SfM. Платформа CameraCtrl пытается выбрать набор данных, внешний вид которого точно соответствует обучающим данным базового текста и видеомодели, и обеспечить как можно более широкое распределение поз камеры. Образцы в наборе данных, созданном с помощью виртуальных движков, демонстрируют разнообразное распределение камер, поскольку разработчики имеют возможность контролировать параметры камеры на этапе рендеринга, хотя в этом случае наблюдается разрыв в распределении по сравнению с наборами данных, содержащими образцы из реального мира. При работе с наборами данных, содержащими образцы реального мира, распределение камер обычно узкое, и в таких случаях фреймворку необходимо найти баланс между разнообразием различных траекторий камеры и сложностью отдельной траектории камеры. Сложность траектории отдельной камеры гарантирует, что модель научится управлять сложными траекториями в процессе обучения, а разнообразие различных траекторий камеры гарантирует, что модель не будет подстраиваться под определенные фиксированные шаблоны. Кроме того, для мониторинга процесса обучения кодировщика камеры платформа CameraCtrl предлагает метрику выравнивания камеры для измерения качества управления камерой путем количественной оценки ошибки между траекторией камеры сгенерированных образцов и входными условиями камеры.

CameraCtrl: Эксперименты и результаты

Платформа CameraCtrl реализует модель AnimateDiff в качестве базовой модели преобразования текста в видео, и основная причина этого заключается в том, что стратегия обучения модели AnimateDiff позволяет интегрировать ее модуль движения с базовыми моделями преобразования текста в изображение или LoRA текста в изображение для размещения видео. поколения в разных жанрах и областях. Модель использует оптимизатор Адама для обучения модели с постоянной скоростью обучения 1e-4. Кроме того, чтобы гарантировать, что модель не влияет на возможности генерации видео оригинала модель преобразования текста в видео В отрицательном случае платформа CameraCtrl использует метрику FID или начального расстояния Фреше для оценки качества внешнего вида видео и сравнивает качество сгенерированного видео до и после включения модуля камеры.

Для оценки производительности платформа CameraCtrl сравнивается с двумя существующими платформами управления камерой: MotionCtrl и AnimateDiff. Однако, поскольку платформа AnimateDiff поддерживает только восемь основных траекторий камеры, сравнение между CameraCtrl и AnimateDiff ограничено тремя основными траекториями. С другой стороны, для сравнения с MotionCtrl платформа выбирает более тысячи случайных траекторий камеры из существующего набора данных в дополнение к базовым траекториям камеры, генерирует видео с использованием этих траекторий и оценивает их с помощью метрик TransErr и RotErr.

Как можно заметить, платформа CameraCtrl превосходит платформу AnimateDiff по базовой траектории и обеспечивает лучшие результаты по сравнению с платформой MotionCtrl по сложной метрике траектории.

Кроме того, на следующем рисунке показано влияние архитектуры кодера камеры на общее качество сгенерированных выборок. В строках от a до строки d представлены результаты, полученные с помощью кодера камеры, реализованного в архитектуре: ControlNet, ControlNet с временным контролем, адаптер T2I и адаптер T2I с временным контролем соответственно.

На следующем рисунке первые два вытесняют видео, созданное с использованием комбинации кодировщика RGB платформы SparseCtrl и метода, используемого в платформе CameraCtrl.

Заключение

В этой статье мы говорили о CameraCtrl, новой идее, которая пытается обеспечить точный контроль позы камеры для моделей преобразования текста в видео. После точной параметризации траектории камеры модель обучает модуль камеры Plug and Play на модели преобразования текста в видео, оставляя другие компоненты нетронутыми. Кроме того, модель CameraCtrl также проводит всестороннее исследование влияния различных наборов данных и предполагает, что видео со схожим внешним видом и различным распределением камер могут улучшить общую управляемость и возможности обобщения модели. Эксперименты, проведенные для анализа производительности модели CameraCtrl в реальных задачах, показывают эффективность платформы в достижении точного и адаптивного к предметной области управления камерой, прокладывая путь вперед для создания настраиваемого и динамичного видео на основе положения камеры и текстовых вводов.

Кунал Кеджривал

«Инженер по профессии, писатель душой». Кунал — технический писатель с глубокой любовью и пониманием ИИ и машинного обучения, стремящийся упростить сложные концепции в этих областях с помощью своей увлекательной и информативной документации.