Искусственный интеллект
Согласованное редактирование видеоконтента AI с помощью ввода текста

В то время как профессиональное сообщество VFX заинтриговано (а иногда и немного напугано) новыми инновациями в области синтеза изображений и видео, отсутствие временной непрерывности в большинстве проектов по редактированию видео на основе ИИ относит многие из этих усилий к «психоделической» сфере, с мерцающий и быстро меняющийся текстуры и структуры, непоследовательные эффекты и своего рода грубые технологические споры, которые напоминают фотохимическая эра визуальных эффектов.
Если вы хотите изменить в видео что-то очень конкретное, не попадающее в область дипфейков (т. е. навязать новую личность существующим кадрам с изображением человека), большинство существующих решений работают с довольно жесткими ограничениями, с точки зрения точность, необходимая для создания визуальных эффектов производственного качества.
Единственным исключением является продолжающаяся работа свободной ассоциации ученых из Института науки Вейцмана. В 2021 году трое его исследователей совместно с Adobe объявил новый метод декомпозиции видео и наложения согласованного внутреннего отображения — многоуровневый нейронный атлас – в композитный вывод с альфа-каналами и временным связным выводом.

Из статьи 2021 года: оценка полного прохождения дороги в исходном клипе редактируется с помощью нейронной сети таким образом, который традиционно требует тщательного ротоскопирования и сопоставления движений. Поскольку элементы фона и переднего плана обрабатываются разными сетями, маски действительно «автоматические». Источник: https://layered-neural-atlases.github.io/
Хотя он попадает где-то в царство, покрытое оптический поток в конвейерах VFX многоуровневый атлас не имеет прямого эквивалента в традиционных рабочих процессах CGI, поскольку он по существу представляет собой «временную текстурную карту», которую можно создавать и редактировать с помощью традиционных программных методов. На втором изображении на приведенной выше иллюстрации фон дорожного покрытия представлен (образно) на протяжении всего времени воспроизведения видео. Изменение этого базового изображения (третье изображение слева на приведенной выше иллюстрации) приводит к постоянному изменению фона.
Изображения «развернутого» атласа выше представляют собой только отдельные интерпретированные кадры; последовательные изменения в любом целевом видеокадре сопоставляются с исходным кадром, сохраняя все необходимые окклюзии и другие необходимые эффекты сцены, такие как тени или отражения.
Базовая архитектура использует многослойный персептрон (MLP) для представления развернутых атласов, альфа-каналов и отображений, все из которых оптимизированы совместно и полностью в 2D-пространстве, что устраняет необходимость в предварительном знании 3D-геометрических точек, карт глубины и т. д. в стиле NeRF. и подобные атрибуты стиля CGI.
Справочный атлас отдельных объектов также может быть надежно изменен:

Последовательное изменение движущегося объекта в соответствии со структурой 2021. Источник: https://www.youtube.com/watch?v=aQhakPFC4oQ
По сути, система 2021 сочетает в себе выравнивание геометрии, перемещение совпадений, отображение, повторное текстурирование и ротоскопирование в дискретный нейронный процесс.
Text2Live
Три первоначальных исследователя документа 2021 года вместе с исследованиями NVIDIA являются одними из авторов новой инновации в технике, которая сочетает в себе мощь многоуровневых атласов с технологией CLIP с текстовым управлением, которая снова стала популярной на этой неделе. OpenAI освободить каркаса ДАЛЛ-Э 2.
Новая архитектура под названием Text2Live, позволяет конечному пользователю вносить локализованные изменения в фактический видеоконтент на основе текстовых подсказок:

Два примера редактирования переднего плана. Для лучшего разрешения и четкости посмотрите исходные видео на https://text2live.github.io/sm/pages/video_results_atlases.html
Text2Live предлагает семантическое и строго локализованное редактирование без использования предварительно обученного генератора, используя внутреннюю базу данных, специфичную для затронутого видеоклипа.

Преобразования фона и переднего плана (объекта) в Text2Live. Источник: https://text2live.github.io/sm/pages/video_results_atlases.html
Этот метод не требует предоставленных пользователем масок, таких как типичный рабочий процесс ротоскопирования или зеленого экрана, а скорее оценивает карты релевантности с помощью метода начальной загрузки, основанного на Исследование 2021 от Школы компьютерных наук Тель-Авивского университета и Facebook AI Research (FAIR).

Выходные карты, сгенерированные с помощью общей модели внимания на основе преобразователя.
Новый статье называется Text2LIVE: текстовое редактирование многослойных изображений и видео. К первоначальной команде 2021 года присоединились Омер Бар-Таль из Weizmann и Йони Кастен из NVIDIA Research.
Архитектура
Text2Live включает в себя генератор, обученный единственному входному изображению и целевым текстовым подсказкам. Модель Contrastive Language-Image Pretraining (CLIP), предварительно обученная на 400 миллионах пар текст/изображение, предоставляет связанный визуальный материал, на основе которого можно интерпретировать преобразования, вводимые пользователем.
Генератор принимает входное изображение (кадр) и выводит целевой слой RGBA, содержащий информацию о цвете и непрозрачности. Затем этот слой комбинируется с исходным материалом с дополнительными дополнениями.

Альфа-канал в сгенерированном слое RGBA обеспечивает внутреннюю функцию композитинга без обращения к традиционным конвейерам с использованием программного обеспечения на основе пикселей, такого как After Effects.
Обучаясь на внутренних изображениях, относящихся к целевому видео или изображению, Text2Live избегает требования либо инвертировать входное изображение в скрытое пространство генеративно-состязательной сети (GAN), практика, которая в настоящее время далеко не достаточно точно для требований к редактированию производственного видео, или же используйте модель Diffusion, которая является более точной и настраиваемой, но не может сохранить верность к целевому видео.

Различные изменения преобразования на основе подсказок из Text2Live.
Предыдущие подходы либо использовали методы распространения or на основе оптического потока подходит. Поскольку эти методы в той или иной степени основаны на кадрах, ни один из них не способен создать согласованный временной вид изменений в выходном видео. Вместо этого многослойный нейронный атлас предоставляет единое пространство для внесения изменений, которое затем может оставаться верным внесенным изменениям по мере продвижения видео.

Никаких «шипящих» или случайных галлюцинаций: Text2Live получает интерпретацию текстовой подсказки «ржавый джип» и применяет ее один раз к многослойному нейронному атласу автомобиля в видео вместо того, чтобы перезапускать преобразование для каждого интерпретируемого кадра.
Text2Live ближе к прорыву в композитинге на основе ИИ, а не к плодородному пространству преобразования текста в изображение, которое привлекло так много внимания на этой неделе с выпуском второе поколение платформы OpenAI DALL-E (которая может включать целевые изображения как часть преобразующего процесса, но остается ограниченной в своей способности напрямую вмешиваться в фотографию, в дополнение к цензурирование исходных обучающих данных и наложение фильтров, предназначенный для предотвращения злоупотреблений со стороны пользователей).
Скорее, Text2Live позволяет конечному пользователю извлекать атлас, а затем редактировать его за один проход в среде с высоким уровнем контроля пикселей, такой как Photoshop (и, возможно, даже в более абстрактных средах синтеза изображений, таких как НеРФ), прежде чем отправить его обратно в правильно ориентированную среду, которая, тем не менее, не полагается на 3D-оценку или ретроспективные подходы, основанные на компьютерной графике.
Кроме того, Text2Live, как утверждают авторы, является первой сопоставимой структурой, обеспечивающей маскирование и компоновку полностью автоматическим способом.
Впервые опубликовано 7 апреля 2022 г.