Искусственный интеллект
Удаление объектов из видео более эффективно с помощью машинного обучения

Новые исследования из Китая сообщают о результатах, соответствующих современному уровню развития – а также о впечатляющем улучшении эффективности – для новой системы видеоинпейтинга, которая может умело удалять объекты из видеозаписей.

Удаляется гарнитура планериста. Смотрите исходное видео для лучшего разрешения и больше примеров. Источник: https://www.youtube.com/watch?v=N–qC3T2wc4
Техника, называемая End-to-End framework for Flow-Guided video Inpainting (E2FGVI), также способна удалять водяные знаки и различные другие виды заслонений из видеоконтента.

E2FGVI рассчитывает прогнозы для контента, который находится за заслонениями, что позволяет удалять даже заметные и трудноудалимые водяные знаки. Источник: https://github.com/MCG-NKU/E2FGVI
(Чтобы увидеть больше примеров в лучшем разрешении, посмотрите видео)
Хотя модель, представленная в опубликованной статье, была обучена на видео размером 432px x 240px (обычно низкие размеры входных данных, ограниченные доступным пространством GPU по сравнению с оптимальными размерами пакетов и другими факторами), авторы с тех пор выпустили E2FGVI-HQ, который может обрабатывать видео любого разрешения.
Код для текущей версии доступен на GitHub, а версия HQ, выпущенная в прошлую субботу, может быть скачана с Google Drive и Baidu Disk.

Ребенок остается на картинке.
E2FGVI может обрабатывать видео 432×240 за 0,12 секунды на кадр на GPU Titan XP (12GB VRAM), и авторы сообщают, что система работает в пятнадцать раз быстрее, чем предыдущие методы, основанные на оптическом потоке.

Теннисист делает неожиданный выход.
Тестирование на стандартных наборах данных для этого подсектора исследований синтеза изображений показало, что новый метод смог превзойти своих соперников как в качественной, так и в количественной оценке.

Тесты против предыдущих подходов. Источник: https://arxiv.org/pdf/2204.02663.pdf
Что отсутствует в этой картине
Помимо очевидных применений для визуальных эффектов, высококачественная видеоинпейтинг станет ключевой определяющей особенностью новых технологий синтеза и изменения изображений на основе ИИ.
Это особенно актуально для приложений, изменяющих одежду, и других фреймворков, которые пытаются ‘сжать’ или иначе изменить сцены в изображениях и видео. В таких случаях необходимо убедительно ‘заполнить’ дополнительный фон, который открывается синтезом.

Из недавней статьи, алгоритм ‘перестройки тела’ задача состоит в том, чтобы заполнить новый фон, когда объект изменен в размере. Здесь этот недостаток представлен красной границей, которую занимал (в реальной жизни, смотрите изображение слева) человек с более полной фигурой. Основано на исходном материале из https://arxiv.org/pdf/2203.10496.pdf
Коherentный оптический поток
Оптический поток (OF) стал ключевой технологией в разработке удаления объектов из видео. Как и атлас, OF предоставляет карту временной последовательности. Часто используемый для измерения скорости в инициативах компьютерного зрения, OF также может обеспечить временно согласованную инпейтинг, где сумма задачи может быть рассмотрена в одном проходе, вместо ‘перекадрового’ внимания в стиле Disney, что неизбежно приводит к временной несогласованности.
Методы видеоинпейтинга до сих пор были сосредоточены на трехэтапном процессе: завершение потока, где видео по сути отображается в дискретную и исследуемую сущность; пропагация пикселей, где дыры в ‘поврежденных’ видео заполняются путем двусторонней пропагации пикселей; и галлюцинация контента (изобретение пикселей, знакомое нам из глубоких фейков и фреймворков текст-изображение, таких как серия DALL-E), где оцененный ‘пропавший’ контент изобретается и вставляется в видео.
Центральным нововведением E2FGVI является объединение этих трех этапов в систему от начала до конца, исключающую необходимость ручных операций над контентом или процессом.

Статья отмечает, что необходимость ручного вмешательства требует, чтобы старые процессы не использовали GPU, что делает их довольно耗ительными. Из статьи*:
‘Взяв DFVI в качестве примера, завершение одного видео размером 432 × 240 из DAVIS, которое содержит около 70 кадров, требует около 4 минут, что является неприемлемым в большинстве реальных приложений. Кроме того, кроме вышеупомянутых недостатков, использование только предварительно обученной сети инпейтинга изображений на этапе галлюцинации контента игнорирует отношения контента во временных соседях, что приводит к несогласованному сгенерированному контенту в видео.’
Объединив три этапа видеоинпейтинга, E2FGVI может заменить второй этап, пропагацию пикселей, на пропагацию функций. В более разделенных процессах предыдущих работ функции не так обширно доступны, потому что каждый этап относительно герметичен, а рабочий процесс только полуавтоматизирован.
Кроме того, исследователи разработали временной фокальный трансформер для этапа галлюцинации контента, который учитывает не только прямых соседей пикселей в текущем кадре (т.е. что происходит в этой части кадра в предыдущем или следующем изображении), но и удаленных соседей, которые находятся далеко, и все же повлияют на сплоченный эффект любых операций, выполняемых над видео в целом.
Новая функциональная центральная часть рабочего процесса может использовать больше функциональных процессов и обучаемых сдвигов выборки, а новый фокальный трансформер проекта, по словам авторов, расширяет размер фокальных окон ‘из 2D в 3D’.
Тесты и данные
Чтобы протестировать E2FGVI, исследователи оценили систему против двух популярных наборов данных для видеообъектной сегментации: YouTube-VOS и DAVIS. YouTube-VOS включает 3741 обучающий видеоклип, 474 валидационных клипа и 508 тестовых клипов, в то время как DAVIS включает 60 обучающих видеоклипов и 90 тестовых клипов.
E2FGVI была обучена на YouTube-VOS и оценена на обоих наборах данных. Во время обучения объектные маски (зеленые области на изображениях выше и сопровождающее видео на YouTube) были сгенерированы для имитации видеозаполнения.
Для метрик исследователи приняли пиковое отношение сигнала к шуму (PSNR), структурное сходство (SSIM), видеооснованное расстояние Фриче-Инсепшн (VFID) и ошибку наложения потока – последнее для измерения временной стабильности в затронутом видео.
Предыдущие архитектуры, против которых была протестирована система, были VINet, DFVI, LGTSM, CAP, FGVC, STTN и FuseFormer.

Из раздела количественных результатов статьи. Стрелки вверх и вниз указывают, что более высокие или более низкие числа лучше, соответственно. E2FGVI достигает лучших показателей во всех отношениях. Методы оцениваются согласно FuseFormer, хотя DFVI, VINet и FGVC не являются системами от начала до конца, что делает невозможным оценить их FLOPs.
Помимо достижения лучших показателей против всех конкурирующих систем, исследователи провели качественное пользовательское исследование, в котором видео, преобразованные пятью представительными методами, были показаны индивидуально двадцати волонтерам, которые были попрослены оценить их по качеству видео.

Вертикальная ось представляет процент участников, которые предпочли выход E2FGVI по качеству видео.
Авторы отмечают, что, несмотря на единогласное предпочтение их методу, один из результатов, FGVC, не отражает количественные результаты, и они предполагают, что это указывает на то, что E2FGVI может, казалось бы, генерировать ‘более визуально приятные результаты’.
В отношении эффективности авторы отмечают, что их система значительно снижает операции с плавающей запятой в секунду (FLOPs) и время вывода на одном GPU Titan на наборе данных DAVIS, и наблюдают, что результаты показывают, что E2FGVI работает в 15 раз быстрее, чем потоковые методы.
Они комментируют:
‘[E2FGVI] имеет наименьшие FLOPs по сравнению со всеми другими методами. Это указывает на то, что предложенный метод очень эффективен для видеоинпейтинга.’
*Мое преобразование внутренних цитат авторов в гиперссылки.
Опубликовано впервые 19 мая 2022 года.
Исправлено во вторник, 28 октября 2025 года, для удаления неисправного видеовставки и исправления ссылок на встроенное видео в тексте статьи.













