Свяжитесь с нами:

Более эффективное удаление объектов из видео с помощью машинного обучения

Искусственный интеллект

Более эффективное удаление объектов из видео с помощью машинного обучения

mm

В новом исследовании из Китая сообщается о самых современных результатах, а также о впечатляющем повышении эффективности новой системы рисования видео, которая может ловко удалять объекты из кадра.

Обвязка дельтаплана окрашивается по новой методике. Посмотрите исходное видео (встроенное внизу этой статьи) для лучшего разрешения и дополнительных примеров. Источник: https://www.youtube.com/watch?v=N--qC3T2wc4

Подвесная система дельтаплана окрашена по новой технологии. Смотрите исходное видео для лучшего разрешения и дополнительных примеров. Источник: https://www.youtube.com/watch?v=N–qC3T2wc4.

Техника, называемая End-to-End framework для Flow-Guided Video Inpainting (E2ФГВИ), также способен удалять водяные знаки и различные другие виды окклюзии из видеоконтента.

E2FGVI вычисляет прогнозы для содержимого, скрытого за окклюзиями, что позволяет удалять даже заметные и неустранимые водяные знаки. Источник: https://github.com/MCG-NKU/E2FGVI.

E2FGVI вычисляет прогнозы для содержимого, скрытого за окклюзиями, что позволяет удалять даже заметные и трудноустранимые водяные знаки. Источник: https://github.com/MCG-NKU/E2FGVI.

(Чтобы увидеть больше примеров в лучшем разрешении, посетите Видео)

Хотя модель, представленная в опубликованной статье, была обучена на видео с разрешением 432 x 240 пикселей (как правило, небольшие входные размеры, ограниченные доступным пространством графического процессора по сравнению с оптимальными размерами пакетов и другими факторами), авторы с тех пор выпустили E2ФГВИ-ШТАБ, который может обрабатывать видео с произвольным разрешением.

Код для текущей версии доступен на GitHub, а версию HQ, выпущенную в прошлое воскресенье, можно загрузить с Google Drive и Байду Диск.

Ребенок остается на картинке.

Ребенок остается на картинке.

E2FGVI может обрабатывать видео 432×240 со скоростью 0.12 секунды на кадр на графическом процессоре Titan XP (12 ГБ видеопамяти), и авторы сообщают, что система работает в пятнадцать раз быстрее, чем предыдущие современные методы, основанные на оптический поток.

Теннисист неожиданно уходит.

Теннисист неожиданно уходит.

Протестированный на стандартных наборах данных для этого подсектора исследований синтеза изображений, новый метод смог превзойти конкурентов как в качественных, так и в количественных раундах оценки.

Тесты против предыдущих подходов. Источник: https://arxiv.org/pdf/2204.02663.pdf

Тесты против предыдущих подходов. Источник: https://arxiv.org/pdf/2204.02663.pdf

Команда статье называется На пути к комплексной структуре для рисования видео с управлением по потоку, и является результатом сотрудничества четырех исследователей из Нанкайского университета и исследователя из Hisilicon Technologies.

Чего не хватает на этой картинке

Помимо очевидных применений для создания визуальных эффектов, высококачественная окраска видео должна стать основной определяющей чертой новых технологий синтеза изображений и изменения изображений на основе искусственного интеллекта.

Это особенно касается модных приложений, изменяющих тело, и других фреймворков, которые стремиться «похудеть» или иным образом изменять сцены на изображениях и видео. В таких случаях необходимо убедительно «заполнить» дополнительный фон, выявленный при синтезе.

Из недавней статьи алгоритм «изменения формы» тела должен закрашивать только что обнаруженный фон при изменении размера объекта. Здесь этот недостаток представлен красным контуром, который раньше занимал человек с более полной фигурой (в реальной жизни, см. Изображение слева). На основе исходного материала с https://arxiv.org/pdf/2203.10496.pdf

В недавней статье алгоритм «изменения формы» тела должен дорисовывать вновь выявленный фон при изменении размера объекта. Здесь этот недостаток представлен красным контуром, который раньше занимал (в реальной жизни, см. изображение слева) более полный человек. На основе исходного материала с https://arxiv.org/pdf/2203.10496.pdf

Когерентный оптический поток

Оптический поток (OF) стал основной технологией в разработке удаления видеообъектов. Как АтлантOF предоставляет однократную карту временной последовательности. Часто используемый для измерения скорости в проектах компьютерного зрения, OF также может обеспечить согласованную во времени внутреннюю прорисовку, когда общая сумма задачи может быть рассмотрена за один проход, а не покадровое внимание в стиле Disney, которое неизбежно приводит к временной разрывности.

На сегодняшний день методы рисования видео основаны на трехэтапном процессе: завершение потока, где видео, по сути, представлено в виде дискретного и доступного для изучения объекта; распространение пикселей, где пробелы в «поврежденных» видео заполняются двунаправленно распространяющимися пикселями; и содержательная галлюцинация («Изобретение» пикселей, знакомое большинству из нас по технологиям дипфейков и преобразования текста в изображение, таким как серия DALL-E), когда предполагаемый «недостающий» контент придумывается и вставляется в отснятый материал.

Центральная инновация E2FGVI должен объединить эти три этапа в сквозную систему, избавляющую от необходимости выполнять ручные операции над контентом или процессом.

В документе отмечается, что необходимость ручного вмешательства требует, чтобы старые процессы не использовали преимущества графического процессора, что делает их довольно трудоемкими. Из газеты*:

«Принимая ДФВИ например, завершив одно видео размером 432 × 240 из ДЭВИС, содержащий около 70 кадров, занимает около 4 минут, что неприемлемо для большинства реальных приложений. Кроме того, за исключением вышеупомянутых недостатков, использование только предобученной сети для ретуширования изображений на этапе галлюцинации контента игнорирует взаимосвязи между временными соседями, что приводит к несогласованности генерируемого контента в видео.

Объединив три этапа рисования видео, Э.2FGVI может заменить второй этап, распространение пикселей, распространением признаков. В более сегментированных процессах предыдущих работ функции не так широко доступны, потому что каждый этап относительно герметичен, а рабочий процесс полуавтоматизирован.

Кроме того, исследователи разработали темпоральный фокусный преобразователь для стадии содержательной галлюцинации, которая рассматривает не только непосредственные соседи пикселей в текущем кадре (т. е. то, что происходит в этой части кадра на предыдущем или следующем изображении), но и дальние соседи, находящиеся на расстоянии многих кадров, и тем не менее, повлияет на связный эффект любых операций, выполняемых с видео в целом.

Архитектура E2FGVI.

Архитектура E2FGVI.

Новый центральный раздел рабочего процесса, основанный на признаках, способен использовать преимущества большего количества процессов на уровне признаков и обучаемых смещений выборки, в то время как новый фокальный трансформатор проекта, по словам авторов, расширяет размер фокальных окон «с 2D до 3D».

Тесты и данные

Для проверки Е2FGVI исследователи оценили систему по двум популярным наборам данных сегментации видеообъектов: YouTube-ВОС и ДЭВИС. YouTube-VOS содержит 3741 обучающий видеоклип, 474 проверочных ролика и 508 тестовых роликов, а DAVIS — 60 обучающих видеоклипов и 90 тестовых роликов.

E2FGVI был обучен на YouTube-VOS и оценен на обоих наборах данных. В процессе обучения маски объектов (зелёные области на изображениях выше и сопутствующее видео YouTube) были созданы для имитации завершения видео.

В качестве метрик исследователи использовали пиковое отношение сигнал-шум (PSNR), структурное сходство (SSIM), начальное расстояние Фреше на основе видео (VFID) и ошибку искажения потока — последнее для измерения временной стабильности в затронутом видео.

Предыдущие архитектуры, на которых тестировалась система, были ВИНЕТ, ДФВИ, ЛГТСМ, CAP, ФГВК, СТТН и ПредохранительБывший.

Из раздела количественных результатов статьи. Стрелки вверх и вниз указывают на то, что большее или меньшее число лучше соответственно. E2FGVI достигает лучших результатов по всем направлениям. Методы оцениваются в соответствии с FuseFormer, хотя DFVI, VINet и FGVC не являются сквозными системами, что делает невозможным оценку их FLOP.

Из раздела количественных результатов статьи. Стрелки вверх и вниз указывают на то, что большее или меньшее число лучше соответственно. E2FGVI достигает лучших результатов по всем направлениям. Методы оцениваются в соответствии с FuseFormer, хотя DFVI, VINet и FGVC не являются сквозными системами, что делает невозможным оценку их FLOP.

В дополнение к достижению наилучших результатов среди всех конкурирующих систем, исследователи провели качественное пользовательское исследование, в котором видео, преобразованные с помощью пяти репрезентативных методов, были показаны индивидуально двадцати добровольцам, которых попросили оценить их с точки зрения визуального качества.

Вертикальная ось представляет процент участников, которые предпочли выходные данные E2FGVI с точки зрения визуального качества.

Вертикальная ось представляет процент участников, которые предпочли вариант E.2Выход FGVI с точки зрения визуального качества.

Авторы отмечают, что, несмотря на единодушное предпочтение их метода, один из результатов, FGVC, не отражает количественные результаты, и они предполагают, что это свидетельствует о том, что E2FGVI, по-видимому, может генерировать «более визуально приятные результаты».

С точки зрения эффективности, авторы отмечают, что их система значительно сокращает количество операций с плавающей запятой в секунду (FLOP) и время вывода на одном графическом процессоре Titan в наборе данных DAVIS, и отмечают, что результаты показывают E2FGVI работает в 15 раз быстрее, чем поточные методы.

Они комментируют:

'[Э2[FGVI] имеет наименьшее количество FLOP по сравнению со всеми другими методами. Это свидетельствует о высокой эффективности предлагаемого метода для инрисовки видео.

*Мое преобразование встроенных ссылок авторов в гиперссылки.

 

Впервые опубликовано 19 мая 2022 г.

Внесены изменения во вторник, 28 октября 2025 г., с целью удаления ошибочного встроенного видео и исправления ссылок на встроенное видео в тексте статьи.

Автор статей о машинном обучении, специалист по синтезу человеческих изображений. Бывший руководитель исследовательского контента в Metaphysic.ai.
Личный сайт: Мартинандерсон.ай
Контактное лицо: [электронная почта защищена]
Твиттер: @manders_ai