Artificial Intelligence

Более эффективное удаление объектов из видео с помощью машинного обучения

обновленный on 9 декабря 2022

В новом исследовании из Китая сообщается о самых современных результатах, а также о впечатляющем повышении эффективности новой системы рисования видео, которая может ловко удалять объекты из кадра.

Обвязка дельтаплана окрашивается по новой методике. Посмотрите исходное видео (встроенное внизу этой статьи) для лучшего разрешения и дополнительных примеров. Источник: https://www.youtube.com/watch?v=N–qC3T2wc4.

Техника, называемая End-to-End framework для Flow-Guided Video Inpainting (E²ФГВИ), также способен удалять водяные знаки и различные другие виды окклюзии из видеоконтента.

E2FGVI вычисляет прогнозы для содержимого, скрытого за окклюзиями, что позволяет удалять даже заметные и неустранимые водяные знаки. Источник: https://github.com/MCG-NKU/E2FGVI.

E2FGVI вычисляет прогнозы для содержимого, скрытого за окклюзиями, что позволяет удалять даже заметные и трудноустранимые водяные знаки. Источник: https://github.com/MCG-NKU/E2FGVI.

Чтобы увидеть больше примеров в лучшем разрешении, посмотрите видео, встроенное в конце статьи.

Хотя модель, представленная в опубликованной статье, была обучена на видео с разрешением 432 x 240 пикселей (как правило, небольшие входные размеры, ограниченные доступным пространством графического процессора по сравнению с оптимальными размерами пакетов и другими факторами), авторы с тех пор выпустили E²ФГВИ-ШТАБ, который может обрабатывать видео с произвольным разрешением.

Код для текущей версии доступен на GitHub, а версию HQ, выпущенную в прошлое воскресенье, можно загрузить с Google Drive и Байду Диск.

Ребенок остается на картинке.

E²FGVI может обрабатывать видео 432×240 со скоростью 0.12 секунды на кадр на графическом процессоре Titan XP (12 ГБ видеопамяти), и авторы сообщают, что система работает в пятнадцать раз быстрее, чем предыдущие современные методы, основанные на оптический поток.

Теннисист неожиданно уходит.

Протестированный на стандартных наборах данных для этого подсектора исследований синтеза изображений, новый метод смог превзойти конкурентов как в качественных, так и в количественных раундах оценки.

Тесты против предыдущих подходов. Источник: https://arxiv.org/pdf/2204.02663.pdf

Ассоциация бумаги называется На пути к комплексной структуре для рисования видео с управлением по потоку, и является результатом сотрудничества четырех исследователей из Нанкайского университета и исследователя из Hisilicon Technologies.

Чего не хватает на этой картинке

Помимо очевидных применений для создания визуальных эффектов, высококачественная окраска видео должна стать основной определяющей чертой новых технологий синтеза изображений и изменения изображений на основе искусственного интеллекта.

Это особенно касается модных приложений, изменяющих тело, и других фреймворков, которые стремиться «похудеть» или иным образом изменять сцены в изображениях и видео. В таких случаях необходимо убедительно «заполнить» лишний фон, выявляемый при синтезе.

Из недавней статьи алгоритм «изменения формы» тела должен закрашивать только что обнаруженный фон при изменении размера объекта. Здесь этот недостаток представлен красным контуром, который раньше занимал человек с более полной фигурой (в реальной жизни, см. Изображение слева). На основе исходного материала с https://arxiv.org/pdf/2203.10496.pdf

Из недавней статьи алгоритм «изменения формы» тела должен закрашивать вновь обнаруженный фон при изменении размера объекта. Здесь этот недостаток представлен красным контуром, который раньше занимал человек с более полной фигурой (в реальной жизни, см. Изображение слева). На основе исходного материала с https://arxiv.org/pdf/2203.10496.pdf

Когерентный оптический поток

Оптический поток (OF) стал основной технологией в разработке удаления видеообъектов. Как Атлант, OF предоставляет одноразовую карту временной последовательности. OF, часто используемый для измерения скорости в инициативах по компьютерному зрению, также может обеспечить согласованность во времени при рисовании, когда совокупная сумма задачи может рассматриваться за один проход, вместо «покадрового» внимания в стиле Диснея, что неизбежно приводит к к временному разрыву.

На сегодняшний день методы рисования видео основаны на трехэтапном процессе: завершение потока, где видео, по сути, представлено в виде дискретного и доступного для изучения объекта; распространение пикселей, где дыры в «испорченных» видео заполняются двунаправленно распространяющимися пикселями; и содержательная галлюцинация (пиксельное «изобретение», знакомое большинству из нас по дипфейкам и платформам преобразования текста в изображение, таким как серия DALL-E), где предполагаемый «недостающий» контент изобретается и вставляется в отснятый материал.

Центральная инновация E²FGVI должен объединить эти три этапа в сквозную систему, избавляющую от необходимости выполнять ручные операции над контентом или процессом.

В документе отмечается, что необходимость ручного вмешательства требует, чтобы старые процессы не использовали преимущества графического процессора, что делает их довольно трудоемкими. Из газеты*:

«Принимая ДФВИ например, завершив одно видео размером 432 × 240 из ДЭВИС, который содержит около 70 кадров, требует около 4 минут, что неприемлемо для большинства реальных приложений. Кроме того, за исключением вышеупомянутых недостатков, использование только предварительно обученной сети для рисования изображений на этапе галлюцинации контента игнорирует отношения контента между временными соседями, что приводит к несогласованному сгенерированному контенту в видео».

Объединив три этапа рисования видео, Э.²FGVI может заменить второй этап, распространение пикселей, распространением признаков. В более сегментированных процессах предыдущих работ функции не так широко доступны, потому что каждый этап относительно герметичен, а рабочий процесс полуавтоматизирован.

Кроме того, исследователи разработали темпоральный фокусный преобразователь для стадии содержательной галлюцинации, которая рассматривает не только непосредственные соседи пикселей в текущем кадре (т. е. то, что происходит в этой части кадра на предыдущем или следующем изображении), но и дальние соседи, находящиеся на расстоянии многих кадров, и тем не менее, повлияет на связный эффект любых операций, выполняемых с видео в целом.

Архитектура E2FGVI.

Новая центральная часть рабочего процесса, основанная на функциях, может использовать преимущества большего количества процессов на уровне функций и обучаемых смещений выборки, в то время как новый фокусный преобразователь проекта, по словам авторов, увеличивает размер фокусных окон «с 2D до 3D». .

Тесты и данные

Для проверки Е²FGVI исследователи оценили систему по двум популярным наборам данных сегментации видеообъектов: YouTube-ВОСкачества ДЭВИС. YouTube-VOS содержит 3741 обучающий видеоклип, 474 проверочных ролика и 508 тестовых роликов, а DAVIS — 60 обучающих видеоклипов и 90 тестовых роликов.

E²FGVI был обучен на YouTube-VOS и оценен на обоих наборах данных. Во время обучения были созданы маски объектов (зеленые области на изображениях выше и встроенное видео ниже) для имитации завершения видео.

В качестве метрик исследователи использовали пиковое отношение сигнал-шум (PSNR), структурное сходство (SSIM), начальное расстояние Фреше на основе видео (VFID) и ошибку искажения потока — последнее для измерения временной стабильности в затронутом видео.

Предыдущие архитектуры, на которых тестировалась система, были ВИНЕТ, ДФВИ, ЛГТСМ, CAP, ФГВК, СТТНкачества ПредохранительБывший.

Из раздела количественных результатов статьи. Стрелки вверх и вниз указывают на то, что большее или меньшее число лучше соответственно. E2FGVI достигает лучших результатов по всем направлениям. Методы оцениваются в соответствии с FuseFormer, хотя DFVI, VINet и FGVC не являются сквозными системами, что делает невозможным оценку их FLOP.

В дополнение к достижению наилучших результатов среди всех конкурирующих систем, исследователи провели качественное пользовательское исследование, в котором видео, преобразованные с помощью пяти репрезентативных методов, были показаны индивидуально двадцати добровольцам, которых попросили оценить их с точки зрения визуального качества.

Вертикальная ось представляет процент участников, которые предпочли выходные данные E2FGVI с точки зрения визуального качества.

Вертикальная ось представляет процент участников, которые предпочли вариант E.²Выход FGVI с точки зрения визуального качества.

Авторы отмечают, что, несмотря на единодушное предпочтение их метода, один из результатов, FGVC, не отражает количественные результаты, и они предполагают, что это свидетельствует о том, что E²FGVI может явно давать «визуально приятные результаты».

С точки зрения эффективности, авторы отмечают, что их система значительно сокращает количество операций с плавающей запятой в секунду (FLOP) и время вывода на одном графическом процессоре Titan в наборе данных DAVIS, и отмечают, что результаты показывают E²FGVI работает в 15 раз быстрее, чем поточные методы.

Они комментируют:

'[Э²FGVI] имеет самые низкие FLOP в отличие от всех других методов. Это указывает на то, что предлагаемый метод очень эффективен для рисования видео».

http://www.youtube.com/watch?v=N–qC3T2wc4

*Мое преобразование встроенных цитат авторов в гиперссылки.

Впервые опубликовано 19 мая 2022 г.

Обнаружение «профессиональных» вредоносных онлайн-обзоров с помощью машинного обучения

Не пропустите

Аппаратная технология искусственного интеллекта имитирует изменения в топологии нейронной сети

Мартин Андерсон

Автор статей о машинном обучении, искусственном интеллекте и больших данных.
Личный сайт: Мартинандерсон.ай
Контактное лицо: [электронная почта защищена]
Твиттер: @manders_ai

Unite.ИИ

Более эффективное удаление объектов из видео с помощью машинного обучения

Artificial Intelligence