заглушки Восстановление чрезмерно сжатых видео из социальных сетей с помощью машинного обучения - Unite.AI
Свяжитесь с нами:

Artificial Intelligence

Восстановление чрезмерно сжатых видео из социальных сетей с помощью машинного обучения

mm
обновленный on
Основной источник изображения: DALL-E 2

Новое исследование, проведенное в Китае, предлагает эффективный и новый метод восстановления деталей и разрешения загруженного пользователем видео. автоматически сжимается на таких платформах, как WeChat и YouTube, чтобы сэкономить пропускную способность и место для хранения.

Сравнение нового метода с предыдущими подходами с точки зрения его способности точно повторно разрешать детали, отброшенные во время автоматической оптимизации платформы социальных сетей. Источник: https://arxiv.org/pdf/2208.08597.pdf

Сравнение нового метода с предыдущими подходами с точки зрения его способности точно повторно разрешать детали, отброшенные во время автоматической оптимизации платформы социальных сетей. Источник: https://arxiv.org/pdf/2208.08597.pdf

В отличие от предыдущих методов, которые могут масштабировать и повышать разрешение видео на основе общих обучающих данных, новый подход вместо этого выводит карта признаков деградации (DFM) для каждого кадра сжатого видео — эффективный обзор наиболее поврежденных или испорченных областей кадра, возникших в результате сжатия.

Из исследований абляции в новой статье: второй справа, основная истина для «чистой» карты признаков деградации (DFM); третий справа, оценка ущерба без использования DFM. Слева гораздо более точная карта повреждений с помощью DFM.

Из исследований абляции в новой статье: второй справа, основная истина для «чистой» карты признаков деградации (DFM); третий справа, оценка ущерба без использования DFM. Слева гораздо более точная карта повреждений с помощью DFM.

Восстановительный процесс, в котором среди прочих технологий используются сверточные нейронные сети (CNN), управляется и фокусируется на информации из DFM, что позволяет новому методу превзойти по производительности и точности предыдущие подходы.

Основная информация об этом процессе была получена исследователями, которые загрузили высококачественное видео на четыре популярные платформы обмена, загрузили сжатые результаты и разработали конвейер компьютерного зрения, способный абстрактно изучать артефакты сжатия и потерю деталей, чтобы его можно было применять в различных сферах. ряд платформ для восстановления видео до качества, близкого к исходному, на основе совершенно подходящих данных.

Примеры из нового набора данных UVSSM исследователей.

Примеры из нового набора данных UVSSM исследователей.

Материал, использованный в исследовании, был собран в набор данных HQ/LQ под названием Видео пользователей, опубликованных в социальных сетях (УВССМ), и было сделано доступны для скачивания (пароль: rsqw) в Baidu в интересах последующих исследовательских проектов, направленных на разработку новых методов восстановления видео, сжатого платформой.

Сравнение двух эквивалентных образцов HQ/LQ из загружаемого набора данных UVSSM (см. ссылки выше для исходных URL-адресов). Поскольку даже этот пример может подвергаться многократному сжатию (приложение для изображений, CMS, CDN и т. д.), обратитесь к исходным данным для более точного сравнения.

Сравнение двух эквивалентных образцов HQ/LQ из загружаемого набора данных UVSSM (см. ссылки выше для исходных URL-адресов). Поскольку даже этот пример может подвергаться многократному сжатию (приложение для изображений, CMS, CDN и т. д.), обратитесь к исходным данным для более точного сравнения.

Код для системы, которая известна как ВОССТАНОВЛЕНИЕ ВИДЕО С ПОМОЩЬЮ АДАПТИВНОГО ОБНАРУЖЕНИЯ ДЕГРАДАЦИИ (ГОЛОСОВАНИЕ), также было выпущено на GitHub, хотя его реализация влечет за собой ряд зависимостей на основе извлечения.

Ассоциация бумаги называется Восстановление пользовательских видео, опубликованных в социальных сетяхи принадлежит трем исследователям из Шэньчжэньского университета и одному из факультета электронной и информационной инженерии Гонконгского политехнического университета.

От артефактов к фактам

Возможность восстанавливать качество видео, скопированных в Интернете, без универсального, иногда чрезмерный «галлюцинация» деталей, предоставляемая такими программами, как Gigapixel (и большинством популярных пакетов с открытым исходным кодом аналогичного масштаба), может иметь последствия для сектора исследований компьютерного зрения.

Исследования технологий CV на основе видео часто опираются на кадры, полученные с таких платформ, как YouTube и Twitter, где используемые методы сжатия и кодеки тщательно охраняются, их трудно подобрать на основе шаблонов артефактов или других визуальных индикаторов, и они могут периодически менять.

Большинство проектов, в которых используется видео из Интернета, не исследования (сила), и должны делать скидки за доступное качество сжатого видео, которое предлагают платформы, поскольку у них нет доступа к исходным высококачественным версиям, загруженным пользователями.

Таким образом, возможность достоверно восстанавливать более высокое качество и разрешение для таких видео, не создавая последующего влияния со стороны несвязанных наборов данных компьютерного зрения, может помочь избежать частых обходных путей и адаптаций, которые в настоящее время приходится делать проектам CV для ухудшенных источников видео.

Хотя такие платформы, как YouTube, время от времени трубят о серьезных изменениях в способах сжатия видео пользователей (например, VP9), ни один из них явно не раскрывает весь процесс или точные кодеки и настройки, используемые для уменьшения размера высококачественных файлов, загружаемых пользователями.

Таким образом, достижение улучшенного качества вывода от пользовательских загрузок стало чем-то вроде друидический статья за последние десять или около того лет с различными (в основном неподтвержденными) «обходные пути» входит и выходит из моды.

Способ доставки

Предыдущие подходы к восстановлению видео на основе глубокого обучения включали извлечение общих признаков либо в качестве подхода к восстановлению одного кадра, либо в многокадровой архитектуре, которая использует оптический поток (т.е. при восстановлении текущего кадра учитываются соседние и более поздние кадры).

Все эти подходы столкнулись с эффектом «черного ящика» — тем фактом, что они не могут исследовать эффекты сжатия в основных технологиях, потому что неясно ни то, что собой представляют базовые технологии, ни то, как они были настроены для любого конкретного пользователя. -загруженное видео.

Вместо этого VOTES стремится извлекать характерные особенности непосредственно из исходного и сжатого видео и определять шаблоны преобразования, которые будут обобщаться в соответствии со стандартами ряда платформ.

Упрощенная концептуальная архитектура для VOTES.

Упрощенная концептуальная архитектура для VOTES.

VOTES использует специально разработанный модуль обнаружения деградации (DSM, см. изображение выше) для извлечения признаков в сверточных блоках. Затем несколько кадров передаются в модуль извлечения и выравнивания признаков (FEAM), а затем они направляются в модуль модуляции деградации (DMM). Наконец, модуль реконструкции выводит восстановленное видео.

Данные и эксперименты

В новой работе исследователи сосредоточили свои усилия на восстановлении видео, загруженного и повторно загруженного с платформы WeChat, но были обеспокоены тем, чтобы полученный алгоритм можно было адаптировать к другим платформам.

Выяснилось, что как только они получили эффективную модель восстановления для видео WeChat, адаптация ее к Bilibili, Twitter и YouTube заняла всего 90 секунд в течение одной эпохи для каждой пользовательской модели для каждой платформы (на машине с 4 графическими процессорами NVIDIA Tesla P40 с всего 96 ГБ видеопамяти).

Адаптация успешной модели WeChat к другим платформам обмена видео оказалась довольно тривиальной. Здесь мы видим, как VOTES достигает почти мгновенного паритета производительности на различных платформах, используя собственный набор данных авторов UVSSM и набор данных REDS (см. ниже).

Адаптация успешной модели WeChat к другим платформам обмена видео оказалась довольно тривиальной. Здесь мы видим, как VOTES достигает почти мгновенного паритета производительности на различных платформах, используя собственный набор данных авторов UVSSM и набор данных REDS (см. ниже).

Чтобы заполнить набор данных UVSSM, исследователи собрали 264 видео продолжительностью от 5 до 30 секунд, каждое с частотой кадров 30 кадров в секунду, полученные либо непосредственно с камер мобильных телефонов, либо из Интернета. Все видеоролики имели разрешение 1920 x 1080 или 1280 x 270.

Контент (см. предыдущее изображение) включал в себя виды города, пейзажи, людей и животных, среди множества других предметов, и может использоваться в общедоступном наборе данных по лицензии Creative Commons Attribution, допускающей повторное использование.

Авторы загрузили 214 видео в WeChat, используя мобильные телефоны пяти разных марок, получив разрешение видео WeChat по умолчанию 960 × 540 (если исходное видео уже не меньше этих размеров), что является одним из самых «карательных» преобразований на популярных платформах.

Вверху слева исходный кадр HQ с тремя увеличенными секциями; вверху справа тот же кадр из сжатой версии того же видео, сжатой платформой; внизу слева рассчитанное ухудшение качества сжатого кадра; а в правом нижнем углу - последующая «рабочая область» для VOTES, на которой следует сосредоточить свое внимание. Очевидно, что размер низкокачественного изображения вдвое меньше, чем в HQ, но здесь размер был изменен для ясности сравнения.

Вверху слева исходный кадр HQ с тремя увеличенными секциями; вверху справа тот же кадр из сжатой версии того же видео, сжатой платформой; внизу слева рассчитанное ухудшение качества сжатого кадра; а в правом нижнем углу - последующая «рабочая область» для VOTES, на которой следует сосредоточить свое внимание. Очевидно, что размер низкокачественного изображения вдвое меньше, чем в HQ, но здесь размер был изменен для ясности сравнения.

Для более поздних сравнений с процедурами преобразования других платформ исследователи загрузили 50 видеороликов. не включены в исходные 214 для Bilibili, YouTube и Twitter. Исходное разрешение видео было 1280 × 270, а загруженные версии — 640 × 360.

Это доводит набор данных UVSSM до 364 куплетов оригинальных (HQ) и общих (LQ) видео, из них 214 для WeChat и по 50 для Bilibili, YouTube и Twitter.

Для экспериментов в качестве тестового набора были выбраны 10 случайных видео, четыре — в качестве проверочного набора, а оставшиеся 200 — в качестве основного обучающего набора. Опыты проводились пять раз с K-кратная перекрестная проверка, с усреднением результатов по этим экземплярам.

В тестах на восстановление видео VOTES сравнивали с пространственно-временным деформируемым слиянием (СТДФ). Для повышения разрешения он был протестирован на свертках Enhanced Deformable (ЭДВР), РСДН, Видео в сверхвысоком разрешении с временным групповым вниманием (ВСР_ТГА), а также расширение БазовыйVSR, Google-х одинарной-стадийный метод КОМИСР также был включен, хотя он не соответствует архитектурному типу других предыдущих работ.

Методы были протестированы как против UVSS, так и против REDS набор данных, при этом VOTES набрали самые высокие баллы:

Авторы утверждают, что качественные результаты также указывают на превосходство VOTES над предыдущими системами:

Видеокадры из РЭДС, восстановленные конкурирующими подходами. Только ориентировочное решение — окончательное решение см. в документе.

Видеокадры из РЭДС, восстановленные конкурирующими подходами. Только ориентировочное решение – окончательное решение см. в документе.

 

Впервые опубликовано 19 августа 2022 г.