Artificial Intelligence
Восстановление чрезмерно сжатых видео из социальных сетей с помощью машинного обучения
Новое исследование, проведенное в Китае, предлагает эффективный и новый метод восстановления деталей и разрешения загруженного пользователем видео. автоматически сжимается на таких платформах, как WeChat и YouTube, чтобы сэкономить пропускную способность и место для хранения.
В отличие от предыдущих методов, которые могут масштабировать и повышать разрешение видео на основе общих обучающих данных, новый подход вместо этого выводит карта признаков деградации (DFM) для каждого кадра сжатого видео — эффективный обзор наиболее поврежденных или испорченных областей кадра, возникших в результате сжатия.
Восстановительный процесс, в котором среди прочих технологий используются сверточные нейронные сети (CNN), управляется и фокусируется на информации из DFM, что позволяет новому методу превзойти по производительности и точности предыдущие подходы.
Основная информация об этом процессе была получена исследователями, которые загрузили высококачественное видео на четыре популярные платформы обмена, загрузили сжатые результаты и разработали конвейер компьютерного зрения, способный абстрактно изучать артефакты сжатия и потерю деталей, чтобы его можно было применять в различных сферах. ряд платформ для восстановления видео до качества, близкого к исходному, на основе совершенно подходящих данных.
Материал, использованный в исследовании, был собран в набор данных HQ/LQ под названием Видео пользователей, опубликованных в социальных сетях (УВССМ), и было сделано доступны для скачивания (пароль: rsqw) в Baidu в интересах последующих исследовательских проектов, направленных на разработку новых методов восстановления видео, сжатого платформой.
Код для системы, которая известна как ВОССТАНОВЛЕНИЕ ВИДЕО С ПОМОЩЬЮ АДАПТИВНОГО ОБНАРУЖЕНИЯ ДЕГРАДАЦИИ (ГОЛОСОВАНИЕ), также было выпущено на GitHub, хотя его реализация влечет за собой ряд зависимостей на основе извлечения.
Ассоциация бумаги называется Восстановление пользовательских видео, опубликованных в социальных сетяхи принадлежит трем исследователям из Шэньчжэньского университета и одному из факультета электронной и информационной инженерии Гонконгского политехнического университета.
От артефактов к фактам
Возможность восстанавливать качество видео, скопированных в Интернете, без универсального, иногда чрезмерный «галлюцинация» деталей, предоставляемая такими программами, как Gigapixel (и большинством популярных пакетов с открытым исходным кодом аналогичного масштаба), может иметь последствия для сектора исследований компьютерного зрения.
Исследования технологий CV на основе видео часто опираются на кадры, полученные с таких платформ, как YouTube и Twitter, где используемые методы сжатия и кодеки тщательно охраняются, их трудно подобрать на основе шаблонов артефактов или других визуальных индикаторов, и они могут периодически менять.
Большинство проектов, в которых используется видео из Интернета, не исследования (сила), и должны делать скидки за доступное качество сжатого видео, которое предлагают платформы, поскольку у них нет доступа к исходным высококачественным версиям, загруженным пользователями.
Таким образом, возможность достоверно восстанавливать более высокое качество и разрешение для таких видео, не создавая последующего влияния со стороны несвязанных наборов данных компьютерного зрения, может помочь избежать частых обходных путей и адаптаций, которые в настоящее время приходится делать проектам CV для ухудшенных источников видео.
Хотя такие платформы, как YouTube, время от времени трубят о серьезных изменениях в способах сжатия видео пользователей (например, VP9), ни один из них явно не раскрывает весь процесс или точные кодеки и настройки, используемые для уменьшения размера высококачественных файлов, загружаемых пользователями.
Таким образом, достижение улучшенного качества вывода от пользовательских загрузок стало чем-то вроде друидический статья за последние десять или около того лет с различными (в основном неподтвержденными) «обходные пути» входит и выходит из моды.
Способ доставки
Предыдущие подходы к восстановлению видео на основе глубокого обучения включали извлечение общих признаков либо в качестве подхода к восстановлению одного кадра, либо в многокадровой архитектуре, которая использует оптический поток (т.е. при восстановлении текущего кадра учитываются соседние и более поздние кадры).
Все эти подходы столкнулись с эффектом «черного ящика» — тем фактом, что они не могут исследовать эффекты сжатия в основных технологиях, потому что неясно ни то, что собой представляют базовые технологии, ни то, как они были настроены для любого конкретного пользователя. -загруженное видео.
Вместо этого VOTES стремится извлекать характерные особенности непосредственно из исходного и сжатого видео и определять шаблоны преобразования, которые будут обобщаться в соответствии со стандартами ряда платформ.
VOTES использует специально разработанный модуль обнаружения деградации (DSM, см. изображение выше) для извлечения признаков в сверточных блоках. Затем несколько кадров передаются в модуль извлечения и выравнивания признаков (FEAM), а затем они направляются в модуль модуляции деградации (DMM). Наконец, модуль реконструкции выводит восстановленное видео.
Данные и эксперименты
В новой работе исследователи сосредоточили свои усилия на восстановлении видео, загруженного и повторно загруженного с платформы WeChat, но были обеспокоены тем, чтобы полученный алгоритм можно было адаптировать к другим платформам.
Выяснилось, что как только они получили эффективную модель восстановления для видео WeChat, адаптация ее к Bilibili, Twitter и YouTube заняла всего 90 секунд в течение одной эпохи для каждой пользовательской модели для каждой платформы (на машине с 4 графическими процессорами NVIDIA Tesla P40 с всего 96 ГБ видеопамяти).
Чтобы заполнить набор данных UVSSM, исследователи собрали 264 видео продолжительностью от 5 до 30 секунд, каждое с частотой кадров 30 кадров в секунду, полученные либо непосредственно с камер мобильных телефонов, либо из Интернета. Все видеоролики имели разрешение 1920 x 1080 или 1280 x 270.
Контент (см. предыдущее изображение) включал в себя виды города, пейзажи, людей и животных, среди множества других предметов, и может использоваться в общедоступном наборе данных по лицензии Creative Commons Attribution, допускающей повторное использование.
Авторы загрузили 214 видео в WeChat, используя мобильные телефоны пяти разных марок, получив разрешение видео WeChat по умолчанию 960 × 540 (если исходное видео уже не меньше этих размеров), что является одним из самых «карательных» преобразований на популярных платформах.
Для более поздних сравнений с процедурами преобразования других платформ исследователи загрузили 50 видеороликов. не включены в исходные 214 для Bilibili, YouTube и Twitter. Исходное разрешение видео было 1280 × 270, а загруженные версии — 640 × 360.
Это доводит набор данных UVSSM до 364 куплетов оригинальных (HQ) и общих (LQ) видео, из них 214 для WeChat и по 50 для Bilibili, YouTube и Twitter.
Для экспериментов в качестве тестового набора были выбраны 10 случайных видео, четыре — в качестве проверочного набора, а оставшиеся 200 — в качестве основного обучающего набора. Опыты проводились пять раз с K-кратная перекрестная проверка, с усреднением результатов по этим экземплярам.
В тестах на восстановление видео VOTES сравнивали с пространственно-временным деформируемым слиянием (СТДФ). Для повышения разрешения он был протестирован на свертках Enhanced Deformable (ЭДВР), РСДН, Видео в сверхвысоком разрешении с временным групповым вниманием (ВСР_ТГА), а также расширение БазовыйVSR, Google-х одинарной-стадийный метод КОМИСР также был включен, хотя он не соответствует архитектурному типу других предыдущих работ.
Методы были протестированы как против UVSS, так и против REDS набор данных, при этом VOTES набрали самые высокие баллы:
Авторы утверждают, что качественные результаты также указывают на превосходство VOTES над предыдущими системами:
Впервые опубликовано 19 августа 2022 г.