Свяжитесь с нами:

Восстановление чрезмерно сжатых видео из социальных сетей с помощью машинного обучения

Искусственный интеллект

Восстановление чрезмерно сжатых видео из социальных сетей с помощью машинного обучения

mm
Основной источник изображения: DALL-E 2

Новое исследование, проведенное в Китае, предлагает эффективный и новый метод восстановления деталей и разрешения загруженного пользователем видео. автоматически сжимается на таких платформах, как WeChat и YouTube, чтобы сэкономить пропускную способность и место для хранения.

Сравнение нового метода с предыдущими подходами с точки зрения его способности точно повторно разрешать детали, отброшенные во время автоматической оптимизации платформы социальных сетей. Источник: https://arxiv.org/pdf/2208.08597.pdf

Сравнение нового метода с предыдущими подходами с точки зрения его способности точно повторно восстанавливать детали, упущенные в ходе автоматической оптимизации платформы социальных сетей. Источник: https://arxiv.org/pdf/2208.08597.pdf

В отличие от предыдущих методов, которые могут масштабировать и повышать разрешение видео на основе общих обучающих данных, новый подход вместо этого выводит карта признаков деградации (DFM) для каждого кадра сжатого видео — эффективный обзор наиболее поврежденных или испорченных областей кадра, возникших в результате сжатия.

Из исследований абляции в новой статье: второй справа, основная истина для «чистой» карты признаков деградации (DFM); третий справа, оценка ущерба без использования DFM. Слева гораздо более точная карта повреждений с помощью DFM.

Из исследований абляции в новой статье: второй справа — истинная картина для «чистой» карты признаков деградации (DFM); третий справа — оценка ущерба без использования DFM. Слева — гораздо более точная карта ущерба с использованием DFM.

Восстановительный процесс, в котором среди прочих технологий используются сверточные нейронные сети (CNN), управляется и фокусируется на информации из DFM, что позволяет новому методу превзойти по производительности и точности предыдущие подходы.

Основная информация об этом процессе была получена исследователями, которые загрузили высококачественное видео на четыре популярные платформы обмена, загрузили сжатые результаты и разработали конвейер компьютерного зрения, способный абстрактно изучать артефакты сжатия и потерю деталей, чтобы его можно было применять в различных сферах. ряд платформ для восстановления видео до качества, близкого к исходному, на основе совершенно подходящих данных.

Примеры из нового набора данных UVSSM исследователей.

Примеры из нового набора данных UVSSM исследователей.

Материал, использованный в исследовании, был собран в набор данных HQ/LQ под названием Видео пользователей, опубликованных в социальных сетях (УВССМ), и было сделано доступны для скачивания (пароль: rsqw) в Baidu в интересах последующих исследовательских проектов, направленных на разработку новых методов восстановления видео, сжатого платформой.

Сравнение двух эквивалентных образцов HQ/LQ из загружаемого набора данных UVSSM (см. ссылки выше для исходных URL-адресов). Поскольку даже этот пример может подвергаться многократному сжатию (приложение для изображений, CMS, CDN и т. д.), обратитесь к исходным данным для более точного сравнения.

Сравнение двух эквивалентных образцов HQ/LQ из загружаемого набора данных UVSSM (см. ссылки выше для исходных URL-адресов). Поскольку даже этот пример может подвергаться многократному сжатию (приложение для изображений, CMS, CDN и т. д.), обратитесь к исходным данным для более точного сравнения.

Код для системы, которая известна как ВОССТАНОВЛЕНИЕ ВИДЕО С ПОМОЩЬЮ АДАПТИВНОГО ОБНАРУЖЕНИЯ ДЕГРАДАЦИИ (ГОЛОСОВАНИЕ), также было выпущено на GitHub, хотя его реализация влечет за собой ряд зависимостей на основе извлечения.

Команда статье называется Восстановление пользовательских видео, опубликованных в социальных сетяхи принадлежит трем исследователям из Шэньчжэньского университета и одному из факультета электронной и информационной инженерии Гонконгского политехнического университета.

От артефактов к фактам

Возможность восстанавливать качество видео, скопированных в Интернете, без универсального, иногда чрезмерном «Галлюцинация» детализации, обеспечиваемая такими программами, как Gigapixel (и большинством популярных пакетов с открытым исходным кодом аналогичного масштаба), может иметь последствия для сектора исследований в области компьютерного зрения.

Исследования технологий CV на основе видео часто опираются на кадры, полученные с таких платформ, как YouTube и Twitter, где используемые методы сжатия и кодеки тщательно охраняются, их трудно подобрать на основе шаблонов артефактов или других визуальных индикаторов, и они могут периодически менять.

Большинство проектов, в которых используется видео из Интернета, не исследования (сила), и должны делать скидки за доступное качество сжатого видео, которое предлагают платформы, поскольку у них нет доступа к исходным высококачественным версиям, загруженным пользователями.

Таким образом, возможность достоверно восстанавливать более высокое качество и разрешение для таких видео, не создавая последующего влияния со стороны несвязанных наборов данных компьютерного зрения, может помочь избежать частых обходных путей и адаптаций, которые в настоящее время приходится делать проектам CV для ухудшенных источников видео.

Хотя такие платформы, как YouTube, время от времени объявляют о крупных изменениях в способах сжатия видео пользователей (например, VP9), ни один из них явно не раскрывает весь процесс или точные кодеки и настройки, используемые для уменьшения размера высококачественных файлов, загружаемых пользователями.

Таким образом, достижение улучшенного качества вывода от пользовательских загрузок стало чем-то вроде друидический статья за последние десять или около того лет с различными (в основном неподтвержденными) «обходные пути» входит и выходит из моды.

Способ доставки

Предыдущие подходы к восстановлению видео на основе глубокого обучения включали извлечение общих признаков либо в качестве подхода к восстановлению одного кадра, либо в многокадровой архитектуре, которая использует оптический поток (т.е. при восстановлении текущего кадра учитываются соседние и более поздние кадры).

Все эти подходы были вынуждены бороться с эффектом «черного ящика» — тем фактом, что они не могут исследовать эффекты сжатия в основных технологиях, поскольку неизвестно ни то, какие именно основные технологии существуют, ни то, как они были настроены для конкретного загруженного пользователем видео.

Вместо этого VOTES стремится извлекать характерные особенности непосредственно из исходного и сжатого видео и определять шаблоны преобразования, которые будут обобщаться в соответствии со стандартами ряда платформ.

Упрощенная концептуальная архитектура для VOTES.

Упрощенная концептуальная архитектура для VOTES.

VOTES использует специально разработанный модуль обнаружения деградации (DSM, см. изображение выше) для извлечения признаков в сверточных блоках. Затем несколько кадров передаются в модуль извлечения и выравнивания признаков (FEAM), а затем они направляются в модуль модуляции деградации (DMM). Наконец, модуль реконструкции выводит восстановленное видео.

Данные и эксперименты

В новой работе исследователи сосредоточили свои усилия на восстановлении видео, загруженного и повторно загруженного с платформы WeChat, но были обеспокоены тем, чтобы полученный алгоритм можно было адаптировать к другим платформам.

Выяснилось, что как только они получили эффективную модель восстановления для видео WeChat, адаптация ее к Bilibili, Twitter и YouTube заняла всего 90 секунд в течение одной эпохи для каждой пользовательской модели для каждой платформы (на машине с 4 графическими процессорами NVIDIA Tesla P40 с всего 96 ГБ видеопамяти).

Адаптация успешной модели WeChat к другим платформам обмена видео оказалась довольно тривиальной. Здесь мы видим, как VOTES достигает почти мгновенного паритета производительности на различных платформах, используя собственный набор данных авторов UVSSM и набор данных REDS (см. ниже).

Адаптация успешной модели WeChat к другим платформам видеохостинга оказалась довольно простой задачей. Здесь мы видим, как VOTES практически мгновенно добился паритета производительности на разных платформах, используя собственные данные авторов UVSSM и данные REDS (см. ниже).

Чтобы заполнить набор данных UVSSM, исследователи собрали 264 видео продолжительностью от 5 до 30 секунд, каждое с частотой кадров 30 кадров в секунду, полученные либо непосредственно с камер мобильных телефонов, либо из Интернета. Все видеоролики имели разрешение 1920 x 1080 или 1280 x 270.

Контент (см. предыдущее изображение) включал в себя виды города, пейзажи, людей и животных, среди множества других предметов, и может использоваться в общедоступном наборе данных по лицензии Creative Commons Attribution, допускающей повторное использование.

Авторы загрузили 214 видеороликов в WeChat, используя пять различных марок мобильных телефонов, получив стандартное разрешение видео WeChat 960×540 (если исходное видео уже не меньше этих размеров), что является одним из самых «карательных» преобразований среди популярных платформ.

Вверху слева исходный кадр HQ с тремя увеличенными секциями; вверху справа тот же кадр из сжатой версии того же видео, сжатой платформой; внизу слева рассчитанное ухудшение качества сжатого кадра; а в правом нижнем углу - последующая «рабочая область» для VOTES, на которой следует сосредоточить свое внимание. Очевидно, что размер низкокачественного изображения вдвое меньше, чем в HQ, но здесь размер был изменен для ясности сравнения.

Вверху слева — исходный кадр высокого качества с тремя увеличенными фрагментами; вверху справа — тот же кадр из сжатой версии того же видео, ухудшенной платформой; внизу слева — расчётное ухудшение качества сжатого кадра; и внизу справа — получившаяся «рабочая область», на которой VOTES сосредоточит своё внимание. Очевидно, что размер низкокачественного изображения вдвое меньше, чем в высоком качестве, но здесь он изменён для наглядности сравнения.

Для более поздних сравнений с процедурами преобразования других платформ исследователи загрузили 50 видеороликов. не Включено в исходный список 214 видео, доступных на Bilibili, YouTube и Twitter. Исходное разрешение видео составляло 1280×270, а загруженные версии — 640×360.

Это доводит набор данных UVSSM до 364 куплетов оригинальных (HQ) и общих (LQ) видео, из них 214 для WeChat и по 50 для Bilibili, YouTube и Twitter.

Для экспериментов в качестве тестового набора были выбраны 10 случайных видео, четыре — в качестве проверочного набора, а оставшиеся 200 — в качестве основного обучающего набора. Опыты проводились пять раз с K-кратная перекрестная проверка, с усреднением результатов по этим экземплярам.

В тестах на восстановление видео VOTES сравнивали с пространственно-временным деформируемым слиянием (СТДФ). Для повышения разрешения он был протестирован на свертках Enhanced Deformable (ЭДВР), РСДН, Видео в сверхвысоком разрешении с временным групповым вниманием (ВСР_ТГА), а также расширение БазовыйVSR. Google одинарной-стадийный метод КОМИСР также был включен, хотя он не соответствует архитектурному типу других предыдущих работ.

Методы были протестированы как против UVSS, так и против REDS набор данных, при этом VOTES набрали самые высокие баллы:

Авторы утверждают, что качественные результаты также указывают на превосходство VOTES над предыдущими системами:

Видеокадры из РЭДС, восстановленные конкурирующими подходами. Только ориентировочное решение — окончательное решение см. в документе.

Видеокадры из РЭДС, восстановленные конкурирующими подходами. Только ориентировочное решение – окончательное решение см. в документе.

 

Впервые опубликовано 19 августа 2022 г.

Автор статей о машинном обучении, специалист по синтезу человеческих изображений. Бывший руководитель исследовательского контента в Metaphysic.ai.
Личный сайт: Мартинандерсон.ай
Контактное лицо: [электронная почта защищена]
Твиттер: @manders_ai