Inteligencia artificial

Restauración de videos de medios sociales sobrecargados con aprendizaje automático

Published August 19, 2022

Updated May 23, 2026

Martin Anderson

Nueva investigación en China ofrece un método novedoso y efectivo para restaurar detalles y resolución a videos subidos por usuarios que son comprimidos automáticamente en plataformas como WeChat y YouTube para ahorrar ancho de banda y espacio de almacenamiento.

Comparación del nuevo método con enfoques anteriores, en términos de su capacidad para resolver con precisión los detalles descartados durante la optimización automática de la plataforma de medios sociales. Fuente: https://arxiv.org/pdf/2208.08597.pdf

Contrariamente a los métodos anteriores que pueden ampliar y muestrear videos basados en datos de entrenamiento genéricos, el nuevo enfoque deriva un mapa de características de degradación (DFM) para cada cuadro del video comprimido, efectivamente una visión general de las regiones más dañadas o deterioradas en el cuadro que han resultado de la compresión.

De los estudios de ablación del nuevo documento: segundo desde la derecha, la verdad fundamental para un ‘puro’ mapa de características de degradación (DFM); tercero desde la derecha, una estimación del daño sin usar DFM. Izquierda, un mapa mucho más preciso del daño con DFM.

El proceso de restauración, que aprovecha las redes neuronales convolucionales (CNN), entre otras tecnologías, está guiado y enfocado por la información en el DFM, lo que permite que el nuevo método supere el rendimiento y la precisión de los enfoques anteriores.

La verdad fundamental para el proceso se obtuvo mediante la subida de videos de alta calidad a cuatro plataformas de intercambio populares, la descarga de los resultados comprimidos y el desarrollo de una tubería de visión por computadora capaz de aprender de manera abstracta los artefactos de compresión y la pérdida de detalles, para que pueda aplicarse en varias plataformas para restaurar los videos a una calidad casi original, basada en datos completamente opuestos.

Ejemplos del nuevo conjunto de datos UVSSM de los investigadores.

El material utilizado en la investigación se ha compilado en un conjunto de datos HQ/LQ titulado Videos de usuarios compartidos en medios sociales (UVSSM) y se ha puesto disponible para descarga (contraseña: rsqw) en Baidu, para el beneficio de proyectos de investigación posteriores que buscan desarrollar nuevos métodos para restaurar videos comprimidos por plataformas.

Comparación entre dos muestras equivalentes HQ/LQ del conjunto de datos UVSSM descargable (ver enlaces anteriores para URLs de fuente). Dado que incluso este ejemplo puede estar sujeto a múltiples rondas de compresión (aplicación de imagen, CMS, CDN, etc.), consulte los datos de fuente originales para una comparación más precisa.

El código del sistema, conocido como Restauración de video a través de la detección adaptativa de degradación (VOTES), también se ha publicado en GitHub, aunque su implementación conlleva una serie de dependencias basadas en extracciones.

El documento se titula Restauración de videos de usuarios compartidos en medios sociales y proviene de tres investigadores de la Universidad de Shenzhen y uno del Departamento de Ingeniería Electrónica e Informática de la Universidad Politécnica de Hong Kong.

De artefactos a hechos

La capacidad de restaurar la calidad de los videos extraídos de la web sin la generación genérica, a veces excesiva de detalles proporcionada por programas como Gigapixel (y la mayoría de los paquetes de código abierto de alcance similar) podría tener implicaciones para el sector de investigación de visión por computadora.

La investigación sobre tecnologías de visión por computadora basadas en video a menudo se basa en metraje obtenido de plataformas como YouTube y Twitter, donde los métodos de compresión y codecs utilizados están estrechamente protegidos, no pueden determinarse fácilmente en función de patrones de artefactos o otros indicadores visuales y pueden cambiar periódicamente.

La mayoría de los proyectos que utilizan video encontrado en la web no investigan compresión y deben hacer concesiones por la calidad disponible de video comprimido que las plataformas ofrecen, ya que no tienen acceso a las versiones de alta calidad originales que los usuarios subieron.

Por lo tanto, la capacidad de restaurar con fidelidad mayor calidad y resolución a dichos videos, sin introducir influencia descendente de conjuntos de datos de visión por computadora no relacionados, podría ayudar a evitar los frecuentes rodeos y adaptaciones que los proyectos de visión por computadora deben hacer actualmente por las fuentes de video degradadas.

Aunque plataformas como YouTube ocasionalmente anuncian cambios importantes en la forma en que comprimen los videos de los usuarios (como VP9), ninguna de ellas revela explícitamente todo el proceso o los codecs y configuraciones exactas utilizados para reducir los archivos de alta calidad que los usuarios suben.

Lograr una mejor calidad de salida de las subidas de usuarios se ha convertido en algo así como un arte druídico en los últimos diez años, con varios (en su mayoría no confirmados) ‘soluciones alternativas’ que entran y salen de moda.

Método

Los enfoques anteriores para la restauración de video basada en aprendizaje profundo han involucrado la extracción de características genéricas, ya sea como un enfoque para la restauración de un solo cuadro o en una arquitectura de múltiples cuadros que aprovecha flujo óptico (es decir, que tiene en cuenta cuadros adyacentes y posteriores al restaurar un cuadro actual).

Todos estos enfoques han tenido que lidiar con el ‘efecto de caja negra’, el hecho de que no pueden examinar los efectos de la compresión en las tecnologías centrales, porque no es seguro qué son las tecnologías centrales, o cómo se configuraron para cualquier video subido por el usuario.

VOTES, en cambio, busca extraer características destacadas directamente del video original y comprimido, y determinar patrones de transformación que se generalizarán a los estándares de varias plataformas.

Arquitectura conceptual simplificada para VOTES.

VOTES utiliza un módulo de detección de degradación especialmente desarrollado (DSM, ver imagen anterior) para extraer características en bloques convolucionales. Se pasan múltiples cuadros a un módulo de extracción y alineación de características (FEAM), con estos luego siendo enviados a un módulo de modulación de degradación (DMM). Finalmente, el módulo de reconstrucción produce el video restaurado.

Datos y experimentos

En el nuevo trabajo, los investigadores se han centrado en restaurar video subido a y descargado de la plataforma WeChat, pero se preocuparon por asegurarse de que el algoritmo resultante pudiera adaptarse a otras plataformas.

Resultó que una vez que obtuvieron un modelo de restauración efectivo para videos de WeChat, adaptarlo a Bilibili, Twitter y YouTube solo tomó 90 segundos para una sola época para cada modelo personalizado para cada plataforma (en una máquina que ejecuta 4 NVIDIA Tesla P40 GPUs con un total de 96GB de VRAM).

La adaptación del modelo exitoso de WeChat a otras plataformas de intercambio de video resultó bastante trivial. Aquí vemos a VOTES logrando casi instantáneamente la paridad de rendimiento en varias plataformas, utilizando el propio conjunto de datos UVSSM de los autores y el conjunto de datos REDS (ver a continuación).

Para poblar el conjunto de datos UVSSM, los investigadores recopilaron 264 videos que van desde 5 a 30 segundos, cada uno con una tasa de cuadros de 30fps, obtenidos directamente de cámaras de teléfonos móviles o de Internet. Los videos eran todos de 1920 x 1080 o 1280 x 270 de resolución.

El contenido (ver imagen anterior) incluyó vistas de la ciudad, paisajes, personas y animales, entre una variedad de otros temas, y son utilizables en el conjunto de datos público a través de la licencia de Atribución de Creative Commons, que permite la reutilización.

Los autores subieron 214 videos a WeChat utilizando cinco marcas diferentes de teléfonos móviles, obteniendo la resolución de video predeterminada de WeChat de 960×540 (a menos que el video de origen ya sea más pequeño que estas dimensiones), entre las conversiones más ‘punitivas’ en plataformas populares.

Arriba a la izquierda, el cuadro HQ original con tres secciones ampliadas; arriba a la derecha, el mismo cuadro de una versión comprimida de la plataforma del mismo video; abajo a la izquierda, el cálculo de la degradación del cuadro comprimido; y abajo a la derecha, el área de ‘trabajo’ resultante para que VOTES se concentre en ella. Obviamente, el tamaño de la imagen de baja calidad es la mitad del de la HQ, pero se ha redimensionado aquí para una comparación clara.

Para las comparaciones posteriores con las rutinas de conversión de otras plataformas, los investigadores subieron 50 videos no incluidos en los 214 originales a Bilibili, YouTube y Twitter. La resolución original de los videos era 1280×270, con las versiones descargadas en 640×360.

Esto lleva el conjunto de datos UVSSM a un total de 364 pares de videos originales (HQ) y compartidos (LQ), con 214 en WeChat y 50 en cada uno de Bilibili, YouTube y Twitter.

Para los experimentos, se seleccionaron 10 videos aleatorios como conjunto de prueba, cuatro como conjunto de validación y los 200 restantes como conjunto de entrenamiento principal. Se realizaron experimentos cinco veces con validación cruzada K-fold, con los resultados promediados en estas instancias.

En las pruebas de restauración de video, VOTES se comparó con la Fusión Deformable Espacio-Temporal (STDF). Para la mejora de resolución, se probó contra Convoluciones Deformables Mejoradas (EDVR), RSDN, Superresolución de video con Atención de Grupo Temporal (VSR_TGA), y BasicVSR. El método de una sola etapa de Google COMISR también se incluyó, aunque no se ajusta al tipo de arquitectura de los trabajos anteriores.

Los métodos se probaron contra ambos conjuntos de datos UVSS y REDS, con VOTES logrando las puntuaciones más altas:

Los autores sostienen que los resultados cualitativos también indican la superioridad de VOTES frente a los sistemas anteriores:

Cuadros de video de REDS restaurados por enfoques competidores. Resolución indicativa solo, consulte el documento para la resolución definitiva.

Publicado por primera vez el 19 de agosto de 2022.

Martin Anderson

Escritor sobre aprendizaje automático, especialista en síntesis de imágenes humanas. Anterior jefe de contenido de investigación en Metaphysic.ai.

Unite.AI

Restauración de videos de medios sociales sobrecargados con aprendizaje automático

De artefactos a hechos

Método

Datos y experimentos

You may like