Inteligencia artificial

Restauración de videos de redes sociales demasiado comprimidos con aprendizaje automático

Actualizado on 9 de diciembre de 2022

Una nueva investigación de China ofrece un método efectivo y novedoso para restaurar los detalles y la resolución de videos subidos por usuarios que son comprimido automáticamente en plataformas como WeChat y YouTube para ahorrar ancho de banda y espacio de almacenamiento.

Comparación del nuevo método con enfoques anteriores, en términos de su capacidad para volver a resolver con precisión los detalles descartados durante la optimización automática de la plataforma de redes sociales. Fuente: https://arxiv.org/pdf/2208.08597.pdf

Contrariamente a los métodos anteriores que pueden mejorar y aumentar la muestra de videos basados en datos de entrenamiento genéricos, el nuevo enfoque en cambio deriva un mapa de características de degradación (DFM) para cada cuadro del video comprimido: efectivamente, una descripción general de las regiones más dañadas o deterioradas en el cuadro como resultado de la compresión.

De los estudios de ablación del nuevo artículo: segundo desde la derecha, la realidad básica para un mapa de características de degradación 'pura' (DFM); tercero desde la derecha, una estimación del daño sin usar DFM. A la izquierda, un mapa mucho más preciso del daño con DFM.

El proceso de restauración, que aprovecha las redes neuronales convolucionales (CNN), entre otras tecnologías, está guiado y enfocado por la información del DFM, lo que permite que el nuevo método supere el rendimiento y la precisión de los enfoques anteriores.

La verdad fundamental del proceso la obtuvieron los investigadores cargando videos de alta calidad en cuatro plataformas populares para compartir, descargando los resultados comprimidos y desarrollando un canal de visión por computadora capaz de aprender de manera abstracta los artefactos de compresión y la pérdida de detalles, para que pueda aplicarse en todas partes. varias plataformas para restaurar los videos a una calidad casi original, basándose en datos completamente apropiados.

Ejemplos del nuevo conjunto de datos UVSSM de los investigadores.

El material utilizado en la investigación se ha compilado en un conjunto de datos HQ/LQ titulado Videos de usuarios compartidos en las redes sociales (UVSSM), y se ha realizado disponible para descarga (contraseña: rqw) en Baidu, en beneficio de proyectos de investigación posteriores que buscan desarrollar nuevos métodos para restaurar video comprimido en plataforma.

Una comparación entre dos muestras HQ/LQ equivalentes del conjunto de datos UVSSM descargable (consulte los enlaces anteriores para ver las URL de origen). Dado que incluso este ejemplo puede estar sujeto a varias rondas de compresión (aplicación de imágenes, CMS, CDN, etc.), consulte los datos de la fuente original para obtener una comparación más precisa.

El código del sistema, que se conoce como Restauración de video a través de la detección adaptativa de la degradación (VOTOS), también ha sido publicado en GitHub, aunque su implementación implica una serie de dependencias basadas en extracción.

La se titula Restauración de Videos de Usuarios Compartidos en Redes Sociales, y proviene de tres investigadores de la Universidad de Shenzhen y uno del Departamento de Ingeniería Electrónica y de la Información de la Universidad Politécnica de Hong Kong.

De artefactos a hechos

La capacidad de restaurar la calidad de los videos extraídos de la web sin el genérico, a veces excesivo La 'alucinación' de los detalles proporcionados por programas como Gigapixel (y la mayoría de los paquetes populares de código abierto de alcance similar) podría tener implicaciones para el sector de investigación de la visión artificial.

La investigación de las tecnologías de CV basadas en video con frecuencia se basa en imágenes obtenidas de plataformas como YouTube y Twitter, donde los métodos de compresión y los códecs utilizados están muy bien guardados, no se pueden obtener fácilmente en función de patrones de artefactos u otros indicadores visuales, y pueden cambiar periódicamente.

La mayoría de los proyectos que aprovechan el video encontrado en la web no son investigando compresión, y tiene que hacer concesiones por la calidad disponible de video comprimido que ofrecen las plataformas, ya que no tienen acceso a las versiones originales de alta calidad que suben los usuarios.

Por lo tanto, la capacidad de restaurar fielmente una mayor calidad y resolución a dichos videos, sin introducir la influencia posterior de conjuntos de datos de visión por computadora no relacionados, podría ayudar a obviar las frecuentes soluciones y adaptaciones que los proyectos de CV deben hacer actualmente para las fuentes de video degradadas.

Aunque plataformas como YouTube ocasionalmente anunciarán cambios importantes en la forma en que comprimen los videos de los usuarios (como VP9), ninguno de ellos revela explícitamente el proceso completo o los códecs y configuraciones exactos utilizados para reducir los archivos de alta calidad que cargan los usuarios.

Por lo tanto, lograr una mejor calidad de salida de las cargas de los usuarios se ha convertido en una especie de druida artículo en los últimos diez años más o menos, con varios (en su mayoría sin confirmar) 'soluciones alternativas' entrando y saliendo de moda.

Método

Los enfoques anteriores para la restauración de video basada en el aprendizaje profundo han involucrado la extracción de características genéricas, ya sea como un enfoque para la restauración de un solo cuadro o en una arquitectura de varios cuadros que aprovecha flujo óptico (es decir, que tenga en cuenta los fotogramas adyacentes y posteriores al restaurar un fotograma actual).

Todos estos enfoques han tenido que lidiar con el efecto de 'caja negra': el hecho de que no pueden examinar los efectos de compresión en las tecnologías centrales, porque no es seguro cuáles son las tecnologías centrales o cómo se configuraron para un usuario en particular. -video subido.

VOTES, en cambio, busca extraer características sobresalientes directamente del video original y comprimido, y determinar patrones de transformación que se generalizarán a los estándares de varias plataformas.

Arquitectura conceptual simplificada para VOTOS.

VOTES utiliza un módulo de detección de degradación especialmente desarrollado (DSM, vea la imagen de arriba) para extraer características en bloques convolucionales. Luego, se pasan varios fotogramas a un módulo de alineación y extracción de características (FEAM), y luego se derivan a un módulo de modulación de degradación (DMM). Finalmente, el módulo de reconstrucción emite el video restaurado.

Datos y Experimentos

En el nuevo trabajo, los investigadores concentraron sus esfuerzos en restaurar videos cargados y descargados nuevamente desde la plataforma WeChat, pero estaban preocupados por garantizar que el algoritmo resultante pudiera adaptarse a otras plataformas.

Resultó que una vez que obtuvieron un modelo de restauración efectivo para videos de WeChat, adaptarlo a Bilibili, Twitter y YouTube solo tomó 90 segundos para una sola época para cada modelo personalizado para cada plataforma (en una máquina que ejecuta 4 GPU NVIDIA Tesla P40 con un total de 96 GB de VRAM).

Adaptar el exitoso modelo de WeChat a otras plataformas para compartir videos resultó bastante trivial. Aquí vemos que VOTES logró una paridad de rendimiento casi instantánea en las diversas plataformas, utilizando el propio conjunto de datos UVSSM de los autores y el conjunto de datos REDS (ver más abajo).

Para poblar el conjunto de datos UVSSM, los investigadores reunieron 264 videos que oscilan entre 5 y 30 segundos, cada uno con una velocidad de cuadro de 30 fps, obtenidos directamente de las cámaras de los teléfonos móviles o de Internet. Los videos tenían una resolución de 1920 x 1080 o 1280 x 270.

El contenido (ver imagen anterior) incluía vistas de la ciudad, paisajes, personas y animales, entre una variedad de otros temas, y se puede usar en el conjunto de datos público a través de la licencia Creative Commons Attribution, lo que permite su reutilización.

Los autores subieron 214 videos a WeChat utilizando cinco marcas diferentes de teléfonos móviles, obteniendo la resolución de video predeterminada de WeChat de 960 × 540 (a menos que el video de origen ya sea más pequeño que estas dimensiones), entre las conversiones más 'punitivas' en las plataformas populares.

Arriba a la izquierda, el marco HQ original con tres secciones ampliadas; arriba a la derecha, el mismo cuadro de una versión comprimida degradada por plataforma del mismo video; abajo a la izquierda, la degradación calculada del marco comprimido; y abajo a la derecha, el consiguiente 'área de trabajo' para que VOTOS centre su atención. Obviamente, el tamaño de la imagen de baja calidad es la mitad de la de HQ, pero se ha redimensionado aquí para que la comparación sea más clara.

Para las comparaciones posteriores con las rutinas de conversión de otras plataformas, los investigadores subieron 50 videos no incluido en el 214 original a Bilibili, YouTube y Twitter. La resolución original de los videos era de 1280 × 270, y las versiones descargadas eran de 640 × 360.

Esto lleva el conjunto de datos UVSSM a un total de 364 pareados de videos originales (HQ) y compartidos (LQ), con 214 en WeChat y 50 en Bilibili, YouTube y Twitter.

Para los experimentos, se seleccionaron 10 videos aleatorios como conjunto de prueba, cuatro como conjunto de validación y los 200 remanentes como conjunto de entrenamiento central. Los experimentos se realizaron cinco veces con Validación cruzada de K-fold, con los resultados promediados entre estos casos.

En las pruebas de restauración de video, VOTES se comparó con Fusión Deformable Espacio-Temporal (FANFC). Para mejorar la resolución, se probó contra circunvoluciones deformables mejoradas (EDVR), RSDN, Video Super-resolución con Atención de Grupo Temporal (VSR_TGA), o VSR Básico. de Google solterométodo de etapas COMISIÓN también se incluyó, aunque no se ajusta al tipo de arquitectura de las otras obras anteriores.

Los métodos fueron probados contra UVSS y el ROJOS conjunto de datos, con VOTOS logrando los puntajes más altos:

Los autores sostienen que los resultados cualitativos también indican la superioridad de los VOTOS frente a los sistemas anteriores:

Cuadros de video de REDS restaurados por enfoques competitivos. Resolución indicativa únicamente: consulte el documento para obtener una resolución definitiva.

Publicado por primera vez el 19 de agosto de 2022.

Temas relacionados:síntesis de imagen la investigación procesamiento de video

Hasta la próxima

Revisión del informe: Informe anual sobre el estado de la IA de Appen

No Te Lo

Big Data frente a Small Data: diferencias clave

Martin anderson

Escritor sobre aprendizaje automático, inteligencia artificial y big data.
sitio personal: martinanderson.ai
Contacto: [email protected]
Gorjeo: @manders_ai

Unir.AI

Restauración de videos de redes sociales demasiado comprimidos con aprendizaje automático

Inteligencia artificial