Inteligencia artificial

Eliminar objetos del video de manera más eficiente con el aprendizaje automático

Actualizado on 9 de diciembre de 2022

Una nueva investigación de China informa resultados de última generación, así como una mejora impresionante en la eficiencia, para un nuevo sistema de pintura de video que puede eliminar hábilmente objetos de las imágenes.

El arnés de un ala delta se pinta con el nuevo procedimiento. Vea el video fuente (incrustado en la parte inferior de este artículo) para una mejor resolución y más ejemplos. Fuente: https://www.youtube.com/watch?v=N–qC3T2wc4

La técnica, llamada Marco de extremo a extremo para la pintura de video guiada por flujo (E²FGVI), también es capaz de eliminar marcas de agua y varios otros tipos de oclusión del contenido de video.

E2FGVI calcula las predicciones para el contenido que se encuentra detrás de las oclusiones, lo que permite eliminar incluso las marcas de agua notables e intratables. Fuente: https://github.com/MCG-NKU/E2FGVI

Para ver más ejemplos en mejor resolución, mira el video incrustado al final del artículo.

Aunque el modelo presentado en el documento publicado se entrenó en videos de 432 px x 240 px (comúnmente tamaños de entrada bajos, limitados por el espacio de GPU disponible frente a tamaños de lote óptimos y otros factores), los autores han publicado desde entonces E²FGVI-SEDE, que puede manejar videos en una resolución arbitraria.

El código de la versión actual es Hoy Disponibles en GitHub, mientras que la versión HQ, lanzada el domingo pasado, se puede descargar desde Google Drive y Disco Baidu.

El niño permanece en la imagen.

E²FGVI puede procesar video de 432 × 240 a 0.12 segundos por cuadro en una GPU Titan XP (12 GB de VRAM), y los autores informan que el sistema funciona quince veces más rápido que los métodos de vanguardia anteriores basados en flujo óptico.

Un tenista hace una salida inesperada.

Probado en conjuntos de datos estándar para este subsector de la investigación de síntesis de imágenes, el nuevo método pudo superar a sus rivales en rondas de evaluación tanto cualitativas como cuantitativas.

Pruebas contra enfoques anteriores. Fuente: https://arxiv.org/pdf/2204.02663.pdf

El se titula Hacia un marco integral para la pintura de video guiada por flujo, y es una colaboración entre cuatro investigadores de la Universidad de Nankai, junto con un investigador de Hisilicon Technologies.

Lo que falta en esta imagen

Además de sus aplicaciones obvias para efectos visuales, la pintura de video de alta calidad se convertirá en una característica definitoria central de las nuevas tecnologías de alteración de imágenes y síntesis de imágenes basadas en IA.

Este es particularmente el caso de las aplicaciones de moda que alteran el cuerpo y otros marcos que busca 'adelgazar' o alterar escenas en imágenes y videos. En tales casos, es necesario 'rellenar' de manera convincente el trasfondo adicional que expone la síntesis.

De un artículo reciente, un algoritmo de 'remodelación' del cuerpo tiene la tarea de volver a pintar el fondo recién revelado cuando se cambia el tamaño de un sujeto. Aquí, ese déficit está representado por el contorno rojo que solía ocupar la persona de figura más completa (en la vida real, vea la imagen a la izquierda). Basado en material fuente de https://arxiv.org/pdf/2203.10496.pdf

Flujo óptico coherente

El flujo óptico (OF) se ha convertido en una tecnología central en el desarrollo de la eliminación de objetos de video. Como un atlas, OF proporciona un mapa único de una secuencia temporal. Utilizado a menudo para medir la velocidad en iniciativas de visión por computadora, OF también puede permitir una pintura temporalmente consistente, donde la suma agregada de la tarea se puede considerar en una sola pasada, en lugar de la atención "por cuadro" al estilo de Disney, que inevitablemente conduce a la discontinuidad temporal.

Los métodos de video en pintura hasta la fecha se han centrado en un proceso de tres etapas: finalización del flujo, donde el video se mapea esencialmente en una entidad discreta y explorable; propagación de píxeles, donde los agujeros en los videos 'corruptos' se llenan con píxeles que se propagan bidireccionalmente; y alucinación de contenido ('invención' de píxeles que nos resulta familiar a la mayoría de nosotros por los deepfakes y los marcos de texto a imagen como la serie DALL-E) donde el contenido estimado 'faltante' se inventa y se inserta en el metraje.

La innovación central de E²FGVI es combinar estas tres etapas en un sistema de extremo a extremo, obviando la necesidad de realizar operaciones manuales sobre el contenido o el proceso.

El documento observa que la necesidad de intervención manual requiere que los procesos más antiguos no aprovechen una GPU, lo que hace que consuman bastante tiempo. Del papel*:

'Tomando DFVI como ejemplo, completando un video con el tamaño de 432 × 240 de DAVIS, que contiene unos 70 fotogramas, necesita unos 4 minutos, lo que es inaceptable en la mayoría de las aplicaciones del mundo real. Además, a excepción de los inconvenientes mencionados anteriormente, el uso exclusivo de una imagen preentrenada en la red de pintura en la etapa de alucinación del contenido ignora las relaciones de contenido entre los vecinos temporales, lo que genera contenido inconsistente en los videos.

Al unir las tres etapas del video en pintura, E²FGVI puede sustituir la segunda etapa, la propagación de píxeles, con la propagación de funciones. En los procesos más segmentados de trabajos anteriores, las funciones no están tan ampliamente disponibles, porque cada etapa es relativamente hermética y el flujo de trabajo solo está semiautomatizado.

Además, los investigadores han ideado un transformador focal temporal para la etapa de alucinación del contenido, que considera no solo los vecinos directos de los píxeles en el cuadro actual (es decir, lo que sucede en esa parte del cuadro en la imagen anterior o siguiente), sino también los vecinos distantes que están a muchos cuadros de distancia, y sin embargo, influirá en el efecto cohesivo de cualquier operación realizada en el video como un todo.

Arquitectura de E2FGVI.

La nueva sección central basada en funciones del flujo de trabajo puede aprovechar más procesos a nivel de funciones y compensaciones de muestreo que se pueden aprender, mientras que el novedoso transformador focal del proyecto, según los autores, amplía el tamaño de las ventanas focales "de 2D a 3D". .

Pruebas y datos

Para probar E²FGVI, los investigadores evaluaron el sistema contra dos populares conjuntos de datos de segmentación de objetos de video: YouTube-VOSy DAVIS. YouTube-VOS presenta 3741 videos de capacitación, 474 videos de validación y 508 videos de prueba, mientras que DAVIS presenta 60 videos de capacitación y 90 videos de prueba.

E²FGVI fue entrenado en YouTube-VOS y evaluado en ambos conjuntos de datos. Durante el entrenamiento, se generaron máscaras de objetos (las áreas verdes en las imágenes de arriba y el video incrustado a continuación) para simular la finalización del video.

Para las métricas, los investigadores adoptaron la relación señal-ruido máxima (PSNR), la similitud estructural (SSIM), la distancia de inicio de Fréchet basada en video (VFID) y el error de deformación de flujo, este último para medir la estabilidad temporal en el video afectado.

Las arquitecturas anteriores contra las que se probó el sistema fueron VINET, DFVI, LGTSM, CAP, FGVC, STTNy FusibleEx.

De la sección de resultados cuantitativos del artículo. Las flechas hacia arriba y hacia abajo indican que los números más altos o más bajos son mejores, respectivamente. E2FGVI logra las mejores puntuaciones en todos los ámbitos. Los métodos se evalúan según FuseFormer, aunque DFVI, VINet y FGVC no son sistemas de extremo a extremo, por lo que es imposible estimar sus FLOP.

Además de lograr las mejores puntuaciones frente a todos los sistemas de la competencia, los investigadores realizaron un estudio de usuario cualitativo, en el que los videos transformados con cinco métodos representativos se mostraron individualmente a veinte voluntarios, a quienes se les pidió que los calificaran en términos de calidad visual.

El eje vertical representa el porcentaje de participantes que prefirieron la salida E2FGVI en términos de calidad visual.

El eje vertical representa el porcentaje de participantes que prefirieron la E²Salida FGVI en términos de calidad visual.

Los autores señalan que a pesar de la preferencia unánime por su método, uno de los resultados, FGVC, no refleja los resultados cuantitativos, y sugieren que esto indica que E²FGVI podría, engañosamente, generar 'resultados visualmente más agradables'.

En términos de eficiencia, los autores señalan que su sistema reduce en gran medida las operaciones de coma flotante por segundo (FLOP) y el tiempo de inferencia en una sola GPU Titan en el conjunto de datos DAVIS, y observan que los resultados muestran E²FGVI se ejecuta x15 más rápido que los métodos basados en flujo.

Ellos comentan:

'[MI²FGVI] tiene los FLOP más bajos en contraste con todos los demás métodos. Esto indica que el método propuesto es altamente eficiente para la pintura de video.'

http://www.youtube.com/watch?v=N–qC3T2wc4

*Mi conversión de citas en línea de los autores a hipervínculos.

Publicado por primera vez el 19 de mayo de 2022.

Temas relacionados:síntesis de imagen la investigación transformador video

Hasta la próxima

Detección de reseñas en línea maliciosas 'profesionales' con aprendizaje automático

No Te Lo

La tecnología de hardware de IA imita los cambios en la topología de la red neuronal

Martin anderson

Escritor sobre aprendizaje automático, inteligencia artificial y big data.
sitio personal: martinanderson.ai
Contacto: [email protected]
Gorjeo: @manders_ai

Unir.AI

Eliminar objetos del video de manera más eficiente con el aprendizaje automático

Inteligencia artificial