Inteligencia artificial
Eliminar objetos del video de manera más eficiente con el aprendizaje automático
Una nueva investigación de China informa resultados de última generación, así como una mejora impresionante en la eficiencia, para un nuevo sistema de pintura de video que puede eliminar hábilmente objetos de las imágenes.
La técnica, llamada Marco de extremo a extremo para la pintura de video guiada por flujo (E2FGVI), también es capaz de eliminar marcas de agua y varios otros tipos de oclusión del contenido de video.
Para ver más ejemplos en mejor resolución, mira el video incrustado al final del artículo.
Aunque el modelo presentado en el documento publicado se entrenó en videos de 432 px x 240 px (comúnmente tamaños de entrada bajos, limitados por el espacio de GPU disponible frente a tamaños de lote óptimos y otros factores), los autores han publicado desde entonces E2FGVI-SEDE, que puede manejar videos en una resolución arbitraria.
El código de la versión actual es Hoy Disponibles en GitHub, mientras que la versión HQ, lanzada el domingo pasado, se puede descargar desde Google Drive y Disco Baidu.
E2FGVI puede procesar video de 432 × 240 a 0.12 segundos por cuadro en una GPU Titan XP (12 GB de VRAM), y los autores informan que el sistema funciona quince veces más rápido que los métodos de vanguardia anteriores basados en flujo óptico.
Probado en conjuntos de datos estándar para este subsector de la investigación de síntesis de imágenes, el nuevo método pudo superar a sus rivales en rondas de evaluación tanto cualitativas como cuantitativas.
El se titula Hacia un marco integral para la pintura de video guiada por flujo, y es una colaboración entre cuatro investigadores de la Universidad de Nankai, junto con un investigador de Hisilicon Technologies.
Lo que falta en esta imagen
Además de sus aplicaciones obvias para efectos visuales, la pintura de video de alta calidad se convertirá en una característica definitoria central de las nuevas tecnologías de alteración de imágenes y síntesis de imágenes basadas en IA.
Este es particularmente el caso de las aplicaciones de moda que alteran el cuerpo y otros marcos que busca 'adelgazar' o alterar escenas en imágenes y videos. En tales casos, es necesario 'rellenar' de manera convincente el trasfondo adicional que expone la síntesis.
Flujo óptico coherente
El flujo óptico (OF) se ha convertido en una tecnología central en el desarrollo de la eliminación de objetos de video. Como un atlas, OF proporciona un mapa único de una secuencia temporal. Utilizado a menudo para medir la velocidad en iniciativas de visión por computadora, OF también puede permitir una pintura temporalmente consistente, donde la suma agregada de la tarea se puede considerar en una sola pasada, en lugar de la atención "por cuadro" al estilo de Disney, que inevitablemente conduce a la discontinuidad temporal.
Los métodos de video en pintura hasta la fecha se han centrado en un proceso de tres etapas: finalización del flujo, donde el video se mapea esencialmente en una entidad discreta y explorable; propagación de píxeles, donde los agujeros en los videos 'corruptos' se llenan con píxeles que se propagan bidireccionalmente; y alucinación de contenido ('invención' de píxeles que nos resulta familiar a la mayoría de nosotros por los deepfakes y los marcos de texto a imagen como la serie DALL-E) donde el contenido estimado 'faltante' se inventa y se inserta en el metraje.
La innovación central de E2FGVI es combinar estas tres etapas en un sistema de extremo a extremo, obviando la necesidad de realizar operaciones manuales sobre el contenido o el proceso.
El documento observa que la necesidad de intervención manual requiere que los procesos más antiguos no aprovechen una GPU, lo que hace que consuman bastante tiempo. Del papel*:
'Tomando DFVI como ejemplo, completando un video con el tamaño de 432 × 240 de DAVIS, que contiene unos 70 fotogramas, necesita unos 4 minutos, lo que es inaceptable en la mayoría de las aplicaciones del mundo real. Además, a excepción de los inconvenientes mencionados anteriormente, el uso exclusivo de una imagen preentrenada en la red de pintura en la etapa de alucinación del contenido ignora las relaciones de contenido entre los vecinos temporales, lo que genera contenido inconsistente en los videos.
Al unir las tres etapas del video en pintura, E2FGVI puede sustituir la segunda etapa, la propagación de píxeles, con la propagación de funciones. En los procesos más segmentados de trabajos anteriores, las funciones no están tan ampliamente disponibles, porque cada etapa es relativamente hermética y el flujo de trabajo solo está semiautomatizado.
Además, los investigadores han ideado un transformador focal temporal para la etapa de alucinación del contenido, que considera no solo los vecinos directos de los píxeles en el cuadro actual (es decir, lo que sucede en esa parte del cuadro en la imagen anterior o siguiente), sino también los vecinos distantes que están a muchos cuadros de distancia, y sin embargo, influirá en el efecto cohesivo de cualquier operación realizada en el video como un todo.
La nueva sección central basada en funciones del flujo de trabajo puede aprovechar más procesos a nivel de funciones y compensaciones de muestreo que se pueden aprender, mientras que el novedoso transformador focal del proyecto, según los autores, amplía el tamaño de las ventanas focales "de 2D a 3D". .
Pruebas y datos
Para probar E2FGVI, los investigadores evaluaron el sistema contra dos populares conjuntos de datos de segmentación de objetos de video: YouTube-VOSy DAVIS. YouTube-VOS presenta 3741 videos de capacitación, 474 videos de validación y 508 videos de prueba, mientras que DAVIS presenta 60 videos de capacitación y 90 videos de prueba.
E2FGVI fue entrenado en YouTube-VOS y evaluado en ambos conjuntos de datos. Durante el entrenamiento, se generaron máscaras de objetos (las áreas verdes en las imágenes de arriba y el video incrustado a continuación) para simular la finalización del video.
Para las métricas, los investigadores adoptaron la relación señal-ruido máxima (PSNR), la similitud estructural (SSIM), la distancia de inicio de Fréchet basada en video (VFID) y el error de deformación de flujo, este último para medir la estabilidad temporal en el video afectado.
Las arquitecturas anteriores contra las que se probó el sistema fueron VINET, DFVI, LGTSM, CAP, FGVC, STTNy FusibleEx.
Además de lograr las mejores puntuaciones frente a todos los sistemas de la competencia, los investigadores realizaron un estudio de usuario cualitativo, en el que los videos transformados con cinco métodos representativos se mostraron individualmente a veinte voluntarios, a quienes se les pidió que los calificaran en términos de calidad visual.
Los autores señalan que a pesar de la preferencia unánime por su método, uno de los resultados, FGVC, no refleja los resultados cuantitativos, y sugieren que esto indica que E2FGVI podría, engañosamente, generar 'resultados visualmente más agradables'.
En términos de eficiencia, los autores señalan que su sistema reduce en gran medida las operaciones de coma flotante por segundo (FLOP) y el tiempo de inferencia en una sola GPU Titan en el conjunto de datos DAVIS, y observan que los resultados muestran E2FGVI se ejecuta x15 más rápido que los métodos basados en flujo.
Ellos comentan:
'[MI2FGVI] tiene los FLOP más bajos en contraste con todos los demás métodos. Esto indica que el método propuesto es altamente eficiente para la pintura de video.'
http://www.youtube.com/watch?v=N–qC3T2wc4
*Mi conversión de citas en línea de los autores a hipervínculos.
Publicado por primera vez el 19 de mayo de 2022.