Inteligencia artificial
Eliminar objetos de video de manera más eficiente con aprendizaje automático

Nueva investigación de China informa resultados de última generación – así como una impresionante mejora en la eficiencia – para un nuevo sistema de inpainting de video que puede eliminar hábilmente objetos de las grabaciones.

El arnés de un ala delta es pintado por el nuevo procedimiento. Ver el video fuente para una mejor resolución y más ejemplos. Fuente: https://www.youtube.com/watch?v=N–qC3T2wc4
La técnica, llamada Marco de extremo a extremo para inpainting de video guiado por flujo (E2FGVI), también es capaz de eliminar marcas de agua y otros tipos de occlusiones del contenido de video.

E2FGVI calcula predicciones para el contenido que se encuentra detrás de las occlusiones, lo que permite la eliminación de incluso marcas de agua notables y refractarias. Fuente: https://github.com/MCG-NKU/E2FGVI
(Para ver más ejemplos en mejor resolución, consulte el video)
Aunque el modelo presentado en el artículo publicado se entrenó en videos de 432px x 240px (tamaños de entrada comúnmente bajos, limitados por el espacio de GPU disponible en comparación con los tamaños de lote óptimos y otros factores), los autores han lanzado desde entonces E2FGVI-HQ, que puede manejar videos en una resolución arbitraria.
El código para la versión actual está disponible en GitHub, mientras que la versión HQ, lanzada el domingo pasado, se puede descargar desde Google Drive y Baidu Disk.

El niño se queda en la imagen.
E2FGVI puede procesar video de 432×240 a 0,12 segundos por cuadro en una GPU Titan XP (12GB VRAM), y los autores informan que el sistema opera quince veces más rápido que los métodos actuales basados en flujo óptico.

Un jugador de tenis hace una salida inesperada.
Probado en conjuntos de datos estándar para este subsector de la investigación de síntesis de imágenes, el nuevo método fue capaz de superar a sus rivales en rondas de evaluación cualitativa y cuantitativa.

Pruebas contra enfoques anteriores. Fuente: https://arxiv.org/pdf/2204.02663.pdf
El artículo se titula Hacia un marco de extremo a extremo para inpainting de video guiado por flujo, y es una colaboración entre cuatro investigadores de la Universidad de Nankai, junto con un investigador de Hisilicon Technologies.
Qué falta en esta imagen
Además de sus aplicaciones obvias para efectos visuales, el inpainting de video de alta calidad está a punto de convertirse en una característica definitoria central de nuevas tecnologías de síntesis de imágenes y alteración de imágenes basadas en IA.
Esto es particularmente el caso para aplicaciones de moda que alteran el cuerpo, y otros marcos que buscan ‘adelgazar’ o alterar de otra manera escenas en imágenes y video. En tales casos, es necesario ‘rellenar’ convincentemente el fondo adicional que se expone por la síntesis.

De un artículo reciente, un algoritmo de ‘reconfiguración’ del cuerpo se encarga de inpainting el fondo recién revelado cuando un sujeto es redimensionado. Aquí, esa deficiencia está representada por el contorno rojo que la persona de figura más completa (ver imagen izquierda) ocupaba anteriormente. Basado en material de fuente de https://arxiv.org/pdf/2203.10496.pdf
Flujo óptico coherente
El flujo óptico (OF) se ha convertido en una tecnología central en el desarrollo de la eliminación de objetos de video. Como un atlas, OF proporciona un mapa de una secuencia temporal de un solo disparo. A menudo se utiliza para medir la velocidad en iniciativas de visión por computadora, OF también puede permitir un inpainting temporalmente coherente, donde la suma agregada de la tarea se puede considerar en una sola pasada, en lugar de la atención ‘por cuadro’ al estilo de Disney, que inevitablemente conduce a discontinuidad temporal.
Los métodos de inpainting de video hasta la fecha se han centrado en un proceso de tres etapas: completar flujo, donde el video se mapea esencialmente en una entidad discreta y explorable; propagar píxeles, donde los agujeros en videos ‘corrompidos’ se llenan propagando píxeles bidireccionalmente; y halucinación de contenido (invención de píxeles que es familiar para la mayoría de nosotros a partir de deepfakes y marcos de texto a imagen como la serie DALL-E) donde el contenido ‘perdido’ estimado se inventa e inserta en la grabación.
La innovación central de E2FGVI es combinar estas tres etapas en un sistema de extremo a extremo, lo que elimina la necesidad de realizar operaciones manuales en el contenido o el proceso.

El artículo observa que la necesidad de intervención manual requiere que los procesos anteriores no aprovechen una GPU, lo que los hace bastante lentos. Del artículo*:
‘Tomando DFVI como ejemplo, completar un video con un tamaño de 432 × 240 desde DAVIS, que contiene alrededor de 70 cuadros, necesita alrededor de 4 minutos, lo que es inaceptable en la mayoría de las aplicaciones del mundo real. Además, excepto las desventajas mencionadas anteriormente, solo usar una red de inpainting de imagen preentrenada en la etapa de halucinación de contenido ignora las relaciones de contenido a través de los vecinos temporales, lo que lleva a un contenido generado inconsistente en los videos.’
Al unir las tres etapas del inpainting de video, E2FGVI puede sustituir la segunda etapa, la propagación de píxeles, con la propagación de características. En los procesos más segmentados de los trabajos anteriores, las características no están tan ampliamente disponibles, porque cada etapa es relativamente hermética, y el flujo de trabajo solo es semi-automatizado.
Además, los investigadores han ideado un transformador focal temporal para la etapa de halucinación de contenido, que considera no solo los vecinos directos de los píxeles en el cuadro actual (es decir, lo que sucede en esa parte del cuadro en la imagen anterior o posterior), sino también los vecinos distantes que están muchos cuadros alejados, y que sin embargo influirán en el efecto cohesivo de cualquier operación realizada en el video en su conjunto.
La nueva sección central basada en características del flujo de trabajo es capaz de aprovechar procesos y desplazamientos de muestreo aprendibles a nivel de características, mientras que el transformador focal novedoso del proyecto, según los autores, extiende el tamaño de las ventanas focales ‘de 2D a 3D’.
Pruebas y datos
Para probar E2FGVI, los investigadores evaluaron el sistema contra dos conjuntos de datos populares de segmentación de objetos de video: YouTube-VOS, y DAVIS. YouTube-VOS cuenta con 3741 clips de video de entrenamiento, 474 clips de validación y 508 clips de prueba, mientras que DAVIS cuenta con 60 clips de video de entrenamiento y 90 clips de prueba.
E2FGVI se entrenó en YouTube-VOS y se evaluó en ambos conjuntos de datos. Durante el entrenamiento, se generaron máscaras de objetos (las áreas verdes en las imágenes de arriba, y el video de YouTube que acompaña) para simular la finalización del video.
Para las métricas, los investigadores adoptaron la relación señal a ruido pico (PSNR), la similitud estructural (SSIM), la distancia de Fréchet de Inception basada en video (VFID) y el error de deformación de flujo – este último para medir la estabilidad temporal en el video afectado.
Los arquitectos anteriores contra los que se probó el sistema fueron VINet, DFVI, LGTSM, CAP, FGVC, STTN, y FuseFormer.

De la sección de resultados cuantitativos del artículo. Las flechas hacia arriba y hacia abajo indican que números más altos o más bajos son mejores, respectivamente. E2FGVI logra las mejores puntuaciones en general. Los métodos se evalúan según FuseFormer, aunque DFVI, VINet y FGVC no son sistemas de extremo a extremo, lo que hace imposible estimar sus FLOPs.
Además de lograr las mejores puntuaciones contra todos los sistemas competidores, los investigadores realizaron un estudio de usuario cualitativo, en el que se mostraron videos transformados con cinco métodos representativos individualmente a veinte voluntarios, que fueron solicitados a calificarlos en términos de calidad visual.

El eje vertical representa el porcentaje de participantes que prefirieron la salida de E2FGVI en términos de calidad visual.
Los autores observan que a pesar de la preferencia unánime por su método, uno de los resultados, FGVC, no refleja los resultados cuantitativos, y sugieren que esto indica que E2FGVI podría, especiosamente, estar generando ‘resultados visualmente más agradables’.
En términos de eficiencia, los autores observan que su sistema reduce en gran medida las operaciones de punto flotante por segundo (FLOPs) y el tiempo de inferencia en una sola GPU Titan en el conjunto de datos DAVIS, y observan que los resultados muestran que E2FGVI se ejecuta 15 veces más rápido que los métodos basados en flujo.
‘[E2FGVI] tiene los FLOPs más bajos en comparación con todos los demás métodos. Esto indica que el método propuesto es muy eficiente para el inpainting de video.’
*Mi conversión de citas en línea de los autores a enlaces.
Publicado por primera vez el 19 de mayo de 2022.
Enmendado el martes 28 de octubre de 2025, para eliminar el incrustado de video defectuoso y enmendar las referencias al video incrustado en el cuerpo del artículo.













