El ángulo de Anderson
El camino hacia una mejor edición de vídeo basada en IA

El sector de investigación en síntesis de vídeo e imágenes genera regularmente arquitecturas de edición de vídeo* y, en los últimos nueve meses, las publicaciones de este tipo se han vuelto aún más frecuentes. Dicho esto, la mayoría de ellas representan solo avances graduales en el estado del arte, ya que los desafíos centrales son sustanciales.
Sin embargo, una nueva colaboración entre China y Japón esta semana ha producido algunos ejemplos que merecen un examen más detallado del enfoque, incluso si no se trata necesariamente de un trabajo histórico.
En el videoclip a continuación (del sitio del proyecto asociado al artículo, que – tenga cuidado – puede agotar su navegador) vemos que si bien las capacidades de deepfaking del sistema son inexistentes en la configuración actual, el sistema hace un buen trabajo al alterar de manera plausible y significativa la identidad de la joven en la imagen, basándose en una máscara de video (abajo a la izquierda):
Dele "click" para jugar. A partir de la máscara de segmentación semántica visualizada en la parte inferior izquierda, la mujer original (arriba a la izquierda) se transforma en una identidad notablemente diferente, aunque este proceso no logra el intercambio de identidad indicado en el mensaje. Fuente: https://yxbian23.github.io/project/video-painter/ (Tenga en cuenta que, al momento de escribir esto, este sitio, con reproducción automática y repleto de videos, tendía a bloquear mi navegador). Si puede acceder a los videos originales, consulte los videos para una mejor resolución y detalle, o vea los ejemplos en el video de resumen del proyecto en https://www.youtube.com/watch?v=HYzNfsD3A0s
La edición basada en máscaras de este tipo está bien establecida en el formato estático. modelos de difusión latente, utilizando herramientas como Red de controlSin embargo, mantener la coherencia del fondo en el vídeo es mucho más complicado, incluso cuando las áreas enmascaradas proporcionan al modelo flexibilidad creativa, como se muestra a continuación:
Dele "click" para jugar. Un cambio de especie con el nuevo método VideoPainter. Para una mejor resolución y detalle, consulte los vídeos originales, si puede acceder a ellos, o vea los ejemplos en el vídeo resumen del proyecto en https://www.youtube.com/watch?v=HYzNfsD3A0s
Los autores del nuevo trabajo consideran su método en relación tanto con el propio Tencent cepillonet arquitectura (que Ya lo cubrimos el año pasado) y a ControlNet, ambos tratan de una arquitectura de doble rama capaz de aislar la generación de primer plano y de segundo plano.
Sin embargo, al aplicar este método directamente al enfoque muy productivo de los Transformadores de Difusión (DiT) propuesto por Sora de OpenAI, trae consigo desafíos particulares, como señalan los autores”
'Aplicar [directamente] [la arquitectura de BrushNet y ControlNet] a los DiT de video presenta varios desafíos: [En primer lugar, dada] la sólida base generativa de Video DiT y el gran tamaño del modelo, replicar la columna vertebral de Video DiT completa o semidigital como codificador de contexto sería innecesario y computacionalmente prohibitivo.
'[En segundo lugar, a diferencia de] la rama de control convolucional puro de BrushNet, los tokens de DiT en regiones enmascaradas contienen inherentemente información de fondo debido a la atención global, lo que complica la distinción entre regiones enmascaradas y no enmascaradas en las estructuras principales de DiT.
'[Finalmente,] ControlNet carece de inyección de características en todas las capas, lo que dificulta el control de fondo denso para tareas de retoque.'
Por lo tanto, los investigadores han desarrollado un enfoque plug-and-play en forma de un marco de doble rama denominado Vídeo Pintor.
VideoPainter ofrece un marco de retoque de video de doble rama que mejora los DiT preentrenados con un codificador de contexto ligero. Este codificador representa solo el 6% de los parámetros de la estructura principal, lo que, según los autores, hace que el enfoque sea más eficiente que los métodos convencionales.
El modelo propone tres innovaciones clave: un codificador de contexto optimizado de dos capas para una guía de fondo eficiente; un sistema de integración de características selectivas de máscara que separa los tokens enmascarados y no enmascarados; y una técnica de remuestreo de identificación de región de pintura que mantiene la consistencia de la identidad en secuencias de video largas.
By congelación Tanto el DiT preentrenado como el codificador de contexto, al tiempo que introducen un adaptador de ID, VideoPainter, garantizan que los tokens de la región de pintura de clips anteriores persistan a lo largo de un video, lo que reduce el parpadeo y las inconsistencias.
El marco también está diseñado para compatibilidad plug-and-play, lo que permite a los usuarios integrarlo sin problemas en los flujos de trabajo de generación y edición de video existentes.
Para apoyar el trabajo, que utiliza Vídeo cognitivo-5B-I2V Como motor generativo, los autores seleccionaron lo que afirman que es el conjunto de datos de video en pintura más grande hasta la fecha. Titulado Datos de VPLa colección consta de más de 390,000 clips, con una duración total de vídeo de más de 886 horas. También desarrollaron un marco de evaluación comparativa relacionado denominado Banco VP.
Dele "click" para jugar. En los ejemplos del sitio web del proyecto, se observan las capacidades de segmentación impulsadas por la colección VPData y el conjunto de pruebas VPBench. Para una mejor resolución y detalle, consulte los videos originales, si puede acceder a ellos, o vea los ejemplos en el video de resumen del proyecto en https://www.youtube.com/watch?v=HYzNfsD3A0s
El nuevo trabajo se titula VideoPainter: retoque y edición de videos de cualquier duración con control de contexto plug-and-play, y proviene de siete autores del Tencent ARC Lab, la Universidad China de Hong Kong, la Universidad de Tokio y la Universidad de Macao.
Además del sitio del proyecto mencionado anteriormente, los autores también han publicado una versión más accesible. Descripción general de YouTube, también un Página de cara de abrazo.
Método
El proceso de recopilación de datos para VPData consta de recopilación, anotación, división, selección y subtitulado:

Esquema del proceso de construcción del conjunto de datos. Fuente: https://arxiv.org/pdf/2503.05639
Las colecciones de fuentes utilizadas para esta compilación provienen de Videvo Pexels, con un total inicial de alrededor de 450,000 vídeos obtenidos.
La etapa de preprocesamiento contó con la participación de varias bibliotecas y métodos: Reconocer cualquier cosa Se utilizó un marco para proporcionar etiquetado de video de conjunto abierto, encargado de identificar objetos primarios; Conexión a tierra del dinosaurio Se utilizó para la detección de cuadros delimitadores alrededor de los objetos identificados; y Segmentar cualquier cosa Modelo 2 Se utilizó el marco (SAM 2) para refinar estas selecciones generales y convertirlas en segmentaciones de máscara de alta calidad.
Para gestionar las transiciones de escenas y garantizar la coherencia en la pintura de videos, VideoPainter utiliza Detección de escenas de PyScene para identificar y segmentar clips en puntos de interrupción naturales, evitando los cambios disruptivos que a menudo causa el seguimiento del mismo objeto desde múltiples ángulos. Los clips se dividieron en intervalos de 10 segundos, y se descartaron los de menos de seis segundos.
Para la selección de datos se aplicaron tres criterios de filtrado: calidad estética, evaluado con el Predictor de la puntuación estética de Laion; fuerza del movimiento, medido a través de flujo óptico usando BALSA; y seguridad del contenido, verificado a través de Stable Diffusion Comprobador de seguridad.
Una limitación importante de los conjuntos de datos de segmentación de vídeo existentes es la falta de anotaciones textuales detalladas, que son cruciales para guiar los modelos generativos:

Los investigadores destacan la falta de subtítulos en los vídeos en colecciones comparables.
Por lo tanto, el proceso de curación de datos de VideoPainter incorpora diversos modelos de lenguaje de visión líderes, incluidos CogVLM2 Charla GPT-4o para generar subtítulos basados en fotogramas clave y descripciones detalladas de regiones enmascaradas.
VideoPainter mejora los DiT entrenados previamente al introducir un codificador de contexto ligero y personalizado que separa la extracción del contexto de fondo de la generación del contexto de primer plano, como se ve en la parte superior derecha del esquema ilustrativo a continuación:

Esquema conceptual de VideoPainter. El codificador de contexto de VideoPainter procesa latentes ruidosas, máscaras submuestreadas y latentes de vídeo enmascaradas mediante VAE, integrando únicamente tokens de fondo en el DiT preentrenado para evitar ambigüedades. El adaptador de remuestreo de ID garantiza la consistencia de identidad mediante la concatenación de tokens de región enmascarada durante el entrenamiento y el remuestreo de los clips anteriores durante la inferencia.
En lugar de sobrecargar la red troncal con procesamiento redundante, este codificador opera con una entrada optimizada: una combinación de latente ruidosa y latente de video enmascarado (extraído a través de un codificador automático variacional, o VAE) y máscaras con muestreo reducido.
La latente ruidosa proporciona contexto de generación, y la latente de video enmascarada se alinea con la distribución existente de DiT, con el objetivo de mejorar la compatibilidad.
En lugar de duplicar grandes secciones del modelo, algo que los autores afirman que ha ocurrido en trabajos anteriores, VideoPainter integra solo las dos primeras capas del DiT. Estas características extraídas se reintroducen en el DiT congelado de una manera estructurada y grupal: las características de la primera capa informan la mitad inicial del modelo, mientras que las características posteriores refinan la segunda mitad.
Además, un mecanismo selectivo de tokens garantiza que solo se reintegren las características relevantes para el fondo, lo que evita la confusión entre las regiones enmascaradas y las no enmascaradas. Este enfoque, sostienen los autores, permite a VideoPainter mantener una alta fidelidad en la conservación del fondo y, al mismo tiempo, mejorar la eficiencia de la restauración del primer plano.
Los autores señalan que el método que proponen admite diversos métodos de estilización, incluidos los más populares, Adaptación de bajo rango (LoRA).
Datos y Pruebas
VideoPainter se entrenó utilizando el modelo CogVideo-5B-I2V, junto con su equivalente de texto a video. El corpus VPData seleccionado se utilizó a 480x720px, a una tasa de aprendizaje de 1 × 10-5.
El adaptador de remuestreo de ID se entrenó para 2,000 pasos y el codificador de contexto para 80,000 XNUMX pasos, ambos utilizando el AdánW El entrenamiento se llevó a cabo en dos etapas utilizando 64 GPU NVIDIA V100 (aunque el artículo no especifica si tenían 16 GB o 32 GB de VRAM).
Para evaluación comparativa, Davis Se utilizó para máscaras aleatorias y el propio VPBench de los autores para máscaras basadas en segmentación.
El conjunto de datos VPBench incluye objetos, animales, humanos, paisajes y diversas tareas, y cubre cuatro acciones: add, remove, el cambioy intercambioLa colección incluye 45 vídeos de 6 segundos y nueve vídeos con una duración media de 30 segundos.
Se utilizaron ocho métricas para el proceso. Para la conservación de la región enmascarada, los autores utilizaron Relación señal-ruido máxima (PSNR); Métricas de similitud perceptual aprendidas (IPS); Índice de similitud estructural (SSIM); y Error absoluto medio (MAE).
Para la alineación del texto, los investigadores utilizaron Similitud CLIP tanto para evaluar la distancia semántica entre el título del clip y su contenido percibido real, como también para evaluar la precisión de las regiones enmascaradas.
Para evaluar la calidad general de los videos de salida, Distancia del vídeo de Fréchet Se utilizó (FVD).
Para una ronda de comparación cuantitativa de la pintura en video, los autores compararon su sistema con enfoques anteriores. Pintor profesional, cococo Cog-Inp (CogVideoX). La prueba consistió en pintar el primer fotograma de un clip utilizando modelos de pintura de imágenes y luego usar una estructura de imagen a video (I2V) para propagar los resultados en una operación de mezcla latente, de acuerdo con un método propuesto por un papel 2023 desde Israel.
Dado que el sitio web del proyecto no está completamente operativo al momento de escribir este artículo, y dado que el video de YouTube asociado al proyecto podría no incluir todos los ejemplos incluidos en el sitio, resulta bastante difícil encontrar videos que se ajusten específicamente a los resultados descritos en el artículo. Por lo tanto, mostraremos resultados estáticos parciales incluidos en el artículo y cerraremos el artículo con algunos videos adicionales que logramos extraer del sitio del proyecto.

Comparación cuantitativa de VideoPainter frente a ProPainter, COCOCO y Cog-Inp en VPBench (máscaras de segmentación) y Davis (máscaras aleatorias). Las métricas cubren la conservación de la región enmascarada, la alineación del texto y la calidad del video. Rojo = mejor, azul = segundo mejor.
De estos resultados cualitativos, los autores comentan:
'En el VPBench basado en segmentación, ProPainter y COCOCO muestran el peor desempeño en la mayoría de las métricas, principalmente debido a la incapacidad de pintar objetos completamente enmascarados y la dificultad de la arquitectura de red troncal única para equilibrar la preservación del fondo y la generación del primer plano, respectivamente.
En la prueba de referencia de máscaras aleatorias Davis, ProPainter muestra una mejora al aprovechar información parcial del fondo. Sin embargo, VideoPainter logra un rendimiento óptimo en la segmentación (de longitud estándar y larga) y máscaras aleatorias gracias a su arquitectura de doble rama, que desacopla eficazmente la conservación del fondo y la generación del primer plano.
Los autores presentan a continuación ejemplos estáticos de pruebas cualitativas, de las que presentamos una selección a continuación. En todos los casos, remitimos al lector al sitio del proyecto y al vídeo de YouTube para una mejor resolución.

Una comparación con los métodos de retoque en marcos anteriores.
Dele "click" para jugar. Ejemplos concatenados por nosotros a partir de los videos de 'resultados' en el sitio del proyecto.
Respecto a esta ronda cualitativa de video-in-painting, los autores comentan:
'VideoPainter muestra constantemente resultados excepcionales en la coherencia, calidad y alineación del video con los subtítulos de texto. Cabe destacar que ProPainter no logra generar objetos completamente enmascarados porque solo depende de la propagación de píxeles de fondo en lugar de generarlos.
'Si bien COCOCO demuestra una funcionalidad básica, no logra mantener una identificación consistente en las regiones no pintadas (apariencias de embarcaciones inconsistentes y cambios abruptos de terreno) debido a su arquitectura de columna única que intenta equilibrar la preservación del fondo y la generación del primer plano.
'Cog-Inp logra resultados básicos de retoque; sin embargo, la incapacidad de su operación de fusión para detectar los límites de la máscara genera artefactos significativos.
'Además, VideoPainter puede generar vídeos coherentes de más de un minuto manteniendo la consistencia de identificación a través de nuestro remuestreo de identificación'.
Los investigadores también probaron la capacidad de VideoPainter para aumentar los subtítulos y obtener mejores resultados con este método, poniendo al sistema a prueba. UniEdit, Control de direccióny Re-vídeo.

Resultados de la edición de vídeo frente a tres enfoques anteriores.
Los autores comentan:
Tanto para videos estándar como largos en VPBench, VideoPainter logra un rendimiento superior, incluso superando al ReVideo integral. Este éxito se debe a su arquitectura de doble rama, que garantiza una excelente conservación del fondo y la generación de primer plano, manteniendo una alta fidelidad en las regiones no editadas y asegurando que las regiones editadas se ajusten perfectamente a las instrucciones de edición. Además, el remuestreo de ID de la región de pintura mantiene la consistencia de ID en videos largos.
Aunque el artículo presenta ejemplos cualitativos estáticos para esta métrica, no son esclarecedores, y remitimos al lector a los diversos ejemplos repartidos en los distintos vídeos publicados para este proyecto.
Por último, se llevó a cabo un estudio en humanos en el que se pidió a treinta usuarios que evaluaran 50 generaciones seleccionadas al azar de VPBench y de los subconjuntos de edición. Los ejemplos destacaron la conservación del fondo, la alineación con el mensaje y la calidad general del video.

Resultados del estudio de usuarios para VideoPainter.
Los autores declaran:
'VideoPainter superó significativamente las líneas de base existentes, logrando índices de preferencia más altos en todos los criterios de evaluación en ambas tareas'.
Sin embargo, admiten que la calidad de las generaciones de VideoPainter depende del modelo base, que puede tener dificultades con movimientos y físicas complejos, y observan que también funciona mal con máscaras de baja calidad o subtítulos desalineados.
Conclusión
VideoPainter parece una valiosa incorporación a la literatura. Sin embargo, como es típico de las soluciones recientes, tiene considerables demandas de cómputo. Además, muchos de los ejemplos elegidos para la presentación en el sitio del proyecto están muy lejos de ser los mejores ejemplos; por lo tanto, sería interesante ver este marco de trabajo comparado con futuras propuestas y una gama más amplia de enfoques anteriores.
* Vale la pena mencionar que "edición de video" en este sentido no significa "ensamblar diversos clips en una secuencia", que es el significado tradicional de este término; sino más bien cambiar directamente o modificar de alguna manera el contenido interno de los videoclips existentes, utilizando técnicas de aprendizaje automático.
Publicado por primera vez el lunes 10 de marzo de 2025