Contáctenos

El video con IA perfecciona el selfie del gato

El ángulo de Anderson

El video con IA perfecciona el selfie del gato

mm
Imagen de un video de demostración para el artículo «Generación de video factorizada: desacoplamiento de la construcción de escenas y la síntesis temporal en modelos de difusión de texto a video», que muestra el punto de vista de una «selfi de gato» con un perro patinando al fondo. Fuente: https://vita-epfl.github.io/FVG/

Los generadores de video con IA suelen ofrecer resultados cercanos, pero no tan buenos, en cuanto a la entrega del mensaje de texto deseado. Sin embargo, una nueva solución de alto nivel marca la diferencia.

 

Los sistemas de video generativo a menudo tienen dificultades para producir videos que sean realmente creativos o atrevidos y, con frecuencia, no logran cumplir con las expectativas de los mensajes de texto de los usuarios.

Parte de la razón de esto es enredo El hecho de que los modelos de visión/lenguaje tengan que comprometer el tiempo de entrenamiento con sus datos de origen. Con poco entrenamiento, los conceptos son flexibles, pero no están completamente desarrollados; con demasiado entrenamiento, los conceptos son precisos, pero ya no son lo suficientemente flexibles como para incorporarlos en combinaciones novedosas.

Puedes hacerte una idea con el video incrustado a continuación. A la izquierda, se muestra el tipo de solución intermedia que muchos sistemas de IA ofrecen en respuesta a una instrucción exigente (la instrucción aparece al principio del video en los cuatro ejemplos) que requiere una yuxtaposición de elementos demasiado fantástica para haber sido un ejemplo de entrenamiento real. A la derecha, se muestra un resultado de IA que se ajusta mucho mejor a la instrucción:

Haga clic para jugar (sin audio). A la derecha, vemos que la WAN 2.2 "factorizada" cumple a la perfección con las indicaciones, en comparación con las interpretaciones imprecisas de la Wan 2.2 "normal", a la izquierda. Consulte los archivos de vídeo originales para obtener una mejor resolución y muchos más ejemplos, aunque las versiones seleccionadas que se muestran aquí no existen en el sitio web del proyecto y se recopilaron para este artículo. Fuente

Bueno, aunque tenemos que perdonar las manos humanas del pato que aplaude (!), está claro que los ejemplos de la derecha se adhieren al texto original mucho mejor que los de la izquierda.

Curiosamente, ambas arquitecturas presentadas son esencialmente las mismas mismo Arquitectura – la popular y muy capaz Wan 2.2, una versión china que ha ganado terreno significativo en las comunidades de código abierto y de aficionados este año.

La diferencia es que la segunda tubería generativa es factorizado, lo que en este caso significa que se ha utilizado un modelo de lenguaje grande (LLM) para reinterpretar el primer fotograma (semilla) del vídeo, de modo que será mucho más fácil para el sistema entregar lo que el usuario está pidiendo.

Este 'anclaje visual' implica inyectar una imagen creada a partir de este mensaje mejorado con LLM en el canal generativo como un 'marco de inicio' y usar un lora Modelo interpretativo para ayudar a integrar el cuadro "intruso" en el proceso de creación de vídeo.

Los resultados, en términos de fidelidad inmediata, son bastante notables, sobre todo para una solución que parece bastante elegante:

Haga clic para jugar (sin audio). Más ejemplos de generaciones de vídeo "factorizadas" que se ajustan al guion. Consulte los archivos de vídeo originales para obtener una mejor resolución y muchos más ejemplos, aunque las versiones seleccionadas que se muestran aquí no existen en el sitio web del proyecto y se recopilaron para este artículo.

Esta solución viene en forma de nuevo documento Generación de vídeo factorizado: desacoplamiento de la construcción de escenas y la síntesis temporal en modelos de difusión de texto a vídeo, y su acompañamiento repleto de vídeos. página web del proyecto.

Si bien muchos sistemas actuales intentan aumentar la precisión de las indicaciones mediante el uso de modelos de lenguaje para reescribir textos vagos o poco especificados, el nuevo trabajo sostiene que esta estrategia aún conduce al fracaso cuando el modelo representación de la escena interna Es defectuoso.

Incluso con una instrucción reescrita detalladamente, los modelos de texto a video a menudo descomponen elementos clave o generan estados iniciales incompatibles que rompen la lógica de la animación. Si el primer fotograma no refleja lo que describe la instrucción, el video resultante no se recupera, por muy bueno que sea el modelo de movimiento.

El documento dice*:

'Los modelos [de texto a vídeo] frecuentemente producen cuadros con cambios de distribución y aun así logran [puntajes de evaluación] comparables a los modelos I2V, lo que indica que Su modelado de movimiento sigue siendo razonablemente natural incluso cuando la fidelidad de la escena es relativamente pobre..

'Los modelos [de imagen a video] exhiben un comportamiento complementario, fuertes [puntajes de evaluación] a partir de escenas iniciales precisas y una coherencia temporal más débil, mientras que I2V + texto equilibra ambos aspectos.

'Este contraste sugiere una desajuste estructural en los modelos T2V actuales:la puesta a tierra de la escena y la síntesis temporal se benefician de sesgos inductivos distintos, pero las arquitecturas existentes intentan aprender ambos simultáneamente dentro de un único modelo.

Una comparación diagnóstica de los modos de generación encontró que los modelos sin anclaje explícito de escena obtuvieron buenos resultados en movimiento, pero a menudo comprometieron el diseño de la escena, mientras que los enfoques condicionados por imágenes mostraron el patrón opuesto:

Comparación de los modos de generación de vídeo en dos conjuntos de datos. Se muestra que la combinación I2V+texto logra la mejor calidad de fotograma (FID) y coherencia temporal (FVD), lo que destaca la ventaja de separar la construcción de la escena del movimiento. Fuente: https://arxiv.org/pdf/2512.16371

Comparación de los modos de generación de video en dos conjuntos de datos, que muestra que I2V + texto logra la mejor calidad de cuadro (FID) y coherencia temporal (FVD), destacando el beneficio de separar la construcción de la escena del movimiento. Fuente

Estos hallazgos apuntan a una falla estructural en la que los modelos actuales intentan aprender tanto el diseño de la escena como la animación de una sola vez, a pesar de que las dos tareas requieren diferentes tipos de sesgo inductivo, y es mejor manejarlos por separado.

Quizás lo más interesante es que este 'truco' puede aplicarse potencialmente a instalaciones locales de modelos como Wan 2.1 y 2.2, y modelos de difusión de vídeo similares como Vídeo de HunyuanComo anécdota, al comparar la calidad de la producción de aficionados con la de portales generativos comerciales como Kling y Runway, la mayoría de los principales proveedores de API están mejorando las ofertas de código abierto, como WAN, con LoRA y, al parecer, con trucos como los que se muestran en el nuevo artículo. Por lo tanto, este enfoque en particular podría representar una oportunidad para el sector del software libre y de código abierto (FOSS).

Las pruebas realizadas para el método indican que este enfoque simple y modular ofrece un nuevo estado del arte en el Prueba de rendimiento T2V-CompBench, mejorando significativamente todos los modelos probados. Los autores concluyen que, si bien su sistema mejora radicalmente la fidelidad, no aborda (ni está diseñado para abordar) deriva de identidad, actualmente la pesadilla de la investigación en IA generativa.

El nuevo artículo proviene de cuatro investigadores de la Ecole Polytechnique Fédérale de Lausanne (EPFL) en Suiza.

Método y datos

La propuesta central de la nueva técnica es que los modelos de difusión de texto a video (T2V) deben estar "anclados" a cuadros iniciales que realmente se ajusten al mensaje de texto deseado.

Para garantizar que el modelo respete el marco de inicio, el nuevo método interrumpe el proceso de difusión estándar Inyectando un producto limpio latente Desde la imagen de anclaje en el paso de tiempo cero, reemplazando una de las entradas ruidosas habituales. Esta entrada desconocida confunde al modelo al principio, pero con un LoRA mínimo. sintonia FINA, aprende a tratar el cuadro inyectado como un ancla visual fija en lugar de parte de la trayectoria del ruido:

Método de dos etapas para fundamentar la generación de texto a vídeo con un ancla visual: A la izquierda, el modelo se ajusta mediante LoRA ligero para tratar una latente limpia inyectada como una restricción fija de la escena. A la derecha, el mensaje se divide en un subtítulo para el primer fotograma, que se utiliza para generar la imagen de ancla que guía el vídeo.

Un método de dos etapas para fundamentar la generación de texto a video con un ancla visual: A la izquierda, el modelo se ajusta con precisión mediante un LoRA ligero para tratar una latente limpia inyectada como una restricción fija de la escena. A la derecha, el mensaje se divide en un subtítulo para el primer fotograma, que se utiliza para generar la imagen de ancla que guía el video.

En la inferencia, el método reescribe la solicitud para describir solo el primer fotograma, utilizando un LLM para extraer un estado de escena inicial plausible centrado en el diseño y la apariencia.

Esta solicitud reescrita se pasa a un generador de imágenes para generar un fotograma de anclaje candidato (que el usuario puede refinar opcionalmente). El fotograma seleccionado se codifica en una imagen latente y se inyecta en el proceso de difusión reemplazando el primer paso de tiempo, lo que permite que el modelo genere el resto del vídeo. mientras permanece anclado en la escena inicial – un proceso que funciona sin requerir cambios en la arquitectura subyacente.

El proceso se probó mediante la creación de LoRA para Wan2.2-14B, Wan2.1-1B y Vídeo de engranaje 1.5-5BEl entrenamiento de LoRA se llevó a cabo en un clasificar de 256, en 5000 clips muestreados aleatoriamente de la UltraVideo colección.

El entrenamiento duró 6000 pasos y requirió 48 horas de GPU. para Wan-1B y CogVideo-5B, y 96 horas de GPU para Wan-14B. Los autores señalan que Wan-5B admite de forma nativa el condicionamiento de solo texto y texto-imagen (que en este caso se están implementando en los frameworks más antiguos), por lo que no requirió ajustes.

Examenes

En los experimentos realizados para el proceso, cada mensaje de texto se refinó inicialmente utilizando Qwen2.5-7B-Instrucción, que utilizó el resultado para generar una descripción detallada de la escena completa. Esta descripción se transmitió a Imagen Qwen, que se encargó de generar el 'marco mágico' que se interpondría en el proceso de difusión.

Los puntos de referencia utilizados para evaluar el sistema incluyeron el mencionado T2V-CompBench, para probar la comprensión de la composición al calificar qué tan bien los modelos preservaban objetos, atributos y acciones dentro de una escena coherente; y VBench 2.0, para evaluar el razonamiento más amplio y la consistencia en 18 métricas, agrupadas en creatividad, razonamiento de sentido común, controlabilidad, fidelidad humana y física:

En las siete categorías de evaluación de T2V-CompBench, el método T2V factorizado superó las líneas base T2V estándar y sobremuestreadas en todos los modelos probados, con mejoras de hasta el 53.25 %. Las variantes con mayor puntuación igualaron o superaron con frecuencia el benchmark propietario PixVerse-V3.

En las siete categorías de evaluación de T2V-CompBench, el método T2V factorizado superó las líneas base T2V estándar y sobremuestreadas en todos los modelos probados, con mejoras de hasta el 53.25 %. Las variantes con mayor puntuación igualaron o superaron con frecuencia el benchmark propietario PixVerse-V3.

Respecto a esta primera ronda de pruebas, los autores afirman*:

En todos los modelos, añadir una imagen de anclaje mejora consistentemente el rendimiento compositivo. Todos los modelos factorizados más pequeños (CogVideo 5B, Wan 5B y Wan 1B) superan al modelo Wan 14B T2V, de mayor tamaño.

"Nuestro Wan 5B factorizado también supera a la línea base comercial PixVerse-V3, que es el modelo con mejor informe en el punto de referencia. Esto demuestra que la base visual mejora sustancialmente la comprensión de la escena y la acción incluso en modelos de menor capacidad.

Dentro de cada familia de modelos, la versión factorizada supera al modelo original. Cabe destacar que nuestro LoRA ligero con anclaje a tierra en WAN 14B alcanza un rendimiento comparable al de su variante I2V 14B preentrenada (0.661 frente a 0.666), a pesar de no requerir un reentrenamiento completo.

A continuación vino la ronda VBench2.0:

El enfoque factorizado T2V mejoró consistentemente el rendimiento de VBench 2.0 en composición, razonamiento de sentido común, capacidad de control y física, con algunas ganancias superiores al 60 %, aunque la fidelidad humana se mantuvo por debajo de la línea de base patentada de Veo 3.

El enfoque factorizado T2V mejoró consistentemente el rendimiento de VBench 2.0 en composición, razonamiento de sentido común, capacidad de control y física, con algunas ganancias superiores al 60 %, aunque la fidelidad humana se mantuvo por debajo de la línea de base patentada de Veo 3.

En todas las arquitecturas, el enfoque factorizado mejoró los puntajes en todas las categorías de VBench excepto fidelidad humana, que disminuyó ligeramente incluso con un sobremuestreo rápido. WAN 5B superó a WAN 14B, de mayor tamaño, lo que refuerza los resultados anteriores de T2V-CompBench que indicaban que la conexión a tierra visual contribuía más que la escala.

Si bien las ganancias en VBench fueron consistentes, fueron menores que las observadas en T2V-CompBench, y los autores atribuyen esto al régimen de puntuación binaria más estricto de VBench.

Para las pruebas cualitativas, el artículo proporciona imágenes estáticas, pero remitimos al lector a los vídeos compuestos incluidos en este artículo para una idea más clara, con la salvedad de que los vídeos originales son más numerosos y diversos, además de poseer mayor resolución y detalle. Encuéntrelos. aquiEn cuanto a los resultados cualitativos, el artículo afirma:

'Los videos anclados muestran consistentemente una composición de escena más precisa, una vinculación entre objetos y atributos más fuerte y una progresión temporal más clara'.

El método factorizado se mantuvo estable incluso al reducir el número de pasos de difusión de 50 a 15, sin apenas pérdida de rendimiento en T2V-CompBench. Por el contrario, tanto las líneas base de solo texto como las sobremuestreadas se degradaron drásticamente en las mismas condiciones.

Aunque, en teoría, la reducción de pasos podría triplicar la velocidad, en la práctica, el proceso de generación completo solo se volvió 2.1 veces más rápido debido a los costos fijos de la generación de imágenes de anclaje. Aun así, los resultados indicaron que el anclaje no solo mejoró la calidad de la muestra, sino que también ayudó a estabilizar el proceso de difusión, lo que permitió una generación más rápida y eficiente sin pérdida de precisión.

El sitio web del proyecto proporciona ejemplos de generaciones de métodos nuevos y sobremuestreados, de los cuales ofrecemos algunos ejemplos editados (de menor resolución) aquí:

Haga clic para jugar (sin audio). Fuentes iniciales sobremuestreadas vs. el enfoque factorizado de los autores.

Los autores concluyen:

Nuestros resultados sugieren que una mejor conexión a tierra, en lugar de una mayor capacidad por sí sola, podría ser igualmente importante. Los avances recientes en la difusión de T2V se han basado en gran medida en el aumento del tamaño del modelo y de los datos de entrenamiento; sin embargo, incluso los modelos grandes suelen tener dificultades para inferir una escena inicial coherente a partir únicamente del texto.

'Esto contrasta con la difusión de imágenes, donde el escalamiento es relativamente sencillo; en los modelos de video, cada mejora arquitectónica debe operar sobre una dimensión temporal adicional, lo que hace que el escalamiento requiera sustancialmente más recursos.

'Nuestros hallazgos indican que una mejor conexión a tierra puede complementar la escala al abordar un cuello de botella diferente: establecer la escena correcta antes de que comience la síntesis de movimiento.

Al integrar la generación de video en la composición de escenas y el modelado temporal, mitigamos varios modos de fallo comunes sin requerir modelos considerablemente más grandes. Consideramos esto como un principio de diseño complementario que puede guiar las arquitecturas futuras hacia una síntesis de video más fiable y estructurada.

Conclusión

Aunque los problemas de entrelazamiento son muy reales y pueden requerir soluciones dedicadas (como mejores evaluaciones de curación y distribución antes del entrenamiento), ha sido revelador ver cómo la factorización "despega" varias orquestaciones de conceptos obstinadas y "atascadas" en representaciones mucho más precisas, con solo una capa moderada de condicionamiento LoRA y la intervención de una imagen de inicio/semilla notablemente mejorada.

La brecha en recursos entre la inferencia de los aficionados locales y las soluciones comerciales puede no ser tan enorme como se supone, dado que casi todos los proveedores están tratando de racionalizar su considerable gasto en recursos de GPU para los consumidores.

Como anécdota, un gran número de los proveedores actuales de vídeo generativo parecen utilizar versiones de marca y, en general, mejoradas de los modelos FOSS chinos. La principal ventaja de estos sistemas intermediarios es que se han tomado la molestia de entrenar las LoRA o, si no, con un mayor coste y una recompensa ligeramente mayor, de realizar un ajuste completo de las ponderaciones del modelo.† †.

Este tipo de conocimientos podrían ayudar a cerrar esa brecha aún más, en el contexto de un panorama de lanzamiento en el que los chinos parecen decididos (no necesariamente por razones altruistas o idealistas) a democratizar la IA general, mientras que los intereses comerciales occidentales tal vez preferirían que el aumento del tamaño del modelo y las regulaciones eventualmente enclaustren cualquier modelo realmente bueno detrás de API y múltiples capas de filtros de contenido.

 

* Énfasis del autor, no mío.

El documento no especifica qué GPU se eligió ni cuántas se utilizaron.

† † Aunque la ruta LoRA es más probable, tanto por la facilidad de uso económica como por los pesos completos, en lugar de cuantificado Los pesos no siempre están disponibles.

Primera publicación: viernes 19 de diciembre de 2025

Escritor sobre aprendizaje automático, especialista en síntesis de imágenes humanas. Exdirector de contenido de investigación en Metaphysic.ai.
sitio personal: martinanderson.ai
Contacto: [email protected]
Gorjeo: @manders_ai