El ángulo de Anderson
Mejor video de IA generativa al mezclar fotogramas durante el entrenamiento

Un nuevo artÃculo publicado esta semana en Arxiv aborda una cuestión que cualquiera que haya adoptado VÃdeo de Hunyuan or Wan 2.1 Los generadores de vÃdeo con IA ya habrán descubierto: aberraciones temporales, donde el proceso generativo tiende a acelerar abruptamente, combinar, omitir o arruinar de alguna manera momentos cruciales en un video generado:
Haga clic para jugarAlgunos de los fallos temporales que se están volviendo familiares para los usuarios de la nueva generación de sistemas de vÃdeo generativo, destacados en el nuevo artÃculo. A la derecha, el efecto de mejora del nuevo enfoque FluxFlow. Fuente: https://haroldchen19.github.io/FluxFlow/
El video de arriba presenta extractos de videos de prueba de ejemplo (advertencia: bastante caótico). Sitio del proyecto para el artÃculo. Podemos ver varios problemas cada vez más familiares que se están solucionando con el método de los autores (imagen a la derecha en el video), que es efectivamente un preprocesamiento de conjuntos de datos Técnica aplicable a cualquier arquitectura de vÃdeo generativo.
En el primer ejemplo, que presenta a 'dos ​​niños jugando con una pelota', generado por VÃdeo CogXVemos (a la izquierda del video recopilatorio anterior y en el ejemplo especÃfico a continuación) que la generación nativa salta rápidamente a través de varios micromovimientos esenciales, acelerando la actividad de los niños hasta un nivel de "dibujos animados". En cambio, el mismo conjunto de datos y método produce mejores resultados con la nueva técnica de preprocesamiento, denominada Flujo de flujo (a la derecha de la imagen en el vÃdeo a continuación):
Haga clic para jugar.
En el segundo ejemplo (usando NOVA-0.6B) vemos que un movimiento central que involucra a un gato ha sido de alguna manera corrompido o significativamente submuestreado en la etapa de entrenamiento, hasta el punto de que el sistema generativo queda "paralizado" y es incapaz de hacer que el sujeto se mueva:
Haga clic para jugar.
Este sÃndrome, en el que el movimiento o el sujeto quedan "atascados", es uno de los problemas más frecuentemente reportados en HV y Wan, en los diversos grupos de sÃntesis de imágenes y videos.
Algunos de estos problemas están relacionados con problemas de subtÃtulos de video en el conjunto de datos de origen, que Eché un vistazo a esta semanapero los autores del nuevo trabajo centran sus esfuerzos en las cualidades temporales de los datos de entrenamiento y presentan un argumento convincente de que abordar los desafÃos desde esa perspectiva puede producir resultados útiles.
Como se mencionó en el artÃculo anterior sobre subtÃtulos de video, ciertas deportes son particularmente difÃciles de resumir en momentos clave, lo que significa que los eventos crÃticos (como una volcada) no reciben la atención que necesitan en el momento del entrenamiento:
Haga clic para jugar.
En el ejemplo anterior, el sistema generativo no sabe cómo llegar a la siguiente etapa de movimiento y transita ilógicamente de una pose a la siguiente, cambiando la actitud y la geometrÃa del jugador en el proceso.
Se trata de grandes movimientos que se perdieron en el entrenamiento, pero igualmente vulnerables son movimientos mucho más pequeños pero fundamentales, como el aleteo de las alas de una mariposa:
Haga clic para jugar.
A diferencia del mate, el aleteo no es un evento raro, sino persistente y monótono. Sin embargo, su consistencia se pierde en el proceso de muestreo, ya que el movimiento es tan rápido que resulta muy difÃcil de establecer temporalmente.
Estos no son problemas particularmente nuevos, pero están recibiendo mayor atención ahora que los entusiastas pueden disponer de potentes modelos de video generativo para su instalación local y generación gratuita.
Las comunidades de Reddit y Discord inicialmente trataron estos problemas como "relacionados con el usuario". Esta es una suposición comprensible, ya que los sistemas en cuestión son muy nuevos y están escasamente documentados. Por lo tanto, varios expertos han sugerido diversas soluciones (y no siempre efectivas) para algunos de los fallos documentados aquÃ, como modificar la configuración de varios componentes de distintos tipos de flujos de trabajo de ComfyUI para Hunyuan Video (HV) y Wan 2.1.
En algunos casos, en lugar de producir un movimiento rápido, tanto HV como Wan producirán slow movimiento. Las sugerencias de Reddit y ChatGPT (que principalmente aprovecha Reddit) incluyen cambiando el número de cuadros en la generación solicitada, o reducir radicalmente la velocidad de cuadros*.
Todo esto es desesperante; la verdad emergente es que aún no sabemos la causa exacta ni el remedio exacto para estos problemas; claramente, atormentar a las configuraciones de generación para solucionarlos (particularmente cuando esto degrada la calidad de salida, por ejemplo con una tasa de fps demasiado baja) es solo una medida provisional, y es bueno ver que la escena de investigación está abordando problemas emergentes con esta rapidez.
Entonces, además del análisis de esta semana sobre cómo los subtÃtulos afectan el entrenamiento, echemos un vistazo al nuevo artÃculo sobre la regularización temporal y qué mejoras podrÃa ofrecer a la escena actual del video generativo.
La idea central es más bien simple y ligera, y no por ello peor; no obstante, el documento está algo acolchado para alcanzar las ocho páginas prescritas, y omitiremos este relleno según sea necesario.

El pescado en la generación nativa del marco VideoCrafter es estático, mientras que la versión modificada por FluxFlow captura los cambios necesarios. Fuente: https://arxiv.org/pdf/2503.15417
El nuevo trabajo se titula La regularización temporal fortalece tu generador de videos, y proviene de ocho investigadores de Everlyn AI, la Universidad de Ciencia y TecnologÃa de Hong Kong (HKUST), la Universidad de Florida Central (UCF) y la Universidad de Hong Kong (HKU).
(Al momento de escribir este artÃculo, hay algunos problemas con el documento que lo acompaña. Sitio del proyecto)
Flujo de flujo
La idea central detrás Flujo de flujoEl nuevo esquema de preentrenamiento de los autores tiene como objetivo superar los problemas generalizados parpadeo y inconsistencia temporal mediante la mezcla de bloques y grupos de bloques en los órdenes del marco temporal a medida que los datos de origen se exponen al proceso de entrenamiento:

La idea central detrás de FluxFlow es mover bloques y grupos de bloques a posiciones inesperadas y no temporales, como una forma de aumento de datos.
El artÃculo explica:
'[Los artefactos] surgen de una limitación fundamental: a pesar de aprovechar conjuntos de datos a gran escala, los modelos actuales a menudo se basan en patrones temporales simplificados en los datos de entrenamiento (por ejemplo, direcciones de caminata fijas o transiciones de cuadros repetitivas) en lugar de aprender dinámicas temporales diversas y plausibles.
'Este problema se ve agravado aún más por la falta de aumento temporal explÃcito durante el entrenamiento, lo que deja a los modelos propensos a sobreajustarse a correlaciones temporales espurias (por ejemplo, "el cuadro n.° 5 debe seguir al n.° 4") en lugar de generalizarse en diversos escenarios de movimiento.'
La mayorÃa de los modelos de generación de vÃdeo, explican los autores, todavÃa toman demasiado prestado de... imagen SÃntesis, que se centra en la fidelidad espacial e ignora en gran medida el eje temporal. Si bien técnicas como el recorte, la inversión y la vibración de color han ayudado a mejorar la calidad de la imagen estática, no son soluciones adecuadas para los vÃdeos, donde la ilusión de movimiento depende de transiciones consistentes entre fotogramas.
Los problemas resultantes incluyen texturas parpadeantes, cortes bruscos entre fotogramas y patrones de movimiento repetitivos o excesivamente simplistas.
Dele "click" para jugar.
El artÃculo sostiene que, si bien algunos modelos, incluidos Difusión de vÃdeo estable y LlamaGen – compensar con arquitecturas cada vez más complejas o restricciones de ingenierÃa, esto tiene un costo en términos de computación y flexibilidad.
Dado que el aumento de datos temporales ya ha demostrado ser útil en el vÃdeo comprensión tareas (en marcos como Cortadora fina, SeFAR y Ex-SV) Es sorprendente, afirman los autores, que esta táctica rara vez se aplique en un contexto generativo.
Comportamiento perturbador
Los investigadores sostienen que las interrupciones simples y estructuradas en el orden temporal durante el entrenamiento ayudan a los modelos a generalizar mejor el movimiento realista y diverso:
Al entrenarse con secuencias desordenadas, el generador aprende a recuperar trayectorias plausibles, regularizando eficazmente la entropÃa temporal. FLUXFLOW cierra la brecha entre el aumento temporal discriminativo y generativo, ofreciendo una solución de mejora lista para usar para la generación de video temporalmente plausible, a la vez que mejora la calidad general.
'A diferencia de los métodos existentes que introducen cambios arquitectónicos o dependen del posprocesamiento, FLUXFLOW opera directamente a nivel de datos, introduciendo perturbaciones temporales controladas durante el entrenamiento.'
Dele "click" para jugar.
Las perturbaciones a nivel de marco, afirman los autores, introducen disrupciones de grano fino dentro de una secuencia. Este tipo de disrupción no es muy diferente a aumento de enmascaramiento, donde se bloquean aleatoriamente secciones de datos para evitar que el sistema sobreajuste en puntos de datos y fomentar una mejor generalización.
Examenes
Aunque la idea central aquà no se extiende a un documento extenso, debido a su simplicidad, hay una sección de prueba que podemos revisar.
Los autores probaron cuatro consultas relacionadas con la mejora de la calidad temporal manteniendo la fidelidad espacial; la capacidad de aprender la dinámica del flujo óptico/movimiento; el mantenimiento de la calidad temporal en la generación extratérmino; y la sensibilidad a los hiperparámetros clave.
Los investigadores aplicaron FluxFlow a tres arquitecturas generativas: basada en U-Net, en forma de VideoCrafter2; DiT-basado, en forma de CogVideoX-2B; y AR-basado, en forma de NOVA-0.6B.
Para una comparación justa, ajustaron los modelos base de las arquitecturas con FluxFlow como una fase de entrenamiento adicional, por un lado. época, En la OpenVidHD-0.4M conjunto de datos
Los modelos se evaluaron en relación con dos puntos de referencia populares: UCF-101; y Banco virtual.
Para la UCF, la Distancia del vÃdeo de Fréchet (FVD) y Puntaje inicial Se utilizaron métricas IS. Para VBench, los investigadores se centraron en la calidad temporal, la calidad por fotograma y la calidad general.

Evaluación inicial cuantitativa de FluxFlow-Frame. "+ Original" indica entrenamiento sin FLUXFLOW, mientras que "+ Núm × 1" muestra diferentes configuraciones de FluxFlow-Frame. Los mejores resultados están sombreados; los segundos mejores están subrayados para cada modelo.
Al comentar estos resultados, los autores afirman:
'Tanto FLUXFLOW-FRAME como FLUXFLOW-BLOCK mejoran significativamente la calidad temporal, como lo evidencian las métricas en las pestañas 1 y 2 (es decir, FVD, Sujeto, Parpadeo, Movimiento y Dinámico) y los resultados cualitativos en la [imagen a continuación].
Por ejemplo, el movimiento del coche a la deriva en VC2, el gato persiguiéndose la cola en NOVA y el surfista surfeando una ola en CVX se vuelven notablemente más fluidos con FLUXFLOW. Cabe destacar que estas mejoras temporales se logran sin sacrificar la fidelidad espacial, como lo demuestran los nÃtidos detalles de las salpicaduras de agua, las estelas de humo y las texturas de las olas, junto con las métricas de fidelidad espacial y general.
A continuación vemos selecciones de los resultados cualitativos a los que hacen referencia los autores (consulte el artÃculo original para obtener los resultados completos y una mejor resolución):

Selecciones de los resultados cualitativos.
El artÃculo sugiere que, si bien las perturbaciones a nivel de cuadro y de bloque mejoran la calidad temporal, los métodos a nivel de cuadro tienden a tener un mejor rendimiento. Esto se atribuye a su mayor granularidad, que permite ajustes temporales más precisos. Por el contrario, las perturbaciones a nivel de bloque pueden introducir ruido debido a patrones espaciales y temporales estrechamente acoplados dentro de los bloques, lo que reduce su eficacia.
Conclusión
Este documento, junto con el estudio Bytedance-Tsinghua colaboración en subtÃtulos publicado esta semana, me ha dejado claro que las deficiencias aparentes en la nueva generación de modelos de video generativo pueden no ser resultado de errores de los usuarios, errores institucionales o limitaciones de financiación, sino más bien de un enfoque de investigación que comprensiblemente ha priorizado desafÃos más urgentes, como la coherencia y consistencia temporal, por sobre estas preocupaciones menores.
Hasta hace poco, los resultados de los sistemas de vÃdeo generativo disponibles y descargables libremente estaban tan comprometidos que no surgió ningún gran esfuerzo de la comunidad de entusiastas para remediar los problemas (sobre todo porque eran fundamentales y no se podÃan resolver de manera trivial).
Ahora que estamos mucho más cerca de la era largamente predicha de resultados de video fotorrealistas generados puramente por IA, está claro que tanto las comunidades de investigación como las casuales están tomando un interés más profundo y más productivo en resolver los problemas restantes; con un poco de suerte, estos no son obstáculos intratables.
* La velocidad de cuadros nativa de Wan es de unos mÃseros 16 fps y, en respuesta a mis propios problemas, observo que en los foros se ha sugerido reducir la velocidad de cuadros a tan solo 12 fps y luego usar Marcos de flujo u otros sistemas de reflujo basados ​​en IA para interpolar los espacios entre una cantidad tan escasa de fotogramas.
Publicado por primera vez el viernes 21 de marzo de 2025