Contáctenos

Mejor video de IA generativa al mezclar fotogramas durante el entrenamiento

El ángulo de Anderson

Mejor video de IA generativa al mezclar fotogramas durante el entrenamiento

mm
Adobe Firefly, varias indicaciones y ediciones.

Un nuevo artículo publicado esta semana en Arxiv aborda una cuestión que cualquiera que haya adoptado Vídeo de Hunyuan or Wan 2.1 Los generadores de vídeo con IA ya habrán descubierto: aberraciones temporales, donde el proceso generativo tiende a acelerar abruptamente, combinar, omitir o arruinar de alguna manera momentos cruciales en un video generado:

Haga clic para jugarAlgunos de los fallos temporales que se están volviendo familiares para los usuarios de la nueva generación de sistemas de vídeo generativo, destacados en el nuevo artículo. A la derecha, el efecto de mejora del nuevo enfoque FluxFlow.  Fuente: https://haroldchen19.github.io/FluxFlow/

El video de arriba presenta extractos de videos de prueba de ejemplo (advertencia: bastante caótico). Sitio del proyecto para el artículo. Podemos ver varios problemas cada vez más familiares que se están solucionando con el método de los autores (imagen a la derecha en el video), que es efectivamente un preprocesamiento de conjuntos de datos Técnica aplicable a cualquier arquitectura de vídeo generativo.

En el primer ejemplo, que presenta a 'dos ​​niños jugando con una pelota', generado por Vídeo CogXVemos (a la izquierda del video recopilatorio anterior y en el ejemplo específico a continuación) que la generación nativa salta rápidamente a través de varios micromovimientos esenciales, acelerando la actividad de los niños hasta un nivel de "dibujos animados". En cambio, el mismo conjunto de datos y método produce mejores resultados con la nueva técnica de preprocesamiento, denominada Flujo de flujo (a la derecha de la imagen en el vídeo a continuación):

Haga clic para jugar.

En el segundo ejemplo (usando NOVA-0.6B) vemos que un movimiento central que involucra a un gato ha sido de alguna manera corrompido o significativamente submuestreado en la etapa de entrenamiento, hasta el punto de que el sistema generativo queda "paralizado" y es incapaz de hacer que el sujeto se mueva:

Haga clic para jugar.

Este síndrome, en el que el movimiento o el sujeto quedan "atascados", es uno de los problemas más frecuentemente reportados en HV y Wan, en los diversos grupos de síntesis de imágenes y videos.

Algunos de estos problemas están relacionados con problemas de subtítulos de video en el conjunto de datos de origen, que Eché un vistazo a esta semanapero los autores del nuevo trabajo centran sus esfuerzos en las cualidades temporales de los datos de entrenamiento y presentan un argumento convincente de que abordar los desafíos desde esa perspectiva puede producir resultados útiles.

Como se mencionó en el artículo anterior sobre subtítulos de video, ciertas deportes son particularmente difíciles de resumir en momentos clave, lo que significa que los eventos críticos (como una volcada) no reciben la atención que necesitan en el momento del entrenamiento:

Haga clic para jugar.

En el ejemplo anterior, el sistema generativo no sabe cómo llegar a la siguiente etapa de movimiento y transita ilógicamente de una pose a la siguiente, cambiando la actitud y la geometría del jugador en el proceso.

Se trata de grandes movimientos que se perdieron en el entrenamiento, pero igualmente vulnerables son movimientos mucho más pequeños pero fundamentales, como el aleteo de las alas de una mariposa:

Haga clic para jugar.  

A diferencia del mate, el aleteo no es un evento raro, sino persistente y monótono. Sin embargo, su consistencia se pierde en el proceso de muestreo, ya que el movimiento es tan rápido que resulta muy difícil de establecer temporalmente.

Estos no son problemas particularmente nuevos, pero están recibiendo mayor atención ahora que los entusiastas pueden disponer de potentes modelos de video generativo para su instalación local y generación gratuita.

Las comunidades de Reddit y Discord inicialmente trataron estos problemas como "relacionados con el usuario". Esta es una suposición comprensible, ya que los sistemas en cuestión son muy nuevos y están escasamente documentados. Por lo tanto, varios expertos han sugerido diversas soluciones (y no siempre efectivas) para algunos de los fallos documentados aquí, como modificar la configuración de varios componentes de distintos tipos de flujos de trabajo de ComfyUI para Hunyuan Video (HV) y Wan 2.1.

En algunos casos, en lugar de producir un movimiento rápido, tanto HV como Wan producirán slow movimiento. Las sugerencias de Reddit y ChatGPT (que principalmente aprovecha Reddit) incluyen cambiando el número de cuadros en la generación solicitada, o reducir radicalmente la velocidad de cuadros*.

Todo esto es desesperante; la verdad emergente es que aún no sabemos la causa exacta ni el remedio exacto para estos problemas; claramente, atormentar a las configuraciones de generación para solucionarlos (particularmente cuando esto degrada la calidad de salida, por ejemplo con una tasa de fps demasiado baja) es solo una medida provisional, y es bueno ver que la escena de investigación está abordando problemas emergentes con esta rapidez.

Entonces, además del análisis de esta semana sobre cómo los subtítulos afectan el entrenamiento, echemos un vistazo al nuevo artículo sobre la regularización temporal y qué mejoras podría ofrecer a la escena actual del video generativo.

La idea central es más bien simple y ligera, y no por ello peor; no obstante, el documento está algo acolchado para alcanzar las ocho páginas prescritas, y omitiremos este relleno según sea necesario.

El archivo fish en la generación nativa del framework VideoCrafter es estático, mientras que la versión modificada con FluxFlow captura los cambios necesarios. Fuente: https://arxiv.org/pdf/2503.15417

El pescado en la generación nativa del marco VideoCrafter es estático, mientras que la versión modificada por FluxFlow captura los cambios necesarios. Fuente: https://arxiv.org/pdf/2503.15417

El nuevo trabajo se titula La regularización temporal fortalece tu generador de videos, y proviene de ocho investigadores de Everlyn AI, la Universidad de Ciencia y Tecnología de Hong Kong (HKUST), la Universidad de Florida Central (UCF) y la Universidad de Hong Kong (HKU).

(Al momento de escribir este artículo, hay algunos problemas con el documento que lo acompaña. Sitio del proyecto)

Flujo de flujo

La idea central detrás Flujo de flujoEl nuevo esquema de preentrenamiento de los autores tiene como objetivo superar los problemas generalizados parpadeo y inconsistencia temporal mediante la mezcla de bloques y grupos de bloques en los órdenes del marco temporal a medida que los datos de origen se exponen al proceso de entrenamiento:

La idea central detrás de FluxFlow es mover bloques y grupos de bloques a posiciones inesperadas y no temporales, como una forma de aumento de datos.

La idea central detrás de FluxFlow es mover bloques y grupos de bloques a posiciones inesperadas y no temporales, como una forma de aumento de datos.

El artículo explica:

'[Los artefactos] surgen de una limitación fundamental: a pesar de aprovechar conjuntos de datos a gran escala, los modelos actuales a menudo se basan en patrones temporales simplificados en los datos de entrenamiento (por ejemplo, direcciones de caminata fijas o transiciones de cuadros repetitivas) en lugar de aprender dinámicas temporales diversas y plausibles.

'Este problema se ve agravado aún más por la falta de aumento temporal explícito durante el entrenamiento, lo que deja a los modelos propensos a sobreajustarse a correlaciones temporales espurias (por ejemplo, "el cuadro n.° 5 debe seguir al n.° 4") en lugar de generalizarse en diversos escenarios de movimiento.'

La mayoría de los modelos de generación de vídeo, explican los autores, todavía toman demasiado prestado de... imagen Síntesis, que se centra en la fidelidad espacial e ignora en gran medida el eje temporal. Si bien técnicas como el recorte, la inversión y la vibración de color han ayudado a mejorar la calidad de la imagen estática, no son soluciones adecuadas para los vídeos, donde la ilusión de movimiento depende de transiciones consistentes entre fotogramas.

Los problemas resultantes incluyen texturas parpadeantes, cortes bruscos entre fotogramas y patrones de movimiento repetitivos o excesivamente simplistas.

Dele "click" para jugar.

El artículo sostiene que, si bien algunos modelos, incluidos Difusión de vídeo estable y LlamaGen – compensar con arquitecturas cada vez más complejas o restricciones de ingeniería, esto tiene un costo en términos de computación y flexibilidad.

Dado que el aumento de datos temporales ya ha demostrado ser útil en el vídeo comprensión tareas (en marcos como Cortadora fina, SeFAR y Ex-SV) Es sorprendente, afirman los autores, que esta táctica rara vez se aplique en un contexto generativo.

Comportamiento perturbador

Los investigadores sostienen que las interrupciones simples y estructuradas en el orden temporal durante el entrenamiento ayudan a los modelos a generalizar mejor el movimiento realista y diverso:

Al entrenarse con secuencias desordenadas, el generador aprende a recuperar trayectorias plausibles, regularizando eficazmente la entropía temporal. FLUXFLOW cierra la brecha entre el aumento temporal discriminativo y generativo, ofreciendo una solución de mejora lista para usar para la generación de video temporalmente plausible, a la vez que mejora la calidad general.

'A diferencia de los métodos existentes que introducen cambios arquitectónicos o dependen del posprocesamiento, FLUXFLOW opera directamente a nivel de datos, introduciendo perturbaciones temporales controladas durante el entrenamiento.'

Dele "click" para jugar.

Las perturbaciones a nivel de marco, afirman los autores, introducen disrupciones de grano fino dentro de una secuencia. Este tipo de disrupción no es muy diferente a aumento de enmascaramiento, donde se bloquean aleatoriamente secciones de datos para evitar que el sistema sobreajuste en puntos de datos y fomentar una mejor generalización.

Examenes

Aunque la idea central aquí no se extiende a un documento extenso, debido a su simplicidad, hay una sección de prueba que podemos revisar.

Los autores probaron cuatro consultas relacionadas con la mejora de la calidad temporal manteniendo la fidelidad espacial; la capacidad de aprender la dinámica del flujo óptico/movimiento; el mantenimiento de la calidad temporal en la generación extratérmino; y la sensibilidad a los hiperparámetros clave.

Los investigadores aplicaron FluxFlow a tres arquitecturas generativas: basada en U-Net, en forma de VideoCrafter2; DiT-basado, en forma de CogVideoX-2B; y AR-basado, en forma de NOVA-0.6B.

Para una comparación justa, ajustaron los modelos base de las arquitecturas con FluxFlow como una fase de entrenamiento adicional, por un lado. época, En la OpenVidHD-0.4M conjunto de datos

Los modelos se evaluaron en relación con dos puntos de referencia populares: UCF-101; y Banco virtual.

Para la UCF, la Distancia del vídeo de Fréchet (FVD) y Puntaje inicial Se utilizaron métricas IS. Para VBench, los investigadores se centraron en la calidad temporal, la calidad por fotograma y la calidad general.

Evaluación cuantitativa inicial de FluxFlow-Frame.

Evaluación inicial cuantitativa de FluxFlow-Frame. "+ Original" indica entrenamiento sin FLUXFLOW, mientras que "+ Núm × 1" muestra diferentes configuraciones de FluxFlow-Frame. Los mejores resultados están sombreados; los segundos mejores están subrayados para cada modelo.

Al comentar estos resultados, los autores afirman:

'Tanto FLUXFLOW-FRAME como FLUXFLOW-BLOCK mejoran significativamente la calidad temporal, como lo evidencian las métricas en las pestañas 1 y 2 (es decir, FVD, Sujeto, Parpadeo, Movimiento y Dinámico) y los resultados cualitativos en la [imagen a continuación].

Por ejemplo, el movimiento del coche a la deriva en VC2, el gato persiguiéndose la cola en NOVA y el surfista surfeando una ola en CVX se vuelven notablemente más fluidos con FLUXFLOW. Cabe destacar que estas mejoras temporales se logran sin sacrificar la fidelidad espacial, como lo demuestran los nítidos detalles de las salpicaduras de agua, las estelas de humo y las texturas de las olas, junto con las métricas de fidelidad espacial y general.

A continuación vemos selecciones de los resultados cualitativos a los que hacen referencia los autores (consulte el artículo original para obtener los resultados completos y una mejor resolución):

Selecciones de los resultados cualitativos.

Selecciones de los resultados cualitativos.

El artículo sugiere que, si bien las perturbaciones a nivel de cuadro y de bloque mejoran la calidad temporal, los métodos a nivel de cuadro tienden a tener un mejor rendimiento. Esto se atribuye a su mayor granularidad, que permite ajustes temporales más precisos. Por el contrario, las perturbaciones a nivel de bloque pueden introducir ruido debido a patrones espaciales y temporales estrechamente acoplados dentro de los bloques, lo que reduce su eficacia.

Conclusión

Este documento, junto con el estudio Bytedance-Tsinghua colaboración en subtítulos publicado esta semana, me ha dejado claro que las deficiencias aparentes en la nueva generación de modelos de video generativo pueden no ser resultado de errores de los usuarios, errores institucionales o limitaciones de financiación, sino más bien de un enfoque de investigación que comprensiblemente ha priorizado desafíos más urgentes, como la coherencia y consistencia temporal, por sobre estas preocupaciones menores.

Hasta hace poco, los resultados de los sistemas de vídeo generativo disponibles y descargables libremente estaban tan comprometidos que no surgió ningún gran esfuerzo de la comunidad de entusiastas para remediar los problemas (sobre todo porque eran fundamentales y no se podían resolver de manera trivial).

Ahora que estamos mucho más cerca de la era largamente predicha de resultados de video fotorrealistas generados puramente por IA, está claro que tanto las comunidades de investigación como las casuales están tomando un interés más profundo y más productivo en resolver los problemas restantes; con un poco de suerte, estos no son obstáculos intratables.

 

* La velocidad de cuadros nativa de Wan es de unos míseros 16 fps y, en respuesta a mis propios problemas, observo que en los foros se ha sugerido reducir la velocidad de cuadros a tan solo 12 fps y luego usar Marcos de flujo u otros sistemas de reflujo basados ​​en IA para interpolar los espacios entre una cantidad tan escasa de fotogramas.

Publicado por primera vez el viernes 21 de marzo de 2025

Escritor sobre aprendizaje automático, especialista en síntesis de imágenes humanas. Exdirector de contenido de investigación en Metaphysic.ai.
sitio personal: martinanderson.ai
Contacto: [email protected]
Gorjeo: @manders_ai