Inteligencia artificial

Preparando la Consistencia Narrativa para la Generación de Videos Largos

Published January 16, 2025

Updated April 3, 2026

Martin Anderson

ChatGPt 4o: 'an image with a width of 1792px and a height of 1024px. It should depict an orthographic view of an AI factory where rows of white-coated computer analysts are seated in front of PCs, and on the other side of their section is a conveyer belt with multiple stages of a recipe for a cake. Three video cameras are situated equidistant across the conveyer belt, aimed at the food items.'

El reciente lanzamiento público del modelo de inteligencia artificial generativa Hunyuan Video ha intensificado las discusiones en curso sobre el potencial de los grandes modelos de visión-lenguaje multimodal para crear películas enteras algún día.

Sin embargo, como hemos observado, esto es una perspectiva muy lejana en este momento, por varias razones. Una de ellas es la ventana de atención muy corta de la mayoría de los generadores de video de inteligencia artificial, que luchan por mantener la consistencia incluso en un solo plano corto, y mucho menos en una serie de planos.

Otra razón es que las referencias consistentes al contenido de video (como entornos explorables, que no deben cambiar aleatoriamente si se retrocede a través de ellos) solo se pueden lograr en modelos de difusión mediante técnicas de personalización como adaptación de bajo rango (LoRA), lo que limita las capacidades fuera de la caja de los modelos base.

Por lo tanto, la evolución de la generación de video parece estar a punto de estancarse a menos que se desarrollen nuevos enfoques para la continuidad narrativa.

Receta para la Continuidad

Con esto en mente, una nueva colaboración entre EE. UU. y China ha propuesto el uso de videos de cocina instructivos como una posible plantilla para futuros sistemas de continuidad narrativa.

Haga clic para reproducir. El sistema VideoAuteur sistematiza el análisis de partes de un proceso de cocina, para producir un nuevo conjunto de datos con subtítulos finos y un método de orquestación para la generación de videos de cocina. Consulte el sitio de origen para una mejor resolución. Fuente: https://videoauteur.github.io/

Titulado VideoAuteur, el trabajo propone una canalización de dos etapas para generar videos de cocina instructivos utilizando estados coherentes que combinan fotogramas clave y subtítulos, logrando resultados de vanguardia en –admitidamente– un espacio subinscrito.

La página del proyecto VideoAuteur también incluye una serie de videos más llamativos que utilizan la misma técnica, como un tráiler propuesto para un crossover de Marvel/DC (inexistente):

Haga clic para reproducir. Dos superhéroes de universos alternativos se enfrentan en un tráiler falso de VideoAuteur. Consulte el sitio de origen para una mejor resolución.

La página también presenta videos de promoción similares para una serie de animales de Netflix inexistente y un anuncio de coche de Tesla.

Al desarrollar VideoAuteur, los autores experimentaron con diversas funciones de pérdida y otros enfoques novedosos. Para desarrollar un flujo de trabajo de generación de “cómo hacer”, también curaron CookGen, el conjunto de datos más grande centrado en el dominio de la cocina, que cuenta con 200.000 clips de video con una duración promedio de 9,5 segundos.

Con un promedio de 768,3 palabras por video, CookGen es cómodamente el conjunto de datos más extensamente anotado de su tipo. Se utilizaron diversos modelos de visión/lenguaje, entre otros enfoques, para garantizar que las descripciones fueran lo más detalladas, relevantes y precisas posible.

Se eligieron los videos de cocina porque las instrucciones de cocina tienen una narrativa estructurada y unívoca, lo que hace que la anotación y la evaluación sean una tarea más fácil. Excepto los videos pornográficos (que probablemente entrarán en este espacio particular pronto), es difícil pensar en cualquier otro género bastante “fórmula” visual y narrativamente.