Ángulo de Anderson
Repensando el entrenamiento de la inteligencia artificial de video con datos centrados en el usuario

El tipo de contenido que los usuarios pueden desear crear utilizando un modelo generativo como Flux o Hunyuan Video puede que no esté siempre disponible, incluso si la solicitud de contenido es bastante genérica, y uno podría suponer que el generador podría manejarlo.
Un ejemplo, ilustrado en un nuevo artículo que examinaremos en este artículo, señala que el modelo OpenAI Sora cada vez más eclipsado tiene algunas dificultades para representar un fuego artificial anatómicamente correcto, utilizando el prompt ‘Un fuego artificial brilla en una hoja de pasto en una noche de verano serena’:

OpenAI’s Sora tiene una comprensión ligeramente extraña de la anatomía del fuego artificial. Fuente: https://arxiv.org/pdf/2503.01739
Dado que rara vez acepto las afirmaciones de investigación a su valor nominal, probé el mismo prompt en Sora hoy y obtuve un resultado ligeramente mejor. Sin embargo, Sora todavía no logró representar la luz correctamente: en lugar de iluminar la punta de la cola del fuego artificial, donde ocurre la bioluminiscencia, desplazó la luz cerca de los pies del insecto:

Mi propia prueba del prompt de los investigadores en Sora produce un resultado que muestra que Sora no entiende de dónde proviene realmente la luz de un fuego artificial.
Irónicamente, el Adobe Firefly generativo de difusión, entrenado en las fotos y videos con derechos de autor de la empresa, solo logró una tasa de éxito de 1 de cada 3 en este respecto, cuando intenté el mismo prompt en la función de inteligencia artificial generativa de Photoshop:

Solo la última de tres generaciones propuestas del prompt de los investigadores produce una luz en Adobe Firefly (marzo de 2025), aunque al menos la luz está situada en la parte correcta de la anatomía del insecto.
Este ejemplo fue destacado por los investigadores del nuevo artículo para ilustrar que la distribución, el énfasis y la cobertura en los conjuntos de entrenamiento utilizados para informar los modelos de base populares pueden no alinearse con las necesidades del usuario, incluso si el usuario no está pidiendo nada particularmente desafiante: un tema que plantea los desafíos involucrados en adaptar los conjuntos de entrenamiento de hipercala a sus resultados más eficientes y de mejor rendimiento como modelos generativos.
Los autores afirman:
‘[Sora] no logra capturar el concepto de un fuego artificial que brilla mientras genera con éxito pasto y una noche de verano: desde la perspectiva de los datos, inferimos que esto se debe principalmente a que [Sora] no ha sido entrenado en temas relacionados con fuego artificial, mientras que ha sido entrenado en pasto y noche. Además, si [Sora] hubiera visto el video mostrado en [la imagen de arriba], entendería cómo debería verse un fuego artificial que brilla.’
Introducen un conjunto de datos recién curado y sugieren que su metodología podría ser refinada en trabajos futuros para crear colecciones de datos que se alineen mejor con las expectativas del usuario que muchos modelos existentes.
Datos para la gente
En esencia, su propuesta plantea un enfoque de curación de datos que se encuentra en algún punto entre los datos personalizados para un tipo de modelo como LoRA (y este enfoque es demasiado específico para un uso general); y las colecciones de gran volumen y relativamente indiscriminadas de alta volumen (como el conjunto de datos LAION que alimenta a Stable Diffusion) que no están específicamente alineadas con ningún escenario de uso final.
El nuevo enfoque, tanto como metodología como conjunto de datos, se llama Users’ FOcus in text-to-video, o VideoUFO. El conjunto de datos VideoUFO comprende 1,9 millones de clips de video que abarcan 1291 temas centrados en el usuario. Los temas en sí fueron elaborados a partir de un conjunto de datos de video existente y se analizaron a través de diversos modelos de lenguaje y técnicas de Procesamiento de Lenguaje Natural (NLP):

Muestras de los temas destilados presentados en el nuevo artículo.
El conjunto de datos VideoUFO cuenta con una gran cantidad de videos nuevos extraídos de YouTube: ‘nuevos’ en el sentido de que los videos en cuestión no aparecen en los conjuntos de datos de video que actualmente son populares en la literatura, y por lo tanto en muchos de los subconjuntos que se han curado a partir de ellos (y muchos de los videos en realidad se subieron después de la creación de los conjuntos de datos más antiguos que el artículo menciona).
De hecho, los autores afirman que solo hay un 0,29% de superposición con los conjuntos de datos de video existentes: una impresionante demostración de novedad.
Una razón por la que esto puede ser así es que los autores solo aceptarían videos de YouTube con una licencia Creative Commons que sería menos probable que obstaculice a los usuarios más adelante: es posible que esta categoría de videos haya sido menos priorizada en barridos anteriores de YouTube y otras plataformas de alto volumen.
En segundo lugar, los videos se solicitaron sobre la base de una necesidad del usuario preestimada (ver imagen de arriba), y no se extrajeron indiscriminadamente. Estos dos factores en combinación podrían conducir a una colección tan novedosa. Además, los investigadores verificaron los ID de YouTube de cualquier video que contribuyera (es decir, videos que más tarde podrían haberse dividido y reimaginado para la colección VideoUFO) contra los que se presentaron en las colecciones existentes, lo que da credibilidad a la afirmación.
Aunque no todo en el nuevo artículo es tan convincente, es una lectura interesante que enfatiza la medida en que todavía estamos bastante a merced de distribuciones desiguales en los conjuntos de datos, en términos de los obstáculos con los que a menudo se enfrenta la escena de investigación en la curación de conjuntos de datos.
El nuevo trabajo se titula VideoUFO: un conjunto de datos de escala de millones centrado en el usuario para la generación de video a texto, y proviene de dos investigadores, respectivamente de la Universidad de Tecnología de Sídney en Australia y la Universidad de Zhejiang en China.

Ejemplos seleccionados del conjunto de datos final obtenido.
Un ‘comprador personal’ para los datos de IA
El tema y los conceptos presentados en la suma total de imágenes y videos de Internet no necesariamente reflejan lo que el usuario final promedio puede terminar pidiendo a un sistema generativo; incluso donde el contenido y la demanda sí tienden a coincidir (como con el porno, que es ampliamente disponible en Internet y de gran interés para muchos usuarios de IA genérica), esto puede no alinearse con la intención y los estándares de los desarrolladores para un nuevo sistema generativo.
Además del gran volumen de material NSFW subido diariamente, es probable que una cantidad desproporcionada de material disponible en la red sea de anunciantes y aquellos que intentan manipular el SEO. El interés comercial de este tipo hace que la distribución del tema sea lejos de imparcial; peor aún, es difícil desarrollar sistemas de filtrado basados en IA que puedan hacer frente al problema, ya que los algoritmos y modelos desarrollados a partir de datos significativos de hipercala pueden reflejar las tendencias y prioridades de los datos de origen.
Por lo tanto, los autores del nuevo trabajo han abordado el problema invirtiendo la proposición, mediante la determinación de lo que los usuarios probablemente deseen y la obtención de videos que se alineen con estas necesidades.
En la superficie, este enfoque parece tan probable para desencadenar una carrera semántica hacia el fondo como para lograr una neutralidad equilibrada y similar a la de Wikipedia. Calibrar la curación de datos en torno a la demanda del usuario riesgos de amplificar las preferencias del denominador común más bajo, mientras se margina a los usuarios de nicho, ya que los intereses de la mayoría inevitablemente llevarán más peso.
Sin embargo, veamos cómo el artículo aborda el desafío.
Destilando conceptos con discreción
Los investigadores utilizaron el conjunto de datos VidProM de 2024 como fuente para el análisis de temas que más tarde informaría el proyecto de extracción web.
Este conjunto de datos se eligió, según afirman los autores, porque es el único conjunto de datos de más de 1 millón ‘escrito por usuarios reales’ y se debe señalar que este conjunto de datos fue curado por los dos autores del nuevo artículo.
El artículo explica*:
‘Primero, incorporamos todos los 1,67 millones de prompts de VidProM en vectores de 384 dimensiones utilizando SentenceTransformers Luego, agrupamos estos vectores con K-means. Tenga en cuenta que aquí preestablecemos el número de clústeres en un valor relativamente grande, es decir, 2.000, y fusionamos clústeres similares en el siguiente paso.
‘Finalmente, para cada clúster, pedimos a GPT-4o que concluya un tema [una o dos palabras].’
Los autores señalan que ciertos conceptos son distintos pero notablemente adyacentes, como iglesia y catedral. Un criterio demasiado granular para casos de este tipo conduciría a incrustaciones de conceptos (por ejemplo) para cada raza de perro, en lugar del término perro; mientras que un criterio demasiado amplio corralaría un número excesivo de subconceptos en un solo concepto abarrotado; por lo tanto, el artículo señala el acto de equilibrio necesario para evaluar tales casos.
Las formas singulares y plurales se fusionaron, y los verbos se restauraron a sus formas base (infinitivas). Los términos excesivamente amplios, como animación, escena, película y movimiento, se eliminaron.
Así, se obtuvieron 1.291 temas (con la lista completa disponible en la sección suplementaria del artículo de origen).
Extracción web selectiva
A continuación, los investigadores utilizaron la API oficial de YouTube para buscar videos según los criterios destilados del conjunto de datos de 2024, buscando obtener 500 videos para cada tema. Además de la licencia Creative Commons requerida, cada video debía tener una resolución de 720p o superior y debía ser más corto que cuatro minutos.
De esta manera, se extrajeron 586.490 videos de YouTube.
Los autores compararon el ID de YouTube de los videos descargados con una serie de conjuntos de datos populares: OpenVid-1M; HD-VILA-100M; Intern-Vid; Koala-36M; LVD-2M; MiraData; Panda-70M; VidGen-1M; y WebVid-10M.
Encontraron que solo 1.675 ID (la superposición del 0,29% mencionada anteriormente) de los clips de VideoUFO se presentaron en estas colecciones más antiguas, y debe admitirse que, si bien la lista de comparación de conjuntos de datos no es exhaustiva, incluye a todos los principales y más influyentes actores en la escena de video generativo.
División y evaluación
Los videos obtenidos se segmentaron posteriormente en varios clips, según la metodología descrita en el artículo Panda-70M citado anteriormente. Se estimaron los límites de los disparos, se ensamblaron las asambleas y se dividieron los videos concatenados en clips individuales, con breves y detalladas leyendas proporcionadas.

Cada entrada de datos en el conjunto de datos VideoUFO cuenta con un clip, un ID, tiempos de inicio y fin, y una leyenda breve y detallada.
Las leyendas breves se manejaron con el método Panda-70M, y las leyendas detalladas de video se manejaron con Qwen2-VL-7B, según las pautas establecidas por Open-Sora-Plan. En los casos en que los clips no encarnaron con éxito el concepto objetivo pretendido, las leyendas detalladas de cada clip se alimentaron a GPT-4o mini, con el fin de determinar si realmente era adecuado para el tema. Aunque los autores hubieran preferido una evaluación a través de GPT-4o, esto habría sido demasiado costoso para millones de clips de video.
La evaluación de la calidad del video se manejó con seis métodos del proyecto VBench.
Comparaciones
Los autores repitieron el proceso de extracción de temas en los conjuntos de datos anteriores. Para ello, fue necesario emparejar semánticamente las categorías derivadas de VideoUFO con las categorías inevitablemente diferentes en las otras colecciones; debe admitirse que tales procesos solo suministran categorías equivalentes aproximadas, y por lo tanto esto puede ser demasiado subjetivo como para garantizar comparaciones empíricas.
Sin embargo, en la imagen a continuación, vemos los resultados que los investigadores obtuvieron mediante este método:

Comparación de los atributos fundamentales derivados en todo VideoUFO y los conjuntos de datos anteriores.
Los investigadores reconocen que su análisis dependió de las leyendas y descripciones existentes proporcionadas en cada conjunto de datos. Admiten que volver a etiquetar los conjuntos de datos más antiguos utilizando el mismo método que VideoUFO podría haber ofrecido una comparación más directa. Sin embargo, dado el gran volumen de puntos de datos, su conclusión de que este enfoque sería prohibitivamente costoso parece justificada.
Generación
Los autores desarrollaron una referencia para evaluar el rendimiento de los modelos de texto a video en conceptos centrados en el usuario, titulada BenchUFO. Esto implicó seleccionar 791 sustantivos de los 1.291 temas destilados en VideoUFO. Para cada tema seleccionado, se eligieron aleatoriamente diez prompts de texto de VidProM.
Cada prompt se pasó a un modelo de texto a video, con el mencionado captionador Qwen2-VL-7B utilizado para evaluar los resultados generados. Con todos los videos generados así etiquetados, SentenceTransformers se utilizó para calcular la similitud coseno para tanto el prompt de entrada como la descripción de salida (inferida) en cada caso.

Esquema para el proceso BenchUFO.
Los modelos generativos evaluados fueron: Mira; Show-1; LTX-Video; Open-Sora-Plan; Open Sora; TF-T2V; Mochi-1; HiGen; Pika; RepVideo; T2V-Zero; CogVideoX; Latte-1; Hunyuan Video; LaVie; y Pyramidal.
Además de VideoUFO, MVDiT-VidGen y MVDit-OpenVid fueron los conjuntos de datos de entrenamiento alternativos.
Los resultados consideran los 10 peores y mejores temas que se desempeñan en las arquitecturas y conjuntos de datos.

Resultados del rendimiento de los modelos T2V públicos frente a los modelos entrenados por los autores, en BenchUFO.
Aquí los autores comentan:
‘Los modelos de texto a video actuales no se desempeñan consistentemente bien en todos los temas centrados en el usuario. En particular, hay una diferencia de puntuación que va desde 0,233 hasta 0,314 entre los 10 mejores y los 10 peores temas. Estos modelos pueden no entender efectivamente temas como “calamar gigante”, “célula animal”, “Van Gogh” y “egipcio antiguo” debido a una insuficiente capacitación en dichos videos.’
‘Los modelos de texto a video actuales muestran un cierto grado de coherencia en sus temas mejor valorados. Descubrimos que la mayoría de los modelos de texto a video sobresalen en la generación de videos sobre temas relacionados con animales, como “gaviota”, “panda”, “delfín”, “camello” y “búho”. Inferimos que esto se debe en parte a un sesgo hacia los animales en los conjuntos de datos de video actuales.’
Conclusión
VideoUFO es una oferta destacada si solo se considera desde el punto de vista de los datos frescos. Si no ha habido error al evaluar y eliminar los ID de YouTube, y si el conjunto de datos contiene tanto material que es nuevo para la escena de investigación, es una propuesta rara y potencialmente valiosa.
La desventaja es que uno necesita dar crédito a la metodología central; si no cree que la demanda del usuario debe informar las fórmulas de extracción web, estaría comprando un conjunto de datos que viene con sus propios conjuntos de sesgos problemáticos.
Además, la utilidad de los temas destilados depende tanto de la confiabilidad del método de destilación utilizado (que generalmente se ve obstaculizado por limitaciones presupuestarias), como de los métodos de formulación para el conjunto de datos de 2024 que proporciona el material de origen.
Dicho esto, VideoUFO ciertamente merece una investigación más a fondo: y está disponible en Hugging Face.
* Mi sustitución de las citas de los autores por hipervínculos.
Publicado por primera vez el miércoles 5 de marzo de 2025












