Ángulo de Anderson

El Desafío de Subtitular Videos a Más de 1fps

Published March 19, 2025

Updated April 26, 2026

Martin Anderson

Trails in a basketball scene - source: https://www.youtube.com/watch?v=ORfjgE6n2Pc

La capacidad de los sistemas de aprendizaje automático para reconocer los eventos que ocurren dentro de un video es crucial para el futuro de la generación de video basada en IA, no solo porque los conjuntos de datos de video requieren subtítulos precisos para producir modelos que se adhieran a una solicitud del usuario y que no exageren en exceso alucinaciones.

Un ejemplo de esquema de subtítulos del proyecto VidReCap de Google. Fuente: https://sites.google.com/view/vidrecap

Subtitular manualmente la cantidad de videos necesarios para conjuntos de datos de entrenamiento efectivos es una perspectiva inconcebible. Aunque es posible entrenar sistemas de IA para auto-subtitular videos, todavía se necesitan muchos ejemplos generados por humanos como verdad de referencia, para variedad y cobertura.

Más importante aún, casi todos los actuales modelos de subtitulación de video basados en IA operan a 1fps, lo que no es una tasa de captura lo suficientemente densa como para discernir variaciones en muchos escenarios: cambios de micro-expresiones súbitas para sistemas de reconocimiento de emociones; eventos rápidos en deportes de alta velocidad como el baloncesto; movimientos violentos; cortes rápidos en películas dramáticas, donde sistemas como PySceneDetect pueden no detectarlos (o no se utilizan); y muchos otros escenarios donde la ventana de atención claramente necesita ser más intensa.

Haz clic para reproducir. Acción rápida pero que cambia la vida en lo que de otra manera puede ser uno de los deportes más lentos del mundo, mientras Alex Higgins gana el campeonato mundial contra Ray Reardon en 1982. Fuente: https://www.youtube.com/watch?v=_1PuqKno_Ok

Moverse Rápido y Romper Lógica

Esta baja tasa es el estándar por varias razones logísticas. Por un lado, la subtitulación de video es una actividad intensiva en recursos, ya sea que el sistema esté estudiando un marco secuencial a la vez, o utilizando varios métodos para coherir semánticamente una cadena de marcos en una secuencia de subtítulos interpretable. En cualquier caso, la ventana de contexto está inevitablemente limitada por las restricciones de hardware.

Otra razón por la que 1fps es el estándar actual es que los videos no están generalmente llenos de eventos rápidos; por lo tanto, es redundante dar 300 marcos de una mesa de snooker estática la misma atención que el segundo en que una bola negra ganadora gana el campeonato (ver ejemplo anterior).

Es posible utilizar pistas secundarias más amplias para identificar momentos cruciales en un video deportivo, como la reacción sostenida de la multitud a un mate rápido en un partido de baloncesto. Sin embargo, tales pistas pueden ocurrir por otras razones (como lesiones inesperadas de jugadores), y no se pueden confiar en ellas. Esto es un ejemplo de cómo un conjunto de datos de video mal etiquetado puede llevar a un modelo de video generativo que alucina o malinterpreta instrucciones, es decir, porque el modelo podría mostrar una lesión de jugador cuando se le pidió generar un mate (porque la ‘pista secundaria’ de agitación de la multitud no era exclusiva de un tipo específico de evento).

Esto es en muchos sentidos un problema “presupuestario”, y en otros sentidos un problema de procedimiento. Los marcos hasta la fecha han operado en el principio de que los fotogramas clave esparsos pueden capturar efectivamente la información esencial, pero esto es más efectivo para establecer el género y otros aspectos del asunto de un video, ya que la evidencia, en ese caso, persiste en múltiples marcos.

F-16

Un nuevo artículo de investigación de China está ofreciendo una solución, en la forma del primer modelo de lenguaje grande multimodal (MLLM, o simplemente LLM) que puede analizar video a 16fps en lugar del estándar de 1fps, mientras evita las grandes desventajas de aumentar la tasa de análisis.

En pruebas, los autores afirman que el nuevo sistema, titulado F-16, supera a los modelos propietarios de estado del arte como GPT-4o y Google’s Gemini-1.5 pro. Aunque otros modelos actuales pudieron igualar o superar los resultados de F-16 en pruebas, los modelos competidores eran mucho más grandes y más difíciles de manejar.

Aunque F-16 se entrenó en algunos equipos serios (como examinaremos pronto), la inferencia es generalmente mucho menos exigente que el entrenamiento. Por lo tanto, podemos esperar que el código (prometido para una próxima liberación) será capaz de ejecutarse en GPUs domésticas de nivel medio o alto.

Lo que se necesita para la vitalidad de la escena de aficionados (y eso incluye la escena profesional de VFX, la mayoría de las veces) es un modelo de subtitulación de video de este tipo que pueda operar, quizás cuantizado, en sistemas de consumidor, para que toda la escena de video generativo no migre a sistemas comerciales basados en API, o fuerce a los consumidores a conectar marcos locales a servicios de GPU en línea comerciales.

Más allá de Escalar

Los autores observan que este tipo de enfoque es una alternativa práctica para escalar los conjuntos de datos. También se puede inferir que si se fuera a lanzar más datos al problema, este es aún el tipo de enfoque que podría ser preferible, porque el nuevo sistema distingue eventos de una manera más granular.

Establecen:

‘La muestra de baja tasa de cuadros puede resultar en una pérdida crítica de información visual, particularmente en videos con escenas que cambian rápidamente, detalles intrincados o movimiento rápido. Además, si se pierden los fotogramas clave, pero el modelo se entrena en etiquetas que dependen de la información de los fotogramas clave, puede tener dificultades para alinear sus predicciones con el contenido esperado, lo que podría llevar a alucinaciones y un rendimiento degradado…

‘… F-16 logra un rendimiento SOTA en la comprensión general de video QA entre modelos de tamaño similar y demuestra una ventaja clara en la comprensión de video de alta velocidad, superando a los modelos comerciales como GPT-4o. Este trabajo abre nuevas direcciones para avanzar en la comprensión de video de alta velocidad en la investigación de MLLM.’

El nuevo artículo se titula Mejorar la comprensión de video de LLM con 16 cuadros por segundo, y proviene de ocho autores de la Universidad Tsinghua y ByteDance.

Método

Dado que los marcos consecutivos a menudo contienen información redundante, F-16 aplica un alineador de alta velocidad de cuadro para comprimir y codificar los detalles de movimiento clave mientras mantiene la semántica visual. Cada marco se procesa primero mediante un codificador de imagen preentrenado, extrayendo representaciones de características antes de pasar a un alineador basado en Unidades Lineales de Error Gaussiano (GELUs).

La arquitectura de F-16 procesa video a 16 FPS, capturando más marcos que los modelos de baja velocidad de cuadro tradicionales, y su alineador de alta velocidad de cuadro preserva la semántica visual mientras codifica eficientemente la dinámica de movimiento sin agregar tokens visuales extra. Fuente: https://arxiv.org/pdf/2503.13956

Para manejar el recuento de marcos aumentado de manera eficiente, F-16 agrupa los marcos en ventanas de procesamiento pequeñas, fusionando las características visuales utilizando una Red Neuronal Multicapa (MLP) de tres capas, lo que ayuda a retener solo los detalles de movimiento más relevantes, y reduce la duplicación innecesaria, mientras mantiene el flujo temporal de las acciones. Una capa de max-pooling espacial comprime aún más la cuenta de tokens, manteniendo los costos computacionales dentro de los límites.

Los tokens de video procesados se alimentan entonces en el Qwen2-7B LLM, que genera respuestas textuales basadas en las características visuales extraídas y una solicitud de usuario dada.

Al estructurar la entrada de video de esta manera, F-16 permite, según los autores, un reconocimiento de eventos más preciso en escenas dinámicas, mientras mantiene la eficiencia.

La Versión Corta

F-16 extiende un LLM de imagen preentrenado, LLaVA-OneVision, para procesar video transformando su tubería de entrada visual. Mientras que los LLM de imagen estándar manejan marcos aislados, el alineador de alta velocidad de cuadro de F-16 reformatea múltiples marcos en una forma que el modelo puede procesar de manera más eficiente; esto evita abrumar al sistema con información redundante mientras se conservan las pistas de movimiento clave necesarias para una comprensión de video precisa.

Para asegurar la compatibilidad con su base de imagen, F-16 reutiliza los parámetros preentrenados reestructurando su alineador en submatrices. Este enfoque permite integrar conocimientos de modelos de un solo marco mientras se adapta a la entrada de video secuencial.

El alineador primero comprime las secuencias de marcos en un formato optimizado para el LLM, conservando las características más informativas mientras se descartan los detalles innecesarios. El diseño de la arquitectura permite que el sistema procese video de alta velocidad de cuadro mientras mantiene los requisitos computacionales bajo control, lo que los autores consideran como evidencia de que la escalabilidad no es la única (o la mejor) forma de avanzar en la subtitulación de video.

Variar el Ritmo

Dado que procesar video a 16 FPS mejora la comprensión del movimiento pero aumenta el costo computacional, particularmente durante la inferencia, F-16 introduce un método de decodificación de velocidad de cuadro variable, que le permite ajustar la velocidad de cuadro de forma dinámica sin volver a entrenar.

Los alineadores de un solo marco y de alta velocidad de cuadro disponibles para F-16.

Esta flexibilidad permite que el modelo opere de manera eficiente a velocidades de cuadro más bajas cuando no se requiere una precisión alta, y reduce la sobrecarga computacional.

En el momento de la prueba, cuando se selecciona una velocidad de cuadro más baja, F-16 reutiliza los parámetros del alineador preentrenado repitiendo los marcos de entrada para coincidir con las dimensiones esperadas. Esto garantiza que el modelo aún pueda procesar video de manera efectiva sin modificar su arquitectura.

A diferencia de la muestreo simple (es decir, simplemente eliminar marcos), que arriesga perder detalles de movimiento críticos, este método conserva las representaciones de movimiento aprendidas por el alineador, manteniendo la precisión incluso a velocidades de cuadro reducidas. Para la comprensión general de video, una configuración de FPS más baja puede acelerar la inferencia sin una pérdida de rendimiento significativa, mientras que el análisis de movimiento de alta velocidad aún puede aprovechar la capacidad de 16 FPS completa.

Datos y Pruebas

Construido sobre Qwen2-7B, FP-16 extiende LLaVA-OneVision utilizando SigLIP como codificador de imagen. Con los marcos de video muestreados a 16 FPS, se pueden obtener hasta 1,760 marcos de cada video. Para clips de video más largos, los marcos se muestrearon de forma uniforme (es decir, más espaciada).

Para el entrenamiento, F-16 utilizó los mismos conjuntos de datos de video generales que LLaVA-Video, incluyendo LLaVA-Video-178K, NExT-QA, ActivityNet-QA, y PerceptionTest.

F-16 también se ajustó a los conjuntos de datos de deportes de alta velocidad FineGym, Diving48, y SoccerNet. Los autores también curaron una colección de 276 partidos de la NBA jugados entre el 13 y el 25 de noviembre de 2024, centrándose en si un tiro fue exitoso (una tarea que requiere procesamiento de alta velocidad de cuadro).

El modelo se evaluó utilizando el conjunto de pruebas NSVA, con el rendimiento medido por puntuación F1.

Los modelos de gimnasia y natación se evaluaron en función de la precisión del reconocimiento de eventos, mientras que los modelos de fútbol y baloncesto rastrearon pases y resultados de tiros.

El modelo se entrenó durante 1 época utilizando 128 NVIDIA H100 GPUs (y a una memoria de VRAM estándar de 80GB por GPU, esto implicó el uso de 10,24 terabytes de memoria de GPU; incluso según los estándares recientes, esto es el cluster de GPU más potente con el que me he encontrado al seguir la literatura de investigación de visión por computadora). Una tasa de aprendizaje de 2×10⁻⁵ se utilizó durante el entrenamiento.

Además, un LoRA se ajustó en los datos deportivos utilizando adaptadores LoRA con 64 GPUs durante 5 épocas. Aquí, solo se entrenó el LLM, dejando el codificador de imagen congelado.

Los marcos opuestos se probaron en la ronda inicial para la “comprensión general de video” fueron GPT-4o; Gemini-1.5-Pro; Qwen2-VL-7B; VideoLLaMA2-7B; VideoChat2-HD-7B; LLaVA-OV-7B; MiniCPM-V2.6-8B; LLaVA-Video-7B; y NVILA-7B;

Los modelos se evaluaron en Video-MME; VideoVista; TemporalBench; MotionBench; Next-QA; MLVU; y LongVideoBench.

Comparación de los resultados de QA de video en varios modelos, mostrando los límites de FPS y el rendimiento en varios benchmarks. F-16 logra SOTA entre los modelos de 7B en Video-MME, NQA, TPB y MB, rivalizando con los modelos propietarios como GPT-4o y Gemini-1.5-Pro.

De estos resultados, los autores establecen:

‘En los conjuntos de datos Video-MME Short, Medium y NeXT-QA—cada uno diseñado para la comprensión de video corto—nuestro modelo supera al modelo SOTA anterior de 7B en 3.2%, 1.0% y 0.9% en precisión, destacando su fuerte rendimiento en videos cortos.

‘Para los benchmarks que evalúan la comprensión de video largo, como Video-MME Long, LongVideoBench y MLVU, el desafío es mayor debido a la muestra de marcos más espaciada, lo que causa que los marcos dentro de la ventana de procesamiento muestren variaciones más significativas.

‘Esto aumenta la dificultad para que el alineador de modalidad codifique eficazmente los cambios temporales dentro de la representación de token limitada. Como resultado, F-16 experimenta una ligera caída en el rendimiento en comparación con [LLaVA-Video-7B], que se entrenó en el mismo conjunto de datos de video.’

El procesamiento de alta velocidad de cuadro de F-16 también resultó en una mejora del 13.5% en TemporalBench y una ganancia del 2.5% en MotionBench, en comparación con los modelos existentes de 7B, y se desempeñó a un nivel similar al de los modelos comerciales como GPT-4o y Gemini-1.5-Pro.

Comprensión de Video Deportivo de Alta Velocidad

F-16 se probó en FineGym, Diving48, SoccerNet y conjuntos de datos de la NBA para evaluar su capacidad para comprender acciones deportivas de alta velocidad.

Utilizando los 10,000 clips de la NBA manualmente anotados, el entrenamiento se centró en el movimiento de la pelota y las acciones de los jugadores, y en si los modelos podían determinar correctamente si un tiro fue exitoso, utilizando el conjunto de pruebas NSVA evaluado con puntuación F1.

Resultados del análisis de video deportivo de alta velocidad. F-16 con el alineador de alta velocidad de cuadro se desempeñó mejor que su contraparte de baja velocidad de cuadro en todas las tareas deportivas. GPT-4o y Gemini-1.5-Pro también se evaluaron en NBA y SoccerNet QA, donde no se requirió conocimiento de entrenamiento en el dominio.

En FineGym, que mide el reconocimiento de acciones de gimnasia, F-16 se desempeñó un 13.8% mejor que el modelo SOTA anterior de 7B, demostrando una mejor comprensión de movimiento fino.

Diving48 requirió identificar secuencias de movimiento complejas como la fase de despegue, salto, giro y vuelo, y F-16 mostró una mayor precisión en el reconocimiento de estas transiciones.

Para SoccerNet, el modelo analizó clips de 10 segundos, identificando pases de balón, y los resultados mostraron una mejora en comparación con los modelos existentes de 7B, lo que indica que una mayor velocidad de cuadro contribuye a seguir movimientos pequeños y rápidos.

En el conjunto de datos de la NBA, la capacidad de F-16 para determinar los resultados de los tiros se acercó a la precisión de los modelos propietarios más grandes como GPT-4o y Gemini-1.5-Pro, lo que sugiere que una mayor velocidad de cuadro mejora su capacidad para procesar movimiento dinámico.

Velocidades de Cuadro Variables

F-16 se probó a diferentes velocidades de cuadro para medir su adaptabilidad. En lugar de volver a entrenar, manejó velocidades de cuadro más bajas repitiendo los marcos para coincidir con la estructura de entrada del alineador. Este enfoque conservó más rendimiento que simplemente eliminar (propenso a causar pérdida de precisión).

Los resultados indican que aunque reducir la velocidad de cuadro tuvo algún impacto en el reconocimiento de movimiento, F-16 aún superó a los modelos de baja velocidad de cuadro y mantuvo resultados sólidos incluso por debajo de 16 FPS.

Izquierda, el tiempo de consumo de los diferentes módulos de F-16 durante la inferencia, medido en 300 videos del conjunto de datos Video-MME Long en diferentes velocidades de cuadro de prueba y longitudes de secuencia. Derecha, una comparación entre el rendimiento de Video-MME para modelos entrenados y probados a diferentes velocidades de cuadro. La línea sólida representa los modelos entrenados y probados a la misma velocidad de cuadro, mientras que la línea discontinua muestra el rendimiento cuando un modelo entrenado a 16 FPS se prueba a una velocidad de cuadro más baja.

El procesamiento de alta velocidad de cuadro de F-16 aumentó los requisitos computacionales, aunque su alineador ayudó a controlar estos costos al comprimir tokens visuales redundantes.

El modelo requirió más FLOPs por video que los modelos de baja velocidad de cuadro, pero también logró una mejor precisión por token, lo que sugiere que sus estrategias de selección de marco y compresión de token ayudaron a compensar la computación adicional.

Conclusión

Es difícil exagerar la importancia o los desafíos de esta particular rama de la investigación, especialmente este año, que está a punto de ser el año de avance para el video generativo, arrojando las deficiencias de la curación de conjuntos de datos de video y la calidad de los subtítulos en relieve.

También debe enfatizarse que los desafíos involucrados en obtener descripciones precisas de los detalles internos del video no pueden resolverse exclusivamente lanzando VRAM, tiempo o espacio en disco al problema. El método por el cual los eventos se aíslan / extraen de tramos de video largos y tediosos (como clips de golf o snooker, por ejemplo) se beneficiará de una reevaluación de los enfoques semánticos y mecanismos que actualmente dominan las soluciones SOTA, porque algunas de estas limitaciones se establecieron en tiempos de recursos más pobres.

(incidentalmente, incluso si 16fps parece una velocidad de cuadro muy baja para 2025, es interesante notar que esta es también la velocidad de entrenamiento nativa de los clips de video utilizados en el modelo de video generativo Wan 2.1 muy popular, y la velocidad a la que por lo tanto opera con menos problemas. Esperemos que la escena de investigación mantenga un ojo en la posible ‘entropía de estándares’ aquí; a veces las restricciones obsoletas pueden perpetuar estándares futuros)

Publicado por primera vez el miércoles 19 de marzo de 2025