Contáctenos

El desafío de subtitular vídeos a más de 1 fps

El ángulo de Anderson

El desafío de subtitular vídeos a más de 1 fps

mm
Senderos en una escena de baloncesto - fuente: https://www.youtube.com/watch?v=ORfjgE6n2Pc

La capacidad de los sistemas de aprendizaje automático para reconocer los eventos que ocurren dentro de un video es crucial para el futuro de la generación de videos basada en IA, sobre todo porque los conjuntos de datos de video requieren subtítulos precisos para producir modelos que se adhieran a la solicitud de un usuario y que no sean excesivamente complejos. alucinar.

Ejemplo de esquema de subtítulos del proyecto VidReCap de Google. Fuente: https://sites.google.com/view/vidrecap

Un ejemplo de un esquema de subtítulos del proyecto VidReCap de Google. Fuente: https://sites.google.com/view/vidrecap

Subtitular manualmente la escala de los videos necesaria para conjuntos de datos de entrenamiento efectivos es una posibilidad desmesurada. Si bien es posible entrenar sistemas de IA para que subtitulen videos automáticamente, aún se necesitan muchos ejemplos generados por humanos como referencia de base para mayor variedad y cobertura.

Más importante aún, casi todos los modelos actuales de subtitulado de vídeo basados ​​en IA funciona a 1 fps, que no es una tasa de captura lo suficientemente densa como para discernir variaciones en una gran cantidad de escenarios: cambios repentinos de microexpresiones para sistemas de reconocimiento de emociones; eventos rápidos en deportes de alta velocidad como el baloncesto; movimientos violentos; cortes rápidos en películas dramáticas, donde sistemas como Detección de escenas de PyScene puede que no se puedan identificar (o que no se estén utilizando); y muchos otros escenarios en los que la ventana de atención claramente necesita ser más intensa.

Dele "click" para jugar. Acción rápida pero que cambia la vida en lo que de otro modo podría ser uno de los deportes más lentos del mundo, cuando Alex Higgins logra el campeonato mundial contra Ray Reardon en 1982. Fuente: https://www.youtube.com/watch?v=_1PuqKno_Ok

Muévete rápido y rompe la lógica

Esta baja tasa es el estándar por diversas razones logísticas. Por un lado, el subtitulado de video es una actividad que consume muchos recursos, ya sea que el sistema estudie un fotograma secuencial a la vez o utilice varios métodos para cohesionar semánticamente una cadena de fotogramas en una secuencia de subtítulos interpretable. En cualquier caso, ventana de contexto está inevitablemente limitado por restricciones de hardware.

Otra razón para que 1 fps sea el estándar actual es que los videos generalmente no están repletos de eventos rápidos; por lo tanto, es redundante darle a 300 cuadros de una mesa de billar estática la misma atención que a la fracción de segundo en la que una bola negra gana el campeonato (ver el ejemplo anterior).

Es posible utilizar pistas secundarias más amplias para identificar momentos cruciales en un vídeo deportivo, como la reacción sostenida del público ante una volcada rápida en un partido de baloncesto. Sin embargo, estas pistas pueden aparecer por otras razones (como lesiones inesperadas de jugadores) y no son fiables. Este es un ejemplo de cómo un conjunto de datos de vídeo mal etiquetado puede generar un modelo de vídeo generativo que alucina o malinterpreta las instrucciones, por ejemplo, porque el modelo podría mostrar una lesión de un jugador al solicitarle una volcada (ya que la «pista secundaria» de agitación del público no se limita a un tipo específico de evento).

Esto es, en muchos sentidos, un problema presupuestario y, en otros, un problema de procedimiento. Hasta la fecha, los marcos de trabajo se han basado en el principio de que los fotogramas clave dispersos pueden capturar eficazmente información esencial, pero esto resulta más efectivo para establecer el género y otras facetas del tema de un vídeo, ya que la evidencia, en ese caso, persiste a lo largo de varios fotogramas.

La visa F-16

Un nuevo artículo de China ofrece una solución, en forma del primer modelo de lenguaje grande multimodal (MLLM, o simplemente LLM) que puede analizar videos. a 16 fps en lugar del estándar 1 fps, evitando al mismo tiempo los principales inconvenientes de aumentar la velocidad de análisis.

En las pruebas, los autores afirman que el nuevo sistema, denominado La visa F-16Supera a modelos de vanguardia patentados como el GPT-4o y el Gemini-1.5 pro de Google. Si bien otros modelos actuales igualaron o superaron los resultados del F-16 en las pruebas, los modelos de la competencia eran mucho más grandes y difíciles de manejar.

Aunque el F-16 se entrenó con hardware de alto rendimiento (como veremos en breve), la inferencia suele ser mucho menos exigente que el entrenamiento. Por lo tanto, podemos esperar que el código (prometido para una próxima versión) pueda ejecutarse en GPU domésticas de gama media o alta.

Lo que se necesita para la vitalidad de la escena de aficionados (y eso incluye la escena de efectos visuales profesionales, la mayor parte del tiempo) es un modelo de subtitulado de videos de este tipo que pueda funcionar, tal vez cuantificado, en los sistemas de consumo, de modo que toda la escena de vídeo generativo no migre a sistemas comerciales basados ​​en API ni fuerce a los consumidores a conectar marcos locales a servicios de GPU comerciales en línea.

Más allá de la ampliación

Los autores observan que este tipo de enfoque es una alternativa práctica a la ampliación de los conjuntos de datos. También se puede inferir que, si se necesitaran más datos para resolver el problema, este sigue siendo el tipo de enfoque preferible, ya que el nuevo sistema distingue los eventos con mayor granularidad.

Ellos afirman:

Un muestreo a baja velocidad de fotogramas puede provocar una pérdida crítica de información visual, especialmente en vídeos con escenas que cambian rápidamente, detalles complejos o movimiento rápido. Además, si se omiten fotogramas clave, aunque el modelo esté entrenado con etiquetas que dependen de la información de los fotogramas clave, podría tener dificultades para alinear sus predicciones con el contenido esperado, lo que podría provocar alucinaciones y un rendimiento reducido.

El F-16 alcanza un rendimiento SOTA en el control de calidad de video general entre modelos de tamaño similar y demuestra una clara ventaja en la comprensión de video de alta velocidad de fotogramas, superando a modelos comerciales como el GPT-4o. Este trabajo abre nuevas vías para el avance de la comprensión de video de alta velocidad de fotogramas en la investigación multimodal LLM.

El nuevo documento se titula Mejorando LLM Comprensión de video con 16 cuadros por segundo, y proviene de ocho autores de la Universidad de Tsinghua y ByteDance.

Método

Dado que los fotogramas consecutivos suelen contener información redundante, F-16 aplica un alineador de alta velocidad de fotogramas para comprimir y codificar detalles clave del movimiento, conservando la semántica visual. Cada fotograma es procesado primero por un codificador de imágenes preentrenado, que extrae representaciones de características antes de pasarlo a un alineador basado en... Unidades lineales de error gaussiano (GELUs).

La arquitectura del F-16 procesa vídeo a 16 FPS, capturando más fotogramas que los modelos tradicionales de baja velocidad de fotogramas. Su alineador de alta velocidad de fotogramas preserva la semántica visual a la vez que codifica eficientemente la dinámica de movimiento sin añadir tokens visuales adicionales. Fuente: https://arxiv.org/pdf/2503.13956

La arquitectura del F-16 procesa video a 16 FPS, capturando más cuadros que los modelos tradicionales de baja velocidad de cuadros, y su alineador de alta velocidad de cuadros preserva la semántica visual mientras codifica eficientemente la dinámica del movimiento sin agregar tokens visuales adicionales. Fuente: https://arxiv.org/pdf/2503.13956

Para gestionar el aumento de fotogramas de manera eficiente, F-16 agrupa los fotogramas en pequeñas ventanas de procesamiento y fusiona las características visuales mediante un algoritmo de tres capas. Perceptrón multicapa (MLP), lo que ayuda a retener solo los detalles de movimiento más relevantes y a reducir la duplicación innecesaria, a la vez que preserva el flujo temporal de las acciones. Un enfoque espacial agrupación máxima La capa comprime aún más el recuento de tokens, manteniendo los costos computacionales dentro de los límites.

Los tokens de vídeo procesados ​​se introducen luego en el Qwen2-7B LLM, que genera respuestas textuales basadas en las características visuales extraídas y una indicación determinada del usuario.

Al estructurar la entrada de video de esta manera, F-16 permite, afirman los autores, un reconocimiento de eventos más preciso en escenas dinámicas, manteniendo al mismo tiempo la eficiencia.

La versión corta

F-16 extiende una imagen LLM preentrenada, LLaVA-OneVisionPara procesar video, transforma su flujo de entrada visual. Mientras que los LLM de imagen estándar gestionan fotogramas aislados, el alineador de alta velocidad de fotogramas del F-16 reformatea múltiples fotogramas para que el modelo pueda procesarlos con mayor eficiencia. Esto evita saturar el sistema con información redundante, a la vez que conserva las señales de movimiento clave necesarias para una comprensión precisa del video.

Para garantizar la compatibilidad con su base basada en imágenes, F-16 reutiliza parámetros entrenados previamente reestructurando su alineador en submatricesEste enfoque permite integrar el conocimiento de modelos de un solo cuadro y al mismo tiempo adaptarlo a la entrada de video secuencial.

El alineador comprime primero las secuencias de fotogramas a un formato optimizado para el LLM, conservando las características más informativas y descartando detalles innecesarios. El diseño de la arquitectura permite al sistema procesar vídeo de alta velocidad de fotogramas manteniendo bajo control las demandas computacionales, lo que, según los autores, demuestra que el escalado no es la única (ni la mejor) opción para el subtitulado de vídeo.

Variando el ritmo

Dado que el procesamiento de vídeo a 16 FPS mejora la comprensión del movimiento pero aumenta el costo computacional, particularmente durante la inferencia, F-16 introduce una decodificación de velocidad de cuadros variable método, lo que le permite ajustar la velocidad de cuadros dinámicamente sin tener que volver a entrenar.

Los alineadores de cuadro único y de alta velocidad de cuadros disponibles para el F-16.

Los alineadores de cuadro único y de alta velocidad de cuadros disponibles para el F-16.

Esta flexibilidad permite que el modelo funcione de manera eficiente a menores FPS cuando no se requiere alta precisión y reduce la sobrecarga computacional.

Durante la prueba, al seleccionar una velocidad de fotogramas más baja, F-16 reutiliza los parámetros del alineador previamente entrenados, repitiendo los fotogramas de entrada para que coincidan con las dimensiones esperadas. Esto garantiza que el modelo pueda procesar vídeo eficazmente sin modificar su arquitectura.

A diferencia del submuestreo ingenuo (es decir, la simple eliminación de fotogramas), que conlleva el riesgo de perder detalles cruciales del movimiento, este método conserva las representaciones de movimiento aprendidas por el alineador, manteniendo la precisión incluso a velocidades de fotogramas reducidas. Para la comprensión general de vídeo, una configuración de FPS más baja puede acelerar la inferencia sin una pérdida significativa de rendimiento, mientras que el análisis de movimiento a alta velocidad puede aprovechar al máximo la capacidad de 16 FPS.

Datos y Pruebas

Construido sobre Qwen2-7B, FP-16 extiende LLaVA-OneVision utilizando SigLIP Como codificador de imágenes. Con fotogramas de vídeo muestreados a 16 FPS, se pueden obtener hasta 1,760 fotogramas de cada vídeo. En los clips de vídeo más largos, el muestreo de fotogramas fue uniforme (es decir, más disperso).

Para el entrenamiento, el F-16 utilizó los mismos conjuntos de datos de vídeo generales que LLaVA-Video, incluyendo LLaVA-Video-178K, Control de calidad de NExT, Control de calidad de ActivityNety Prueba de percepción.

El F-16 también fue perfeccionado en los conjuntos de datos deportivos de alta velocidad. Gimnasio fino, Buceo48y SoccerNetLos autores también seleccionaron una colección de 276 partidos de la NBA jugados entre el 13 y el 25 de noviembre de 2024, centrándose en si un tiro fue exitoso (una tarea que requiere un procesamiento de alta velocidad de cuadros).

El modelo se evaluó utilizando el Conjunto de pruebas NSVA, con un rendimiento medido por Puntuación F1.

Se evaluaron los modelos de gimnasia y buceo según la precisión del reconocimiento de eventos, mientras que los modelos de fútbol y baloncesto rastrearon los pases y los resultados de los tiros.

El modelo fue entrenado durante 1 época usando 128 GPU NVIDIA H100 (y con un estándar de 80 GB de VRAM por GPU, esto implicaba el uso de 10,24 terabytes de memoria de GPU; incluso para los estándares recientes, este es el clúster de GPU con las especificaciones más altas que he encontrado personalmente para mantenerme al día con la literatura de investigación sobre visión por computadora). tasa de aprendizaje Se utilizó una proporción de 2×10⁻⁵ durante el entrenamiento.

Además, un lora Se afinó con datos deportivos utilizando adaptadores LoRA con 64 GPU durante 5 épocas. Aquí, solo se entrenó el LLM, dejando el codificador de imágenes. frozen.

Los marcos oponentes probados en la ronda inicial para 'comprensión general de video' fueron GPT-4o; Gemini-1.5-Pro; Qwen2-VL-7B; VídeoLLaMA2-7B; VideoChat2-HD-7B; LLaVA-OV-7B; MiniCPM-V2.6-8B; LLaVA-Video-7B; y NVILA-7B;

Los modelos fueron evaluados en Vídeo-MME; VídeoVista; Banco temporal; Banco de movimiento; Próximo control de calidad; Universidad de Virginia Occidental; y LongVideoBench.

Comparación de los resultados de control de calidad de video entre modelos, que muestra los límites de FPS y el rendimiento en múltiples benchmarks. El F-16 alcanza el SOTA entre los modelos 7B en Video-MME, NQA, TPB y MB, rivalizando con modelos propietarios como GPT-4o y Gemini-1.5-Pro.

Comparación de los resultados de control de calidad de video entre modelos, que muestra los límites de FPS y el rendimiento en múltiples benchmarks. El F-16 alcanza el SOTA entre los modelos 7B en Video-MME, NQA, TPB y MB, rivalizando con modelos propietarios como GPT-4o y Gemini-1.5-Pro.

De estos resultados, los autores afirman:

'En los conjuntos de datos Video-MME Short, Medium y NeXT-QA (cada uno diseñado para la comprensión de videos cortos), nuestro modelo supera al modelo 7B SOTA anterior en un 3.2 %, 1.0 % y 0.9 % en precisión, lo que destaca su sólido desempeño en videos cortos.

'Para los puntos de referencia que evalúan la comprensión de videos largos, como Video-MME Long, LongVideoBench y MLVU, el desafío es mayor debido al muestreo de cuadros más disperso, lo que hace que los cuadros dentro de la ventana de procesamiento muestren variaciones más significativas.

Esto dificulta que el alineador de modalidades codifique eficazmente los cambios temporales dentro de la limitada representación de tokens. Como resultado, el rendimiento de F-16 disminuye ligeramente en comparación con [LLaVA-Video-7B], que se entrena con el mismo conjunto de datos de video.

El procesamiento de alta velocidad de cuadros del F-16, continúan los autores, también resultó en una mejora del 13.5% en TemporalBench y una ganancia del 2.5% en MotionBench, en comparación con los modelos 7B existentes, y funcionó a un nivel similar al de los modelos comerciales como GPT-4o y Gemini-1.5-Pro.

Comprensión de videos deportivos de alta velocidad

El F-16 se probó en conjuntos de datos de FineGym, Diving48, SoccerNet y NBA para evaluar su capacidad para comprender acciones deportivas de alta velocidad.

Utilizando los 10,000 clips de la NBA anotados manualmente, el entrenamiento se centró en el movimiento de la pelota y las acciones de los jugadores, y en si los modelos podían determinar correctamente si un tiro fue exitoso, utilizando el conjunto de pruebas NSVA evaluado con la puntuación F1.

Resultados del análisis de videos deportivos de alta velocidad. El F-16 con el alineador de alta velocidad de fotogramas obtuvo un mejor rendimiento que su contraparte de baja velocidad de fotogramas en todas las pruebas deportivas. GPT-4o y Gemini-1.5-Pro ​​también se evaluaron en el control de calidad de NBA y SoccerNet, donde no se requirió un conocimiento de entrenamiento específico.

Resultados del análisis de videos deportivos de alta velocidad. El F-16 con el alineador de alta velocidad de fotogramas obtuvo un mejor rendimiento que su contraparte de baja velocidad de fotogramas en todas las pruebas deportivas. GPT-4o y Gemini-1.5-Pro ​​también se evaluaron en el control de calidad de NBA y SoccerNet, donde no se requirió un conocimiento de entrenamiento específico.

En FineGym, que mide el reconocimiento de acciones gimnásticas, el F-16 tuvo un rendimiento un 13.8 % mejor que el modelo 7B SOTA anterior, lo que demuestra una mejor comprensión del movimiento de grano fino.

Diving48 requirió identificar secuencias de movimientos complejos como el despegue, voltereta, torceduray vuelo fases, y el F-16 mostró una mayor precisión al reconocer estas transiciones.

Para SoccerNet, el modelo analizó clips de 10 segundos, identificando pases de pelota, y los resultados mostraron una mejora con respecto a los modelos 7B existentes, lo que indica que un FPS más alto contribuye al seguimiento de movimientos pequeños y rápidos.

En el conjunto de datos de la NBA, la capacidad del F-16 para determinar los resultados de los tiros se acercó a la precisión de modelos propietarios más grandes, como GPT-4o y Gemini-1.5-Pro, lo que sugiere además que las velocidades de cuadro más altas mejoran su capacidad para procesar el movimiento dinámico.

Velocidades de fotogramas variables

El F-16 se probó a diferentes velocidades de fotogramas para medir su adaptabilidad. En lugar de reentrenarlo, manejó FPS más bajos repitiendo fotogramas para que coincidieran con la estructura de entrada del alineador. Este enfoque mantuvo un mayor rendimiento que simplemente eliminarlo (lo que puede causar pérdida de precisión).

Los resultados indican que, si bien la reducción de FPS tuvo cierto impacto en el reconocimiento de movimiento, F-16 aún superó a los modelos de baja velocidad de cuadros y mantuvo resultados sólidos incluso por debajo de los 16 FPS.

A la izquierda, el consumo de tiempo de diferentes módulos del F-16 durante la inferencia, medido en 300 vídeos del conjunto Video-MME Long con diferentes FPS de prueba y longitudes de secuencia. A la derecha, una comparación del rendimiento de Video-MME para modelos entrenados y probados a diferentes FPS. La línea continua representa los modelos entrenados y probados al mismo FPS, mientras que la línea discontinua muestra el rendimiento cuando un modelo entrenado a 16 FPS se prueba a una velocidad de fotogramas menor.

A la izquierda, el consumo de tiempo de diferentes módulos del F-16 durante la inferencia, medido en 300 vídeos del conjunto Video-MME Long con diferentes FPS de prueba y longitudes de secuencia. A la derecha, una comparación del rendimiento de Video-MME para modelos entrenados y probados a diferentes FPS. La línea continua representa los modelos entrenados y probados al mismo FPS, mientras que la línea discontinua muestra el rendimiento cuando un modelo entrenado a 16 FPS se prueba a una velocidad de fotogramas menor.

El procesamiento de alta velocidad de cuadros del F-16 incrementó los requisitos computacionales, aunque su alineador ayudó a administrar estos costos al comprimir tokens visuales redundantes.

El modelo requirió más FLOP por video que los modelos con FPS más bajos, pero también logró una mejor precisión por token, lo que sugiere que sus estrategias de selección de cuadros y compresión de tokens ayudaron a compensar el cálculo adicional.

Conclusión

Es difícil exagerar la importancia o los desafíos de esta línea particular de investigación, especialmente este año, que será el más importante. año de avance Para videos generativos, se eliminan las deficiencias de la curación de conjuntos de datos de video y la calidad de los subtítulos. en fuerte relieve.

Cabe destacar que los desafíos para obtener descripciones precisas de los detalles internos del video no se pueden resolver únicamente invirtiendo VRAM, tiempo o espacio en disco. El método para aislar o extraer eventos de fragmentos de video que, de otro modo, serían largos y tediosos (como los videoclips de golf o snooker, por ejemplo) se beneficiará de una revisión de los enfoques y mecanismos semánticos que dominan actualmente las soluciones SOTA, ya que algunas de estas limitaciones se establecieron en épocas de escasez de recursos.

(Por cierto, incluso si 16 fps parece una velocidad de cuadros muy baja para 2025, es interesante notar que esta también es la velocidad de entrenamiento nativa de los videoclips utilizados en el enormemente popular Wan 2.1 Modelo de video generativo y, por lo tanto, su velocidad de funcionamiento con la menor cantidad de problemas. Es de esperar que la investigación preste atención a la posible "entropía de estándares" en este contexto; restricciones a veces obsoletas. Puede perpetuar los estándares futuros)

 

Publicado por primera vez el miércoles 19 de marzo de 2025

Escritor sobre aprendizaje automático, especialista en síntesis de imágenes humanas. Exdirector de contenido de investigación en Metaphysic.ai.
sitio personal: martinanderson.ai
Contacto: [email protected]
Gorjeo: @manders_ai