Angolo di Anderson
La Sfida della Didascalia dei Video a Più di 1fps

La capacità dei sistemi di apprendimento automatico di riconoscere gli eventi che si verificano all’interno di un video è cruciale per il futuro della generazione di video basata sull’intelligenza artificiale – non meno perché i set di dati video richiedono didascalie accurate per produrre modelli che aderiscano alle richieste dell’utente e che non esagerino eccessivamente allucinazioni.

Un esempio di schema di didascalia del progetto VidReCap di Google. Fonte: https://sites.google.com/view/vidrecap
La didascalia manuale della scala di video necessaria per set di dati di formazione efficaci è una prospettiva inconcepibile. Sebbene sia possibile formare sistemi di intelligenza artificiale per auto-didascalia dei video, sono ancora necessari molti esempi generati dall’uomo come verità di base, per varietà e copertura.
Più importante ancora, quasi ogni modello di video basato sull’intelligenza artificiale attuale funziona a 1fps, che non è una velocità di cattura densa enough per discernere variazioni in molti scenari: cambiamenti di micro-espressioni improvvisi per sistemi di riconoscimento delle emozioni; eventi rapidi in sport ad alta velocità come il basket; movimenti violenti; tagli rapidi in film drammatici, dove sistemi come PySceneDetect potrebbero non riuscire a identificarli (o non sono utilizzati); e molti altri scenari in cui la finestra di attenzione deve essere chiaramente più intensa.
Click to play. Azione rapida ma che cambia la vita in quello che altrimenti può essere uno degli sport più lenti del mondo, mentre Alex Higgins vince il campionato del mondo contro Ray Reardon nel 1982. Fonte: https://www.youtube.com/watch?v=_1PuqKno_Ok
Spostati Velocemente e Rompi la Logica
Questa bassa velocità è lo standard per vari motivi logistici. In primo luogo, la didascalia del video è un’attività intensiva in termini di risorse, sia che il sistema stia studiando un frame sequenziale alla volta, o utilizzando vari metodi per coerenza semantica di una stringa di frame in una sequenza di didascalie interpretabili. In entrambi i casi, la finestra di contesto è inevitabilmente limitata dalle limitazioni hardware.
Un altro motivo per cui 1fps è lo standard attuale è che i video non sono generalmente pieni di eventi rapidi; è quindi ridondante dare 300 frame di tavolo da biliardo statico la stessa attenzione del secondo in cui una palla nera vincente vince il campionato (vedi esempio sopra).
È possibile utilizzare indizi secondari più ampi per identificare momenti cruciali in un video sportivo, come la reazione sostenuta del pubblico a un dunk rapido in un gioco di basket. Tuttavia, tali indizi possono verificarsi per altri motivi (come infortuni inaspettati dei giocatori), e non possono essere affidabili. Questo è un esempio di come un set di dati video mal etichettato possa portare a un modello di video generativo che allucina o interpreta male le istruzioni, ad esempio perché il modello potrebbe mostrare un infortunio del giocatore quando è stato richiesto di generare un dunk (perché l’indizio secondario dell’agitazione del pubblico non era esclusivo di un tipo specifico di evento).
Questo è in molti modi un problema “di budget” e in altri modi un problema procedurale. I framework fino ad oggi hanno operato sul principio che i frame chiave sparsi possono catturare efficacemente le informazioni essenziali, ma ciò è più efficace nell’istituire il genere e altri aspetti della materia del video, poiché le prove, in quel caso, persistono su più frame.
F-16
Un nuovo articolo della Cina offre una soluzione, sotto forma del primo modello di linguaggio multimodale grande (MLLM, o semplicemente LLM) che può analizzare video a 16fps invece dello standard 1fps, evitando le principali insidie dell’aumento della velocità di analisi.
Nei test, gli autori affermano che il nuovo sistema, intitolato F-16, supera i modelli proprietari di stato dell’arte come GPT-4o e Google’s Gemini-1.5 pro. Sebbene altri modelli attuali siano stati in grado di eguagliare o superare i risultati di F-16 nei test, i modelli concorrenti erano molto più grandi e ingombranti.
Sebbene F-16 sia stato addestrato su hardware serio (come esamineremo a breve), l’inferenza è di solito molto meno impegnativa dell’addestramento. Pertanto, possiamo sperare che il codice (promesso per una prossima release) sarà in grado di funzionare su GPU domestiche di medio o alto livello.
Ciò che è necessario per la vitalità della scena dei hobbyisti (e che include la scena professionale VFX, la maggior parte delle volte) è un modello di didascalia del video di questo tipo che possa funzionare, forse quantizzato, su sistemi consumer, in modo che l’intera scena del video generativo non migrino verso sistemi commerciali basati su API, o forzino i consumatori ad agganciare framework locali a servizi di GPU online commerciali.
Oltre la Scalabilità
Gli autori osservano che questo tipo di approccio è un’alternativa pratica all’aumento dei set di dati. Si può anche dedurre che, se si dovesse aggiungere più dati al problema, questo è comunque l’approccio che potrebbe essere preferibile, perché il nuovo sistema distingue gli eventi in modo più granulare.
Affermano:
‘La campionatura a bassa velocità di frame può comportare una perdita di informazioni visive critiche, in particolare nei video con scene che cambiano rapidamente, dettagli intricati o movimenti veloci. Inoltre, se i frame chiave vengono persi, eppure il modello è addestrato su etichette che si basano sulle informazioni dei frame chiave, potrebbe avere difficoltà ad allineare le sue previsioni con il contenuto atteso, potenzialmente portando ad allucinazioni e a prestazioni degradate…
‘… F-16 raggiunge le prestazioni SOTA nella domanda generale di video tra modelli di dimensioni simili e dimostra un chiaro vantaggio nella comprensione dei video ad alta velocità di frame, superando modelli commerciali come GPT-4o. Questo lavoro apre nuove direzioni per avanzare la comprensione dei video ad alta velocità di frame nella ricerca su LLM multimodali.’
Il nuovo articolo è intitolato Miglioramento della comprensione dei video LLM con 16 frame al secondo, e proviene da otto autori tra l’Università Tsinghua e ByteDance.
Metodo
Poiché i frame consecutivi contengono spesso informazioni ridondanti, F-16 applica un allineatore ad alta velocità di frame per comprimere e codificare i dettagli del movimento chiave mentre mantiene la semantica visiva. Ogni frame viene prima elaborato da un encoder di immagini pre-addestrato, estraendo rappresentazioni di caratteristiche prima di essere passato a un allineatore basato su Gaussian Error Linear Units (GELUs).

L’architettura di F-16 elabora video a 16 FPS, catturando più frame dei modelli tradizionali a bassa velocità di frame, e il suo allineatore ad alta velocità di frame mantiene la semantica visiva mentre codifica efficientemente la dinamica del movimento senza aggiungere token visivi extra. Fonte: https://arxiv.org/pdf/2503.13956
Per gestire il numero di frame aumentato in modo efficiente, F-16 raggruppa i frame in piccole finestre di elaborazione, fondendo le caratteristiche visive utilizzando un Multi-Layer Perceptron (MLP) a tre strati, aiutando a mantenere solo i dettagli del movimento più rilevanti, e riducendo la duplicazione non necessaria, mentre mantiene il flusso temporale delle azioni. Un livello di max-pooling spaziale comprime ulteriormente il numero di token, mantenendo i costi computazionali entro i limiti.
I token video elaborati vengono quindi alimentati nel Qwen2-7B LLM, che genera risposte testuali in base alle caratteristiche visive estratte e a un prompt dell’utente.
Strutturando l’input video in questo modo, F-16 consente, affermano gli autori, un riconoscimento di eventi più preciso in scene dinamiche, mantenendo comunque l’efficienza.
La Versione Breve
F-16 estende un LLM di immagini pre-addestrato, LLaVA-OneVision, per elaborare video trasformando la sua pipeline di input visiva. Mentre i modelli di immagini LLM standard gestiscono frame isolati, l’allineatore ad alta velocità di frame di F-16 riformatta più frame in una forma che il modello può elaborare più efficientemente; ciò evita di sopraffare il sistema con informazioni ridondanti mentre mantiene le informazioni chiave del movimento necessarie per una comprensione del video accurata.
Per garantire la compatibilità con la sua base di immagini, F-16 riutilizza i parametri pre-addestrati ristrutturando il suo allineatore in sottomatrici. Questo approccio consente di integrare la conoscenza da modelli a singolo frame mentre si adatta all’input video sequenziale.
L’allineatore comprime prima le sequenze di frame in un formato ottimizzato per l’LLM, mantenendo le caratteristiche più informative mentre scarta i dettagli non necessari. La progettazione dell’architettura consente al sistema di elaborare video ad alta velocità di frame mentre mantiene i costi computazionali sotto controllo, che gli autori ritengono come prova che la scalabilità non è l’unico (o il migliore) modo in avanti per la didascalia del video.
Variare il Ritmo
Poiché l’elaborazione del video a 16 FPS migliora la comprensione del movimento ma aumenta i costi computazionali, in particolare durante l’inferenza, F-16 introduce un metodo di decodifica a velocità di frame variabile, che consente di regolare la velocità di frame in modo dinamico senza riaddestrare.

Gli allineatori a singolo frame e ad alta velocità di frame disponibili per F-16.
Questa flessibilità consente al modello di funzionare in modo efficiente a velocità di frame inferiori quando non è richiesta una precisione elevata, e riduce il sovraccarico computazionale.
Al momento del test, quando si seleziona una velocità di frame inferiore, F-16 riutilizza i parametri dell’allineatore precedentemente addestrati ripetendo i frame per corrispondere alle dimensioni attese. Ciò garantisce che il modello possa ancora elaborare video in modo efficace senza modificare la sua architettura.
A differenza del campionamento ingenuo (ad esempio, semplicemente rimuovendo i frame), che rischia di perdere dettagli del movimento critici, questo metodo mantiene le rappresentazioni del movimento apprese dall’allineatore, mantenendo l’accuratezza anche a velocità di frame ridotte. Per la comprensione generale del video, un’impostazione FPS inferiore può accelerare l’inferenza senza una perdita di prestazioni significativa, mentre l’analisi del movimento ad alta velocità può ancora sfruttare la piena capacità di 16 FPS.
Dati e Test
Costruito su Qwen2-7B, FP-16 estende LLaVA-OneVision utilizzando SigLIP come encoder di immagini. Con i frame video campionati a 16 FPS, fino a 1.760 frame possono essere ottenuti da ogni video. Per clip video più lunghe, i frame sono stati campionati in modo uniforme (cioè più raramente).
Per l’addestramento, F-16 ha utilizzato gli stessi set di dati video generali di LLaVA-Video, tra cui LLaVA-Video-178K, NExT-QA, ActivityNet-QA, e PerceptionTest.
F-16 è stato inoltre ottimizzato sui set di dati sportivi ad alta velocità FineGym, Diving48, e SoccerNet. Gli autori hanno anche curato una raccolta di 276 partite di NBA giocate tra il 13 e il 25 novembre 2024, concentrandosi su se un tiro fosse stato efficace (un compito che richiede l’elaborazione ad alta velocità di frame).
Il modello è stato valutato utilizzando il set di test NSVA, con le prestazioni misurate dal punteggio F1.
I modelli di ginnastica e nuoto sono stati valutati in base all’accuratezza del riconoscimento degli eventi, mentre i modelli di calcio e basket hanno tracciato i passaggi e gli esiti dei tiri.
Il modello è stato addestrato per 1 epoch utilizzando 128 NVIDIA H100 GPUs (e con 80GB di VRAM per GPU, ciò ha comportato l’uso di 10,24 terabyte di memoria GPU; anche secondo gli standard recenti, questo è il cluster GPU più potente che abbia incontrato nel tenere traccia della letteratura di ricerca sulla visione computerizzata). Una velocità di apprendimento di 2×10⁻⁵ è stata utilizzata durante l’addestramento.
Inoltre, un LoRA è stato ottimizzato sui dati sportivi utilizzando adattatori LoRA con 64 GPU per 5 epoche. Qui, solo l’LLM è stato addestrato, lasciando l’encoder di immagini congelato.
I framework opposti testati nel primo round per la ‘comprensione generale del video’ sono stati GPT-4o; Gemini-1.5-Pro; Qwen2-VL-7B; VideoLLaMA2-7B; VideoChat2-HD-7B; LLaVA-OV-7B; MiniCPM-V2.6-8B; LLaVA-Video-7B; e NVILA-7B;
I modelli sono stati valutati su Video-MME; VideoVista; TemporalBench; MotionBench; Next-QA; MLVU; e LongVideoBench.

Confronto dei risultati della domanda di video tra modelli, mostrando i limiti di FPS e le prestazioni su più benchmark. F-16 raggiunge le prestazioni SOTA tra i modelli da 7B su Video-MME, NQA, TPB e MB, rivaleggiando con modelli proprietari come GPT-4o e Gemini-1.5-Pro.
Di questi risultati, gli autori affermano:
‘Sui set di dati Video-MME Short, Medium e NeXT-QA—ognuno progettato per la comprensione di video brevi—il nostro modello supera il modello SOTA precedente da 7B del 3,2%, 1,0% e 0,9% in accuratezza, evidenziando la sua forte prestazione su video brevi.
‘Per i benchmark che valutano la comprensione di video lunghi, come Video-MME Long, LongVideoBench e MLVU, la sfida è maggiore a causa del campionamento dei frame più raro, che causa frame all’interno della finestra di elaborazione che esibiscono variazioni più significative.
‘Ciò aumenta la difficoltà per l’allineatore modale di codificare efficacemente i cambiamenti temporali all’interno della rappresentazione dei token limitata. Di conseguenza, F-16 subisce un leggero calo delle prestazioni rispetto a [LLaVA-Video-7B], che è stato addestrato sullo stesso set di dati video.’
La capacità di F-16 di elaborare ad alta velocità di frame ha anche portato a un miglioramento del 13,5% su TemporalBench e a un guadagno del 2,5% su MotionBench, rispetto ai modelli esistenti da 7B, e ha raggiunto prestazioni simili a quelle dei modelli commerciali come GPT-4o e Gemini-1.5-Pro.
Comprensione dei Video Sportivi ad Alta Velocità
F-16 è stato testato su FineGym, Diving48, SoccerNet e set di dati NBA per valutare la sua capacità di comprendere azioni sportive ad alta velocità.
Utilizzando i 10.000 clip NBA annotati manualmente, l’addestramento si è concentrato sul movimento della palla e sulle azioni dei giocatori, e se i modelli potevano determinare correttamente se un tiro fosse stato efficace, utilizzando il set di test NSVA valutato con il punteggio F1.

Risultati dell’analisi dei video sportivi ad alta velocità. F-16 con l’allineatore ad alta velocità di frame ha funzionato meglio del suo omologo a bassa velocità di frame in tutti i compiti sportivi. GPT-4o e Gemini-1.5-Pro sono stati valutati anche su NBA e SoccerNet QA, dove non era richiesta la conoscenza dell’addestramento nel dominio.
Su FineGym, che misura il riconoscimento delle azioni di ginnastica, F-16 ha funzionato meglio del 13,8% rispetto al modello SOTA precedente da 7B, dimostrando una comprensione più fine del movimento.
Diving48 ha richiesto l’identificazione di sequenze di movimento complesse come takeoff, somersault, twist e flight phase, e F-16 ha mostrato una maggiore accuratezza nel riconoscimento di queste transizioni.
Per SoccerNet, il modello ha analizzato clip di 10 secondi, identificando i passaggi della palla, e i risultati hanno mostrato un miglioramento rispetto ai modelli esistenti da 7B, indicando che una velocità di frame più alta contribuisce al tracciamento dei movimenti piccoli e rapidi.
Nel set di dati NBA, la capacità di F-16 di determinare gli esiti dei tiri si è avvicinata all’accuratezza dei modelli proprietari più grandi come GPT-4o e Gemini-1.5-Pro, suggerendo ulteriormente che una velocità di frame più alta migliora la sua capacità di elaborare il movimento dinamico.
Velocità di Frame Variabili
F-16 è stato testato a diverse velocità di frame per misurare la sua adattabilità. Invece di riaddestrare, ha gestito velocità di frame inferiori ripetendo i frame per corrispondere alla struttura di input dell’allineatore. Questo approccio ha mantenuto più prestazioni rispetto alla semplice rimozione dei frame (che rischia di causare perdita di accuratezza).
I risultati indicano che, sebbene la riduzione della velocità di frame abbia avuto alcuni effetti sulla riconoscimento del movimento, F-16 ha comunque superato i modelli a bassa velocità di frame e ha mantenuto risultati solidi anche al di sotto dei 16 FPS.

A sinistra, il consumo di tempo dei diversi moduli di F-16 durante l’inferenza, misurato su 300 video del set Video-MME Long a velocità di frame e lunghezze di sequenza variabili. A destra, un confronto tra le prestazioni di Video-MME per modelli addestrati e testati a diverse velocità di frame. La linea solida rappresenta i modelli addestrati e testati alla stessa velocità di frame, mentre la linea tratteggiata mostra le prestazioni quando un modello addestrato a 16 FPS viene testato a una velocità di frame inferiore.
L’elaborazione ad alta velocità di frame di F-16 ha aumentato i requisiti computazionali, sebbene il suo allineatore abbia aiutato a gestire questi costi comprimendo i token visivi ridondanti.
Il modello ha richiesto più FLOPs per video rispetto ai modelli a bassa velocità di frame, ma ha anche raggiunto una maggiore accuratezza per token, suggerendo che le sue strategie di selezione dei frame e di compressione dei token hanno aiutato a compensare il calcolo aggiuntivo.
Conclusione
È difficile esagerare sia l’importanza che le sfide di questo particolare filone di ricerca – specialmente quest’anno, che è destinato a essere l’anno di svolta per i video generativi, gettando le carenze della cura dei set di dati video e della qualità della didascalia in netto rilievo.
Dovrebbe anche essere sottolineato che le sfide coinvolte nell’ottenere descrizioni accurate dei dettagli interni del video non possono essere risolte esclusivamente gettando VRAM, tempo o spazio su disco al problema. Il metodo con cui gli eventi vengono isolati/estratti da tratti di video altrimenti lunghi e tediosi (come ad esempio i clip di golf o biliardo, ad esempio) trarrà beneficio da un ripensamento degli approcci semantici e dei meccanismi attualmente dominanti le soluzioni SOTA – perché alcune di queste limitazioni sono state stabilite in tempi più poveri di risorse.
(incidentalmente, anche se 16fps sembra una velocità di frame molto bassa per il 2025, è interessante notare che questa è anche la velocità di addestramento nativa dei clip video utilizzati nel modello di video generativo molto popolare Wan 2.1, e la velocità a cui quindi funziona con meno problemi. Speriamo che la scena della ricerca tenga d’occhio la possibile ‘entropia degli standard’ qui; a volte le limitazioni obsolete possono perpetuare standard futuri.
Pubblicato per la prima volta mercoledì 19 marzo 2025












