L'angolo di Anderson
La sfida di sottotitolare i video a più di 1 fps

La capacità dei sistemi di apprendimento automatico di riconoscere gli eventi che si verificano all'interno di un video è fondamentale per il futuro della generazione di video basata sull'intelligenza artificiale, non da ultimo perché i set di dati video richiedono didascalie accurate per produrre modelli che aderiscano alla richiesta di un utente e che non siano eccessivamente allucinazioni.

Un esempio di schema di sottotitoli dal progetto VidReCap di Google. Fonte: https://sites.google.com/view/vidrecap
Sottotitolare manualmente la scala dei video necessaria per set di dati di formazione efficaci è una prospettiva irragionevole. Sebbene sia possibile addestrare i sistemi di intelligenza artificiale a sottotitolare automaticamente i video, sono ancora necessari moltissimi esempi generati dall'uomo come verità di base, per varietà e copertura.
Ancora più importante, quasi tutti gli attuali modelli di sottotitoli video basati sull’intelligenza artificiale funziona a 1 fps, che non è un tasso di cattura abbastanza denso da discernere le variazioni in un gran numero di scenari: improvvisi cambiamenti di microespressione per i sistemi di riconoscimento delle emozioni; eventi rapidi in sport ad alta velocità come il basket; movimenti violenti; tagli rapidi in film drammatici, dove sistemi come PySceneDetect potrebbero non riuscire a identificarli (o non essere utilizzati); e molti altri scenari in cui la finestra di attenzione deve chiaramente essere più intensa.
Clicca per giocare. Un'azione rapida ma che cambia la vita in quello che altrimenti sarebbe uno degli sport più lenti al mondo: Alex Higgins si aggiudica il campionato del mondo contro Ray Reardon nel 1982. Fonte: https://www.youtube.com/watch?v=_1PuqKno_Ok
Muoviti velocemente e rompi la logica
Questa bassa velocità è lo standard per vari motivi logistici. Per prima cosa, la sottotitolazione video è un'attività che richiede molte risorse, sia che il sistema studi un fotogramma sequenziale alla volta, sia che utilizzi vari metodi per unire semanticamente una serie di fotogrammi in una sequenza di didascalie interpretabile. In entrambi i casi, il finestra contestuale è inevitabilmente limitato da vincoli hardware.
Un altro motivo per cui 1 fps è lo standard attuale è che i video in genere non sono pieni di eventi rapidi; è quindi ridondante dare a 300 fotogrammi di un tavolo da biliardo statico la stessa attenzione della frazione di secondo in cui una palla nera imbucata vince il campionato (vedere l'esempio sopra).
È possibile utilizzare indizi secondari più ampi per identificare momenti cruciali in un video sportivo, come la reazione prolungata del pubblico a una rapida schiacciata in una partita di basket. Tuttavia, tali indizi possono verificarsi per altri motivi (come infortuni imprevisti dei giocatori) e non sono affidabili. Questo è un esempio di come un set di dati video etichettato in modo errato possa portare a un modello video generativo che genera allucinazioni o interpreta male le istruzioni, ad esempio perché il modello potrebbe mostrare un infortunio di un giocatore quando gli è stato chiesto di generare una schiacciata (perché l'"indizio secondario" dell'agitazione del pubblico non era esclusivo di un tipo specifico di evento).
Questo è per molti versi un problema di "budget" e per altri un problema procedurale. I framework finora hanno operato sul principio che fotogrammi chiave sparsi possano catturare efficacemente informazioni essenziali, ma questo è più efficace nello stabilire il genere e altri aspetti del soggetto di un video, poiché le prove, in quel caso, persistono su più fotogrammi.
F-16
Un nuovo documento dalla Cina offre una soluzione, sotto forma del primo modello linguistico multimodale di grandi dimensioni (MLLM, o semplicemente LLM) in grado di analizzare i video a 16 fps invece dello standard 1 fps, evitando al contempo le principali insidie derivanti dall'aumento della velocità di analisi.
Nei test, gli autori affermano che il nuovo sistema, denominato F-16, supera in prestazioni modelli proprietari all'avanguardia come il GPT-4o e il Gemini-1.5 Pro di Google. Mentre altri modelli attuali sono riusciti a eguagliare o superare i risultati dell'F-16 nei test, i modelli concorrenti erano molto più grandi e poco maneggevoli.
Sebbene l'F-16 sia stato addestrato su hardware di livello avanzato (come vedremo a breve), l'inferenza è solitamente molto meno impegnativa dell'addestramento. Pertanto, possiamo sperare che il codice (la cui uscita è prevista per il prossimo futuro) sia in grado di funzionare su GPU domestiche di fascia media o alta.
Ciò che serve per la vitalità della scena amatoriale (e che include la scena VFX professionale, la maggior parte delle volte) è un modello di sottotitoli video di questo tipo che possa funzionare, forse quantizzato, sui sistemi dei consumatori, in modo che l'intera scena video generativa non migri verso sistemi commerciali basati su API o costringa i consumatori ad agganciare framework locali a servizi GPU commerciali online.
Oltre la scalabilità
Gli autori osservano che questo tipo di approccio è un'alternativa pratica all'aumento della scala dei set di dati. Si può anche dedurre che se si volessero lanciare più dati sul problema, questo è ancora il tipo di approccio che potrebbe essere preferibile, perché il nuovo sistema distingue gli eventi in modo più granulare.
Affermano:
"Il campionamento a bassa frequenza di fotogrammi può causare una perdita di informazioni visive critiche, in particolare nei video con scene che cambiano rapidamente, dettagli intricati o movimenti rapidi. Inoltre, se i fotogrammi chiave vengono persi, ma il modello è addestrato su etichette che si basano su informazioni sui fotogrammi chiave, potrebbe avere difficoltà ad allineare le sue previsioni con il contenuto previsto, portando potenzialmente ad allucinazioni e prestazioni degradate...
"… L'F-16 raggiunge prestazioni SOTA nella QA video generale tra modelli di dimensioni simili e dimostra un chiaro vantaggio nella comprensione di video ad alta frequenza di fotogrammi, superando modelli commerciali come GPT-4o. Questo lavoro apre nuove direzioni per il progresso della comprensione di video ad alta frequenza di fotogrammi nella ricerca LLM multimodale."
. nuovo documento si intitola Migliorare LLM Video Comprensione con 16 fotogrammi al secondoe proviene da otto autori provenienti dalla Tsinghua University e da ByteDance.
Metodo
Poiché i frame consecutivi contengono spesso informazioni ridondanti, F-16 applica un allineatore ad alta frequenza di fotogrammi per comprimere e codificare i dettagli del movimento chiave mantenendo la semantica visiva. Ogni frame viene prima elaborato da un codificatore di immagini pre-addestrato, estraendo le rappresentazioni delle caratteristiche prima di essere passato a un allineatore basato su Errore gaussiano Unità lineari (GELU).

L'architettura dell'F-16 elabora i video a 16 FPS, catturando più fotogrammi rispetto ai tradizionali modelli a basso frame rate, mentre il suo allineatore ad alto frame rate preserva la semantica visiva codificando in modo efficiente le dinamiche del movimento senza aggiungere token visivi extra. Fonte: https://arxiv.org/pdf/2503.13956
Per gestire in modo efficiente l'aumento del numero di frame, F-16 raggruppa i frame in piccole finestre di elaborazione, unendo le caratteristiche visive utilizzando un sistema a tre livelli Perceptron multistrato (MLP), aiutando a conservare solo i dettagli di movimento più rilevanti e riducendo le duplicazioni non necessarie, preservando al contempo il flusso temporale delle azioni. Uno spazio massimo pooling layer comprime ulteriormente il conteggio dei token, mantenendo i costi computazionali entro certi limiti.
I token video elaborati vengono quindi immessi nel Qwen2-7B LLM, che genera risposte testuali basate sulle caratteristiche visive estratte e su un dato suggerimento dell'utente.
Strutturando l'input video in questo modo, F-16 consente, sostengono gli autori, un riconoscimento più preciso degli eventi nelle scene dinamiche, mantenendo comunque l'efficienza.
La versione breve
F-16 estende un'immagine LLM pre-addestrata, LLaVA-OneVision, per elaborare i video trasformando la pipeline di input visivi. Mentre i LLM standard per immagini gestiscono fotogrammi isolati, l'allineatore ad alta frequenza di fotogrammi dell'F-16 riformatta più fotogrammi in un formato che il modello può elaborare in modo più efficiente; questo evita di sovraccaricare il sistema con informazioni ridondanti, preservando al contempo gli indizi di movimento chiave necessari per una comprensione accurata del video.
Per garantire la compatibilità con la sua base basata sulle immagini, F-16 riutilizza i parametri preaddestrati ristrutturando il suo allineatore in sottomatriciQuesto approccio consente di integrare le conoscenze provenienti da modelli a fotogramma singolo, adattandosi al contempo all'input video sequenziale.
L'allineatore comprime prima le sequenze di fotogrammi in un formato ottimizzato per l'LLM, preservando le caratteristiche più informative e scartando i dettagli non necessari. La progettazione dell'architettura consente al sistema di elaborare video ad alta frequenza di fotogrammi mantenendo sotto controllo le richieste di elaborazione, il che gli autori postulano come prova del fatto che il ridimensionamento non è l'unico (o il migliore) modo per procedere per i sottotitoli video.
Variare il ritmo
Poiché l'elaborazione video a 16 FPS migliora la comprensione del movimento ma aumenta i costi computazionali, in particolare durante l'inferenza, F-16 introduce un decodifica a frame rate variabile metodo, che consente di regolare dinamicamente il frame rate senza dover effettuare un nuovo addestramento.

Gli allineatori a telaio singolo e ad alta velocità di fotogrammi disponibili per l'F-16.
Questa flessibilità consente al modello di funzionare in modo efficiente a FPS inferiori quando non è richiesta un'elevata precisione, riducendo così il sovraccarico computazionale.
Al momento del test, quando viene selezionato un frame rate inferiore, F-16 riutilizza i parametri dell'allineatore precedentemente addestrati ripetendo i frame di input per adattarli alle dimensioni previste. Ciò garantisce che il modello possa comunque elaborare efficacemente il video senza modificarne l'architettura.
A differenza del downsampling ingenuo (ovvero, la semplice rimozione dei frame), che rischia di perdere dettagli critici del movimento, questo metodo preserva le rappresentazioni del movimento apprese dall'allineatore, mantenendo la precisione anche a frame rate ridotti. Per la comprensione video generale, un'impostazione FPS inferiore può accelerare l'inferenza senza una significativa perdita di prestazioni, mentre l'analisi del movimento ad alta velocità può comunque sfruttare la piena capacità di 16 FPS.
Dati e test
Costruito su Qwen2-7B, FP-16 estende LLaVA-OneVision utilizzando SigLIP come codificatore di immagini. Con fotogrammi video campionati a 16 FPS, è possibile ottenere fino a 1,760 fotogrammi da ogni video. Per clip video più lunghe, i fotogrammi sono stati campionati uniformemente (vale a dire, più raramente).
Per l'addestramento, l'F-16 ha utilizzato gli stessi set di dati video generali di LLaVA-Video, di cui LLaVA-Video-178K, NExT-QA, AttivitàNet-QAe Test di percezione.
L'F-16 è stato ulteriormente perfezionato sui set di dati sportivi ad alta velocità Palestra Fine, Immersioni subacquee48e Rete da calcioGli autori hanno anche curato una raccolta di 276 partite NBA giocate tra il 13 e il 25 novembre 2024, concentrandosi sulla riuscita di un tiro (un'attività che richiede un'elaborazione ad alta frequenza di fotogrammi).
Il modello è stato valutato utilizzando il Set di test NSVA, con prestazioni misurate da punteggio F1.
I modelli di ginnastica e tuffi sono stati valutati in base alla precisione del riconoscimento degli eventi, mentre i modelli di calcio e basket hanno monitorato i passaggi e i risultati dei tiri.
Il modello è stato addestrato per 1 epoca utilizzando 128 GPU NVIDIA H100 (e con una VRAM standard di 80 GB per GPU, ciò ha comportato l'uso di 10,24 terabyte di memoria GPU; anche secondo gli standard recenti, questo è il cluster GPU con le specifiche più elevate che abbia mai incontrato personalmente tenendomi aggiornato sulla letteratura di ricerca sulla visione artificiale). tasso di apprendimento di 2×10⁻⁵ è stato utilizzato durante l'addestramento.
Inoltre, a LORA è stato messo a punto su dati sportivi, ha utilizzato adattatori LoRA con 64 GPU per 5 epoche. Qui, è stato addestrato solo l'LLM, lasciando l'encoder di immagini congelati.
I framework opposti testati nel round iniziale per la "comprensione generale del video" erano GPT-4o; Gemini-1.5-Pro; Qwen2-VL-7B; VideoLLaMA2-7B; VideoChat2-HD-7B; LLaVA-OV-7B; Versione MiniCPM-V2.6-8B; LLaVA-Video-7B, E NVILA-7B;
I modelli sono stati valutati su Video-MME; VideoVista; Panca temporale; Banco di movimento; Prossimo QA; MLVU, E PancaVideoLunga.

Confronto dei risultati di video QA tra modelli, che mostra limiti FPS e prestazioni su più benchmark. F-16 ottiene SOTA tra i modelli 7B su Video-MME, NQA, TPB e MB, rivaleggiando con modelli proprietari come GPT-4o e Gemini-1.5-Pro.
Di questi risultati, gli autori affermano:
"Sui set di dati Video-MME Short, Medium e NeXT-QA, ciascuno progettato per la comprensione di video brevi, il nostro modello supera il precedente modello SOTA 7B del 3.2%, 1.0% e 0.9% in termini di accuratezza, evidenziando le sue ottime prestazioni sui video brevi.
Per i benchmark che valutano la comprensione di video lunghi, come Video-MME Long, LongVideoBench e MLVU, la sfida è maggiore a causa del campionamento dei fotogrammi più rado, che fa sì che i fotogrammi all'interno della finestra di elaborazione presentino variazioni più significative.
"Ciò aumenta la difficoltà per l'allineatore di modalità di codificare efficacemente i cambiamenti temporali all'interno della rappresentazione limitata del token. Di conseguenza, F-16 subisce un leggero calo delle prestazioni rispetto a [LLaVA-Video-7B], che è addestrato sullo stesso set di dati video."
L'elaborazione ad alto frame rate dell'F-16, continuano gli autori, ha inoltre prodotto un miglioramento del 13.5% su TemporalBench e un guadagno del 2.5% su MotionBench, rispetto ai modelli 7B esistenti, e ha ottenuto prestazioni simili a quelle dei modelli commerciali come GPT-4o e Gemini-1.5-Pro.
Comprensione dei video sportivi ad alta velocità
L'F-16 è stato testato sui set di dati FineGym, Diving48, SoccerNet e NBA per valutare la sua capacità di comprendere azioni sportive ad alta velocità.
Utilizzando 10,000 clip NBA annotate manualmente, l'allenamento si è concentrato sul movimento della palla e sulle azioni dei giocatori, nonché sulla capacità dei modelli di determinare correttamente se un tiro è andato a segno, utilizzando il set di test NSVA valutato con punteggio F1.

Risultati dell'analisi video sportiva ad alta velocità. F-16 con l'allineatore ad alta frequenza di fotogrammi ha funzionato meglio della sua controparte a bassa frequenza di fotogrammi in tutte le attività sportive. GPT-4o e Gemini-1.5-Pro sono stati valutati anche su NBA e SoccerNet QA, dove non era richiesta la conoscenza dell'allenamento in-domain.
Nel test FineGym, che misura il riconoscimento dei movimenti ginnici, F-16 ha ottenuto risultati migliori del 13.8% rispetto al precedente modello SOTA 7B, dimostrando una migliore comprensione del movimento a grana fine.
L'immersione48 richiedeva l'identificazione di sequenze di movimenti complessi come il decollo, capriola, twiste volo fasi e l'F-16 ha mostrato una maggiore accuratezza nel riconoscere queste transizioni.
Per SoccerNet, il modello ha analizzato clip da 10 secondi, identificando i passaggi di palla, e i risultati hanno mostrato un miglioramento rispetto ai modelli 7B esistenti, indicando che FPS più elevati contribuiscono a tracciare movimenti piccoli e rapidi.
Nel set di dati NBA, la capacità dell'F-16 di determinare i risultati dei tiri si è avvicinata alla precisione di modelli proprietari più grandi come GPT-4o e Gemini-1.5-Pro, suggerendo ulteriormente che frame rate più elevati migliorano la sua capacità di elaborare il movimento dinamico.
Frame rate variabili
F-16 è stato testato a diversi frame rate per misurarne l'adattabilità. Invece di riaddestrare, ha gestito FPS inferiori ripetendo i frame per adattarli alla struttura di input dell'allineatore. Questo approccio ha mantenuto più prestazioni rispetto alla semplice rimozione (che tende a causare perdita di precisione).
I risultati indicano che, nonostante la riduzione degli FPS abbia avuto un certo impatto sul riconoscimento del movimento, l'F-16 ha comunque superato in prestazioni i modelli a basso frame rate e ha mantenuto ottimi risultati anche al di sotto dei 16 FPS.

A sinistra, il consumo di tempo di diversi moduli F-16 durante l'inferenza, misurato su 300 video dal set Video-MME Long a vari FPS di prova e lunghezze di sequenza. A destra, un confronto tra le prestazioni Video-MME per modelli addestrati e testati a diversi FPS. La linea continua rappresenta i modelli addestrati e testati allo stesso FPS, mentre la linea tratteggiata mostra le prestazioni quando un modello addestrato a 16 FPS viene testato a un frame rate inferiore.
L'elaborazione ad alta frequenza di fotogrammi dell'F-16 ha aumentato i requisiti di calcolo, sebbene il suo allineatore abbia contribuito a gestire questi costi comprimendo i token visivi ridondanti.
Il modello richiedeva più FLOP per video rispetto ai modelli con FPS inferiori, ma raggiungeva anche una migliore precisione per token, il che suggerisce che le sue strategie di selezione dei frame e di compressione dei token contribuivano a compensare il calcolo aggiuntivo.
Conclusione
È difficile sopravvalutare l’importanza o le sfide di questo particolare filone di ricerca, soprattutto quest’anno, che dovrebbe essere l’anno anno di svolta per i video generativi, eliminando le carenze nella cura dei set di dati video e nella qualità dei sottotitoli in forte sollievo.
Va anche sottolineato che le sfide legate all'ottenimento di descrizioni accurate dei dettagli video interni non possono essere risolte esclusivamente buttandoci dentro VRAM, tempo o spazio su disco. Il metodo con cui gli eventi vengono isolati/estratti da tratti di video altrimenti lunghi e noiosi (come con i videoclip di golf o snooker, ad esempio) trarrà vantaggio da una riconsiderazione degli approcci e dei meccanismi semantici che attualmente dominano le soluzioni SOTA, perché alcune di queste limitazioni sono state stabilite in tempi di risorse più impoverite.
(tra l'altro, anche se 16 fps sembrano un frame rate molto basso per il 2025, è interessante notare che questa è anche la velocità di allenamento nativa delle clip video utilizzate nel popolarissimo 2.1 anni modello video generativo e la velocità con cui opera, riducendo al minimo i problemi. Ci auguriamo che la ricerca tenga d'occhio la possibile "entropia degli standard" in questo ambito; vincoli talvolta obsoleti. può perpetuare gli standard futuri)
Prima pubblicazione mercoledì 19 marzo 2025