Unghiul lui Anderson

Provocarea subtitrării videourilor la mai mult de 1fps

Published March 19, 2025

Updated April 26, 2026

Martin Anderson

Trails in a basketball scene - source: https://www.youtube.com/watch?v=ORfjgE6n2Pc

Capacitatea sistemelor de învățare automată de a recunoaște evenimentele care au loc în interiorul unui videoclip este crucială pentru viitorul generării de videoclipuri bazate pe IA – și nu în ultimul rând pentru că seturile de date video necesită subtitrări precise pentru a produce modele care respectă solicitările utilizatorului și care nu exagerează halucinațiile.

Un exemplu de schemă de subtitrare din proiectul VidReCap al Google. Sursă: https://sites.google.com/view/vidrecap

Subtitrarea manuală a numărului necesar de videoclipuri pentru seturi de antrenare eficiente este o perspectivă de neconceput. Deși este posibil să se antreneze sisteme de inteligență artificială pentru a subtitra automat videoclipuri, sunt necesare încă multe exemple generate de oameni ca adevăr de bază, pentru varietate și acoperire.

Mai important, aproape toate modelele actuale de subtitrare video bazate pe IA funcționează la 1fps, ceea ce nu este o rată de captură suficient de densă pentru a discerne variații în multe scenarii: schimbări bruște de micro-expresii pentru sistemele de recunoaștere a emoțiilor; evenimente rapide în sporturi cu viteză mare, cum ar fi baschetul; mișcări violente; tăieturi rapide în filme dramatice, unde sistemele precum PySceneDetect pot să nu identifice acestea (sau nu sunt utilizate); și multe alte scenarii în care fereastra de atenție trebuie să fie mai intensă.

Apăsați pentru a reda. Acțiune rapidă, dar schimbătoare de viață, în ceea ce ar putea fi unul dintre cele mai lente sporturi din lume, în timp ce Alex Higgins câștigă campionatul mondial împotriva lui Ray Reardon în 1982. Sursă: https://www.youtube.com/watch?v=_1PuqKno_Ok

Mută-te repede și rupe logica

Această rată scăzută este standardul pentru diverse motive logistice. În primul rând, subtitrarea videourilor este o activitate care consumă multe resurse, indiferent dacă sistemul studiază un cadru secvențial la un moment dat sau utilizează diverse metode pentru a cohera semantic o serie de cadre într-o secvență de subtitrare interpretabilă. În orice caz, fereastra de context este inevitabil limitată de constrângerile hardware.

Un alt motiv pentru care 1fps este standardul actual este că videourile nu sunt de obicei pline de evenimente rapide; prin urmare, este redundant să se acorde 300 de cadre cu o masă de biliard statică aceeași atenție ca și momentul în care o bilă neagră câștigă campionatul (a se vedea exemplul de mai sus).

Este posibil să se utilizeze indicii secundare mai largi pentru a identifica momente cheie într-un videoclip sportiv, cum ar fi reacția prelungită a mulțimii la un slam-dunk rapid într-un meci de baschet. Cu toate acestea, astfel de indicii pot apărea și din alte motive (cum ar fi accidentări neașteptate ale jucătorilor) și nu pot fi considerate fiabile. Acesta este un exemplu de modul în care un set de date video etichetate greșit poate duce la un model de generare video care halucinează sau interpretează greșit instrucțiunile, adică pentru că modelul ar putea arăta o accidentare a jucătorului atunci când a fost solicitat să genereze un slam-dunk (pentru că “indicele secundar” al agitației mulțimii nu a fost exclusiv pentru un anumit tip de eveniment).

Acesta este, în multe feluri, un “problema bugetară” și, în alte feluri, o problemă procedurală. Cadrele de lucru până în prezent au funcționat pe principiul că cadrele cheie rare pot capta în mod eficient informații esențiale, dar acest lucru este mai eficient pentru stabilirea genului și a altor aspecte ale subiectului videoclipului, deoarece dovezi, în acest caz, persistă pe multiple cadre.

F-16

O nouă lucrare din China oferă o soluție, sub forma primului model de limbaj multimodal mare (MLLM, sau pur și simplu LLM) care poate analiza videoclipuri la 16fps în loc de rata standard de 1fps, evitând totodată capcanele majore ale creșterii ratei de analiză.

În testele efectuate, autorii afirmă că noul sistem, intitulat F-16, depășește modelele proprietare de ultimă generație, cum ar fi GPT-4o și Google’s Gemini-1.5 pro. Deși alte modele actuale au putut să egaleze sau să depășească rezultatele F-16 în teste, modelele concurente au fost mult mai mari și mai greoaie.

Deși F-16 a fost antrenat pe unele hardware serioase (așa cum vom examina în curând), inferența este de obicei mult mai puțin solicitantă decât antrenamentul. Prin urmare, putem spera că codul (promis pentru o lansare în viitorul apropiat) va fi capabil să ruleze pe GPU-uri de nivel mediu sau ridicat.

Ce este necesar pentru vitalitatea scenei hobbyist (și care include, de obicei, scena profesională VFX) este un model de subtitrare video de acest tip care poate funcționa, poate cuantificat, pe sistemele consumatorilor, astfel încât întreaga scenă de generare de videoclipuri nu se va muta către sisteme comerciale bazate pe API sau nu va forța consumatorii să conecteze cadrele locale la servicii comerciale de GPU online.

Dincolo de scalare

Autorii observă că acest tip de abordare este o alternativă practică la scalarea seturilor de date. Putem infera, de asemenea, că, dacă am fi să aruncăm mai multe date la problema, aceasta este încă abordarea care ar putea fi preferabilă, deoarece noul sistem distinge evenimente într-un mod mai granular.

Ei afirmă:

‘Eșantionarea cu rată de cadre scăzută poate duce la pierderea informațiilor vizuale critice, în special în videoclipuri cu scene care se schimbă rapid, detalii intricate sau mișcări rapide. În plus, dacă cadrele cheie sunt pierdute, iar modelul este antrenat pe etichete care depind de informațiile cadrelor cheie, poate să aibă dificultăți în a-și alinia predicțiile cu conținutul așteptat, ceea ce poate duce la halucinații și la o performanță degradată…

‘… F-16 obține o performanță SOTA în întrebări generale despre videoclipuri între modele de aceeași mărime și demonstrează un avantaj clar în înțelegerea videoclipurilor cu rată de cadre ridicată, depășind modelele comerciale, cum ar fi GPT-4o. Această lucrare deschide noi direcții pentru promovarea înțelegerii videoclipurilor cu rată de cadre ridicată în cercetarea LLM multimodală.’

Noua lucrare, publicată, se intitulează Îmbunătățirea înțelegerii LLM a videoclipurilor cu 16 cadre pe secundă și provine de la opt autori de la Universitatea Tsinghua și ByteDance.

Metodă

Deoarece cadrele consecutive conțin adesea informații redundante, F-16 aplică un aliniator cu rată de cadre ridicată pentru a comprima și codifica detalii de mișcare cheie, păstrând în același timp semantica vizuală. Fiecare cadru este mai întâi procesat de un codator de imagini preantrenat, extrăgând reprezentări de caracteristici înainte de a fi transmis aliniatorului bazat pe Gaussian Error Linear Units (GELUs).

Arhitectura F-16 procesează videoclipuri la 16 FPS, capturând mai multe cadre decât modelele tradiționale cu rată de cadre scăzută, iar aliniatorul său cu rată de cadre ridicată păstrează semantica vizuală, codificând în mod eficient dinamica mișcării fără a adăuga tokeni vizuali suplimentari. Sursă: https://arxiv.org/pdf/2503.13956

Pentru a gestiona eficient numărul crescut de cadre, F-16 grupează cadrele în ferestre de procesare mici, combinând caracteristici vizuale utilizând un Perceptron Multistrat (MLP) cu trei straturi, ajutând la păstrarea doar a celor mai relevante detalii de mișcare, reducând în același timp duplicarea inutilă, și păstrând fluxul temporal al acțiunilor. Un strat de max-pooling spațial comprimă în continuare numărul de tokeni, menținând costurile computaționale în limite.

Tokenii de videoclip procesați sunt apoi introduceți în Qwen2-7B LLM, care generează răspunsuri textuale bazate pe caracteristicile vizuale extrase și o promptă utilizator dată.

Prin structurarea intrării de videoclip în acest mod, F-16 permite, afirmă autorii, o recunoaștere mai precisă a evenimentelor în scene dinamice, menținând în același timp eficiența.

Versiunea scurtă

F-16 extinde un LLM de imagine preantrenat, LLaVA-OneVision, pentru a procesa videoclipuri, transformând pipeline-ul său de intrare vizuală. În timp ce LLM-urile de imagini standard procesează cadre izolate, aliniatorul F-16 cu rată de cadre ridicată reformatează multiple cadre într-o formă pe care modelul o poate procesa mai eficient; acest lucru evită supraîncărcarea sistemului cu informații redundante, păstrând în același timp indicii de mișcare cheie necesari pentru o înțelegere precisă a videoclipurilor.

Pentru a asigura compatibilitatea cu baza sa de imagini, F-16 reutilizează parametrii preantrenați, restructurând aliniatorul în sub-matrici. Acestă abordare permite modelului să integreze cunoștințele din modelele cu cadre individuale, adaptându-se în același timp la intrarea de videoclip secvențială.

Aliniatorul comprimă mai întâi secvențele de cadre într-un format optimizat pentru LLM, păstrând caracteristicile cele mai informative, în timp ce elimină detalii inutile. Proiectarea arhitecturii permite sistemului să proceseze videoclipuri cu rată de cadre ridicată, menținând în același timp costurile computaționale sub control, ceea ce autorii susțin că este o dovadă că scalarea nu este singura (sau cea mai bună) cale înainte pentru subtitrarea videoclipurilor.

Variația ritmului

Deoarece procesarea videoclipurilor la 16 FPS îmbunătățește înțelegerea mișcării, dar crește costurile computaționale, în special în timpul inferenței, F-16 introduce o metodă de decodificare cu rată de cadre variabilă, permițându-i să ajusteze rata de cadre dinamic, fără a fi nevoie de reantrenare.

Aliniatoarele cu cadru unic și cu rată de cadre ridicată disponibile pentru F-16.

Această flexibilitate permite modelului să funcționeze eficient la rate de cadre mai mici atunci când nu este necesară o precizie ridicată și reduce suprasarcina computațională.

În timpul testării, atunci când se selectează o rată de cadre mai mică, F-16 reutilizează parametrii aliniatorului preantrenați, repetând cadrele de intrare pentru a se potrivi cu dimensiunile așteptate. Acest lucru asigură că modelul poate procesa în continuare videoclipuri în mod eficient, fără a modifica arhitectura sa.

În contrast cu eșantionarea naivă (de exemplu, simpla eliminare a cadrelor), care riscă să piardă detalii de mișcare critice, această metodă păstrează reprezentările de mișcare învățate de aliniator, menținând acuratețea chiar și la rate de cadre reduse. Pentru înțelegerea generală a videoclipurilor, o setare FPS mai mică poate accelera inferența fără a compromite semnificativ performanța, în timp ce analiza mișcării rapide poate încă să utilizeze capacitatea completă de 16 FPS.

Date și teste

Construit pe baza Qwen2-7B, FP-16 extinde LLaVA-OneVision utilizând SigLIP ca encoder de imagini. Cu cadrele de videoclip eșantionate la 16 FPS, până la 1.760 de cadre pot fi obținute din fiecare videoclip. Pentru clipuri de videoclip mai lungi, cadrele au fost eșantionate uniform (adică, mai rar).

Pentru antrenament, F-16 a utilizat aceleași seturi de date video generale ca și LLaVA-Video, incluzând LLaVA-Video-178K, NExT-QA, ActivityNet-QA și PerceptionTest.

F-16 a fost, de asemenea, ajustat pe seturile de date sportive cu viteză ridicată FineGym, Diving48 și SoccerNet. Autorii au creat, de asemenea, o colecție de 276 de meciuri de baschet NBA jucate între 13 și 25 noiembrie 2024, axându-se pe determinarea dacă un aruncător a fost reușit, o sarcină care necesită procesare cu rată de cadre ridicată.

Modelul a fost evaluat utilizând setul de teste NSVA, cu performanța măsurată prin F1 score.

Modelele de gimnastică și înot au fost evaluate pe baza acurateței de recunoaștere a evenimentelor, în timp ce modelele de fotbal și baschet au urmărit pasele și rezultatele aruncătorilor.

Modelul a fost antrenat timp de 1 epocă utilizând 128 GPU-uri NVIDIA H100 (și la o VRAM standard de 80GB pe GPU, acest lucru a implicat utilizarea a 10,24 terabiți de memorie GPU; chiar și după standardele actuale, acesta este cel mai bine echipat cluster GPU pe care l-am întâlnit în urmărirea literaturii de cercetare în domeniul vizual).

O rată de învățare de 2×10⁻⁵ a fost utilizată în timpul antrenamentului.

De asemenea, o LoRA a fost ajustată pe date sportive utilizând adaptori LoRA cu 64 de GPU-uri timp de 5 epoci. Aici, doar LLM a fost antrenat, lăsând encoderul de imagini înghețat.

Cadrele de lucru opuse testate în prima rundă pentru “înțelegerea generală a videoclipurilor” au fost GPT-4o; Gemini-1.5-Pro; Qwen2-VL-7B; VideoLLaMA2-7B; VideoChat2-HD-7B; LLaVA-OV-7B; MiniCPM-V2.6-8B; LLaVA-Video-7B; și NVILA-7B;

Modelele au fost evaluate pe Video-MME; VideoVista; TemporalBench; MotionBench; Next-QA; MLVU; și LongVideoBench.

Compararea rezultatelor de întrebări despre videoclipuri între modele, arătând limitele FPS și performanța pe multiple benzi de testare. F-16 obține SOTA printre modelele de 7B pe Video-MME, NQA, TPB și MB, rivalizând cu modelele proprietare, cum ar fi GPT-4o și Gemini-1.5-Pro.

Dintre aceste rezultate, autorii afirmă:

‘Pe seturile de teste Video-MME Short, Medium și NeXT-QA – fiecare proiectat pentru înțelegerea videoclipurilor scurte – modelul nostru depășește modelul SOTA anterior de 7B cu 3,2%, 1,0% și 0,9% în acuratețe, subliniind performanța sa puternică pe videoclipuri scurte.

‘Pentru seturile de teste care evaluează înțelegerea videoclipurilor lungi, cum ar fi Video-MME Long, LongVideoBench și MLVU, provocarea este mai mare din cauza eșantionării mai rare a cadrelor, ceea ce face ca cadrele din fereastra de procesare să prezinte variații mai semnificative.

‘Acest lucru crește dificultatea pentru aliniatorul de modality de a codifica eficient schimbările temporale în cadrul reprezentării limitate a tokenilor. Ca urmare, F-16 experimentează o scădere ușoară a performanței în comparație cu [LLaVA-Video-7B], care este antrenat pe același set de date video.’

Procesarea cu rată de cadre ridicată a lui F-16, continuă autorii, a dus și la o îmbunătățire de 13,5% pe TemporalBench și o creștere de 2,5% pe MotionBench, comparativ cu modelele existente de 7B, și a performant la un nivel similar cu modelele comerciale, cum ar fi GPT-4o și Gemini-1.5-Pro.

Înțelegerea videoclipurilor sportive cu viteză ridicată

F-16 a fost testat pe seturile de date FineGym, Diving48, SoccerNet și NBA pentru a evalua capacitatea sa de a înțelege acțiuni sportive cu viteză ridicată.

Utilizând 10.000 de clipuri de baschet NBA etichetate manual, antrenamentul s-a concentrat pe mișcarea bilei și acțiunile jucătorilor și pe determinarea dacă un aruncător a fost reușit, utilizând setul de teste NSVA evaluat cu F1 score.

Rezultatele analizei videoclipurilor sportive cu viteză ridicată. F-16 cu aliniatorul cu rată de cadre ridicată a performant mai bine decât omologul său cu rată de cadre scăzută în toate sarcinile sportive. GPT-4o și Gemini-1.5-Pro au fost, de asemenea, evaluate pe întrebări despre baschet și fotbal, unde nu a fost necesară cunoașterea antrenamentului în domeniu.

Pe FineGym, care măsoară recunoașterea acțiunilor de gimnastică, F-16 a performant cu 13,8% mai bine decât modelul SOTA anterior de 7B, demonstrând o înțelegere îmbunătățită a mișcării fine.

Diving48 a necesitat identificarea unor secvențe de mișcare complexe, cum ar fi faza de decolare, somersault, twist și zbor, și F-16 a arătat o acuratețe mai mare în recunoașterea acestor tranziții.

Pentru SoccerNet, modelul a analizat clipuri de 10 secunde, identificând pasele cu bilei, și rezultatele au arătat o îmbunătățire față de modelele existente de 7B, indicând că o rată de cadre mai ridicată contribuie la urmărirea mișcărilor mici și rapide.

În setul de date NBA, capacitatea F-16 de a determina rezultatele aruncătorilor a apropiat acuratețea modelelor mai mari și proprietare, cum ar fi GPT-4o și Gemini-1.5-Pro, sugerând în continuare că o rată de cadre mai ridicată îmbunătățește capacitatea sa de a procesa mișcări dinamice.

Rate de cadre variabile

F-16 a fost testat la diferite rate de cadre pentru a măsura adaptabilitatea sa. În loc de reantrenare, a gestionat rate de cadre mai mici prin repetarea cadrelor pentru a se potrivi cu structura de intrare a aliniatorului. Această abordare a păstrat mai multă performanță decât simpla eliminare a cadrelor (care este predispusă la pierderea acurateței).

Rezultatele indică faptul că, deși reducerea ratei de cadre a avut un anumit impact asupra recunoașterii mișcării, F-16 a continuat să performeze mai bine decât modelele cu rată de cadre scăzută și a menținut rezultate puternice chiar și sub 16 FPS.

Stânga, consumul de timp al diferitelor module F-16 în timpul inferenței, măsurat pe 300 de videoclipuri din setul Video-MME Long la diferite rate de cadre de testare și lungimi de secvență. Dreapta, o comparație între performanța Video-MME pentru modele antrenate și testate la diferite rate de cadre. Linia solidă reprezintă modele antrenate și testate la aceeași rată de cadre, în timp ce linia întreruptă arată performanța atunci când un model antrenat la 16 FPS este testat la o rată de cadre mai mică.

Procesarea cu rată de cadre ridicată a lui F-16 a crescut cerințele computaționale, deși aliniatorul său a ajutat la gestionarea acestor costuri prin comprimarea tokenilor vizuali redundanți.

Modelul a necesitat mai multe FLOPs pe videoclip decât modelele cu rată de cadre scăzută, dar a obținut și o acuratețe mai bună pe token, sugerând că strategiile sale de selecție a cadrelor și de comprimare a tokenilor au ajutat la compensarea calculului suplimentar.

Concluzie

Este dificil să supraestimăm fie importanța, fie provocările acestei ramuri particulare de cercetare – mai ales în acest an, care este destinat să fie anul de break-through pentru videoclipurile generative, aruncând în relief lipsurile curățeniei seturilor de date video și calității subtitrărilor într-o lumină ascuțită.

Ar trebui, de asemenea, subliniat că provocările implicate în obținerea de descrieri precise ale detaliilor interne ale videoclipurilor nu pot fi rezolvate exclusiv prin aruncarea de VRAM, timp sau spațiu pe disk la problema. Metoda prin care evenimentele sunt izolate / extrase din traseele lungi și plictisitoare de videoclipuri (cum ar fi clipurile de golf sau snooker, de exemplu) va beneficia de o reevaluare a abordărilor semantice și a mecanismelor care domină în prezent soluțiile SOTA – deoarece unele dintre aceste limitări au fost stabilite în timpuri mai sărace în resurse.

(incidental, chiar dacă 16fps pare a fi o rată de cadre foarte scăzută pentru 2025, este interesant de remarcat că aceasta este, de asemenea, viteza de antrenament nativă a clipurilor de videoclip utilizate în modelul de videoclip generativ foarte popular Wan 2.1, și viteza la care funcționează cu cele mai mici probleme. Sperăm că scena de cercetare va păstra un ochi pe posibila “entropie a standardelor” aici; uneori, constrângerile învechite pot perpetua standarde viitoare)

Publicat pentru prima dată miercuri, 19 martie 2025