Andersons vinkel

Utfordringen med å legge til tekst på video i over 1fps

Published March 19, 2025

Updated April 26, 2026

Martin Anderson

Trails in a basketball scene - source: https://www.youtube.com/watch?v=ORfjgE6n2Pc

Evnen til at maskinlæringsystemer kan gjenkjenne hendelsene som skjer inne i en video, er avgjørende for fremtiden til AI-basert video-generering – ikke minst fordi video-datasett krever nøyaktige tekstlegginger for å produsere modeller som overholder en brukers forespørsel, og som ikke eksessivt hallusinerer.

Et eksempel på en tekstleggingsskjema fra Google’s VidReCap-prosjekt. Source: https://sites.google.com/view/vidrecap

Å legge til tekst manuelt på skalaen av videoer som trengs for effektive treningsdatasett, er en uhyrlig prospekt. Selv om det er mulig å trene AI-systemer til å auto-tekstlegge videoer, er det fortsatt nødvendig med mange menneskeskapte eksempler som grunnssannhet, for variasjon og dekning.

Viktigere er det at nesten hver eneste nåværende AI-basert video-tekstleggingsmodell opererer ved 1fps, som ikke er en tett nok oppfangingssrate til å skjelne variasjoner i mange scenarioer: plutselige mikro-uttrykksendringer for emosjons-gjenkjennelsessystemer; raske hendelser i høyhastighetsidretter som basketball; voldelige bevegelser; raske klipp i dramatiske filmer, der systemer som PySceneDetect kan feile å identifisere dem (eller ikke brukes); og mange andre scenarioer hvor vinduet for oppmerksomhet tydeligvis trenger å være mer intens.

Trykk på å spille. Rask, men livsforandrende handling i hva som ellers kan være en av de langsommeste idrettene i verden, da Alex Higgins sikrer verdensmesterskapet mot Ray Reardon i 1982. Source: https://www.youtube.com/watch?v=_1PuqKno_Ok

Beveg deg raskt og bryt logikken

Dette lave raten er standarden for ulike logistiske årsaker. For det første er video-tekstlegging en ressurskrevende aktivitet, enten systemet studerer en sekvensiell ramme om gangen, eller bruker ulike metoder for å semantisk sammenføye en rekke ramer til en tolkbar tekstsekvens. I begge tilfeller er kontekstvinduet uunngåelig begrenset av hardware-begrensninger.

En annen grunn til at 1fps er nåværende standard, er at videoer vanligvis ikke er fylt med raske hendelser; det er derfor overflødig å gi 300 ramer av en statisk snooker-bord samme oppmerksomhet som sekundet hvor en potet black ball vinner mesterskapet (se eksempel ovenfor).

Det er mulig å bruke bredere sekundære hint til å identifisere avgjørende øyeblikk i en sportsvideo, som den vedvarende crowd-reaksjonen på en rask slam-dunk i en basketballkamp. Likevel kan slike hint forekomme av andre årsaker (som uventede spillerskader), og kan ikke pålitelig.

Dette er på mange måter et ‘budsjettproblemer’, og på andre måter et prosedyreproblemer. Rammer har til nå operert på prinsippet at sparsomme nøkkelrammer kan effektivt fange essensiell informasjon, men dette er mer effektivt i å etablere sjanger og andre aspekter av en videos emne, siden bevis, i dette tilfelle, varer over flere ramer.

F-16

En ny artikkel fra Kina tilbyr en løsning, i form av den første multimodale store språkmodell (MLLM, eller bare LLM) som kan analysere video ved 16fps i stedet for standard 1fps, samtidig som den unngår de store fallgruvene ved å øke analysehastigheten.

I tester hevder forfatterne at det nye systemet, tittelen F-16, overgår proprietære state-of-the-art-modeller som GPT-4o og Google’s Gemini-1.5 pro. Selv om andre nåværende modeller kunne matche eller overgå F-16s resultater i prøver, var de konkurrerende modellene mye større og ustyrligere.

Selv om F-16 ble trent på noen alvorlige maskinvare (som vi skal se nærmere på kort), er inferens vanligvis mye mindre krevende enn trening. Derfor kan vi håpe at koden (lovet for en nærmere fremtidig utgivelse) vil være i stand til å kjøre på medium eller høy-nivå domestiske GPUer.

Hva som trengs for vitaliteten til hobby-scenen (og det inkluderer den profesjonelle VFX-scenen, mest av tiden) er en video-tekstleggingsmodell av denne typen som kan operere, kanskje kvantisert, på forbrukersystemer, så hele den generative video-scenen ikke migrerer til API-basert kommersielle systemer, eller tvinger forbrukerne til å koble lokale rammer opp til kommersielle online GPU-tjenester.

Ut over å skalerer opp

Forfatterne observerer at denne typen tilnærming er en praktisk alternativ til å skalerer opp datasett. En kan også slutte at hvis du skulle kaste mer data på problemet, er dette fortsatt den typen tilnærming som kunne være foretrukket, fordi det nye systemet skjelner hendelser på en mer granulert måte.

De uttaler:

‘Lav ramme-hastighet prøving kan resultere i kritisk visuell informasjons-tap, spesielt i videoer med raskt skiftende scener, intrikate detaljer eller rask bevegelse. I tillegg, hvis nøkkelrammer blir mistet, men modellen er trent på etiketter som avhenger av nøkkelramme-informasjon, kan den stride med å justere sine forutsagn med den forventede innholdet, potensielt ledende til hallusinasjoner og redusert ytelse…

‘… F-16 oppnår SOTA-ytelse i generell video-SPM blant modeller av samme størrelse og demonstrerer en klar fordel i høy-ramme-hastighet video-forståelse, overgår kommersielle modeller som GPT-4o. Dette arbeidet åpner nye retninger for å fremme høy-ramme-hastighet video-forståelse i multimodal LLM-forskning.’

Den nye artikkelen er tittelen Forbedring av LLM video-forståelse med 16 ramer per sekund, og kommer fra åtte forfattere over Tsinghua University og ByteDance.

Metode

Siden påfølgende ramer ofte inneholder redundant informasjon, bruker F-16 en høy-ramme-hastighet-justeringsmodul til å komprimere og kode nøkkelbevegelsesdetaljer samtidig som den beholder visuelle semantikk. Hver ramme blir først prosessert av en forhåndstrengt bilde-encoder, som trekker ut egenskapsrepresentasjoner før den blir sendt til en justeringsmodul basert på Gaussian Error Linear Units (GELUs).

F-16s arkitektur prosesserer video ved 16 FPS, fanger flere ramer enn tradisjonelle lav-ramme-hastighet-modeller, og dens høy-ramme-hastighet-justeringsmodul beholder visuelle semantikk samtidig som den effektivt koder bevegelses-dynamikk uten å legge til ekstra visuelle token. Source: https://arxiv.org/pdf/2503.13956

For å håndtere den økte ramme-tellingen effektivt, grupperer F-16 ramer i små prosesserings-vinduer, som slår sammen visuelle egenskaper ved hjelp av en tre-lags Multi-Layer Perceptron (MLP), som hjelper til å beholde bare de mest relevante bevegelsesdetaljene, og reduserer unødvendig duplisering, samtidig som den beholder den temporale flyten av handlinger. En romlig max-pooling-lag komprimerer token-tellingen ytterligere, og holder beregningskostnadene innenfor grenser.

De prosesserte video-tokenene blir deretter sendt til Qwen2-7B LLM, som genererer tekstlige svar basert på de trukne visuelle egenskapene og en gitt bruker-forespørsel.

Ved å strukturere video-inndata på denne måten, muliggjør F-16, ifølge forfatterne, mer presis hendelse-gjenkjennelse i dynamiske scener, samtidig som den fortsatt beholder effektivitet.

Den korte versjonen

F-16 utvider en forhåndstrengt bilde-LLM, LLaVA-OneVision, til å prosessere video ved å transformere dens visuelle inndata-pipeline. Mens standard bilde-LLMer håndterer isolerte ramer, reformatterer F-16s høy-ramme-hastighet-justeringsmodul flere ramer til en form modellen kan mer effektivt prosessere; dette unngår å overvelde systemet med redundant informasjon samtidig som den beholder nøkkelbevegelses-kuer som er nødvendige for nøyaktig video-forståelse.

For å sikre kompatibilitet med sin bilde-baserte grunn, gjenbruker F-16 forhåndstrengte parametre ved å restrukturere sin justeringsmodul til under-matriser. Denne tilnærmingen tillater det å integrere kunnskap fra enkelt-ramme-modeller samtidig som den tilpasser seg sekvensiell video-inndata.

Justeringsmodulen komprimerer først ramme-sekvenser til en format optimalisert for LLM, beholder de mest informative egenskapene samtidig som den kaster unødvendige detaljer. Arkitektur-designet muliggjør systemet å prosessere høy-ramme-hastighet video samtidig som det holder beregningskostnadene under kontroll, hvilket forfatterne hevder som bevis på at skalerings ikke er den eneste (eller beste) måten fremover for video-tekstlegging.

Variere farten

Siden prosessering av video ved 16 FPS forbedrer bevegelses-forståelse, men øker beregningskostnadene, spesielt under inferens, introduserer F-16 en variabel-ramme-hastighet-dekoding-metode, som tillater det å justere ramme-hastighet dynamisk uten å trenings igjen.

Den enkelt-ramme og høy-ramme-hastighet-justeringsmodulene tilgjengelige for F-16.

Denne fleksibiliteten muliggjør modellen å operere effektivt ved lavere FPS når høy presisjon ikke er nødvendig, og reduserer beregnings-overhead.

Ved test-tid, når en lavere ramme-hastighet er valgt, gjenbruker F-16 tidligere trenings-justeringsmodul-parametre ved å gjenta inndata-rammer for å matche de forventede dimensjonene. Dette sikrer at modellen fortsatt kan prosessere video effektivt uten å modifisere sin arkitektur.

I motsetning til naiv downsampling (dvs. å fjerne ramer), som risikerer å miste kritiske bevegelsesdetaljer, beholder denne metoden justeringsmodulens lærte bevegelses-representasjoner, og beholder nøyaktigheten selv ved reduserte ramme-hastigheter. For generell video-forståelse kan en lavere FPS-innstillinger øke inferens-hastigheten uten betydelig ytelses-tap, samtidig som høyhastighets-bevegelses-analyse fortsatt kan utnytte full 16 FPS-kapasitet.

Data og tester

Bygget på Qwen2-7B, FP-16 utvider LLaVA-OneVision ved å bruke SigLIP som bilde-encoder. Med video-rammer samplet ved 16 FPS, kan opptil 1 760 ramer bli oppnådd fra hver video. For lengre video-klipp ble rammer samplet uniformt (dvs. mer sparsomt).

For trening, brukte F-16 samme generelle video-datasett som LLaVA-Video, inkludert LLaVA-Video-178K, NExT-QA, ActivityNet-QA, og PerceptionTest.

F-16 ble også finjustert på høyhastighets-idretts-datasett FineGym, Diving48, og SoccerNet. Forfatterne kurerte også en samling av 276 NBA-kamper spilt mellom 13. og 25. november 2024, som fokuserte på om et skudd var vellykket (en oppgave som krever høy-ramme-hastighet-prosessering).

Modellen ble evaluert ved hjelp av NSVA-testsettet, med ytelse målt ved F1-score.

Gymnastikk- og dykking-modeller ble evaluert basert på hendelse-gjenkjennelse-nøyaktighet, mens fotball- og basketball-modeller sporet pasninger og skudd-resultater.

Modellen ble trent i 1 epoch ved hjelp av 128 NVIDIA H100-GPUer (og ved en standard-80GB VRAM per GPU, dette innebar bruk av 10,24 terabyte GPU-minne; selv etter nåværende standarder er dette den høyest-spekkede GPU-klusteren jeg personlig har kommet over i å følge med computer-vision-forskning-litteraturen). En læringshastighet på 2×10⁻⁵ ble brukt under trening.

I tillegg ble en LoRA finjustert på idrettsdata som brukte LoRA-adaptere med 64 GPUer i 5 epoker. Her ble bare LLM trent, og bilde-encoderen ble frosset.

Motstridende rammer testet i den innledende runden for ‘generell video-forståelse’ var GPT-4o; Gemini-1.5-Pro; Qwen2-VL-7B; VideoLLaMA2-7B; VideoChat2-HD-7B; LLaVA-OV-7B; MiniCPM-V2.6-8B; LLaVA-Video-7B; og NVILA-7B;

Modellene ble evaluert på Video-MME; VideoVista; TemporalBench; MotionBench; Next-QA; MLVU; og LongVideoBench.

Sammenligning av video-SPM-resultater over modeller, som viser FPS-grenser og ytelse på flere benchmark. F-16 oppnår SOTA blant 7B-modeller på Video-MME, NQA, TPB og MB, og rivaliserer proprietære modeller som GPT-4o og Gemini-1.5-Pro.

Av disse resultater, uttaler forfatterne:

‘På Video-MME Short, Medium og NeXT-QA-datasett – hver designet for kort video-forståelse – vår modell overgår den tidligere 7B SOTA-modellen med 3,2%, 1,0% og 0,9% i nøyaktighet, og understreker sin sterke ytelse på korte videoer.

‘For benchmark som vurderer lang video-forståelse, som Video-MME Long, LongVideoBench og MLVU, er utfordringen større på grunn av sparsomme ramme-sampling, som får rammer innenfor prosesserings-vinduet til å vise større variasjoner.

‘Dette øker vanskeligheten for modality-justeringsmodulen til å effektivt kode temporale endringer innenfor den begrensede token-representasjon. Som følge herav, opplever F-16 en noe ytelsesnedgang i forhold til [LLaVA-Video-7B], som er trent på samme video-datasett.’

F-16s høy-ramme-hastighet-prosessering, fortsetter forfatterne, resulterte også i en 13,5% forbedring på TemporalBench og en 2,5% gevinst på MotionBench, sammenlignet med eksisterende 7B-modeller, og ytet på et lignende nivå som proprietære modeller som GPT-4o og Gemini-1.5-Pro.

Høyhastighets-idretts-video-forståelse

F-16 ble testet på FineGym, Diving48, SoccerNet og NBA-datasett for å evaluere sin evne til å forstå høyhastighets-idretts-hendelser.

Ved hjelp av 10 000 manuelt annoterte NBA-klipp, fokuserte treningen på ball-bevegelse og spiller-handlinger, og om modellene kunne korrekt bestemme om et skudd var vellykket, ved hjelp av NSVA-testsettet evaluert med F1-score.

Resultater av høyhastighets-idretts-video-analyse. F-16 med høy-ramme-hastighet-justeringsmodul ytet bedre enn sin lav-ramme-hastighet-motpart over alle idretts-oppgaver. GPT-4o og Gemini-1.5-Pro ble også evaluert på NBA og SoccerNet QA, hvor innenfor-trening-kunnskap ikke var nødvendig.

På FineGym, som måler gymnastikk-hendelse-gjenkjennelse, ytet F-16 13,8% bedre enn den tidligere 7B SOTA-modellen, og viste forbedret fin-grånet bevegelses-forståelse.

Diving48 krevde å identifisere komplekse bevegelses-sekvenser som takeoff, somersault, twist og flight-faser, og F-16 viste høyere nøyaktighet i å gjenkjenne disse overgangene.

For SoccerNet analyserer modellen 10-sekunders klipp, og identifiserer ball-pasninger, og resultater viste en forbedring i forhold til eksisterende 7B-modeller, og indikerte at høyere FPS bidrar til å spore små og raske bevegelser.

I NBA-datasett nærmet F-16s evne til å bestemme skudd-resultater nivået til større proprietære modeller som GPT-4o og Gemini-1.5-Pro, og antydet videre at høyere ramme-hastighet forbedrer sin evne til å prosessere dynamisk bevegelse.

Variabel ramme-hastighet

F-16 ble testet ved ulike ramme-hastigheter for å måle sin tilpasningsevne. I stedet for å trenes igjen, håndterte den lavere FPS ved å gjenta ramer for å matche justeringsmodulens inndata-struktur. Denne metoden beholdt mer ytelse enn å fjerne ramer (som risikerer å føre til nøyaktighets-tap).

Resultatene indikerer at mens reduksjon av FPS hadde en viss innvirkning på bevegelses-gjenkjennelse, ytet F-16 fortsatt bedre enn lav-ramme-hastighet-modeller og beholdt sterke resultater selv under 16 FPS.

Venstre, tid-konsumasjonen av ulike F-16-moduler under inferens, målt på 300 videoer fra Video-MME Long-settet ved varierende test-FPS og sekvens-lengder. Høyre, en sammenligning mellom Video-MME-ytelse for modeller trent og testet ved ulike FPS. Den solide linjen representerer modeller trent og testet ved samme FPS, mens den stiplede linjen viser ytelse når en modell trent ved 16 FPS testes ved en lavere ramme-hastighet.

F-16s høy-ramme-hastighet-prosessering økte beregnings-krevende, selv om dens justeringsmodul hjalp til å håndtere disse kostnadene ved å komprimere redundante visuelle token.

Modellen krevde flere FLOPs per video enn lavere-FPS-modeller, men oppnådde også bedre nøyaktighet per token, og antydet at dens ramme-valg og token-komprimerings-strategier hjalp til å kompensere for den økte beregningen.

Konklusjon

Det er vanskelig å overdrive hverken viktigheten eller utfordringene i denne spesielle forsknings-retningen – spesielt i år, som skal være gjennombrudds-året for generativ video, og som kaster manglene i video-datasett-kurering og tekstleggings-kvalitet i skarpt lys.

Det bør også understrekes at utfordringene involvert i å få nøyaktige beskrivelser av interne video-detaljer ikke kan løses eksklusivt ved å kaste VRAM, tid eller disk-plass på problemet. Metoden for å isolere/ekstrahere hendelser fra ellers lange og kjedelige video-klipp (som for eksempel golf eller snooker-klipp) vil dra nytte av en omtenkning av de semantiske tilnærmingene og mekanismene som for tiden dominerer SOTA-løsninger – fordi noen av disse begrensningene ble etablert i mer ressurs-fattige tider.

(For øvrig, selv om 16fps kan se ut som en svært lav ramme-hastighet for 2025, er det interessant å merke seg at dette også er den native trenings-hastigheten for video-klipp brukt i den svært populære Wan 2.1 generative video-modell, og hastigheten det derfor opererer med færrest problemer. Forhåpentligvis vil forskningsscenen holde et øye på mulig ‘standard-entropi’ her; noen ganger kan forældede begrensninger perpetuere fremtidige standarder)

Først publisert onsdag, 19. mars 2025