Andersons vinkel
Utfordringen med å tekste video med mer enn 1 fps

Muligheten for maskinlæringssystemer til å gjenkjenne hendelsene som skjer inne i en video er avgjørende for fremtiden til AI-basert videogenerering – ikke minst fordi videodatasett krever nøyaktig bildetekst for å produsere modeller som følger en brukers forespørsel, og som ikke overdrevent hallusinere.

Et eksempel på et bildetekstskjema fra Googles VidReCap-prosjekt. Kilde: https://sites.google.com/view/vidrecap
Manuell teksting av omfanget av videoer som er nødvendig for effektive opplæringsdatasett er et samvittighetsløst prospekt. Selv om det er mulig å trene opp AI-systemer til automatisk teksting av videoer, er det fortsatt behov for mange menneskeskapte eksempler som grunnleggende sannhet, for variasjon og dekning.
Enda viktigere, nesten alle nåværende AI-baserte videotekstingsmodeller opererer med 1 fps, som ikke er en tett nok fangsthastighet til å skjelne variasjoner i mange scenarier: plutselige mikrouttrykksendringer for emosjonsgjenkjenningssystemer; raske hendelser i høyhastighetsidretter som basketball; voldelige bevegelser; raske kutt i dramatiske filmer, hvor systemer som f.eks PySceneDetect kan ikke identifisere dem (eller ikke blir brukt); og mange andre scenarier der oppmerksomhetsvinduet helt klart må være mer intenst.
Klikk for å spille. Rask, men livsendrende action i det som ellers kan være en av de tregeste idrettene i verden, da Alex Higgins vinner verdensmesterskapet mot Ray Reardon i 1982. Kilde: https://www.youtube.com/watch?v=_1PuqKno_Ok
Beveg deg raskt og bryt logikken
Denne lave prisen er standard av ulike logistiske årsaker. For det første er videoteksting en ressurskrevende aktivitet, enten systemet studerer en sekvensiell frame om gangen, eller ellers bruker forskjellige metoder for semantisk å koherere en rekke bilder til en tolkbar bildetekstsekvens. I begge tilfeller kontekstvindu er uunngåelig begrenset av maskinvarebegrensninger.
En annen grunn til at 1fps er den gjeldende standarden er at videoer vanligvis ikke er fylt med raske hendelser; det er derfor overflødig å gi 300 bilder med statisk snookerbord samme oppmerksomhet som brøkdelen av sekundet der en svart ball vinner mesterskapet (se eksempel ovenfor).
Det er mulig å bruke bredere sekundære signaler for å identifisere sentrale øyeblikk i en sportsvideo, for eksempel den vedvarende reaksjonen fra publikum på en rask slam-dunk i en basketballkamp. Imidlertid kan slike ledetråder oppstå av andre årsaker (som uventede spillerskader), og kan ikke stole på. Dette er ett eksempel på hvordan et feilmerket videodatasett kan føre til en generativ videomodell som hallusinerer eller feiltolker instruksjoner, dvs. fordi modellen kan vise en spillerskade når den ble bedt om å generere en slam-dunk (fordi den 'sekundære ledetråden' til agitasjon av publikum ikke var eksklusiv for én spesifikk type hendelse).
Dette er på mange måter et 'budsjettmessig' problem, og på andre måter et prosessuelt problem. Frameworks til dags dato har operert på prinsippet om at sparsomme nøkkelrammer effektivt kan fange opp viktig informasjon, men dette er mer effektivt for å etablere sjanger og andre fasetter av en videos emne, siden bevis, i så fall, vedvarer over flere rammer.
F-16
En ny artikkel fra Kina tilbyr en løsning, i form av den første multimodale store språkmodellen (MLLM, eller rett og slett LLM) som kan analysere video med 16 fps i stedet for standard 1fps, samtidig som man unngår de store fallgruvene med å øke analysehastigheten.
I tester hevder forfatterne at det nye systemet, tittelen F-16, utkonkurrerer proprietære toppmoderne modeller som GPT-4o og Googles Gemini-1.5 pro. Mens andre nåværende modeller var i stand til å matche eller overgå F-16s resultater i forsøk, var de konkurrerende modellene langt større og mer uhåndterlige.
Selv om F-16 ble trent på noe seriøs maskinvare (som vi skal undersøke snart), er slutninger vanligvis langt mindre krevende enn trening. Derfor kan vi håpe at koden (lovet for en nær fremtidig utgivelse) vil være i stand til å kjøre på middels eller høyt nivå innenlandske GPUer.
Det som trengs for vitaliteten til hobbyscenen (og det inkluderer den profesjonelle VFX-scenen, mesteparten av tiden) er en videotekstmodell av denne typen som kan fungere, kanskje kvantisert, på forbrukersystemer, slik at hele den generative videoscenen ikke migrerer til API-baserte kommersielle systemer, eller tvinger forbrukere til å koble lokale rammer til kommersielle online GPU-tjenester.
Utover oppskalering
Forfatterne observerer at denne typen tilnærming er et praktisk alternativ til å skalere opp datasett. Man kan også slutte at hvis du skulle kaste mer data på problemet, er dette fortsatt den typen tilnærming som kan være å foretrekke, fordi det nye systemet skiller hendelser på en mer detaljert måte.
De sier:
«Sampling med lav bildefrekvens kan føre til kritisk tap av visuell informasjon, spesielt i videoer med raskt skiftende scener, intrikate detaljer eller rask bevegelse. I tillegg, hvis nøkkelbilder savnes, men modellen er trent på etiketter som er avhengige av nøkkelbildeinformasjon, kan den slite med å tilpasse spådommene sine til det forventede innholdet, noe som potensielt kan føre til hallusinasjoner og dårligere ytelse...
'... F-16 oppnår SOTA-ytelse i generell video QA blant modeller av lignende størrelse og demonstrerer en klar fordel i videoforståelse med høy bildehastighet, som overgår kommersielle modeller som GPT-4o. Dette arbeidet åpner nye retninger for å fremme videoforståelse med høy bildehastighet i multimodal LLM-forskning.'
Ocuco nytt papir har tittelen Improving LLM-videoforståelse med 16 bilder per sekund, og kommer fra åtte forfattere på tvers av Tsinghua University og ByteDance.
Metode
Siden påfølgende bilder ofte inneholder redundant informasjon, bruker F-16 en justering med høy bildehastighet for å komprimere og kode nøkkelbevegelsesdetaljer samtidig som den beholder visuell semantikk. Hver ramme blir først behandlet av en forhåndstrent bildekoder, som trekker ut funksjonsrepresentasjoner før den sendes til en aligner basert på Gaussisk feil lineære enheter (GELU-er).

F-16s arkitektur behandler video med 16 FPS, og fanger opp flere bilder enn tradisjonelle modeller med lav bildefrekvens, og dens høybildehastighetsjustering bevarer visuell semantikk mens den effektivt koder bevegelsesdynamikk uten å legge til ekstra visuelle tokens. Kilde: https://arxiv.org/pdf/2503.13956
For å håndtere det økte antallet bilder effektivt, grupperer F-16 rammer i små prosessvinduer, og slår sammen visuelle funksjoner ved hjelp av et trelags Multi-Layer Perceptron (MLP), som bidrar til å beholde bare de mest relevante bevegelsesdetaljene, og reduserer unødvendig duplisering, samtidig som den tidsmessige flyten av handlinger bevares. En romlig maks-pooling lag komprimerer token-antallet ytterligere, og holder beregningskostnadene innenfor grensene.
De behandlede videotokenene blir deretter matet inn i Qwen2-7B LLM, som genererer tekstsvar basert på de ekstraherte visuelle funksjonene og en gitt brukerforespørsel.
Ved å strukturere videoinngang på denne måten, muliggjør F-16, hevder forfatterne, mer presis hendelsesgjenkjenning i dynamiske scener, samtidig som effektiviteten opprettholdes.
Den korte versjonen
F-16 utvider et forhåndstrent bilde LLM, LLaVA-OneVision, for å behandle video ved å transformere dens visuelle input-pipeline. Mens standard bilde-LLM-er håndterer isolerte rammer, formaterer F-16s høybildehastighetsjustering flere bilder til en form som modellen kan behandle mer effektivt; dette unngår å overvelde systemet med overflødig informasjon, samtidig som de bevarer viktige bevegelsessignaler som er nødvendige for nøyaktig videoforståelse.
For å sikre kompatibilitet med det bildebaserte fundamentet, gjenbruker F-16 forhåndstrente parametere ved å omstrukturere sin aligner til undermatriser. Denne tilnærmingen lar den integrere kunnskap fra enkeltbildemodeller samtidig som den tilpasser seg til sekvensiell videoinngang.
Justeringsenheten komprimerer først bildesekvenser til et format som er optimalisert for LLM, og bevarer de mest informative funksjonene samtidig som unødvendige detaljer forkastes. Arkitekturdesignet gjør det mulig for systemet å behandle video med høy bildehastighet samtidig som de holder beregningskravene under kontroll, noe forfatterne fremholder som bevis på at skalering ikke er den eneste (eller den beste) veien videre for videoteksting.
Varierer tempoet
Siden behandling av video ved 16 FPS forbedrer bevegelsesforståelse, men øker beregningskostnadene, spesielt under inferens, introduserer F-16 en variabel bildefrekvens dekoding metode, slik at den kan justere bildefrekvensen dynamisk uten omskolering.

Enkeltbilde- og høybildehastighetsjusteringer tilgjengelig for F-16.
Denne fleksibiliteten gjør at modellen kan operere effektivt ved lavere FPS når høy presisjon ikke er nødvendig, og reduserer beregningsoverhead.
På testtidspunktet, når en lavere bildefrekvens er valgt, gjenbruker F-16 tidligere opplærte aligner-parametere ved å gjenta inndatarammer for å matche de forventede dimensjonene. Dette sikrer at modellen fortsatt kan behandle video effektivt uten å endre arkitekturen.
I motsetning til naiv nedsampling (dvs. ganske enkelt å fjerne rammer), som risikerer å miste kritiske bevegelsesdetaljer, bevarer denne metoden alignerens innlærte bevegelsesrepresentasjoner, og opprettholder nøyaktigheten selv ved reduserte bildefrekvenser. For generell videoforståelse kan en lavere FPS-innstilling øke hastigheten på inferens uten betydelig ytelsestap, mens høyhastighets bevegelsesanalyse fortsatt kan utnytte hele 16 FPS-kapasiteten.
Data og tester
Bygget på Qwen2-7B, utvider FP-16 LLaVA-OneVision ved hjelp av SigLIP som en bildekoder. Med videorammer samplet med 16 FPS, kan opptil 1,760 bilder hentes fra hver video. For lengre videoklipp ble frames samplet jevnt (dvs. mer sparsomt).
Til trening brukte F-16 de samme generelle videodatasettene som LLaVA-video, Herunder LLaVA-Video-178K, NEXT-QA, ActivityNet-QAog PerceptionTest.
F-16 ble i tillegg finjustert på høyhastighets sportsdatasett FineGym, Dykking 48og SoccerNet. Forfatterne kuraterte også en samling av 276 NBA-spill spilt mellom 13. november og 25. november 2024, med fokus på om et skudd var vellykket (en oppgave som krever prosessering med høy bildehastighet).
Modellen ble evaluert ved hjelp av NSVA testsett, med ytelse målt ved F1-poengsum.
Gymnastikk- og dykkemodeller ble evaluert basert på hendelsesgjenkjenningsnøyaktighet, mens fotball- og basketballmodeller sporet pasninger og skuddutfall.
Modellen ble opplært til 1 epoke ved hjelp av 128 NVIDIA H100 GPU-er (og med en standardutgave på 80 GB VRAM per GPU, innebar dette bruk av 10,24 terabyte med GPU-minne; selv etter nyere standarder er dette den høyest spesifiserte GPU-klyngen jeg personlig har kommet over i tråd med datasynsforskningslitteraturen). EN læringsfrekvens på 2×10⁻⁵ ble brukt under trening.
I tillegg a LoRA ble finjustert på sportsdata brukte LoRA-adaptere med 64 GPUer for 5 epoker. Her var det bare LLM som ble trent, og bildekoderen ble igjen frossen.
Motstridende rammeverk testet i den innledende runden for 'generell videoforståelse' var GPT-4o; Gemini-1.5-Pro; Qwen2-VL-7B; VideoLLaMA2-7B; Videochat 2-HD-7B; LLaVA-OV-7B; MiniCPM-V2.6-8B; LLaVA-Video-7B, Og NVILA-7B;
Modellene ble evaluert på Video-MME; VideoVista; Temporal Bench; MotionBench; Neste QA; MLVU, Og LongVideoBench.

Sammenligning av video QA-resultater på tvers av modeller, som viser FPS-grenser og ytelse på flere benchmarks. F-16 oppnår SOTA blant 7B-modeller på Video-MME, NQA, TPB og MB, og konkurrerer med proprietære modeller som GPT-4o og Gemini-1.5-Pro.
Av disse resultatene sier forfatterne:
«På Video-MME Short, Medium og NeXT-QA-datasettene – hver designet for kort videoforståelse – overgår modellen vår den forrige 7B SOTA-modellen med 3.2 %, 1.0 % og 0.9 % i nøyaktighet, og fremhever dens sterke ytelse på korte videoer.
«For benchmarks som evaluerer lang videoforståelse, som Video-MME Long, LongVideoBench og MLVU, er utfordringen større på grunn av sparsommere rammesampling, noe som fører til at rammer i behandlingsvinduet viser mer betydelige variasjoner.
'Dette øker vanskeligheten for modalitetsjusteringen til å effektivt kode tidsmessige endringer innenfor den begrensede symbolrepresentasjonen. Som et resultat opplever F-16 et lite ytelsesfall sammenlignet med [LLaVA-Video-7B], som er trent på det samme videodatasettet.'
F-16s prosessering med høy bildehastighet, fortsetter forfatterne, resulterte også i en forbedring på 13.5 % på TemporalBench og en 2.5 % gevinst på MotionBench, sammenlignet med eksisterende 7B-modeller, og utført på et lignende nivå som kommersielle modeller som GPT-4o og Gemini-1.5-Pro.
Høyhastighets sportsvideoforståelse
F-16 ble testet på FineGym, Diving48, SoccerNet og NBA datasett for å evaluere dens evne til å forstå høyhastighets sportshandlinger.
Ved å bruke de 10,000 1 manuelt kommenterte NBA-klippene, fokuserte treningen på ballbevegelser og spillerhandlinger, og om modellene korrekt kunne avgjøre om et skudd var vellykket, ved å bruke NSVA-testsettet evaluert med FXNUMX-score.

Resultater av høyhastighets sportsvideoanalyse. F-16 med justeringen med høy bildefrekvens presterte bedre enn motparten med lav bildefrekvens på tvers av alle sportsoppgaver. GPT-4o og Gemini-1.5-Pro ble også evaluert på NBA og SoccerNet QA, der treningskunnskap i domenet ikke var nødvendig.
På FineGym, som måler gjenkjenning av gymnastikkhandlinger, presterte F-16 13.8 % bedre enn den forrige 7B SOTA-modellen, og demonstrerte forbedret finkornet bevegelsesforståelse.
Dykking48 krevde å identifisere komplekse bevegelsessekvenser som start, saltomortale, vriog flytur faser, og F-16 viste høyere nøyaktighet i å gjenkjenne disse overgangene.
For SoccerNet analyserte modellen 10-sekunders klipp, identifiserte ballpasninger, og resultatene viste en forbedring i forhold til eksisterende 7B-modeller, noe som indikerer at høyere FPS bidrar til å spore små og raske bevegelser.
I NBA-datasettet nærmet F-16s evne til å bestemme skuddresultater nøyaktigheten til større proprietære modeller som GPT-4o og Gemini-1.5-Pro, noe som ytterligere antyder at høyere bildefrekvenser forbedrer evnen til å behandle dynamisk bevegelse.
Variable Frame-Rates
F-16 ble testet ved forskjellige bildefrekvenser for å måle tilpasningsevnen. I stedet for omskolering, håndterte den lavere FPS ved å gjenta rammer for å matche alignerens inngangsstruktur. Denne tilnærmingen beholdt mer ytelse enn bare å fjerne (tilbøyelig til å forårsake tap av nøyaktighet).
Resultatene indikerer at selv om reduksjon av FPS hadde en viss innvirkning på bevegelsesgjenkjenning, utkonkurrerte F-16 modeller med lav bildefrekvens og opprettholdt sterke resultater selv under 16 FPS.

Til venstre, tidsforbruket til forskjellige F-16-moduler under inferens, målt på 300 videoer fra Video-MME Long satt til varierende test-FPS og sekvenslengder. Høyre, en sammenligning mellom Video-MME-ytelse for modeller som er trent og testet ved forskjellige FPS. Den heltrukne linjen representerer modeller som er trent og testet med samme FPS, mens den stiplede linjen viser ytelse når en modell trent med 16 FPS testes med en lavere bildefrekvens.
F-16s prosessering med høy bildehastighet økte beregningskravene, selv om aligneren hjalp til med å håndtere disse kostnadene ved å komprimere redundante visuelle tokens.
Modellen krevde flere FLOP-er per video enn modeller med lavere FPS, men oppnådde også bedre nøyaktighet per token, noe som tyder på at dens rammevalg og token-komprimeringsstrategier bidro til å oppveie den ekstra beregningen.
Konklusjon
Det er vanskelig å overdrive verken viktigheten eller utfordringene ved denne spesielle forskningsstrengen – spesielt i år, som er satt til å bli gjennombruddsår for generativ video, med manglene ved kurering av videodatasett og bildetekstkvalitet i skarp lettelse.
Det bør også understrekes at utfordringene med å få nøyaktige beskrivelser av interne videodetaljer ikke utelukkende kan løses ved å kaste VRAM, tid eller diskplass på problemet. Metoden der hendelser isoleres/ekstraheres fra ellers lange og kjedelige videoer (som med golf- eller snookervideoklipp, for eksempel) vil dra nytte av en revurdering av de semantiske tilnærmingene og mekanismene som for tiden dominerer SOTA-løsninger – fordi noen av disse begrensningene ble etablert i tider med mer ressursutarming.
(forresten, selv om 16fps virker som en veldig lav bildefrekvens for 2025, er det interessant å merke seg at dette også er den opprinnelige treningshastigheten til videoklipp som brukes i den enormt populære Wan 2.1 generativ videomodell, og hastigheten som den derfor opererer med færrest problemer. Forhåpentligvis vil forskningsscenen holde øye med mulig 'standardentropi' her; noen ganger foreldede begrensninger kan opprettholde fremtidige standarder)
Først publisert onsdag 19. mars 2025