Andersons vinkel

Udfordringen ved at indsætte video i mere end 1fps

Published March 19, 2025

Updated April 26, 2026

Martin Anderson

Trails in a basketball scene - source: https://www.youtube.com/watch?v=ORfjgE6n2Pc

Evnen til, at maskinlæringsystemer kan genkende de begivenheder, der finder sted inden for en video, er afgørende for fremtiden for AI-baseret video-generering – ikke mindst fordi video-datasets kræver nøjagtige undertekster for at producere modeller, der overholder en brugers anmodning, og som ikke ekscessivt hallucinerer.

Et eksempel på en undertekstskema fra Googles VidReCap-projekt. Kilde: https://sites.google.com/view/vidrecap

At indsætte video manuelt i den skala, der er nødvendig for effektive træningsdatasets, er en uacceptabel udsigt. Selv om det er muligt at træne AI-systemer til at auto-indsætte video, er der stadig behov for mange menneskeskabte eksempler som grundsandhed, til variation og dækning.

Vigtigere er det, at næsten hver eneste nuværende AI-baseret video-underskriftsmodel fungerer ved 1fps, hvilket ikke er en tæt nok optagelseshastighed til at skelne variationer i mange scenarier: pludselige mikro-udtryksændringer for emotion-genkendelsessystemer; hurtige begivenheder i højhastighedssport som basketball; voldelige bevægelser; hurtige klip i dramatiske film, hvor systemer som PySceneDetect kan fejle i at identificere dem (eller ikke bliver brugt); og mange andre scenarier, hvor vinduet for opmærksomhed tydeligt skal være mere intens.

Klik for at afspille. Hurtig, men livsforandrende handling i, hvad der ellers kan være en af de langsomste sportsgrene i verden, da Alex Higgins sikrer verdensmesterskabet mod Ray Reardon i 1982. Kilde: https://www.youtube.com/watch?v=_1PuqKno_Ok

Flyt og brud logik

Denne lave hastighed er standarden af forskellige logistiske årsager. For det første er video-underskrift en ressourcekrævende aktivitet, uanset om systemet studerer en sekventiel ramme ad gangen eller bruger forskellige metoder til at semantisk samarbejde en række rammesammen i en fortolkningsbar undertekstsekvens. I begge tilfælde er kontekstvinduet uundgåeligt begrænset af hardware-begrænsninger.

En anden grund til, at 1fps er den nuværende standard, er, at videoer ikke generelt er fyldt med hurtige begivenheder; det er derfor overflødigt at give 300 rammesammen af en statisk snooker-bord samme opmærksomhed som det splitsekund, hvor en potted sort bold vinder mesterskabet (se eksempel ovenfor).

Det er muligt at bruge bredere sekundære hints til at identificere afgørende øjeblikke i en sportsvideo, såsom den vedvarende crowd-reaktion på en hurtig slam-dunk i en basketballkamp. Men sådanne hints kan optræde af andre årsager (såsom uventede spillerskader), og kan ikke være til at stole på. Dette er et eksempel på, hvordan en mislabeled video-dataset kan føre til en generativ video-model, der hallucinerer eller misfortolker instruktioner, dvs. fordi modellen kan vise en spiller-skade, når den blev bedt om at generere en slam-dunk (fordi ‘sekundær hint’ af crowd-agitation ikke var eksklusiv for en bestemt type begivenhed).

Dette er på mange måder et ‘budget-problem’, og på andre måder et procedur-problem. Rammer til dato har opereret på principper, at sparse nøgle-rammer kan effektivt fange essentiel information, men dette er mere effektivt til at etablere genre og andre aspekter af en videos emne, da beviset i dette tilfælde består over multiple rammesammen.

F-16

En ny artikel fra Kina tilbyder en løsning i form af den første multimodale store sprogmodel (MLLM, eller bare LLM), der kan analysere video ved 16fps i stedet for standarden 1fps, mens den undgår de store faldgruber ved at øge analysehastigheden.

I tests hævder forfatterne, at det nye system, titlen F-16, overgår proprietære state-of-the-art-modeller som GPT-4o og Googles Gemini-1.5 pro. Selv om andre nuværende modeller kunne matche eller overgå F-16s resultater i tests, var de konkurrerende modeller langt større og mere ubehændige.

Selv om F-16 blev trænet på nogle alvorlige hardware (som vi skal se nærmere på kort), er inference normalt langt mindre krævende end træning. Derfor kan vi håbe, at koden (lovet til en nært-fremtidig udgivelse) vil være i stand til at køre på medium eller højt niveau domestic GPUs .

Hvad der er nødvendigt for vitaliteten af hobby-scenen (og det inkluderer den professionelle VFX-scene, det meste af tiden) er en video-underskriftsmodel af denne type, der kan operere, måske kvantificeret, på forbruger-systemer, så hele den generative video-scene ikke migrerer til API-baserede kommercielle systemer, eller tvinger forbrugere til at kobler lokale rammer op til kommercielle online GPU-tjenester.

Ud over opskalering

Forfatterne observerer, at denne type tilgang er en praktisk alternativ til opskalering af datasets. Man kan også slutte, at hvis man skulle kaste mere data på problemet, er dette stadig den type tilgang, der kan være foretrukket, fordi det nye system skelner begivenheder på en mere granuleret måde.

De siger:

‘Lav frame-hastighed-prøve kan resultere i kritisk visuel informations-tab, især i videoer med hurtigt skiftende scener, intrikate detaljer eller hurtig bevægelse. Derudover, hvis nøgle-rammer bliver missede, men modellen er trænet på mærker, der afhænger af nøgle-ramme-information, kan det have svært ved at justere sine forudsigelser med den forventede indhold, potentielt førende til hallucinationer og nedsat ydeevne…

‘… F-16 opnår SOTA-ydeevne i generel video-qa blandt modeller af samme størrelse og demonstrerer en klar fordel i høj-hastigheds video-forståelse, overgående kommercielle modeller som GPT-4o. Dette arbejde åbner nye retninger for at fremme høj-hastigheds video-forståelse i multimodal LLM-forskning.’

Den nye artikel er titlen Forbedring af LLM Video-forståelse med 16 rammesammen per sekund, og kommer fra otte forfattere på tværs af Tsinghua Universitet og ByteDance.

Metode

Da pågældende rammesammen ofte indeholder redundant information, anvender F-16 en høj-hastigheds-justerings-apparat til at komprimere og kodificere nøgle-bevægelsesdetaljer, mens visuel semantik bevares. Hver ramme bliver først behandlet af en forudtrænet billed-encoder, der udtrækker funktionelle repræsentationer, før den bliver sendt til en justerings-apparat baseret på Gaussian Error Linear Units (GELUs).

F-16s arkitektur behandler video ved 16 FPS, og fanger flere rammesammen end traditionelle lav-hastigheds-modeller, og dens høj-hastigheds-justerings-apparat bevare visuel semantik, mens den effektivt kodificerer bevægelses-dynamik uden at tilføje ekstra visuelle tokens. Kilde: https://arxiv.org/pdf/2503.13956

For at håndtere den øgede ramme-tælling effektivt, grupperer F-16 rammesammen i små proces-vinduer, og samler visuelle funktioner ved hjælp af en tre-lags Multi-Layer Perceptron (MLP), og hjælper med at bevare kun de mest relevante bevægelsesdetaljer, og reducerer unødvendig duplikation, mens den bevare temporal flow af handlinger. En spatial max-pooling lag komprimerer yderligere token-tællingen, og holder beregningsomkostningerne inden for grænser.

De behandlede video-tokens bliver derefter ført ind i Qwen2-7B LLM, der genererer tekstuelle svar baseret på de udtrukne visuelle funktioner og en given bruger-promt.

Ved at strukturere video-input på denne måde, aktiverer F-16, ifølge forfatterne, mere præcis begivenheds-genkendelse i dynamiske scener, mens den stadig bevare effektivitet.

Den korte version

F-16 udvider en forudtrænet billed-LLM, LLaVA-OneVision, til at behandle video ved at transformere dens visuelle input-pipeline. Mens standard billed-LLM’er behandler isolerede rammesammen, reformaterer F-16s høj-hastigheds-justerings-apparat multiple rammesammen til en form, som modellen kan behandle mere effektivt; dette undgår at overvælde systemet med redundant information, mens det bevareer nøgle-bevægelses-hints, der er nødvendige for nøjagtig video-forståelse.

For at sikre kompatibilitet med dens billed-baserede grundlag, genbruger F-16 forudtrænede parametre ved at restrukturere dens justerings-apparat i under-matricer. Denne tilgang tillader det at integrere viden fra enkelt-ramme-modeller, mens det tilpasser sig sekventiel video-input.

Justerings-apparatet komprimerer først ramme-sekvenser til en format, der er optimeret til LLM, og bevareer de mest informative funktioner, mens det kasserer unødvendige detaljer. Arkitektur-designet tillader systemet at behandle høj-hastigheds-video, mens det holder beregnings-krav under kontrol, hvilket forfatterne påstår som bevis for, at opskalering ikke er den eneste (eller bedste) vej frem for video-underskrift.

Varierende tempo

Da behandling af video ved 16 FPS forbedrer bevægelses-forståelse, men øger beregnings-omkostningerne, især under inference, introducerer F-16 en variabel-ramme-hastigheds-dekodning-metode, der tillader det at justere ramme-hastighed dynamisk uden at gen-træne.

Den enkelt-ramme og høj-hastigheds-justerings-apparat tilgængelige for F-16.

Denne fleksibilitet tillader modellen at operere effektivt ved lavere FPS, når høj præcision ikke er nødvendig, og reducerer beregnings-overhead.

Ved test-tid, når en lavere ramme-hastighed er valgt, genbruger F-16 forudtrænede justerings-apparat-parametre ved at gentage input-rammer for at matche den forventede dimension. Dette sikrer, at modellen kan behandle video effektivt uden at ændre sin arkitektur.

I modsætning til naiv downsampling (dvs. blot fjernelse af rammesammen), som risikerer at miste kritiske bevægelsesdetaljer, bevareer denne metode justerings-apparatets lærte bevægelses-repræsentationer, og bevareer nøjagtighed, selv ved reducerede ramme-hastigheder. For generel video-forståelse kan en lavere FPS-indstilling accelerere inference uden betydelig ydeevne-tab, mens høj-hastigheds-bevægelses-analyse kan stadig udnytte den fulde 16 FPS-kapacitet.

Data og tests

Bygget på Qwen2-7B, udvider FP-16 LLaVA-OneVision ved hjælp af SigLIP som billed-encoder. Med video-rammer samplet ved 16 FPS kan op til 1.760 rammesammen blive erhvervet fra hver video. For længere video-klip blev rammesammen samplet uniformt (dvs. mere sparsomt).

Til træning brugte F-16 de samme generelle video-datasets som LLaVA-Video, herunder LLaVA-Video-178K, NExT-QA, ActivityNet-QA, og PerceptionTest.

F-16 blev desuden finjusteret på høj-hastigheds-sports-datasets FineGym, Diving48, og SoccerNet. Forfatterne kuraterede desuden en samling af 276 NBA-kampe spillet mellem 13. og 25. november 2024, med fokus på, om et skud var succesfuldt (en opgave, der kræver høj-hastigheds-behandling).

Modellen blev evaluueret ved hjælp af NSVA-test-sæt, med ydeevne målt ved F1-score.

Gymnastik- og dykning-modeller blev evaluueret baseret på begivenheds-genkendelses-nøjagtighed, mens fodbold- og basketball-modeller sporedde pasninger og skud-afgørelser.

Modellen blev trænet i 1 epoch ved hjælp af 128 NVIDIA H100-GPU’er (og ved en standard-80GB af VRAM per GPU, dette indebar brugen af 10,24 terabytes af GPU-hukommelse; selv efter nuværende standarder er dette den højeste-specifikerede GPU-klynge, jeg personligt har stødt på i forbindelse med computer-vision-forskning).

En læringshastighed på 2×10⁻⁵ blev brugt under træning.

Desuden blev en LoRA finjusteret på sports-data, der brugte LoRA-adaptere med 64 GPU’er i 5 epochs. Her blev kun LLM’en trænet, mens billed-encoderen blev frosset.

Modsatte rammer testet i den første runde for ‘generel video-forståelse’ var GPT-4o; Gemini-1.5-Pro; Qwen2-VL-7B; VideoLLaMA2-7B; VideoChat2-HD-7B; LLaVA-OV-7B; MiniCPM-V2.6-8B; LLaVA-Video-7B; og NVILA-7B;

Modellerne blev evaluueret på Video-MME; VideoVista; TemporalBench; MotionBench; Next-QA; MLVU; og LongVideoBench.

Sammenligning af video-qa-resultater på tværs af modeller, der viser FPS-grænser og ydeevne på multiple benchmarks. F-16 opnår SOTA blandt 7B-modeller på Video-MME, NQA, TPB og MB, og rivaliserer med proprietære modeller som GPT-4o og Gemini-1.5-Pro.

Af disse resultater siger forfatterne:

‘På Video-MME Short, Medium og NeXT-QA-datasets—hver designet til kort video-forståelse—overgår vores model den tidligere 7B SOTA-model med 3,2%, 1,0% og 0,9% i nøjagtighed, og fremhæver dens stærke ydeevne på kort video.

‘For benchmarks, der vurderer lang video-forståelse, såsom Video-MME Long, LongVideoBench og MLVU, er udfordringen større på grund af sparsomme ramme-sampling, hvilket får rammesammen inden for proces-vinduet til at udvise mere betydelige variationer.

‘Dette øger vanskeligheden for modality-justerings-apparatet til effektivt at kodificere temporale ændringer inden for den begrænsede token-repræsentation. Som følge heraf oplever F-16 en let ydeevne-tab i forhold til [LLaVA-Video-7B], der er trænet på samme video-dataset.’

F-16s høj-hastigheds-behandling resulterede desuden i en 13,5% forbedring på TemporalBench og en 2,5% forbedring på MotionBench, i forhold til eksisterende 7B-modeller, og opnåede en lignende niveau som kommercielle modeller som GPT-4o og Gemini-1.5-Pro.

Høj-hastigheds-sports-video-forståelse

F-16 blev testet på FineGym, Diving48, SoccerNet og NBA-datasets for at evaluere dens evne til at forstå høj-hastigheds-sports-handlinger.

Ved hjælp af 10.000 manuelt annoterede NBA-klip fokuserede træningen på bold-bevægelse og spiller-handlinger, og om modellen kunne korrekt bestemme, om et skud var succesfuldt, ved hjælp af NSVA-test-sættet vurderet med F1-score.

Resultater af høj-hastigheds-sports-video-analyse. F-16 med høj-hastigheds-justerings-apparat opnåede bedre resultater end sin lav-hastigheds-modstykke på alle sports-opgaver. GPT-4o og Gemini-1.5-Pro blev også vurderet på NBA og SoccerNet QA, hvor indomæne-træningskundskab ikke var nødvendigt.

På FineGym, der måler gymnastik-handling-genkendelse, opnåede F-16 13,8% bedre end den tidligere 7B SOTA-model, og demonstrerede forbedret fin-granuleret bevægelses-forståelse.

Diving48 krævede identifikation af komplekse bevægelses-sekvenser, såsom takeoff, somersault, twist og flight-faser, og F-16 viste højere nøjagtighed i at genkende disse overgange.

For SoccerNet analyserede modellen 10-sekunders-klip, og identificerede bold-pasninger, og resultaterne viste en forbedring i forhold til eksisterende 7B-modeller, og indikerede, at højere FPS bidrager til at spore små og hurtige bevægelser.

I NBA-dataset nåede F-16s evne til at bestemme skud-afgørelser næsten samme niveau som større proprietære modeller som GPT-4o og Gemini-1.5-Pro, og tydede på, at højere ramme-hastighed forbedrer dens evne til at behandle dynamisk bevægelse.

Varierende ramme-hastigheder

F-16 blev testet ved forskellige ramme-hastigheder for at måle dens tilpasningsevne. I stedet for at gen-træne, håndterede den lavere FPS ved at gentage rammesammen for at matche justerings-apparatets input-struktur. Denne metode bevarede mere ydeevne end blot at fjerne rammesammen (som kan føre til tab af nøjagtighed).

Resultaterne indikerer, at selv om reducering af FPS havde en vis indvirkning på bevægelses-genkendelse, opnåede F-16 stadig bedre resultater end lav-hastigheds-modeller og bevarede stærke resultater, selv under 16 FPS.

Venstre, tid-forbrug af forskellige F-16-moduler under inference, målt på 300 videoer fra Video-MME Long-sættet ved varierende test-FPS og sekvens-længder. Højre, en sammenligning mellem Video-MME-ydeevne for modeller trænet og testet ved forskellige FPS. Den solide linje repræsenterer modeller trænet og testet ved samme FPS, mens den stiplede linje viser ydeevne, når en model trænet ved 16 FPS testes ved en lavere ramme-hastighed.

F-16s høj-hastigheds-behandling øgede beregnings-krav, selv om dens justerings-apparat hjalp med at styre disse omkostninger ved at komprimere redundant visuel tokens.

Modellen krævede flere FLOPs per video end lav-hastigheds-modeller, men opnåede også bedre nøjagtighed per token, og tydede på, at dens ramme-valg og token-kompressions-strategier hjalp med at kompensere for den øgede beregning.

Konklusion

Det er svært at overdrive enten vigtigheden eller udfordringen af denne bestemte forsknings-gren – især dette år, der skal være gennembruds-året for generativ video, og som kaster svaghederne i video-dataset-curation og undertekst-kvalitet i skarpt fokus.

Det skal også understreges, at udfordringerne ved at få nøjagtige beskrivelser af interne video-detajler ikke kan løses eksklusivt ved at kaste VRAM, tid eller disk-plads på problemet. Metoden, hvorpå begivenheder isoleres/udtrækkes fra ellers lange og kedelige video-klip (som golf eller snooker-klip, for eksempel), vil have gavn af en omstrukturering af de semantiske tilgange og mekanismer, der i øjeblikket dominerer SOTA-løsninger – fordi nogle af disse begrænsninger blev etableret i mere ressource-fattige tider.

(Foruden, at selv om 16fps kan synes som en meget lav ramme-hastighed for 2025, er det interessant at bemærke, at dette også er den native trænings-hastighed for video-klip brugt i den meget populære Wan 2.1 generative video-model, og den hastighed, hvormed den derfor opererer med færrest problemer. Forhåbentlig vil forskningsscenen holde øje på mulig ‘standard-entropi’ her; nogle gange kan forældede begrænsninger perpetuere fremtidige standarder)

Først udgivet onsdag, 19. marts 2025