Andersons vinkel

Udfordringen med at undertekster video med mere end 1 fps

Udgivet Marts 19, 2025

Martin Anderson

Spor i en basketballscene - kilde: https://www.youtube.com/watch?v=ORfjgE6n2Pc

Maskinlæringssystemers evne til at genkende de begivenheder, der finder sted i en video, er afgørende for fremtiden for AI-baseret videogenerering – ikke mindst fordi videodatasæt kræver præcise undertekster for at producere modeller, der overholder en brugers anmodning, og som ikke overdrevent ... hallucinere.

Et eksempel på et billedtekstskema fra Googles VidReCap-projekt. Kilde: https://sites.google.com/view/vidrecap

Et eksempel på et undertekstskema fra Googles VidReCap-projekt. Kilde: https://sites.google.com/view/vidrecap

Manuelt undertekster omfanget af videoer, der er nødvendige for effektive træningsdatasæt, er en samvittighedsløs udsigt. Selvom det er muligt at træne AI-systemer til automatisk tekstning af videoer, er der stadig brug for rigtig mange menneskeskabte eksempler som sandhed, for variation og dækning.

Endnu vigtigere, næsten alle nuværende AI-baserede videotekstningsmodeller kører med 1 fps, hvilket ikke er en tæt nok indfangningshastighed til at skelne variationer i rigtig mange scenarier: pludselige mikroudtryksændringer for følelsesgenkendelsessystemer; hurtige begivenheder i højhastighedssportsgrene såsom basketball; voldsomme bevægelser; hurtige klip i dramatiske film, hvor systemer som f.eks PySceneDetect kan ikke identificere dem (eller bliver ikke brugt); og mange andre scenarier, hvor opmærksomhedsvinduet klart skal være mere intenst.

Klik for at spille. Hurtig, men livsændrende action i hvad der ellers kan være en af de langsomste sportsgrene i verden, da Alex Higgins vinder verdensmesterskabet mod Ray Reardon i 1982. Kilde: https://www.youtube.com/watch?v=_1PuqKno_Ok

Bevæg dig hurtigt og bryd logikken

Denne lave sats er standarden af forskellige logistiske årsager. For det første er videotekstning en ressourcekrævende aktivitet, uanset om systemet studerer en sekventiel frame ad gangen, eller ellers bruger forskellige metoder til semantisk at sammenkæde en række af frames til en fortolkelig billedtekstsekvens. I begge tilfælde kontekstvindue er uundgåeligt begrænset af hardware begrænsninger.

En anden grund til, at 1fps er den nuværende standard, er, at videoer generelt ikke er fyldt med hurtige begivenheder; det er derfor overflødigt at give 300 billeder statisk snookerbord samme opmærksomhed som det splitsekund, hvor en sort bold vinder mesterskabet (se eksemplet ovenfor).

Det er muligt at bruge bredere sekundære signaler til at identificere afgørende øjeblikke i en sportsvideo, såsom publikums vedvarende reaktion på en hurtig slam-dunk i en basketballkamp. Sådanne signaler kan dog opstå af andre årsager (såsom uventede spillerskader) og kan ikke stoles på. Dette er et eksempel på, hvordan et forkert mærket videodatasæt kan føre til en generativ videomodel, der hallucinerer eller misfortolker instruktioner, dvs. fordi modellen muligvis viser en spillerskade, når den blev bedt om at generere en slam-dunk (fordi den 'sekundære indikator' for publikumsuro ikke var eksklusiv for én specifik type begivenhed).

Dette er på mange måder et 'budgetmæssigt' problem, og på andre måder et proceduremæssigt problem. Frameworks har hidtil fungeret ud fra princippet om, at sparsomme keyframes effektivt kan indfange essentiel information, men dette er mere effektivt til at fastslå genre og andre facetter af en videos emne, da bevismaterialet i så fald fortsætter over flere frames.

F-16

Et nyt papir fra Kina tilbyder en løsning i form af den første multimodale store sprogmodel (MLLM, eller blot LLM), der kan analysere video ved 16 fps i stedet for standard 1fps, mens man undgår de store faldgruber ved at øge analysehastigheden.

I test hævder forfatterne, at det nye system, titlen F-16, overgår proprietære, avancerede modeller som GPT-4o og Googles Gemini-1.5 pro. Mens andre nuværende modeller var i stand til at matche eller overgå F-16's resultater i forsøg, var de konkurrerende modeller langt større og mere uhåndterlige.

Selvom F-16 blev trænet på seriøs hardware (som vi vil undersøge snart), er inferens normalt langt mindre krævende end træning. Derfor kan vi håbe, at koden (som er lovet til en nær fremtidig udgivelse) vil være i stand til at køre på mellem- eller højniveau-GPU'er i hjemmet.

Det, der er nødvendigt for hobbyscenens vitalitet (og det inkluderer for det meste den professionelle VFX-scene), er en videotekstningsmodel af denne art, der kan fungere, måske kvantiseret, på forbrugersystemer, så hele den generative videoscene ikke migrerer til API-baserede kommercielle systemer eller tvinger forbrugerne til at tilslutte lokale rammer til kommercielle online GPU-tjenester.

Ud over opskalering

Forfatterne observerer, at denne form for tilgang er et praktisk alternativ til opskalering af datasæt. Man kan også udlede, at hvis du skulle kaste mere data på problemet, er det stadig den slags tilgang, der kunne være at foretrække, fordi det nye system skelner begivenheder på en mere detaljeret måde.

De oplyser:

'Sampling med lav billedhastighed kan resultere i kritisk visuel informationstab, især i videoer med hurtigt skiftende scener, indviklede detaljer eller hurtige bevægelser. Derudover, hvis keyframes savnes, men alligevel er modellen trænet på etiketter, der er afhængige af keyframe-information, kan den have svært ved at tilpasse sine forudsigelser med det forventede indhold, hvilket potentielt kan føre til hallucinationer og forringet ydeevne...

"... F-16 opnår SOTA-ydeevne i generel video-QA blandt modeller af lignende størrelse og demonstrerer en klar fordel i videoforståelse med høj billedhastighed, idet den overgår kommercielle modeller som GPT-4o. Dette arbejde åbner nye retninger for at fremme videoforståelse med høj billedhastighed i multimodal LLM-forskning."

nyt papir har titlen Forbedring LLM videoforståelse med 16 billeder pr. sekund, og kommer fra otte forfattere på tværs af Tsinghua University og ByteDance.

Metode

Da fortløbende billeder ofte indeholder redundant information, anvender F-16 en justering med høj billedhastighed til at komprimere og indkode vigtige bevægelsesdetaljer, samtidig med at den visuelle semantik bevares. Hver frame behandles først af en forudtrænet billedkoder, der udtrækker funktionsrepræsentationer, før den sendes til en aligner baseret på Gaussisk fejl lineære enheder (GELU'er).

F-16's arkitektur behandler video ved 16 FPS, og optager flere billeder end traditionelle lav-frame-rate modeller, og dens high-frame-rate aligner bevarer den visuelle semantik, mens den effektivt koder bevægelsesdynamik uden at tilføje ekstra visuelle tokens. Kilde: https://arxiv.org/pdf/2503.13956

For at håndtere det øgede antal billeder effektivt, grupperer F-16 rammer i små behandlingsvinduer, hvor visuelle funktioner smelter sammen ved hjælp af et tre-lags Multi-Layer Perceptron (MLP), der hjælper med at bevare kun de mest relevante bevægelsesdetaljer og reducerer unødvendig duplikering, samtidig med at den tidsmæssige flow af handlinger bevares. En rumlig max-pooling lag komprimerer yderligere token-antallet og holder beregningsomkostningerne inden for grænserne.

De behandlede video-tokens føres derefter ind i Qwen2-7B LLM, som genererer tekstsvar baseret på de udtrukne visuelle funktioner og en given brugerprompt.

Ved at strukturere videoinput på denne måde muliggør F-16, hævder forfatterne, mere præcis hændelsesgenkendelse i dynamiske scener, samtidig med at effektiviteten bevares.

Den korte version

F-16 udvider et fortrænet billede LLM, LLaVA-OneVision, til at behandle video ved at transformere dens visuelle input-pipeline. Mens standard billed-LLM'er håndterer isolerede billeder, omformaterer F-16's høj-billedhastighedsjustering flere billeder til en form, som modellen kan behandle mere effektivt. Dette undgår at overbelaste systemet med redundant information, samtidig med at vigtige bevægelsessignaler, der er nødvendige for nøjagtig videoforståelse, bevares.

For at sikre kompatibilitet med sit billedbaserede fundament genbruger F-16 forudtrænede parametre ved at omstrukturere sin aligner til undermatricer. Denne tilgang giver den mulighed for at integrere viden fra singleframe-modeller, mens den tilpasser sig til sekventiel videoinput.

Aligneren komprimerer først frame-sekvenser til et format, der er optimeret til LLM, og bevarer de mest informative funktioner, mens unødvendige detaljer kasseres. Arkitekturdesignet gør det muligt for systemet at behandle video med høj billedhastighed og samtidig holde beregningskrav under kontrol, hvilket forfatterne anfører som bevis på, at skalering ikke er den eneste (eller den bedste) vej frem for videotekstning.

Varierer tempoet

Da behandling af video ved 16 FPS forbedrer bevægelsesforståelse, men øger beregningsomkostningerne, især under inferens, introducerer F-16 en variabel frame-rate afkodning metode, der giver den mulighed for at justere billedhastigheden dynamisk uden genoptræning.

Enkeltramme- og højbilledhastighedsjusteringerne, der er tilgængelige for F-16.

Denne fleksibilitet gør det muligt for modellen at fungere effektivt ved lavere FPS, når høj præcision ikke er påkrævet, og reducerer beregningsoverhead.

På testtidspunktet, når en lavere billedhastighed er valgt, genbruger F-16 tidligere trænede aligner-parametre ved at gentage inputframes for at matche de forventede dimensioner. Dette sikrer, at modellen stadig kan behandle video effektivt uden at ændre dens arkitektur.

I modsætning til naiv nedsampling (dvs. blot at fjerne billeder), som risikerer at miste kritiske bevægelsesdetaljer, bevarer denne metode alignerens indlærte bevægelsesrepræsentationer og bevarer nøjagtigheden selv ved reducerede billedhastigheder. For generel videoforståelse kan en lavere FPS-indstilling fremskynde inferens uden væsentligt tab af ydeevne, mens højhastighedsbevægelsesanalyse stadig kan udnytte den fulde 16 FPS-kapacitet.

Data og test

Bygget på Qwen2-7B, FP-16 udvider LLaVA-OneVision vha SigLIP som billedkoder. Med videoframes samplet ved 16 FPS kan der opnås op til 1,760 frames fra hver video. For længere videoklip blev frames samplet ensartet (dvs. mere sparsomt).

Til træning brugte F-16 de samme generelle videodatasæt som LLaVA-video, herunder LLaVA-Video-178K, NEXT-QA, ActivityNet-QAog Perceptionstest.

F-16 blev desuden finjusteret på højhastigheds sportsdatasæt FineGym, Dykning48og FodboldNet. Forfatterne kurerede også en samling af 276 NBA-spil, der blev spillet mellem 13. november og 25. november 2024, med fokus på, om et skud var vellykket (en opgave, der kræver behandling med høj billedhastighed).

Modellen blev evalueret ved hjælp af NSVA testsæt, med ydeevne målt ved f1 score.

Gymnastik- og dykkermodeller blev evalueret baseret på begivenhedsgenkendelsesnøjagtighed, mens fodbold- og basketballmodeller sporede afleveringer og skududfald.

Modellen er uddannet til 1 epoke ved brug af 128 NVIDIA H100 GPU'er (og ved en standardudgave af 80 GB VRAM pr. GPU indebar dette brugen af 10,24 terabyte GPU-hukommelse; selv efter nyere standarder er dette den højest specificerede GPU-klynge, jeg personligt er stødt på i overensstemmelse med forskningslitteraturen om computersyn). EN indlæringshastighed på 2×10⁻⁵ blev brugt under træning.

Derudover a LoRA blev finjusteret på sportsdata brugte LoRA-adaptere med 64 GPU'er i 5 epoker. Her blev kun LLM trænet, hvilket efterlod billedkoderen frosset.

Modsatrettede frameworks, der blev testet i den indledende runde for 'generel videoforståelse', var GPT-4o; Gemini-1.5-Pro; Qwen2-VL-7B; VideoLLaMA2-7B; Videochat 2-HD-7B; LLaVA-OV-7B; MiniCPM-V2.6-8B; LLaVA-Video-7BOg NVILA-7B;

Modellerne blev evalueret på Video-MME; VideoVista; TemporalBench; MotionBench; Næste-QA; MLVUOg LongVideoBench.

Sammenligning af video QA-resultater på tværs af modeller, der viser FPS-grænser og ydeevne på flere benchmarks. F-16 opnår SOTA blandt 7B-modeller på Video-MME, NQA, TPB og MB, der konkurrerer med proprietære modeller som GPT-4o og Gemini-1.5-Pro.

Af disse resultater siger forfatterne:

'På Video-MME Short, Medium og NeXT-QA-datasættene – hver designet til kort videoforståelse – overgår vores model den tidligere 7B SOTA-model med 3.2 %, 1.0 % og 0.9 % i nøjagtighed, hvilket fremhæver dens stærke ydeevne på korte videoer.

'For benchmarks, der evaluerer lang videoforståelse, såsom Video-MME Long, LongVideoBench og MLVU, er udfordringen større på grund af sparre frame-sampling, hvilket får frames i behandlingsvinduet til at udvise større variationer.

"Dette gør det sværere for modalitetsaligneren at effektivt kode tidsmæssige ændringer inden for den begrænsede tokenrepræsentation. Som følge heraf oplever F-16 et lille fald i ydeevne sammenlignet med [LLaVA-Video-7B], som er trænet på det samme videodatasæt."

F-16's behandling med høj billedhastighed, fortsætter forfatterne, resulterede også i en forbedring på 13.5 % på TemporalBench og en 2.5 % gevinst på MotionBench, sammenlignet med eksisterende 7B-modeller, og udførte på et niveau, der svarer til kommercielle modeller som GPT-4o og Gemini-1.5-Pro.

High Speed Sports Video Forståelse

F-16 blev testet på FineGym, Diving48, SoccerNet og NBA datasæt for at evaluere dens evne til at forstå højhastighedssportshandlinger.

Ved at bruge de 10,000 manuelt kommenterede NBA-klip fokuserede træningen på boldbevægelse og spillerhandlinger, og om modellerne korrekt kunne afgøre, om et skud var vellykket, ved hjælp af NSVA-testsættet evalueret med F1-score.

Resultater af high-speed sports video analyse. F-16 med høj-frame-rate aligner klarede sig bedre end sin lav-frame-rate modstykke på tværs af alle sportsopgaver. GPT-4o og Gemini-1.5-Pro blev også evalueret på NBA og SoccerNet QA, hvor in-domæne træningsviden ikke var påkrævet.

På FineGym, som måler gymnastikhandlingsgenkendelse, klarede F-16 sig 13.8 % bedre end den tidligere 7B SOTA-model, hvilket demonstrerer forbedret finkornet bevægelsesforståelse.

Dykning48 krævede at identificere komplekse bevægelsessekvenser såsom start, kolbøtte, Twistog fly faser, og F-16 viste højere nøjagtighed ved genkendelse af disse overgange.

For SoccerNet analyserede modellen 10-sekunders klip, identificerede boldafleveringer, og resultaterne viste en forbedring i forhold til eksisterende 7B-modeller, hvilket indikerer, at højere FPS bidrager til at spore små og hurtige bevægelser.

I NBA-datasættet nærmede F-16's evne til at bestemme skudresultater sig nøjagtigheden af større proprietære modeller som GPT-4o og Gemini-1.5-Pro, hvilket yderligere tyder på, at højere billedhastigheder forbedrer dens evne til at behandle dynamisk bevægelse.

Variable Frame-Rates

F-16 blev testet ved forskellige billedhastigheder for at måle dens tilpasningsevne. I stedet for genoptræning håndterede den lavere FPS ved at gentage rammer for at matche alignerens inputstruktur. Denne tilgang bibeholdt mere ydeevne end blot at fjerne (tilbøjelig til at forårsage tab af nøjagtighed).

Resultaterne indikerer, at selvom reduktion af FPS havde en vis indflydelse på bevægelsesgenkendelse, klarede F-16 sig stadig bedre end modeller med lav billedhastighed og opretholdt stærke resultater selv under 16 FPS.

Til venstre, tidsforbruget af forskellige F-16-moduler under inferens, målt på 300 videoer fra Video-MME Long-sættet ved varierende test-FPS og sekvenslængder. Højre, en sammenligning mellem Video-MME-ydeevne for modeller trænet og testet ved forskellige FPS. Den fuldt optrukne linje repræsenterer modeller trænet og testet ved samme FPS, mens den stiplede linje viser ydeevne, når en model trænet ved 16 FPS testes ved en lavere billedhastighed.

F-16's høje billedhastighedsbehandling øgede beregningskravene, selvom dens aligner hjalp med at styre disse omkostninger ved at komprimere redundante visuelle tokens.

Modellen krævede flere FLOP'er pr. video end modeller med lavere FPS, men opnåede også bedre nøjagtighed pr. token, hvilket tyder på, at dens rammevalg og token-komprimeringsstrategier hjalp med at udligne den ekstra beregning.

Konklusion

Det er svært at overvurdere hverken vigtigheden eller udfordringerne ved denne særlige forskningsgren – især i år, som er sat til at blive gennembrudsår til generativ video, der afslører manglerne ved videodatasætkurering og billedtekstkvalitet i skarp relief.

Det skal også understreges, at de udfordringer, der er forbundet med at få nøjagtige beskrivelser af interne videodetaljer, ikke udelukkende kan løses ved at kaste VRAM, tid eller diskplads på problemet. Metoden, hvorved hændelser isoleres/ekstraheres fra ellers lange og kedelige videoer (som med golf- eller snookervideoklip, for eksempel) vil drage fordel af en genovervejelse af de semantiske tilgange og mekanismer, der i øjeblikket dominerer SOTA-løsninger – fordi nogle af disse begrænsninger blev etableret i mere ressourcefattige tider.

(i øvrigt, selvom 16fps virker som en meget lav billedhastighed for 2025, er det interessant at bemærke, at dette også er den oprindelige træningshastighed for videoklip, der bruges i det enormt populære Wan 2.1 generativ videomodel, og den hastighed, hvormed den derfor opererer med færrest problemer. Forhåbentlig vil forskningsmiljøet holde øje med mulig 'standardentropi' her; nogle gange forældede begrænsninger kan fastholde fremtidige standarder)

Først offentliggjort onsdag den 19. marts 2025

Relaterede emner:AI-videooprettelse billedtekster video oprettelse

Næste

Bedre generativ AI-video ved at blande rammer under træning

Gå ikke glip af

Hvorfor AI-video nogle gange får det baglæns

Martin Anderson

Forfatter på maskinlæring, domænespecialist i menneskelig billedsyntese. Tidligere leder af forskningsindhold hos Metaphysic.ai.
Personlig side: martinanderson.ai
Kontakt: [e-mail beskyttet]
Twitter: @manders_ai