Andersons vinkel

Utmaningen med att skriva undertexter för video i mer än 1fps

Published March 19, 2025

Updated April 26, 2026

Martin Anderson

Trails in a basketball scene - source: https://www.youtube.com/watch?v=ORfjgE6n2Pc

Förmågan för maskinlärningssystem att känna igen de händelser som inträffar inom en video är avgörande för framtiden för AI-baserad videogenerering – inte minst för att video-datasets kräver exakta undertexter för att producera modeller som följer en användares begäran och som inte överdrivet hallucinerar.

Ett exempel på en undertextschema från Googles VidReCap-projekt. Källa: https://sites.google.com/view/vidrecap

Att manuellt skriva undertexter för den skala av videor som behövs för effektiva träningsdataset är en oacceptabel prospekt. Även om det är möjligt att träna AI-system för att auto-skriva undertexter för videor, behövs fortfarande många mänskligt genererade exempel som grund för sanningen, för variation och täckning.

Viktigare är att nästan alla nuvarande AI-baserade video-undertextmodeller fungerar vid 1fps, vilket inte är en tillräckligt tät inspelning för att urskilja variationer i många scenarier: plötsliga mikro-uttrycksförändringar för känslighetsigenkänningssystem; snabba händelser i höghastighetsidrotter som basket; våldsamma rörelser; snabba klipp i dramatiska filmer, där system som PySceneDetect kan misslyckas med att identifiera dem (eller inte används); och många andra scenarier där fönstret för uppmärksamhet tydligt behöver vara mer intensivt.

Klicka för att spela. Snabb men livsförändrande handling i vad som annars kan vara en av de långsammaste sporterna i världen, när Alex Higgins vinner världsmästerskapet mot Ray Reardon 1982. Källa: https://www.youtube.com/watch?v=_1PuqKno_Ok

Flytta snabbt och bryta logik

Denna låga hastighet är standarden av olika logistiska skäl. För det första är video-undertextning en resurskrävande aktivitet, oavsett om systemet studerar en sekventiell bild i taget eller använder olika metoder för att semantiskt sammanfoga en sträng av bilder till en tolkningsbar undertextsekvens. I båda fallen är kontextfönstret oundvikligen begränsat av hårdvarubegränsningar.

Ett annat skäl till att 1fps är den nuvarande standarden är att videor inte generellt är fyllda med snabba händelser; det är därför onödigt att ge 300 bilder av en statisk snookerbord samma uppmärksamhet som den sekund då en potted svart boll vinner mästerskapet (se exempel ovan).

Det är möjligt att använda bredare sekundära ledtrådar för att identifiera avgörande ögonblick i en sportvideo, som den varaktiga publikreaktionen på en snabb slam-dunk i en basketmatch. Men sådana ledtrådar kan dock förekomma av andra skäl (såsom oväntade spelarskador), och kan inte lita på. Detta är ett exempel på hur en felmärkt videodataset kan leda till en generativ videomodell som hallucinerar eller missförstår instruktioner, d.v.s. eftersom modellen kan visa en spelarskada när den begärdes att generera en slam-dunk (eftersom den “sekundära ledtråden” av publikagitation inte var exklusiv för en specifik typ av händelse).

Detta är på många sätt ett “budgetproblem”, och på andra sätt ett procedurproblem. Ramverk hittills har opererat på principen att glesa nyckelbilder kan effektivt fånga essentiell information, men detta är mer effektivt för att etablera genre och andra aspekter av en videos ämne, eftersom bevisen i det fallet består över flera bilder.

F-16

En ny artikel från Kina erbjuder en lösning, i form av den första multimodala stora språkmodellen (MLLM, eller enkelt LLM) som kan analysera video vid 16fps istället för standarden 1fps, samtidigt som den undviker de stora fallgroparna med att öka analyshastigheten.

I tester hävdar författarna att det nya systemet, med titeln F-16, överträffar proprietära state-of-the-art-modeller som GPT-4o och Google’s Gemini-1.5 pro. Medan andra nuvarande modeller kunde matcha eller överträffa F-16:s resultat i tester, var de konkurrerande modellerna mycket större och otympligare.

Även om F-16 tränades på någon allvarlig hårdvara (som vi ska undersöka strax), är inferens vanligtvis mycket mindre krävande än träning. Därför kan vi hoppas att koden (lovad för en nära framtida release) kommer att kunna köras på medel- eller högnivådomestiska GPU:er.

Vad som behövs för vitaliteten i hobby-scenen (och det inkluderar den professionella VFX-scenen, oftast) är en video-undertextmodell av detta slag som kan operera, kanske kvantifierad, på konsumentsystem, så att hela generativa videoscenen inte migrerar till API-baserade kommersiella system, eller tvingar konsumenter att ansluta lokala ramverk till kommersiella online-GPU-tjänster.

Bortom skalning

Författarna observerar att detta tillvägagångssätt är ett praktiskt alternativ till att skala upp dataset. Man kan också sluta sig till att om man skulle kasta mer data på problemet, är detta fortfarande det tillvägagångssätt som kan vara att föredra, eftersom det nya systemet skiljer på händelser på ett mer granulärt sätt.

De förklarar:

‘Låg bildhastighet kan resultera i förlust av kritisk visuell information, särskilt i videor med snabbt förändrade scener, intrikata detaljer eller snabb rörelse. Dessutom, om nyckelbilder missas, men modellen är tränad på etiketter som förlitar sig på nyckelbildsinformation, kan den kämpa för att anpassa sina förutsägelser till den förväntade innehållet, vilket potentiellt kan leda till hallucinationer och försämrad prestanda…

‘… F-16 uppnår SOTA-prestanda i allmän video QA bland modeller av liknande storlek och visar en tydlig fördel i höghastighetsvideo förståelse, överträffar kommersiella modeller som GPT-4o. Detta arbete öppnar nya riktningar för att förbättra höghastighetsvideo förståelse i multimodal LLM-forskning.’

Den nya artikeln heter Förbättring av LLM Video Förståelse med 16 Bilder Per Sekund, och kommer från åtta författare över Tsinghua University och ByteDance.

Metod

Eftersom på varandra följande bilder ofta innehåller redundant information, använder F-16 en höghastighetsjusterare för att komprimera och koda nyckelrörelsedetaljer medan den behåller visuell semantik. Varje bild bearbetas först av en förtränad bildkodare, som extraherar funktionella representationer innan den skickas till en justerare baserad på Gaussian Error Linear Units (GELUs).

F-16:s arkitektur bearbetar video vid 16 FPS, fångar fler bilder än traditionella låghastighetsmodeller, och dess höghastighetsjusterare bevarar visuell semantik medan den effektivt kodar rörelsedynamik utan att lägga till extra visuella token. Källa: https://arxiv.org/pdf/2503.13956

För att hantera den ökade bildantalet effektivt, grupperar F-16 bilder i små bearbetningsfönster, sammanfogar visuella funktioner med hjälp av en tre-lagers Multi-Layer Perceptron (MLP), vilket hjälper till att behålla endast de mest relevanta rörelsedetaljerna och reducerar onödig duplication, medan den behåller den temporala flödet av handlingar. En spatial max-pooling lager komprimerar ytterligare token-räkningen, håller beräkningskostnaderna inom gränser.

De bearbetade video-token skickas sedan till Qwen2-7B LLM, som genererar textbaserade svar baserat på de extraherade visuella funktionerna och en given användarprompt.

Genom att strukturera videoinmatningen på detta sätt, möjliggör F-16, enligt författarna, mer exakt händelseigenkänning i dynamiska scener, samtidigt som den fortfarande behåller effektivitet.

Den korta versionen

F-16 utvidgar en förtränad bild-LLM, LLaVA-OneVision, för att bearbeta video genom att omvandla dess visuella inmatningspipeline. Medan standardbild-LLM hanterar isolerade bilder, omformar F-16:s höghastighetsjusterare flera bilder till en form som modellen kan bearbeta mer effektivt; detta undviker att överväldiga systemet med redundant information medan det behåller nyckelrörelsehänsyn som är nödvändiga för korrekt video förståelse.

För att säkerställa kompatibilitet med dess bildbaserade grund, återanvänder F-16 förtränade parametrar genom att omstrukturera sin justerare till undermatriser. Detta tillvägagångssätt möjliggör det för systemet att integrera kunskap från enkelbildsmodeller medan det anpassar sig till sekventiell videoinmatning.

Justeraren komprimerar först bildsekvenser till ett format som är optimerat för LLM, behåller de mest informativa funktionerna medan den kasserar onödiga detaljer. Arkitekturdesignen möjliggör för systemet att bearbeta höghastighetsvideo medan det håller beräkningskraven under kontroll, vilket författarna hävdar som bevis för att skalning inte är den enda (eller den bästa) vägen framåt för video-undertextning.

Varierande takt

Eftersom bearbetning av video vid 16 FPS förbättrar rörelseförståelse men ökar beräkningskostnaderna, särskilt under inferens, introducerar F-16 en variabel bildhastighetsavkodning-metod, som möjliggör för det att justera bildhastigheten dynamiskt utan omträning.

De enskilda bild- och höghastighetsjusterarna som är tillgängliga för F-16.

Denna flexibilitet möjliggör för modellen att operera effektivt vid lägre FPS när hög precision inte krävs, och reducerar beräkningsöverhuvudet.

Vid testtid, när en lägre bildhastighet väljs, återanvänder F-16 tidigare tränade justerarparametrar genom att upprepa inmatningsbilder för att matcha den förväntade dimensionen. Detta säkerställer att modellen fortfarande kan bearbeta video effektivt utan att modifiera sin arkitektur.

Till skillnad från naiv nedsamplning (d.v.s. att enkelt ta bort bilder), som riskerar att förlora kritiska rörelsedetaljer, bevarar denna metod justerarens lärdarörelserepresentationer, vilket behåller noggrannheten även vid reducerad bildhastighet. För allmän video förståelse kan en lägre FPS-inställning påskynda inferens utan betydande prestandaförlust, medan höghastighetsrörelseanalys fortfarande kan utnyttja den fulla 16 FPS-förmågan.

Data och tester

Byggd på Qwen2-7B, FP-16 utvidgar LLaVA-OneVision med SigLIP som en bildkodare. Med video-bilder sampade vid 16 FPS, kan upp till 1 760 bilder erhållas från varje video. För längre video-klipp sampades bilderna enhetligt (d.v.s. glesare).

För träning använde F-16 samma allmänna video-datasets som LLaVA-Video, inklusive LLaVA-Video-178K, NExT-QA, ActivityNet-QA, och PerceptionTest.

F-16 tränades också på de höghastighetsidrottsdataset FineGym, Diving48, och SoccerNet. Författarna sammanställde också en samling av 276 NBA-matcher som spelades mellan den 13 och 25 november 2024, med fokus på om en skott var framgångsrikt (en uppgift som kräver höghastighetsbearbetning).

Modellen utvärderades med NSVA testuppsättning, med prestanda mätt med F1-poäng.

Gymnastik- och dykningsmodeller utvärderades baserat på händelseigenkänning, medan fotbolls- och basketmodeller spårade passningar och skottresultat.

Modellen tränades under 1 epoch med 128 NVIDIA H100 GPU:er (och vid en standard 80 GB VRAM per GPU, detta innebar användning av 10,24 terabyte GPU-minne; även enligt senaste standarder är detta den högst utrustade GPU-klustern jag personligen har stött på i min uppföljning av datorseende-forskning). En inlärningshastighet på 2×10⁻⁵ användes under träning.

Dessutom tränades en LoRA på idrottsdata med LoRA-adapter med 64 GPU:er under 5 epoker. Här tränades endast LLM, medan bildkodaren frystes.

Motstående ramverk testades i den initiala omgången för “allmän video förståelse” var GPT-4o; Gemini-1.5-Pro; Qwen2-VL-7B; VideoLLaMA2-7B; VideoChat2-HD-7B; LLaVA-OV-7B; MiniCPM-V2.6-8B; LLaVA-Video-7B; och NVILA-7B;

Modellerna utvärderades på Video-MME; VideoVista; TemporalBench; MotionBench; Next-QA; MLVU; och LongVideoBench.

Jämförelse av video-QA-resultat mellan modeller, som visar FPS-gränser och prestanda på flera benchmark-tester. F-16 uppnår SOTA bland 7B-modeller på Video-MME, NQA, TPB och MB, och överträffar proprietära modeller som GPT-4o och Gemini-1.5-Pro.

Av dessa resultat förklarar författarna:

‘På Video-MME Short, Medium och NeXT-QA-datasets—var och en utformad för kort video förståelse—överträffar vår modell den tidigare 7B SOTA-modellen med 3,2%, 1,0% och 0,9% i noggrannhet, vilket betonar dess starka prestanda på korta videor.

‘För benchmark-tester som utvärderar lång video förståelse, såsom Video-MME Long, LongVideoBench och MLVU, är utmaningen större på grund av glesare bildsampning, vilket orsakar att bilderna inom bearbetningsfönstret visar mer betydande variationer.

‘Detta ökar svårigheten för modalitetsjusteraren att effektivt koda temporala förändringar inom den begränsade token-representationen. Som ett resultat upplever F-16 en mindre prestandaförlust jämfört med [LLaVA-Video-7B], som är tränad på samma video-dataset.’

F-16:s höghastighetsbearbetning resulterade också i en 13,5% förbättring på TemporalBench och en 2,5% vinst på MotionBench, jämfört med befintliga 7B-modeller, och presterade på en liknande nivå som proprietära modeller som GPT-4o och Gemini-1.5-Pro.

Höghastighetsidrottsvideo förståelse

F-16 testades på FineGym, Diving48, SoccerNet och NBA-datasets för att utvärdera dess förmåga att förstå höghastighetsidrottsåtgärder.

Med hjälp av de 10 000 manuellt annoterade NBA-klippen, fokuserade träningen på bollrörelse och spelaråtgärder, och om modellerna kunde korrekt bestämma om ett skott var framgångsrikt, med hjälp av NSVA-testuppsättningen utvärderad med F1-poäng.

Resultat av höghastighetsidrottsvideoanalys. F-16 med höghastighetsjusteraren presterade bättre än sin låghastighetsmotpart i alla idrottsuppgifter. GPT-4o och Gemini-1.5-Pro utvärderades också på NBA och SoccerNet QA, där inomdomänsträning inte krävdes.

På FineGym, som mäter gymnastikåtgärdsigenkänning, presterade F-16 13,8% bättre än den tidigare 7B SOTA-modellen, vilket visar en förbättrad fin-granulär rörelseförståelse.

Diving48 krävde identifiering av komplexa rörelsesekvenser som start, somersault, twist och flight-faser, och F-16 visade högre noggrannhet i att känna igen dessa övergångar.

För SoccerNet analyserade modellen 10-sekundersklipp, identifierade bollpassningar, och resultaten visade en förbättring jämfört med befintliga 7B-modeller, vilket indikerar att högre FPS bidrar till att spåra små och snabba rörelser.

I NBA-dataset nådde F-16:s förmåga att bestämma skottresultat en noggrannhet som var jämförbar med större proprietära modeller som GPT-4o och Gemini-1.5-Pro, vilket ytterligare tyder på att högre bildhastighet förbättrar dess förmåga att bearbeta dynamisk rörelse.

Variabel bildhastighet

F-16 testades vid olika bildhastigheter för att mäta dess anpassningsförmåga. Istället för omträning, hanterade den lägre FPS genom att upprepa bilder för att matcha justerarens inmatningsstruktur. Detta tillvägagångssätt bevarade mer prestanda än att enkelt ta bort bilder, som riskerar att orsaka noggrannhetsförlust.

Resultaten visar att även om reducering av FPS hade viss inverkan på rörelseigenkänning, presterade F-16 fortfarande bättre än låghastighetsmodeller och behöll starka resultat, även under 16 FPS.

Vänster, tidsåtgång för olika F-16-moduler under inferens, mätt på 300 videor från Video-MME Long-uppsättningen vid varierande test-FPS och sekvenslängder. Höger, en jämförelse mellan Video-MME-prestanda för modeller som tränats och testats vid olika FPS. Den heldragna linjen representerar modeller som tränats och testats vid samma FPS, medan den streckade linjen visar prestanda när en modell tränad vid 16 FPS testas vid en lägre bildhastighet.

F-16:s höghastighetsbearbetning ökade beräkningskraven, även om dess justerare hjälpte till att hantera dessa kostnader genom att komprimera redundanta visuella token.

Modellen krävde fler FLOP per video än låghastighetsmodeller, men uppnådde också bättre noggrannhet per token, vilket tyder på att dess bildval och token-komprimeringsstrategier hjälpte till att kompensera den ökade beräkningen.

Slutsats

Det är svårt att överdriva antingen vikten eller utmaningarna i denna specifika forskningssträng – särskilt detta år, som förväntas vara genombrottsåret för generativ video, och som kastar video-dataset-samling och undertextkvalitet i skarp relief.

Det bör också betonas att utmaningarna i att få korrekta beskrivningar av interna videoinformation inte kan lösas uteslutande genom att kasta VRAM, tid eller diskutrymme på problemet. Metoden för att isolera/utvinna händelser från annars långa och tråkiga videoavsnitt (som i golf- eller snookervideoklipp, till exempel) kommer att dra nytta av en omprövning av de semantiska tillvägagångssätten och mekanismerna som för närvarande dominerar SOTA-lösningar – eftersom några av dessa begränsningar etablerades under mer resursfattiga tider.

(förresten, även om 16fps kan verka som en mycket låg bildhastighet för 2025, är det intressant att notera att detta också är den naturliga träningshastigheten för video-klipp som används i den mycket populära Wan 2.1 generativa videomodell, och den hastighet vid vilken den därför opererar med minst problem. Förhoppningsvis kommer forskningsscenen att hålla ett öga på möjlig “standardentropi” här; ibland kan föråldrade begränsningar perpetuera framtida standarder)

Publicerad första gången onsdag, 19 mars 2025