Andersons hoek
De uitdaging van het ondertitelen van video’s met meer dan 1fps

De mogelijkheid voor machine learning-systemen om de gebeurtenissen die zich binnen een video afspelen te herkennen, is cruciaal voor de toekomst van AI-gebaseerde videogeneratie – niet in de laatste plaats omdat videodatasets nauwkeurige ondertiteling vereisen om modellen te produceren die voldoen aan een gebruikersverzoek en die niet excessief hallucineren.

Een voorbeeld van een ondertitelingsschema van het VidReCap-project van Google. Bron: https://sites.google.com/view/vidrecap
Het handmatig ondertitelen van de hoeveelheid video’s die nodig is voor effectieve trainingsdatasets is een onaanvaardbaar vooruitzicht. Hoewel het mogelijk is om AI-systemen te trainen om video’s automatisch te ondertitelen, zijn nog steeds veel door mensen gegenereerde voorbeelden nodig als grondwaarheid, voor variatie en dekking.
Belangrijker nog, bijna elk huidig AI-gebaseerd videocaptioneringsmodel werkt bij 1fps, wat niet een dichte genoeg capture-rate is om variaties in veel scenario’s te onderscheiden: plotselinge micro-uitdrukkingsveranderingen voor emotieherkenningsystemen; snelle gebeurtenissen in hoge-snelheidssporten zoals basketbal; gewelddadige bewegingen; snelle cuts in dramatische films, waar systemen zoals PySceneDetect mogelijk niet in staat zijn om ze te identificeren (of worden niet gebruikt); en veel andere scenario’s waarin het venster van aandacht duidelijk intenser moet zijn.
Klik om af te spelen. Snel maar levensveranderend actie in wat anders een van de langzaamste sporten ter wereld kan zijn, als Alex Higgins het wereldkampioenschap wint tegen Ray Reardon in 1982. Bron: https://www.youtube.com/watch?v=_1PuqKno_Ok
Snel bewegen en logica breken
Deze lage snelheid is de standaard voor verschillende logistieke redenen. Ten eerste is videocaptionering een resource-intensieve activiteit, of het systeem nu één opeenvolgende frame per keer bestudeert of verschillende methoden gebruikt om semantisch samenhangende frame-reeksen om te zetten in een interpreteerbare caption-reeks. In beide gevallen is het context-venster onvermijdelijk beperkt door hardware-beperkingen.
Een andere reden voor 1fps als huidige standaard is dat video’s niet algemeen vol zitten met snelle gebeurtenissen; het is daarom overbodig om 300 frames van een statische snookertafel dezelfde aandacht te geven als de split-second waarin een gepotde zwarte bal het kampioenschap wint (zie bovenstaand voorbeeld).
Het is mogelijk om bredere secundaire hints te gebruiken om cruciale momenten in een sportvideo te identificeren, zoals de duurzame reactie van het publiek op een snelle dunk in een basketbalwedstrijd. Echter, dergelijke hints kunnen om andere redenen optreden (zoals onverwachte spelerblessures), en kunnen niet worden vertrouwd. Dit is een voorbeeld van hoe een verkeerd gelabelde videodataset kan leiden tot een generatief videomodel dat hallucineert of instructies verkeerd interpreteert, d.w.z. omdat het model mogelijk een spelerblessure laat zien wanneer het werd gevraagd om een dunk te genereren (omdat de ‘secundaire hint’ van opwinding van het publiek niet exclusief was voor een specifiek type gebeurtenis).
Dit is op veel manieren een ‘budgettaire’ probleem, en op andere manieren een procedureel probleem. Frameworks tot nu toe hebben gewerkt op het principe dat schaarse keyframes essentiële informatie effectief kunnen vastleggen, maar dit is meer effectief in het vaststellen van genre en andere facetten van een video’s onderwerp, aangezien bewijs in dat geval over meerdere frames heen bestaat.
F-16
Een nieuw artikel uit China biedt een oplossing, in de vorm van het eerste multimodale grote taalmodel (MLLM, of gewoon LLM) dat video analyseert bij 16fps in plaats van de standaard 1fps, terwijl het de grote valkuilen van het verhogen van de analyse-snelheid vermijdt.
In tests claimen de auteurs dat het nieuwe systeem, getiteld F-16, beter presteert dan propriëtaire state-of-the-art-modellen zoals GPT-4o en Google’s Gemini-1.5 pro. Terwijl andere huidige modellen in staat waren om F-16’s resultaten in tests te evenaren of te overtreffen, waren de concurrerende modellen veel groter en onhandiger.
Hoewel F-16 was getraind op serieus hardware (zoals we spoedig zullen onderzoeken), is inferentie meestal veel minder veeleisend dan training. Daarom kunnen we hopen dat de code (beloofd voor een nabije toekomstige release) in staat zal zijn om te draaien op middel- of hoogwaardige domestic GPUs.
Wat nodig is voor de vitaliteit van de hobbyist-scene (en dat omvat de professionele VFX-scene, meestal) is een videocaptioneringsmodel van deze soort dat kan werken, misschien gequantiseerd, op consumentensystemen, zodat de hele generatieve videoscene niet migreert naar API-gebaseerde commerciële systemen, of consumenten dwingt om lokale frameworks aan te sluiten op commerciële online GPU-diensten.
Verdergaan dan schalen
De auteurs merken op dat deze soort aanpak een praktische alternatief is voor het schalen van datasets. Men kan ook afleiden dat, als men meer data aan het probleem zou gaan toevoegen, dit nog steeds de soort aanpak zou kunnen zijn die de voorkeur heeft, omdat het nieuwe systeem gebeurtenissen op een meer granulaire manier onderscheidt.
Zij verklaren:
‘Laag frame-snelheid monsters kunnen leiden tot kritische visuele informatieverlies, vooral in video’s met snel veranderende scènes, ingewikkelde details of snelle bewegingen. Bovendien, als keyframes worden gemist, maar het model is getraind op labels die afhankelijk zijn van keyframe-informatie, kan het worstelen om zijn voorspellingen te laten aansluiten bij de verwachte inhoud, wat mogelijk leidt tot hallucinaties en achteruitgang van de prestaties…
‘… F-16 bereikt SOTA-prestaties in algemene video QA onder modellen van vergelijkbare grootte en toont een duidelijke voorsprong in high-frame-rate video-begrip, waarbij het commerciële modellen zoals GPT-4o overtreft. Dit werk opent nieuwe richtingen voor het verbeteren van high-frame-rate video-begrip in multimodale LLM-onderzoek.’
Het nieuwe artikel is getiteld Verbetering van LLM Video-begrip met 16 frames per seconde, en komt van acht auteurs uit Tsinghua University en ByteDance.
Methode
Aangezien opeenvolgende frames vaak redundantie-informatie bevatten, past F-16 een high-frame-rate aligner toe om key motion-details samen te persen en te coderen, terwijl visuele semantiek behouden blijft. Elk frame wordt eerst verwerkt door een pre-getrainde image-encoder, die functie-representaties extraheren voordat het wordt doorgegeven aan een aligner op basis van Gaussian Error Linear Units (GELUs).

F-16’s architectuur verwerkt video bij 16 FPS, waardoor meer frames worden vastgelegd dan traditionele low-frame-rate-modellen, en de high-frame-rate aligner behoudt visuele semantiek terwijl het efficiënt motion-dynamica codeert zonder extra visuele tokens toe te voegen. Bron: https://arxiv.org/pdf/2503.13956
Om de verhoogde frame-telling efficiënt te verwerken, groepeert F-16 frames in kleine verwerkingsvensters, waarbij visuele functies worden samengevoegd met behulp van een driedelige Multi-Layer Perceptron (MLP), waardoor alleen de meest relevante motion-details worden behouden, en onnodige duplicatie wordt verminderd, terwijl de temporele stroom van acties behouden blijft. Een spatiale max-pooling-laag comprimeert de token-telling verder, waardoor de berekeningskosten binnen de perken blijven.
De verwerkte video-tokens worden vervolgens doorgegeven aan de Qwen2-7B LLM, die tekstuele antwoorden genereert op basis van de geëxtraheerde visuele functies en een gegeven gebruikersprompt.
Door video-invoer op deze manier te structureren, stelt F-16, zoals de auteurs beweren, meer precieze gebeurtenisherkenning in dynamische scènes mogelijk, terwijl het nog steeds efficiënt blijft.
Het korte verhaal
F-16 breidt een pre-getraind beeld LLM, LLaVA-OneVision, uit om video te verwerken door de visuele invoerpijplijn te transformeren. Terwijl standaard beeld LLM’s geïsoleerde frames verwerken, hervormt F-16’s high-frame-rate aligner meerdere frames in een formaat dat het model efficiënter kan verwerken; dit voorkomt dat het systeem wordt overweldigd door redundante informatie, terwijl het belangrijke motion-cues nodig voor nauwkeurig video-begrip behoudt.
Om compatibiliteit met zijn beeld-gebaseerde fundament te garanderen, herstructureert F-16 zijn aligner in sub-matrices. Deze aanpak stelt het in staat om kennis van single-frame-modellen te hergebruiken, terwijl het zich aanpast aan opeenvolgende video-invoer.
De aligner comprimeert eerst frame-reeksen in een formaat dat is geoptimaliseerd voor de LLM, waarbij de meest informatieve functies worden behouden en onnodige details worden weggegooid. De architectuurontwerp stelt het systeem in staat om high-frame-rate video te verwerken, terwijl het de berekeningskosten onder controle houdt, wat de auteurs aanvoeren als bewijs dat schalen niet de enige (of de beste) manier is om video-ondertiteling vooruit te helpen.
Wisselend tempo
Aangezien het verwerken van video bij 16 FPS de motion-begrip verbetert, maar de berekeningskosten verhoogt, vooral tijdens inferentie, introduceert F-16 een variable-frame-rate decoding-methode, waardoor het frame-snelheid dynamisch kan aanpassen zonder opnieuw te trainen.

De single-frame en high frame rate aligners beschikbaar voor F-16.
Deze flexibiliteit stelt het model in staat om efficiënt te werken bij lagere FPS wanneer hoge precisie niet nodig is, en vermindert de berekeningskosten.
Tijdens de test, wanneer een lagere frame-snelheid is geselecteerd, hergebruikt F-16 eerder getrainde aligner-parameters door invoerframes te herhalen om de verwachte dimensies te matchen. Dit zorgt ervoor dat het model nog steeds effectief video kan verwerken zonder zijn architectuur te wijzigen.
In tegenstelling tot naive downsampling (d.w.z. simpelweg frames verwijderen), die het risico loopt om kritische motion-details te verliezen, behoudt deze methode de geleerde motion-representaties van de aligner, waardoor de nauwkeurigheid behouden blijft, zelfs bij verlaagde frame-snelheden. Voor algemene video-begrip kan een lagere FPS-instelling de inferentie versnellen zonder significante prestatieverlies, terwijl high-speed motion-analyse nog steeds de volledige 16 FPS-mogelijkheid kan benutten.
Gegevens en tests
Gebouwd op Qwen2-7B, breidt FP-16 LLaVA-OneVision uit met SigLIP als image-encoder. Met video-frames bemonsterd bij 16 FPS, kunnen maximaal 1.760 frames worden verkregen uit elke video. Voor langere video-clips werden frames uniform (d.w.z. minder dicht) bemonsterd.
Voor training gebruikte F-16 dezelfde algemene video-datasets als LLaVA-Video, waaronder LLaVA-Video-178K, NExT-QA, ActivityNet-QA, en PerceptionTest.
F-16 werd bovendien fijngesteld op de high-speed sports-datasets FineGym, Diving48, en SoccerNet. De auteurs hebben ook een collectie van 276 NBA-wedstrijden samengesteld die werden gespeeld tussen 13 en 25 november 2024, met als focus of een schot succesvol was (een taak die high-frame-rate-verwerking vereist).
Het model werd geëvalueerd met behulp van de NSVA test set, met prestaties gemeten door F1 score.
Gymnastiek- en duikmodellen werden geëvalueerd op basis van gebeurtenisherkenning-nauwkeurigheid, terwijl voetbal- en basketbalmodellen passes en schot-uitkomsten volgden.
Het model werd getraind voor 1 epoch met behulp van 128 NVIDIA H100 GPUs (en bij een standaard VRAM van 80GB per GPU, was dit het gebruik van 10,24 terabytes aan GPU-geheugen; zelfs volgens recente normen is dit het hoogste gespecificeerde GPU-cluster dat ik persoonlijk ben tegengekomen in het bijhouden van computer vision-onderzoeksliteratuur). Een leer tempo van 2×10⁻⁵ werd gebruikt tijdens de training.
Bovendien werd een LoRA fijngesteld op sportsdata met LoRA-adapters met 64 GPUs voor 5 epochs. Hier werd alleen het LLM getraind, waarbij de image-encoder bevroren bleef.
Concurrerende frameworks getest in de eerste ronde voor ‘algemene video-begrip’ waren GPT-4o; Gemini-1.5-Pro; Qwen2-VL-7B; VideoLLaMA2-7B; VideoChat2-HD-7B; LLaVA-OV-7B; MiniCPM-V2.6-8B; LLaVA-Video-7B; en NVILA-7B;
De modellen werden geëvalueerd op Video-MME; VideoVista; TemporalBench; MotionBench; Next-QA; MLVU; en LongVideoBench.

Vergelijking van video QA-resultaten over modellen, met FPS-limieten en prestaties op meerdere benchmarks. F-16 bereikt SOTA onder 7B-modellen op Video-MME, NQA, TPB en MB, en evenaart propriëtaire modellen zoals GPT-4o en Gemini-1.5-Pro.
Van deze resultaten zeggen de auteurs:
‘Op de Video-MME Short, Medium en NeXT-QA-datasets—elk ontworpen voor short video-begrip—overstijgt ons model het vorige 7B SOTA-model met 3,2%, 1,0% en 0,9% in nauwkeurigheid, waarmee het zijn sterke prestaties op korte video’s onderstreept.
‘Voor benchmarks die lange video-begrip evalueren, zoals Video-MME Long, LongVideoBench en MLVU, is de uitdaging groter vanwege de sparser frame-bemonstering, waardoor frames binnen het verwerkingsvenster meer significante variaties vertonen.
‘Dit verhoogt de moeilijkheid voor de modality aligner om effectief temporele veranderingen binnen de beperkte token-representatie te coderen. Als gevolg daarvan ervaart F-16 een lichte prestatie-daling in vergelijking met [LLaVA-Video-7B], die getraind is op dezelfde video-dataset.’
F-16’s high-frame-rate verwerking resulteerde ook in een verbetering van 13,5% op TemporalBench en een winst van 2,5% op MotionBench, in vergelijking met bestaande 7B-modellen, en presteerde op een vergelijkbaar niveau als propriëtaire modellen zoals GPT-4o en Gemini-1.5-Pro.
High-speed sports video-begrip
F-16 werd getest op FineGym, Diving48, SoccerNet en NBA-datasets om zijn vermogen om high-speed sports-acties te begrijpen te evalueren.
Met behulp van de 10.000 handmatig geannoteerde NBA-clips, richtte de training zich op balbewegingen en speleracties, en of de modellen correct konden bepalen of een schot succesvol was, met behulp van de NSVA test set geëvalueerd met F1 score.

Resultaten van high-speed sports video-analyse. F-16 met de high-frame-rate aligner presteerde beter dan zijn low-frame-rate-tegenhanger op alle sporttaken. GPT-4o en Gemini-1.5-Pro werden ook geëvalueerd op NBA en SoccerNet QA, waarbij in-domain trainingskennis niet nodig was.
Op FineGym, dat gymnastiekactieherkenning meet, presteerde F-16 13,8% beter dan het vorige 7B SOTA-model, waarmee het een verbeterde fijne motion-begrip aantoonde.
Diving48 vereiste het identificeren van complexe bewegingssequenties zoals opstijgen, somersault, twist en vliegen-fasen, en F-16 toonde een hogere nauwkeurigheid in het herkennen van deze overgangen.
Voor SoccerNet analyseerde het model 10-seconde clips, waarbij het balpasses identificeerde, en de resultaten toonden een verbetering ten opzichte van bestaande 7B-modellen, wat aangeeft dat een hogere FPS bijdraagt aan het volgen van kleine en snelle bewegingen.
In de NBA-dataset naderde F-16’s vermogen om schot-uitkomsten te bepalen de nauwkeurigheid van grotere propriëtaire modellen zoals GPT-4o en Gemini-1.5-Pro, wat verder suggereert dat een hogere frame-snelheid zijn vermogen om dynamische bewegingen te verwerken verbetert.
Variable frame-rates
F-16 werd getest bij verschillende frame-snelheden om zijn aanpasbaarheid te meten. In plaats van opnieuw te trainen, verwerkte het lagere frame-snelheden door frames te herhalen om de aligner’s invoerstructuur te matchen. Deze aanpak behield meer prestaties dan het eenvoudigweg verwijderen van frames (wat het risico loopt om nauwkeurigheid te verliezen).
De resultaten geven aan dat, hoewel het verlagen van de frame-snelheid enige invloed had op motion-herkenning, F-16 nog steeds beter presteerde dan low-frame-rate-modellen en sterke resultaten behield, zelfs onder 16 FPS.

Links, de tijd die nodig is voor verschillende F-16-modules tijdens inferentie, gemeten op 300 video’s uit de Video-MME Long-set bij verschillende test-FPS en sequentielengtes. Rechts, een vergelijking tussen Video-MME-prestaties voor modellen getraind en getest bij verschillende FPS. De solide lijn vertegenwoordigt modellen getraind en getest bij hetzelfde FPS, terwijl de gestippelde lijn de prestaties aangeeft wanneer een model getraind bij 16 FPS wordt getest bij een lagere frame-snelheid.
F-16’s high-frame-rate verwerking verhoogde de berekeningsvereisten, hoewel zijn aligner hielp om deze kosten te beheersen door redundante visuele tokens te comprimeren.
Het model vereiste meer FLOPs per video dan low-frame-rate-modellen, maar bereikte ook betere nauwkeurigheid per token, wat suggereert dat zijn frame-selectie- en token-compressie-strategieën hielpen om de extra berekening te compenseren.
Conclusie
Het is moeilijk om de belangrijkheid of de uitdagingen van dit specifieke onderzoeksgebied te overschatten – vooral dit jaar, dat het doorbraakjaar voor generatieve video zal zijn, waardoor de tekortkomingen van video-datasetcuratie en ondertitelingkwaliteit in scherp relief worden geplaatst.
Het moet ook worden benadrukt dat de uitdagingen die zijn verbonden aan het verkrijgen van nauwkeurige beschrijvingen van interne video-details niet uitsluitend kunnen worden opgelost door VRAM, tijd of schijfruimte aan het probleem toe te voegen. De methode waarop gebeurtenissen worden geïsoleerd/uitgepakt uit anders lange en saaie stukken video (zoals golf- of snooker-video’s, bijvoorbeeld) zal profiteren van een heroverweging van de semantische benaderingen en mechanismen die momenteel de SOTA-oplossingen domineren – omdat sommige van deze beperkingen zijn vastgesteld in meer resource-arme tijden.
(incidenteel, zelfs als 16fps een zeer lage frame-snelheid lijkt voor 2025, is het interessant om op te merken dat dit ook de native trainingsnelheid is van video-clips die worden gebruikt in het enorm populaire Wan 2.1 generatief videomodel, en de snelheid waarmee het daarom werkt met de minste problemen. Hopelijk zal het onderzoeksgebied een oogje houden op mogelijke ‘standaard-entropie’ hier; soms kunnen verouderde beperkingen toekomstige standaarden in stand houden)
Eerst gepubliceerd op woensdag 19 maart 2025












