Anderson's hoek
De uitdaging van het ondertitelen van video's met meer dan 1 fps

Het vermogen van machine learning-systemen om de gebeurtenissen te herkennen die zich in een video voordoen, is cruciaal voor de toekomst van op AI gebaseerde videogeneratie – niet in de laatste plaats omdat videodatasets nauwkeurige ondertitels vereisen om modellen te produceren die voldoen aan de verzoeken van een gebruiker en die niet overmatig hallucineren.

Een voorbeeld van een ondertitelingsschema uit het VidReCap-project van Google. Bron: https://sites.google.com/view/vidrecap
Het handmatig ondertitelen van de omvang van video's die nodig zijn voor effectieve trainingsdatasets is een onaanvaardbaar vooruitzicht. Hoewel het mogelijk is om AI-systemen te trainen om video's automatisch van ondertitels te voorzien, zijn er nog steeds veel door mensen gegenereerde voorbeelden nodig als grondwaarheid, voor variatie en dekking.
Wat nog belangrijker is, is dat bijna elk huidig AI-gebaseerd video-ondertitelingsmodel werkt op 1 fps, wat niet een voldoende hoge opnamesnelheid is om variaties in een groot aantal scenario's te kunnen onderscheiden: plotselinge veranderingen in micro-expressies voor emotieherkenningssystemen; snelle gebeurtenissen in snelle sporten zoals basketbal; heftige bewegingen; snelle overgangen in dramatische films, waarbij systemen zoals PySceneDetect kunnen ze mogelijk niet identificeren (of worden niet gebruikt); en vele andere scenario's waarin het aandachtsvenster duidelijk intenser moet zijn.
Klik om te spelen. Snelle maar levensveranderende actie in een van de langzaamste sporten ter wereld, als Alex Higgins in 1982 het wereldkampioenschap wint van Ray Reardon. Bron: https://www.youtube.com/watch?v=_1PuqKno_Ok
Beweeg snel en breek met logica
Dit lage tarief is de standaard om verschillende logistieke redenen. Ten eerste is video-ondertiteling een resource-intensieve activiteit, of het systeem nu één sequentieel frame per keer bestudeert, of anders verschillende methoden gebruikt om een reeks frames semantisch te cohereren tot een interpreteerbare ondertitelingssequentie. In beide gevallen is de contextvenster wordt onvermijdelijk beperkt door hardwarebeperkingen.
Een andere reden waarom 1 fps de huidige standaard is, is dat video's over het algemeen niet vol zitten met snelle gebeurtenissen. Het is daarom overbodig om 300 frames van een statische snookertafel dezelfde aandacht te geven als de fractie van een seconde waarin een gepotte zwarte bal het kampioenschap wint (zie het voorbeeld hierboven).
Het is mogelijk om bredere secundaire aanwijzingen te gebruiken om cruciale momenten in een sportvideo te identificeren, zoals de aanhoudende reactie van het publiek op een snelle slam-dunk in een basketbalwedstrijd. Dergelijke aanwijzingen kunnen echter ook om andere redenen voorkomen (zoals onverwachte blessures van spelers) en zijn niet betrouwbaar. Dit is een voorbeeld van hoe een verkeerd gelabelde videodataset kan leiden tot een generatief videomodel dat hallucineert of instructies verkeerd interpreteert, bijvoorbeeld omdat het model een blessure van een speler zou kunnen laten zien toen het werd gevraagd een slam-dunk te genereren (omdat de 'secundaire aanwijzing' van agitatie van het publiek niet exclusief was voor één specifiek type gebeurtenis).
Dit is in veel opzichten een 'budgettair' probleem, en in andere opzichten een procedureel probleem. Frameworks werkten tot nu toe volgens het principe dat spaarzame keyframes essentiële informatie effectief kunnen vastleggen, maar dit is effectiever bij het vaststellen van het genre en andere aspecten van het onderwerp van een video, omdat bewijs in dat geval over meerdere frames heen blijft bestaan.
F-16
Een nieuw artikel uit China biedt een oplossing in de vorm van het eerste multimodale grote taalmodel (MLLM, of kortweg LLM) dat video kan analyseren bij 16 fps in plaats van de standaard 1 fps, terwijl de grootste valkuilen van het verhogen van de analysesnelheid worden vermeden.
In tests beweren de auteurs dat het nieuwe systeem, getiteld F-16presteert beter dan gepatenteerde state-of-the-art modellen zoals de GPT-4o en Google's Gemini-1.5 Pro. Hoewel andere huidige modellen de resultaten van de F-16 tijdens tests konden evenaren of overtreffen, waren de concurrerende modellen veel groter en onhandiger.
Hoewel de F-16 is getraind op serieuze hardware (zoals we zo meteen zullen zien), is inferentie doorgaans veel minder veeleisend dan training. We kunnen daarom hopen dat de code (die binnenkort wordt uitgebracht) geschikt zal zijn voor gebruik op middelgrote of hoogwaardige binnenlandse GPU's.
Wat nodig is voor de vitaliteit van de hobbyscene (en dat geldt meestal ook voor de professionele VFX-scene) is een video-ondertitelingsmodel van dit soort dat kan functioneren, misschien gekwantiseerd, op consumentensystemen, zodat de volledige generatieve videoscène niet naar API-gebaseerde commerciële systemen migreert, of consumenten dwingt om lokale frameworks aan commerciële online GPU-services te koppelen.
Verder dan opschalen
De auteurs merken op dat dit soort aanpak een praktisch alternatief is voor het opschalen van datasets. Men kan ook afleiden dat als je meer data naar het probleem zou gooien, dit nog steeds het soort aanpak is dat de voorkeur zou kunnen hebben, omdat het nieuwe systeem gebeurtenissen op een meer gedetailleerde manier onderscheidt.
Ze verklaren:
'Lage frame rate sampling kan leiden tot kritiek verlies van visuele informatie, met name in video's met snel veranderende scènes, ingewikkelde details of snelle bewegingen. Als keyframes worden gemist, maar het model is getraind op labels die afhankelijk zijn van keyframe-informatie, kan het bovendien moeite hebben om zijn voorspellingen af te stemmen op de verwachte content, wat mogelijk leidt tot hallucinaties en slechtere prestaties...
'… De F-16 presteert beter dan modellen van vergelijkbare omvang op het gebied van algemene videokwaliteitscontrole dan modellen en toont een duidelijk voordeel in het begrijpen van video met hoge framesnelheid, waarmee het commerciële modellen zoals de GPT-4o overtreft. Dit werk opent nieuwe wegen voor het verbeteren van het begrijpen van video met hoge framesnelheid in multimodaal LLM-onderzoek.'
Ocuco's Medewerkers nieuw papier is getiteld Verbeteren LLM Videobegrip met 16 frames per secondeen is afkomstig van acht auteurs van de Tsinghua Universiteit en ByteDance.
Methode
Omdat opeenvolgende frames vaak redundante informatie bevatten, past F-16 een high-frame-rate aligner toe om belangrijke bewegingsdetails te comprimeren en te coderen, terwijl de visuele semantiek behouden blijft. Elk frame wordt eerst verwerkt door een vooraf getrainde beeld-encoder, waarbij feature-representaties worden geëxtraheerd voordat het wordt doorgegeven aan een aligner op basis van Gaussische fout lineaire eenheden (GELU's).

De architectuur van de F-16 verwerkt video met 16 FPS, waardoor er meer frames worden vastgelegd dan bij traditionele modellen met een lage framesnelheid. De uitlijner met een hoge framesnelheid behoudt bovendien de visuele semantiek en codeert tegelijkertijd efficiënt de bewegingsdynamiek zonder dat er extra visuele tokens worden toegevoegd. Bron: https://arxiv.org/pdf/2503.13956
Om het toegenomen aantal frames efficiënt te verwerken, groepeert F-16 frames in kleine verwerkingsvensters, waarbij visuele kenmerken worden samengevoegd met behulp van een drielaags Meerlaagse Perceptron (MLP), waardoor alleen de meest relevante bewegingsdetails behouden blijven en onnodige duplicatie wordt verminderd, terwijl de temporele stroom van acties behouden blijft. Een ruimtelijke max-pooling laag comprimeert het aantal tokens verder, waardoor de rekenkosten binnen de perken blijven.
De verwerkte videotokens worden vervolgens in de Qwen2-7B LLM, dat tekstuele reacties genereert op basis van de geëxtraheerde visuele kenmerken en een gegeven gebruikersprompt.
Door de video-invoer op deze manier te structureren, maakt F-16 volgens de auteurs een nauwkeurigere gebeurtenisherkenning in dynamische scènes mogelijk, terwijl de efficiëntie toch behouden blijft.
De korte versie
F-16 breidt een voorgeprogrammeerde LLM-afbeelding uit, LLaVA-OneVision, om video te verwerken door de visuele invoerpijplijn te transformeren. Terwijl standaard beeld-LLM's geïsoleerde frames verwerken, herformatteert de high-framerate aligner van de F-16 meerdere frames naar een vorm die het model efficiënter kan verwerken; dit voorkomt dat het systeem wordt overladen met redundante informatie, terwijl belangrijke bewegingssignalen die nodig zijn voor een nauwkeurige video-interpretatie behouden blijven.
Om de compatibiliteit met zijn op afbeeldingen gebaseerde basis te garanderen, hergebruikt F-16 vooraf getrainde parameters door zijn aligner te herstructureren in submatricesDeze aanpak maakt het mogelijk om kennis uit single-frame modellen te integreren en tegelijkertijd aan te passen aan sequentiële video-invoer.
De aligner comprimeert eerst framesequenties tot een formaat dat is geoptimaliseerd voor de LLM, waarbij de meest informatieve functies worden behouden en onnodige details worden weggelaten. Het architectuurontwerp stelt het systeem in staat om video met een hoge framesnelheid te verwerken en tegelijkertijd de rekenkundige eisen onder controle te houden, wat de auteurs als bewijs aanvoeren dat schalen niet de enige (of de beste) manier is om video-ondertiteling te maken.
Het tempo variëren
Omdat het verwerken van video met 16 FPS het begrip van bewegingen verbetert, maar de rekenkosten verhoogt, met name tijdens het redeneren, introduceert F-16 een variabele-frame-rate decodering methode, waardoor de framesnelheid dynamisch kan worden aangepast zonder dat er opnieuw getraind hoeft te worden.

De single-frame- en high-frame rate-aligners die beschikbaar zijn voor de F-16.
Dankzij deze flexibiliteit kan het model efficiënt werken bij lagere FPS wanneer hoge precisie niet vereist is, en wordt de rekenkundige overhead verminderd.
Tijdens de testtijd, wanneer een lagere framesnelheid wordt geselecteerd, hergebruikt F-16 eerder getrainde alignerparameters door invoerframes te herhalen om te voldoen aan de verwachte afmetingen. Dit zorgt ervoor dat het model nog steeds effectief video kan verwerken zonder de architectuur te wijzigen.
In tegenstelling tot naïeve downsampling (d.w.z. het simpelweg verwijderen van frames), waarbij het risico bestaat dat kritieke bewegingsdetails verloren gaan, behoudt deze methode de geleerde bewegingsrepresentaties van de aligner, waardoor de nauwkeurigheid zelfs bij lagere framesnelheden behouden blijft. Voor algemene videobegrip kan een lagere FPS-instelling de inferentie versnellen zonder significant prestatieverlies, terwijl high-speed bewegingsanalyse nog steeds de volledige 16 FPS-capaciteit kan benutten.
Gegevens en testen
Gebouwd op Qwen2-7B, breidt FP-16 LLaVA-OneVision uit met behulp van SigLIP als een beeld-encoder. Met videoframes gesampled op 16 FPS, kunnen tot 1,760 frames worden verkregen uit elke video. Voor langere videoclips werden frames uniform (d.w.z. spaarzamer) gesampled.
Voor de training gebruikte F-16 dezelfde algemene videodatasets als LLaVA-Video, waaronder LLaVA-Video-178K, Volgende-QA, ActivityNet-QAen PerceptieTest.
F-16 werd bovendien verfijnd op basis van de datasets over snelle sportwedstrijden FijneGym, Duiken48en VoetbalNetDe auteurs hebben ook een verzameling samengesteld van 276 NBA-wedstrijden die tussen 13 en 25 november 2024 zijn gespeeld, waarbij de nadruk lag op de vraag of een schot succesvol was (een taak die verwerking met een hoge framesnelheid vereist).
Het model werd geëvalueerd met behulp van de NSVA-testset, met prestaties gemeten door F1-score.
Gymnastiek- en duikmodellen werden geëvalueerd op basis van de nauwkeurigheid van de herkenning van onderdelen, terwijl voetbal- en basketbalmodellen de uitkomsten van passes en schoten bijhielden.
Het model is getraind voor 1 tijdperk gebruik 128 NVIDIA H100 GPU's (en met een standaard 80 GB VRAM per GPU, betekende dit het gebruik van 10,24 terabytes aan GPU-geheugen; zelfs naar recente normen is dit het GPU-cluster met de hoogste specificaties dat ik persoonlijk ben tegengekomen in mijn zoektocht naar literatuur over computer vision-onderzoek). leersnelheid van 2×10⁻⁵ werd gebruikt tijdens de training.
Bovendien, een LoRA werd verfijnd op sportgegevens gebruikte LoRA-adapters met 64 GPU's gedurende 5 tijdperken. Hier werd alleen de LLM getraind, waardoor de beeld-encoder bevroren.
De tegenovergestelde frameworks die in de eerste ronde voor 'algemeen videobegrip' werden getest, waren GPT-4o; Gemini-1.5-Pro; Qwen2-VL-7B; VideoLLaMA2-7B; VideoChat2-HD-7B; LLaVA-OV-7B; MiniCPM-V2.6-8B; LLaVA-Video-7Bund NVILA-7B;
De modellen werden beoordeeld op Video-MME; VideoVista; Tijdelijke bank; Bewegingsbank; Volgende-QA; MLVUund LangeVideoBench.

Vergelijking van video-QA-resultaten tussen modellen, met FPS-limieten en prestaties op meerdere benchmarks. F-16 behaalt SOTA tussen 7B-modellen op Video-MME, NQA, TPB en MB, en concurreert met gepatenteerde modellen zoals GPT-4o en Gemini-1.5-Pro.
Over deze resultaten stellen de auteurs:
'Op de Video-MME Short, Medium en NeXT-QA datasets, die elk zijn ontworpen voor het begrijpen van korte video's, overtreft ons model het vorige 7B SOTA-model met 3.2%, 1.0% en 0.9% in nauwkeurigheid, wat de sterke prestaties op korte video's onderstreept.
'Bij benchmarks die het begrip van lange videobeelden evalueren, zoals Video-MME Long, LongVideoBench en MLVU, is de uitdaging groter vanwege de beperktere framebemonstering, waardoor frames binnen het verwerkingsvenster grotere variaties vertonen.
'Dit vergroot de moeilijkheid voor de modaliteitsaligner om temporele veranderingen binnen de beperkte tokenrepresentatie effectief te coderen. Als gevolg hiervan ervaart de F-16 een lichte prestatiedaling ten opzichte van [LLaVA-Video-7B], die op dezelfde videodataset is getraind.'
De auteurs stellen dat de verwerking met hoge framesnelheid van de F-16 ook resulteerde in een verbetering van 13.5% op TemporalBench en een winst van 2.5% op MotionBench, vergeleken met bestaande 7B-modellen. Bovendien presteerde de processor op een vergelijkbaar niveau als commerciële modellen zoals de GPT-4o en Gemini-1.5-Pro.
Begrip van hogesnelheidssportvideo's
F-16 werd getest op FineGym, Diving48, SoccerNet en NBA-datasets om te evalueren in hoeverre het toestel snelle sportacties kan begrijpen.
Met behulp van de 10,000 handmatig geannoteerde NBA-clips richtte de training zich op de balbeweging en de acties van de spelers. Ook werd gekeken of de modellen correct konden bepalen of een schot succesvol was. Hierbij werd gebruikgemaakt van de NSVA-testset, geëvalueerd met de F1-score.

Resultaten van high-speed sportvideo-analyse. F-16 met de high-frame-rate aligner presteerde beter dan zijn low-frame-rate tegenhanger in alle sporttaken. GPT-4o en Gemini-1.5-Pro werden ook geëvalueerd op NBA en SoccerNet QA, waar in-domain trainingskennis niet vereist was.
Op FineGym, een meetinstrument voor het herkennen van gymnastiekacties, presteerde de F-16 13.8% beter dan het vorige 7B SOTA-model, wat een beter begrip van de gedetailleerde bewegingen aantoont.
Duiken48 vereiste het identificeren van complexe bewegingssequenties zoals opstijgen, salto, twisten vlucht fasen, en F-16 bleek nauwkeuriger in het herkennen van deze overgangen.
Voor SoccerNet analyseerde het model clips van 10 seconden en identificeerde balpassen. De resultaten lieten een verbetering zien ten opzichte van bestaande 7B-modellen, wat aangeeft dat een hogere FPS bijdraagt aan het volgen van kleine en snelle bewegingen.
In de NBA-dataset benaderde het vermogen van de F-16 om de uitkomst van schoten te bepalen de nauwkeurigheid van grotere, gepatenteerde modellen zoals GPT-4o en Gemini-1.5-Pro. Dit suggereert verder dat hogere framesnelheden het vermogen om dynamische bewegingen te verwerken verbeteren.
Variabele framesnelheden
F-16 werd getest op verschillende framesnelheden om zijn aanpasbaarheid te meten. In plaats van opnieuw te trainen, verwerkte het lagere FPS door frames te herhalen om te matchen met de invoerstructuur van de aligner. Deze aanpak behield meer prestaties dan simpelweg verwijderen (wat gevoelig is voor verlies van nauwkeurigheid).
Uit de resultaten blijkt dat het verlagen van de FPS wel enige invloed had op de bewegingsherkenning, maar dat de F-16 nog steeds beter presteerde dan modellen met een lage framesnelheid en zelfs bij minder dan 16 FPS sterke resultaten behield.

Links, het tijdsverbruik van verschillende F-16 modules tijdens inferentie, gemeten op 300 video's van de Video-MME Long set bij verschillende test FPS en sequentielengtes. Rechts, een vergelijking tussen Video-MME prestaties voor modellen getraind en getest op verschillende FPS. De doorgetrokken lijn vertegenwoordigt modellen getraind en getest op dezelfde FPS, terwijl de stippellijn de prestaties weergeeft wanneer een model getraind op 16 FPS wordt getest op een lagere framesnelheid.
De hoge framesnelheid van de F-16 verhoogde de rekenvereisten, hoewel de uitlijner hielp deze kosten te beheersen door redundante visuele tokens te comprimeren.
Het model vereiste meer FLOP's per video dan modellen met een lagere FPS, maar behaalde ook een hogere nauwkeurigheid per token. Dit suggereert dat de frameselectie- en tokencompressiestrategieën hielpen de extra berekeningen te compenseren.
Conclusie
Het is moeilijk om het belang of de uitdagingen van deze specifieke onderzoekslijn te overdrijven, vooral dit jaar, dat het hoogtepunt van de studie zal zijn. doorbraak jaar voor generatieve video, waarbij de tekortkomingen van de curatie van videodatasets en de kwaliteit van de ondertiteling worden weggenomen in scherpe opluchting.
Er moet ook worden benadrukt dat de uitdagingen die gepaard gaan met het verkrijgen van nauwkeurige beschrijvingen van interne videodetails niet uitsluitend kunnen worden opgelost door VRAM, tijd of schijfruimte in het probleem te gooien. De methode waarmee gebeurtenissen worden geïsoleerd/geëxtraheerd uit anderszins lange en saaie videofragmenten (zoals bijvoorbeeld golf- of snookervideoclips) zal profiteren van een heroverweging van de semantische benaderingen en mechanismen die momenteel SOTA-oplossingen domineren - omdat sommige van deze beperkingen zijn vastgesteld in tijden met meer middelenarme omstandigheden.
(overigens, ook al lijkt 16 fps een zeer lage framesnelheid voor 2025, het is interessant om op te merken dat dit ook de oorspronkelijke trainingssnelheid is van videoclips die worden gebruikt in de enorm populaire Wan2.1 generatief videomodel, en de snelheid waarmee het daardoor met de minste problemen werkt. Hopelijk zal de onderzoekswereld hier oog houden voor mogelijke 'standaardentropie'; soms verouderde beperkingen. kan toekomstige normen bestendigen)
Eerste publicatie woensdag 19 maart 2025