Andersonův úhel

Výzva při přidávání titulků k videu při více než 1fps

Published March 19, 2025

Updated April 26, 2026

Martin Anderson

Trails in a basketball scene - source: https://www.youtube.com/watch?v=ORfjgE6n2Pc

Schopnost strojových učících systémů rozpoznat události, které se vyskytují uvnitř videa, je zásadní pro budoucnost generace videa založené na umělých inteligencích – nejen proto, že video datové sady vyžadují přesné titulky, aby mohly produkovat modely, které splňují požadavky uživatele a které nezbytečně “hallucinují”.

Příklad schématu titulků z projektu VidReCap společnosti Google. Source: https://sites.google.com/view/vidrecap

Ručně přidávat titulky k množství videí potřebných pro efektivní trénovací datové sady je neuvěřitelná perspektiva. Ačkoli je možné trénovat systémy umělé inteligence na automatické přidávání titulků k videím, stále je potřeba mnoho lidsky generovaných příkladů jako základní pravda, pro rozmanitost a pokrytí.

Dále, téměř každý současný model videa založený na umělých inteligencích funguje na 1fps, což není dostatečně hustá rychlost zachycení, aby rozpoznal variace v mnoha scénářích: náhlé mikro-exprese pro systémy rozpoznávání emocí; rychlé události ve vysokorychlostních sportech, jako je basketbal; násilné pohyby; rychlé střihy v dramatických filmech, kde systémy, jako je PySceneDetect, mohou selhat při identifikaci (nebo nejsou používány); a mnoho dalších scénářů, kde okno pozornosti jasně potřebuje být intenzivnější.

Kliknutím se přehraje. Rychlá, ale životně důležitá akce v jednom z nejpomalejších sportů na světě, když Alex Higgins vyhrál mistrovství světa proti Rayi Reardonovi v roce 1982. Source: https://www.youtube.com/watch?v=_1PuqKno_Ok

Pohybujte se rychle a rozbité logice

Tato nízká rychlost je standardem z různých logistických důvodů. Jedním z nich je, že přidávání titulků k videu je činnost náročná na zdroje, ať už systém studuje jeden sekvenční snímek po druhém, nebo používá různé metody, aby semanticky sjednotil řadu snímků do sekvence titulků, které lze interpretovat. V každém případě je kontextové okno nevyhnutelně omezeno hardwarovými omezeními.

Jiným důvodem, proč je 1fps současným standardem, je, že videa nejsou obecně plná rychlých událostí; je proto zbytečné věnovat 300 statickým snímkům stolního fotbalu stejnou pozornost jako zlomek sekundy, ve kterém černá kulička vyhrává šampionát (viz výše uvedený příklad).

Je možné použít širší sekundární signály k identifikaci zásadních okamžiků ve sportovním videu, jako je například udržení reakce publika na rychlý slam-dunk v basketbalu. Nicméně, takové signály mohou nastat z jiných důvodů (jako neočekávaná zranění hráčů), a nelze se na ně spolehnout. To je jeden příklad toho, jak nesprávně označená video datová sada může vést k generativnímu video modelu, který “hallucinuje” nebo nesprávně interpretuje instrukce, tj. protože model může ukázat zranění hráče, když byl požádán o vygenerování slam-dunku (protože ‘sekundární signál’ vzrušení publika nebyl výlučný pro jeden konkrétní typ události).

To je mnoha způsoby “rozpočtový” problém a jinými způsoby procedurální problém. Rámcové podmínky až do dneška fungovaly na principu, že řídké klíčové snímky mohou efektivně zachytit základní informace, ale to je účinnější při stanovení žánru a dalších aspektů předmětu videa, protože důkazy v tomto případě přetrvávají po několik snímků.

F-16

Nová práce z Číny nabízí řešení, ve formě prvního multimodálního velkého jazykového modelu (MLLM, nebo jednoduše LLM), který může analyzovat video na 16fps místo standardního 1fps, zatímco se vyhnul hlavním pastem zvýšení rychlosti analýzy.

Ve testech autoři prohlašují, že nový systém, nazvaný F-16, překonává proprietární modely současného stavu, jako je GPT-4o a Google’s Gemini-1.5 pro. Ačkoli jiné současné modely byly schopny dosáhnout nebo překonat výsledky F-16 v testech, soutěžní modely byly mnohem větší a neohrabanější.

Ačkoli F-16 byl trénován na některých vážných hardwarových zařízeních (jak będeme zkoumat brzy), inference je obvykle mnohem méně náročná než trénink. Proto můžeme doufat, že kód (slíbený pro blízkou budoucnost) bude schopen běžet na středních nebo vyšším domácích GPU.

Co je zapotřebí pro vitalitu scény hobbyistů (a to zahrnuje profesionální scény VFX, většinu času) je video model titulků tohoto druhu, který může fungovat, možná quantizovaný, na spotřebitelských systémech, aby celý generativní video scénář neemigroval do API-založených komerčních systémů, nebo aby spotřebitelé byli nuceni připojit místní rámce ke komerčním online službám GPU.

Mimo škálování

Autoři pozorují, že tento druh přístupu je praktickou alternativou ke škálování dat. Můžeme také odvodit, že kdybychom chtěli hodit více dat do problému, je to stále přístup, který by mohl být preferován, protože nový systém rozlišuje události více granulárním způsobem.

Prohlašují:

‘Nízká rychlost snímání může vést ke ztrátě kritických vizuálních informací, zejména ve videích s rychle se měnícími scénami, složitými detaily nebo rychlým pohybem. Kromě toho, pokud jsou klíčové snímky ztraceny, ale model je trénován na značkách, které závisí na informacích o klíčových snímcích, může mít potíže s tím, aby svá předpovědi sladila s očekávaným obsahem, což může vést k “hallucinacím” a zhoršenému výkonu…

‘… F-16 dosahuje SOTA výkonu v obecném video QA mezi modely podobné velikosti a prokazuje jasnou výhodu ve vysokorychlostním video pochopení, překonávající komerční modely, jako je GPT-4o. Tato práce otevírá nové směry pro rozvoj vysokorychlostního video pochopení v multimodálním LLM výzkumu.’

Nová práce je nazvána Vylepšení LLM video pochopení s 16 snímky za sekundu, a pochází od osmi autorů z Tsinghua University a ByteDance.

Metoda

Pоскольку po sobě následující snímky často obsahují redundantní informace, F-16 aplikuje vysokorychlostní aligner, aby komprimoval a zakódovat klíčové pohybové detaily, zatímco zachovává vizuální sémantiku. Každý snímek je nejprve zpracován předtrénovaným obrazovým kodektorem, extrahujícím reprezentace funkcí předtím, než je předán aligneru založenému na Gaussian Error Linear Units (GELUs).

Architektura F-16 zpracovává video na 16 FPS, zachycující více snímků než tradiční nízkorychlostní modely, a jeho vysokorychlostní aligner zachovává vizuální sémantiku, zatímco efektivně kóduje pohybové dynamiky bez přidání dalších vizuálních tokenů. Source: https://arxiv.org/pdf/2503.13956

Aby se vyřešil zvýšený počet snímků efektivně, F-16 seskupuje snímky do malých procesních oken, slučuje vizuální funkce pomocí třívrstvé Multi-Layer Perceptron (MLP), pomáhající zachovat pouze nejrelevantnější pohybové detaily a snižovat zbytečnou duplikaci, zatímco zachovává tok akcí. Prostorový max-pooling vrstva dále komprimuje počet tokenů, udržuje výpočetní náklady v mezích.

Zpracované video tokeny jsou pak předány do Qwen2-7B LLM, který generuje textové odpovědi na základě extrahovaných vizuálních funkcí a zadaného uživatelského promptu.

Tímto způsobem F-16 umožňuje, jak autoři prohlašují, přesnější rozpoznání událostí v dynamických scénách, zatímco stále zachovává efektivitu.

Krátká verze

F-16 rozšiřuje předtrénovaný obrazový LLM, LLaVA-OneVision, aby zpracovával video transformací jeho vizuálního vstupního potrubí. Zatímco standardní obrazové LLM zpracovávají izolované snímky, vysokorychlostní aligner F-16 reformátuje více snímků do formy, kterou model může efektivněji zpracovat; tím se vyhnul zahlcení systému redundantními informacemi, zatímco zachoval klíčové pohybové signály nezbytné pro přesné video pochopení.

Aby se zajistila kompatibilita s jeho obrazovým základem, F-16 znovu využívá předtrénované parametry, restrukturalizací svého aligneru do sub-matic. Tento přístup umožňuje integrovat znalosti z modelů jediného snímku, zatímco adaptuje se na sekvenční video vstup.

Aligner nejprve komprimuje sekvence snímků do formátu optimalizovaného pro LLM, zachovává nejvíce informativních funkcí, zatímco zbytečné detaily se zahazují. Návrh architektury umožňuje systému zpracovávat vysokorychlostní video, zatímco udržuje výpočetní nároky pod kontrolou, což autoři považují za důkaz, že škálování není jediným (nebo nejlepším) způsobem vpřed pro video titulkování.

Měnit tempo

Pоскольку zpracování videa na 16 FPS zlepšuje pohyb pochopení, ale zvyšuje výpočetní náklady, zejména během inference, F-16 zavádí proměnlivou rychlost dekódování metodu, umožňující mu upravit rychlost snímku dynamicky bez přeškolování.

Jednotlivé snímky a vysokorychlostní alignery dostupné pro F-16.

Tato flexibilita umožňuje modelu fungovat efektivně na nižších FPS, když není vyžadována vysoká přesnost, a snižuje výpočetní režii.

Během testování, když je vybrána nižší rychlost snímku, F-16 znovu využívá dříve trénované alignerové parametry, opakující vstupní snímky, aby odpovídaly očekávaným rozměrům. Tím se zajistí, že model může stále zpracovávat video efektivně, aniž by měnil svou architekturu.

Na rozdíl od naivního downsamplingu (tj. jednoduchého odstranění snímků), které riskuje ztrátu kritických pohybových detailů, tato metoda zachovává alignerovy naučené pohybové reprezentace, udržuje přesnost, i na snížených rychlostech snímku. Pro obecné video pochopení může nižší FPS nastavení urychlit inference bez významné ztráty výkonu, zatímco vysokorychlostní pohyb analýza může stále využívat plnou 16 FPS schopnost.

Data a testy

Postavený na Qwen2-7B, FP-16 rozšiřuje LLaVA-OneVision pomocí SigLIP jako obrazového kodektoru. S video snímky vzorkované na 16 FPS, až 1 760 snímků lze získat z každého videa. Pro delší video klipy byly snímky uniformně (tj. řidčeji) vzorkovány.

Pro trénink F-16 používal stejné obecné video datové sady jako LLaVA-Video, včetně LLaVA-Video-178K, NExT-QA, ActivityNet-QA, a PerceptionTest.

F-16 byl navíc jemně upraven na high-speed sportovní datové sady FineGym, Diving48, a SoccerNet. Autoři také kurátorovali kolekci 276 NBA her hraných mezi 13. a 25. listopadem 2024, zaměřenou na to, zda byl střelec úspěšný (úkol vyžadující vysokorychlostní zpracování).

Model byl vyhodnocen pomocí NSVA testovací sady, s výkonem měřeným F1 skóre.

Gymnastika a potápění modely byly vyhodnoceny na základě přesnosti rozpoznávání událostí, zatímco fotbal a basketbal modely sledovaly přihrávky a výsledky střel.

Model byl trénován po dobu 1 epoch pomocí 128 NVIDIA H100 GPU (a při standardním 80GB VRAM na GPU, to vyžadovalo použití 10,24 terabajtů GPU paměti; i podle nedávných standardů, to je nejvyšší vybavený GPU cluster, se kterým jsem se osobně setkal při sledování počítačového vidění literatury). Učící sazba 2×10⁻⁵ byla použita během tréninku.

Kromě toho, LoRA byl jemně upraven na sportovní data, LoRA adaptéry s 64 GPU po dobu 5 epoch. Zde byl pouze LLM trénován, zatímco obrazový kodektor byl zmrazen.

Opačné rámce testované v počáteční fázi pro “obecné video pochopení” byly GPT-4o; Gemini-1.5-Pro; Qwen2-VL-7B; VideoLLaMA2-7B; VideoChat2-HD-7B; LLaVA-OV-7B; MiniCPM-V2.6-8B; LLaVA-Video-7B; a NVILA-7B;

Modely byly vyhodnoceny na Video-MME; VideoVista; TemporalBench; MotionBench; Next-QA; MLVU; a LongVideoBench.

Srovnání výsledků video QA napříč modely, ukazující FPS limity a výkon na několika benchmarcích. F-16 dosahuje SOTA mezi 7B modely na Video-MME, NQA, TPB a MB, rivalling proprietární modely, jako je GPT-4o a Gemini-1.5-Pro.

Z těchto výsledků autoři prohlašují:

‘Na Video-MME Short, Medium a NeXT-QA datové sady—každá navržená pro krátké video pochopení—našeho modelu překonává předchozí 7B SOTA model o 3,2%, 1,0% a 0,9% v přesnosti, zdůrazňující jeho silný výkon na krátkých videích.

‘Pro benchmarky, které hodnotí dlouhé video pochopení, jako je Video-MME Long, LongVideoBench a MLVU, je výzva větší kvůli řidčeji vzorkovaným snímkům, což způsobuje, že snímky uvnitř zpracování okna vykazují více variací.

‘To zvyšuje obtížnost pro modální aligner, aby efektivně kódoval temporální změny v rámci omezené tokenové reprezentace. Jako výsledek, F-16 zažívá mírný pokles výkonu ve srovnání s [LLaVA-Video-7B], který je trénován na stejném video datasetu.’

F-16’s vysokorychlostní zpracování, autoři pokračují, také vedlo k 13,5% zlepšení na TemporalBench a 2,5% zisku na MotionBench, ve srovnání s existujícími 7B modely, a prováděl na podobné úrovni jako komerční modely, jako je GPT-4o a Gemini-1.5-Pro.

Vysokorychlostní sportovní video pochopení

F-16 byl testován na FineGym, Diving48, SoccerNet a NBA datové sady, aby vyhodnotil jeho schopnost pochopit vysokorychlostní sportovní akce.

Používaje 10 000 ručně anotovaných NBA klipů, trénink se zaměřil na pohyb míče a hráčské akce a zda model mohl správně určit, zda byl střelec úspěšný, pomocí NSVA testovací sady vyhodnocené F1 skóre.

Výsledky vysokorychlostního sportovního video analýzy. F-16 s vysokorychlostním alignerem fungoval lépe než jeho nízkorychlostní protějšek napříč všemi sportovními úkoly. GPT-4o a Gemini-1.5-Pro byly také vyhodnoceny na NBA a SoccerNet QA, kde nebyla vyžadována vnitro-doménová tréninková znalost.

Na FineGym, které měří gymnastické akční rozpoznávání, F-16 fungoval 13,8% lépe než předchozí 7B SOTA model, prokazující zlepšené jemnozrnné pohybové pochopení.

Diving48 vyžadoval identifikaci složitých pohybových sekvencí, jako je odraz, somersault, twist a let fáze, a F-16 ukázal vyšší přesnost při rozpoznávání těchto přechodů.

Pro SoccerNet, model analyzoval 10-sekundové klipy, identifikující míčové přihrávky, a výsledky ukázaly zlepšení oproti existujícím 7B modelům, indikujícím, že vyšší FPS přispívá k sledování malých a rychlých pohybů.

V NBA datové sadě, F-16’s schopnost určit střelecké výsledky se přiblížila přesnosti větších proprietárních modelů, jako je GPT-4o a Gemini-1.5-Pro, dále naznačujíc, že vyšší snímeková frekvence zlepšuje jeho schopnost zpracovávat dynamické pohyby.

Proměnlivé snímkové frekvence

F-16 byl testován na různých snímkových frekvencích, aby se změřila jeho adaptabilita. Místo přeškolování, zpracoval nižší FPS opakující se snímky, aby odpovídaly alignerovým vstupním strukturám. Tento přístup zachoval více výkonu než jednoduché odstranění (které riskuje ztrátu přesnosti).

Výsledky ukazují, že zatímco snížení FPS mělo nějaký dopad na pohyb rozpoznávání, F-16 stále překonal nízkorychlostní modely a udržel silné výsledky, i pod 16 FPS.

Vlevo, časová spotřeba různých F-16 modulů během inference, měřená na 300 videích z Video-MME Long sady při různých testovacích FPS a sekvencích délek. Vpravo, srovnání mezi Video-MME výkonem pro modely trénované a testované na různých FPS. Plná čára reprezentuje modely trénované a testované na stejném FPS, zatímco čárkovaná čára ukazuje výkon, když model trénovaný na 16 FPS je testován na nižší snímkové frekvenci.

F-16’s vysokorychlostní zpracování zvýšilo výpočetní požadavky, ačkoli jeho aligner pomohl řídit tyto náklady, komprimujících redundantní vizuální tokeny.

Model vyžadoval více FLOPs na video než nízkorychlostní modely, ale také dosáhl lepší přesnost na token, naznačujíc, že jeho snímeková volba a tokenová komprese strategie pomáhaly kompenzovat dodatečnou komputaci.

Závěr

Je obtížné přehánět ani důležitost, ani výzvy tohoto konkrétního směru výzkumu – zejména tento rok, který má být průlomovým rokem pro generativní video, házející nedostatky video datové sady kurátory a titulky kvality do ostrého reliéfu.

Mělo by se také zdůraznit, že výzvy spojené s získáním přesných popisů vnitřních video detailů nelze vyřešit výhradně házením VRAM, času nebo diskového prostoru na problém. Metoda, kterou jsou události izolovány/extractovány z jinak dlouhých a nudných traktů videa (jako u golfu nebo snookeru video klipů, například) bude mít prospěch z přemyšlení semantických přístupů a mechanismů, které目前 dominují SOTA řešení – protože některé z těchto omezení byly stanoveny v časech s menšími zdroji.

(Mezi tím, i když 16fps vypadá jako velmi nízká snímková frekvence pro rok 2025, je zajímavé poznamenat, že toto je také nativní trénovací rychlost video klipů použitých v velmi populárním Wan 2.1 generativním video modelu, a rychlost, se kterou funguje s nejmenšími problémy. Doufáme, že výzkumná scéna bude sledovat možnou “standardní entropii” zde; někdy zastaralá omezení mohou perpetuovat budoucí standardy)

Poprvé zveřejněno ve středu, 19. března 2025

Martin Anderson

Spisovatel o strojovém učení, doménový specialista na syntézu lidského obrazu. Bývalý vedoucí výzkumného obsahu ve společnosti Metaphysic.ai.
Osobní stránky: martinanderson.ai