Andersonin kulma
Haaste videoille tekstin lisääminen yli 1fps

Koneoppimisjärjestelmien kyky tunnistaa videotallenteissa tapahtuvat tapahtumat on tärkeää tulevaisuuden AI-pohjaisen videon luomiselle – ei vähiten siksi, että videodatajoukoissa vaaditaan tarkat tekstit, jotta mallit voivat noudattaa käyttäjän pyynnön ja eivät liioitellut [hallitse](https://www.unite.ai/what-are-llm-hallucinations-causes-ethical-concern-prevention/).

Esimerkki tekstin lisäämisestä Googlen VidReCap-projektissa. Lähde: https://sites.google.com/view/vidrecap
Videoiden manuaalinen tekstin lisääminen tarvittavalle koulutusaineistolle on mahdoton tehtävä. Vaikka on mahdollista kouluttaa AI-järjestelmiä tekstin lisäämiseen, tarvitaan edelleen paljon ihmisten luomia esimerkkejä perustotuutena, vaihtelun ja kattavuuden vuoksi.
Tärkeämpää on, että melkein jokainen nykyinen AI-pohjainen videon tekstin lisäämisellä toimiva malli toimii 1fps, mikä ei ole tarpeeksi tiheä tallennusnopeus monissa skenaarioissa: äkilliset mikroilmeenmuutokset tunnesäätelyjärjestelmissä; nopeat tapahtumat korkean tason urheilulajeissa, kuten koripallossa; väkivaltaiset liikkeet; nopeat leikkaukset draamaelokuvissa, joissa järjestelmät, kuten [PySceneDetect](https://www.scenedetect.com/), eivät pysty tunnistamaan niitä (tai niitä ei käytetä); ja monissa muissa skenaarioissa, joissa huomion ikkuna tarvitsee olla intensiivisempi.
Paina toistamaan. Nopea mutta elämää muuttava toiminta yhdessä maailman hitaimmista urheilulajeista, kun Alex Higgins voittaa maailmanmestaruuden Ray Reardonista vastaan vuonna 1982. Lähde: https://www.youtube.com/watch?v=_1PuqKno_Ok
Liiku nopeasti ja murre logiikka
Tämä matala nopeus on standardi monista logistisista syistä. Yksi syy on, että videoiden tekstin lisääminen on resursseja vaativa toiminto, olipa järjestelmä tutkimassa yhtä peräkkäistä kuvaa kerrallaan tai käyttämässä erilaisia menetelmiä semanttisesti yhdistämään kuvaryhmän tulkittavaan tekstin sarjaan. Kummassakin tapauksessa kontekstin ikkuna on väistämättä rajoitettu laitteiston rajoituksilla.
Toinen syy sille, että 1fps on nykyinen standardi, on, että videoita yleensä ei täytetä nopeilla tapahtumilla; on siis turha antaa 300 kuvaa staattisesta biljardipöydästä sama huomio, kuin sekunti, jossa musta pallo voittaa mestaruuden (ks. yllä oleva esimerkki).
On mahdollista käyttää laajempia toissijaisia vihjeitä tunnistamaan ratkaisevia hetkiä urheiluvideossa, kuten yleisön jatkuva reaktio nopeaan koripalloon. Näiden vihjeiden voi kuitenkin esiintyä myös muista syistä (kuten odottamattomista pelaajavammoista), eikä niitä voida luottaa. Tämä on yksi esimerkki siitä, miten virheellisesti merkitty videodata voi johtaa generatiiviseen videomalliin, joka hallucinoi tai tulkitsi väärin ohjeet, eli koska malli saattaa näyttää pelaajan vamman, kun se pyydettiin generoimaan koripallonheitto (koska ‘toissijainen vihje’ yleisön jännityksestä ei ollut yksinomaan tietyntyyppisen tapahtuman ominaisuus).
Tämä on monissa suhteissa “budjettiongelma”, ja toisissa suhteissa prosessuaalinen ongelma. Viitekehykset ovat toimineet periaatteella, että harvat avainkuvat voivat tehokkaasti kaapata olennaiset tiedot, mutta tämä on tehokkaampaa määrittämään genren ja muita videon aiheen piirteitä, koska näyttö pysyy useiden kuvien yli.
F-16
Kiinalainen tutkimusryhmä tarjoaa ratkaisun, joka on ensimmäinen monimodaalinen suuri kielen malli (MLLM, tai yksinkertaisesti LLM), joka voi analyysia videoita 16fps sen sijaan, että se toimisi standardin 1fps: ssä, välttäen samalla suurten analyysinopeuden kasvun suuria vaaroja.
Kokeissa tutkijat väittävät, että uusi järjestelmä, joka on nimeltään F-16, suoriutuu paremmin kuin omistajan omat valmiit mallit, kuten GPT-4o ja Google Gemini-1.5 pro. Vaikka muut nykyiset mallit pystyivät vastaamaan tai ylittämään F-16:n tulokset kokeissa, kilpailevat mallit olivat paljon suurempia ja kömpelömpiä.
Vaikka F-16: ta koulutettiin jonkinlaisella laitteistolla (kuten tarkastelemme pian), inference on yleensä paljon vähemmän vaativaa kuin koulutus. Sen vuoksi voimme toivoa, että koodi (joka luvataan lähitulevaisuudessa) pystyy toimimaan keskitason tai korkean tason kotitietokoneiden GPU:illa.
Mitä tarvitaan harrastajien elinvoimaisuuden (ja se sisältää ammattimaisen VFX-kohteen useimmiten) on videoiden tekstin lisäämisellä toimiva malli, joka voi toimia ehkä kvantisoituna kuluttajajärjestelmissä, jotta koko generatiivinen videokohteen ei siirry API-pohjaisiin kaupallisiin järjestelmiin tai pakota kuluttajia kytkemään paikallisia kehyksiä kaupallisiin verkkopalveluihin.
Ylittäen skaalauksen
Tutkijat huomaavat, että tämäntyyppinen lähestymistapa on käytännöllinen vaihtoehto datajoukon skaalaukselle. Voidaan myös päätellä, että jos aineistoa lisätään ongelmaan, tämä on edelleen tämäntyyppinen lähestymistapa, joka voi olla suotuisampi, koska uusi järjestelmä erottaa tapahtumia tarkemmin.
He toteavat:
‘Matalan kuvataajuuden näytteistys voi johtaa tärkeiden visuaalisten tietojen menetykseen, erityisesti videoissa, joissa on nopeasti muuttuvia kohtauksia, hienostuneita yksityiskohtia tai nopeaa liikettä. Lisäksi, jos avainkuvat puuttuvat, mutta malli on koulutettu tunnistamaan avainkuville perustuvia etikettejä, se voi kamppailla sen kanssa, että sen ennusteet eivät vastaa odotettua sisältöä, mikä voi johtaa hallucinaatioihin ja heikentää suorituskykyä…
‘… F-16 saavuttaa SOTA-suorituskyvyn yleisessä video-kysymyksessä ja osoittaa selvän edun korkean kuvataajuuden videon ymmärtämisessä, jossa se suoriutuu paremmin kuin kaupalliset mallit, kuten GPT-4o. Tämä työ avaa uusia suuntia multimodaalisen LLM-tutkimuksen edistämiseksi.’
Uusi tutkimus artikkeli on otsikoitu Parantamalla LLM-videon ymmärtämistä 16 kehyksellä sekunnissa, ja se tulee kahdeksalta kirjoittajalta Tsinghua-yliopistosta ja ByteDancesta.
Menetelmä
Koska peräkkäiset kehykset sisältävät usein tarpeettomia tietoja, F-16 soveltaa korkean kuvataajuuden kohdistinta tiivistämään ja koodata liikkeen yksityiskohtia säilyttäen visuaalisen semantiikan. Kunkin kehyksen käsittely alkaa esikoulutetusta kuvankäsittelyjärjestelmästä, joka poistaa piirrosmerkinnät ennen kuin ne siirretään kohdistimeen, joka perustuu Gaussian Error Linear Units (GELUs):iin.

F-16:n arkkitehtuuri käsittelee videoita 16 kehyksellä sekunnissa, kaappaamalla enemmän kehyksiä kuin perinteiset matalan kuvataajuuden mallit, ja sen korkean kuvataajuuden kohdistin säilyttää visuaalisen semantiikan tehokkaasti koodaten liikkeen dynamiikkaa ilman ylimääräisiä visuaalisia tokenien lisäämistä. Lähde: https://arxiv.org/pdf/2503.13956
Käsittelyssä kehykset jaetaan pieniin prosessointi-ikkunoissa, yhdistämällä visuaaliset ominaisuudet kolmen kerroksen Multi-Layer Perceptron (MLP): n avulla, joka auttaa säilyttämään ainoastaan merkityksellisimmät liikkeen yksityiskohtia, vähentämällä tarpeettoman toistamisen ja säilyttäen toimintojen aikajanan.
Käsitellyt videotokenit syötetään sitten Qwen2-7B LLM: ään, joka luo tekstipohjaisia vastauksia poistetusta visuaalisesta ominaisuudesta ja annetusta käyttäjän pyynnöstä.
Rakenteistamalla video syötettä tällä tavoin, F-16 mahdollistaa, tutkijat väittävät, tarkemman tapahtuman tunnistamisen dynaamisissa kohtauksissa, säilyttäen samalla tehokkuuden.
Lyhyt versio
F-16 laajentaa esikoulutetun kuvan LLM: n, LLaVA-OneVision: n, käsittelemään videoita muuttamalla visuaalisen syötteen putkia. Vaikka standardit kuvan LLM: t käsittelevät erillisiä kehyksiä, F-16:n korkean kuvataajuuden kohdistin muuttaa useita kehyksiä muotoon, jonka malli voi tehokkaammin käsitellä; tämä estää järjestelmän ylikuormittumisen tarpeettomalla tiedolla, säilyttäen samalla avainliikkeen vihjeet, jotka ovat tarpeen videon ymmärtämiseksi.
Jotta voidaan varmistaa yhteensopivuus sen kuvapohjaisen perustan kanssa, F-16 uudelleenjärjestää kohdistimensa alimatriiseihin. Tämä lähestymistapa mahdollistaa sen, että se voi hyödyntää tietoa yksittäisten kehyksien malleista, sopeutumalla samalla peräkkäisiin videosyötteisiin.
Kohdistin tiivistää ensin kehyssarjoja muotoon, joka on optimoitu LLM: lle, säilyttäen merkittävimmät ominaisuudet ja hävittäen tarpeettomat yksityiskohtia. Arkkitehtuuri suunnittelu mahdollistaa järjestelmän käsitellä korkean kuvataajuuden videoita, pitäen samalla laskennalliset vaatimukset hallinnassa, mikä tutkijat esittävät näytönä siitä, että skaalauksen lisääminen ei ole ainoa (tai paras) tapa videoiden tekstin lisäämiselle.
Vaihteleva vauhti
Koska videon käsittely 16 kehyksellä sekunnissa parantaa liikkeen ymmärtämistä, mutta lisää laskennallisia vaatimuksia, erityisesti johtopäätöksessä, F-16 esittää muuttuvan kehysnopeuden dekoodausmenetelmän, joka mahdollistaa sen sopeuttamisen kehysnopeuden dynaamiseen muutokseen ilman uudelleenkoulutusta.

F-16:n yksittäinen kehys- ja korkean kuvataajuuden kohdistimet.
Tämä joustavuus mahdollistaa mallin toimimisen tehokkaammin matalammilla kehysnopeuksilla, kun korkeaa tarkkuutta ei vaadita, ja vähentää laskennallista rasitusta.
Kokeiden aikana, kun matalampi kehysnopeus valittiin, F-16 uudelleenkierrätti aiemmin koulutetun kohdistimen parametreja toistamalla syötekehyksiä odotetun mitan mukaisesti. Tämä varmistaa, että malli voi edelleen käsitellä videoita tehokkaasti ilman arkkitehtuurin muuttamista.
Toisin kuin viattomat alennus (ts. yksinkertaisesti poistamalla kehyksiä), joka riskiää kriittisten liikkeen yksityiskohtien menetyksen, tämä menetelmä säilyttää kohdistimen oppimien liikkeen edustusten, säilyttäen tarkin: n myös alhaisemmilla kehysnopeuksilla. Yleisen videon ymmärtämisen osalta matalampi kehysnopeus voi nopeuttaa johtopäätöksen ilman merkittävää suorituskyvyn menetystä, kun taas nopean liikkeen analyysi voi edelleen hyödyntää 16 kehyksen sekuntivaihtoehtoa.
Data ja kokeet
Rakennettu Qwen2-7B: n päälle, FP-16 laajentaa LLaVA-OneVisionia käyttäen SigLIP: iä kuvankoodausjärjestelmäksi. Videokehykset näytteistettiin 16 kehyksellä sekunnissa, ja jokaisesta videosta saatiin enintään 1 760 kehyksiä. Pitemmille videoklippeille kehykset näytteistettiin yhdenmukaisesti (ts. harvemmin).
Koulutuksessa F-16 käytti samoja yleisiä videodatajoukkoja kuin LLaVA-Video, mukaan lukien LLaVA-Video-178K, NExT-QA, ActivityNet-QA ja PerceptionTest.
F-16: ta hienosäädetiin myös korkean tason urheiludatajoukoissa FineGym, Diving48 ja SoccerNet. Tutkijat keräsivät myös 276 NBA-pelin kokoelman, jotka pelattiin 13. ja 25. marraskuuta 2024, keskittyen siihen, voitiko malli oikein määrittää, oliko heitto onnistunut (tehtävä, joka vaatii korkean kuvataajuuden käsittelyä).
Malli arvioitiin NSVA-testijoukolla ja suorituskyky mitattiin F1-lukemalla.
Gymnastinen ja uimahyppyjen mallit arvioitiin tapahtuman tunnistamisen tarkin: n mukaan, kun taas jalkapallon ja koripallon mallit seurasivat syöttöjä ja heittojen tuloksia.
Malli koulutettiin yhdellä epochilla käyttäen 128 NVIDIA H100 GPU: ta (ja 80 GB VRAM: ia GPU: lla, mikä edellytti 10,24 teratavun GPU-muistia; jopa viimeaikaisen tietokoneen näön tutkimuksen kirjallisuuden mukaan tämä on korkein GPU-kokoonpano, jonka olen henkilökohtaisesti tavannut). Oppimisnopeus oli 2×10⁻⁵ koulutuksen aikana.
Lisäksi LoRA hienosäädetiin urheiludataa LoRA-sovittimilla 64 GPU: lla 5 epochin ajan. Tässä vain LLM koulutettiin, jättäen kuvankoodausjärjestelmä jäädytettyksi.
Vastakkaiset kehykset testattiin aluksi “yleisen videon ymmärtämisen” osalta olivat GPT-4o; Gemini-1.5-Pro; Qwen2-VL-7B; VideoLLaMA2-7B; VideoChat2-HD-7B; LLaVA-OV-7B; MiniCPM-V2.6-8B; LLaVA-Video-7B; ja NVILA-7B;
Mallit arvioitiin Video-MME: ssä; VideoVista: ssä; TemporalBench: ssä; MotionBench: ssä; Next-QA: ssä; MLVU: ssä; ja LongVideoBench: ssä.

Vertailu videon kysymys-vastaus -tuloksia mallien välillä, näyttäen kehysnopeuden rajoitukset ja suorituskyvyn useilla benchmarkeilla. F-16 saavuttaa SOTA:n 7B-malleissa Video-MME: ssä, NQA: ssä, TPB: ssä ja MB: ssä, kilpaillen omistajan malleja, kuten GPT-4o ja Gemini-1.5-Pro.
Näistä tuloksista tutkijat toteavat:
‘Video-MME Short-, Medium- ja NeXT-QA -tietojoukoissa – joissa jokainen on suunniteltu lyhyen videon ymmärtämiseksi – mallimme ylittää aiemman 7B SOTA-mallin 3,2 prosentilla, 1,0 prosentilla ja 0,9 prosentilla tarkin: ssä, korostaa sen vahvaa suorituskykyä lyhyissä videoissa.
‘Pitkän videon ymmärtämistä arvioivissa benchmarkeissa, kuten Video-MME Long, LongVideoBench ja MLVU, haaste on suurempi kehysnopeuden harventumisen vuoksi, mikä aiheuttaa suurempia vaihteluita kehyksissä prosessointi-ikkunassa.
‘Tämä lisää haasteita modaalikohtaiselle kohdistimelle, jotta se voi tehokkaasti koodata aikajanan muutoksia rajoitetussa token-esityksessä. Sen vuoksi F-16 kokee lievän suorituskyvyn laskun verrattuna [LLaVA-Video-7B]: een, joka on koulutettu samalla videodatajoukolla.’
F-16:n korkean kuvataajuuden käsittely johti myös 13,5 prosentin parantumiseen TemporalBench: ssä ja 2,5 prosentin parantumiseen MotionBench: ssä verrattuna olemassa oleviin 7B-malleihin, ja suorituskyky oli vastaava kuin kaupalliset mallit, kuten GPT-4o ja Gemini-1.5-Pro.
Korkean tason urheiluvideon ymmärtäminen
F-16 testattiin FineGym-, Diving48-, SoccerNet- ja NBA-tietojoukoissa arvioidakseen sen kykyä ymmärtää korkean tason urheilutoimintaa.
Käyttäen 10 000 manuaalisesti merkittyä NBA-klippiä, koulutus keskittyi palloliikkeisiin ja pelaajien toimiin, ja siihen, voivatko mallit oikein määrittää, onko heitto onnistunut, käyttäen NSVA-testijoukkoa, joka arvioitiin F1-lukemalla.

Korkean tason urheiluvideon analyysin tulokset. F-16 korkean kuvataajuuden kohdistimella suoriutui paremmin kuin matalan kuvataajuuden vastineensa kaikissa urheilutehtävissä. GPT-4o ja Gemini-1.5-Pro arvioitiin myös NBA- ja SoccerNet-kysymyksissä, joissa ei vaadittu aluekohtaista koulutustietoa.
FineGym: ssä, joka mittaa voimistelun toiminnan tunnistamista, F-16 suoriutui 13,8 prosentilla paremmin kuin aiempi 7B SOTA-malli, osoittaen parannettua hienojakoaista liikkeen ymmärtämistä.
Diving48: ssä, jossa tunnistetaan monimutkaisia liikkeen siirtymisiä, kuten lähtö, salto, kierto ja lento-vaiheita, F-16 osoitti korkeampaa tarkkuutta näiden siirtymien tunnistamisessa.
SoccerNet: ssä malli analysoi 10 sekunnin klippiä, tunnistaa pallo syöttöjä, ja tulokset osoittivat parannuksen aiempiin 7B-malleihin, osoittaen, että korkeampi kuvataajuus edistää pienen ja nopean liikkeen seuraamista.
NBA-tietojoukossa F-16:n kyky määrittää heittojen tulokset läheni suurempien kaupallisten mallien, kuten GPT-4o ja Gemini-1.5-Pro, tarkkuutta, osoittaen, että korkeampi kuvataajuus parantaa sen kykyä käsitellä dynaamista liikettä.
Muuttuvat kehysnopeudet
F-16 testattiin eri kehysnopeuksilla arvioidakseen sen sopeutumiskykyä. Sen sijaan, että se olisi koulutettu uudelleen, se käsiteltiin matalammilla kehysnopeuksilla toistamalla kehyksiä kohdistimen syötteen mukaisesti. Tämä lähestymistapa säilytti enemmän suorituskykyä kuin yksinkertainen kehysnopeuden lasku (joka altis aiheuttaa tarkin: n menetystä).
Tulokset osoittavat, että vaikka kehysnopeuden laskeminen vaikutti liikkeen tunnistamiseen, F-16 ylittää edelleen matalan kehysnopeuden mallit ja säilyttää vahvat tulokset jopa alle 16 kehyksen sekuntivaihtoehdon.

Vasemmalla, F-16-moduulien aikakulutus johtopäätöksessä, mitattuna 300 videolla Video-MME Long -joukosta eri testikehysnopeuksilla ja sekvenssien pituuksilla. Oikealla, vertailu Video-MME-suorituskyvyn välillä malleja, jotka on koulutettu ja testattu eri kehysnopeuksilla. Pysyvä viiva edustaa malleja, jotka on koulutettu ja testattu samalla kehysnopeudella, kun taas katkoviiva näyttää suorituskyvyn, kun malli on koulutettu 16 kehyksellä sekunnissa ja testattu matalammalla kehysnopeudella.
F-16:n korkean kuvataajuuden käsittely lisäsi laskennallisia vaatimuksia, vaikka sen kohdistin auttoi hallitsemaan nämä kustannukset tiivistämällä tarpeettomat visuaaliset tokenit.
Malli vaati enemmän FLOPSeja videota kohden kuin matalamman kehysnopeuden mallit, mutta se saavutti myös paremman tarkin: n tokenia kohden, osoittaen, että sen kehyksen valinta- ja token-tiivistystaktiikat auttoivat kompensoimaan lisääntyneen laskennan.
Johtopäätös
On vaikea yliarvioida tämän tietyn tutkimussuunnan merkitystä tai haasteita – erityisesti tänä vuonna, joka on määrä olla läpimurtovuosi generatiiviselle videolle, joka heittää videodatajoukon ja tekstin laadun puutteet teräviin relief.
On myös korostettava, että haasteet, joita aiheuttavat videon sisäisten yksityiskohtien tarkan kuvaaminen, eivät voida ratkaista yksin heittämällä VRAM: ia, aikaa tai levytilaa ongelmaan. Tapa, jolla tapahtumia eristetään tai poistetaan muuten pitkistä ja tylsistä videopätkistä (kuten golfin tai snookerin videoklippejä), hyötyy uudelleenajattelusta semanttisista lähestymistavoista ja mekanismeista, jotka hallitsevat tämänhetkisiä SOTA-ratkaisuja – koska jotkut näistä rajoituksista olivat peräisin resursseja köyhemmistä ajoista.
(Sattumalta, vaikka 16fps näyttää hyvin matalalta kehysnopeudelta vuonna 2025, on mielenkiintoista huomata, että tämä on myös Wan 2.1 -generatiivisen videomallin alkuperäinen koulutusnopeus, ja nopeus, jolla se toimii vähiten ongelmia. Toivottavasti tutkimuskohteen pitäisi silmällä “standardeja entropiaa” tässä; toisinaan vanhentuneet rajoitukset voivat edistää tulevia standardeja)
Julkaistu ensimmäisen kerran keskiviikkona, 19. maaliskuuta 2025












