Andersonin kulma
Tekoäly mieluummin lukee kirjan kuin katsuu elokuvan

On yllättävän vaikea saada tekoälymallit katsomaan ja kommentoimaan oikeaa videosisältöä, vaikka ne on tehty tätä tehtävää varten. Ne ovat enemmän kiinnostuneita kirjoitetusta sanasta.
Jos olet koskaan yrittänyt ladata pieni videoklippi ChatGPT:hen tai vastaavaan suosittuun visio/kielimalliin, saatat olla yllättynyt siitä, että ne eivät voi itse asiassa käsitellä videoita. Vaikka mallit, kuten ChatGPT-4o+, pystyvät analysoimaan yksittäisiä kehyskohtaisia kuvia, kuten JPEG- ja PNG-kuvia, ne suosittelevat, että käyttäjä poistaa omat kehykset ja lataa ne kuvina (joita ne ovat valmiit kommentoimaan).
Tapauksessa OpenAI GPT -sarja, voi, melko työläästi, poistaa kokonaisen sarjan kehyskohtaisia kuvia videoklipistä ja syöttää ne ChatGPT:lle, esimerkiksi luomaan tekoälyluoman kerrontaraidan videolle:
![Kuvat ja koodi OpenAI-tutoriaalista, jossa käsitellään useiden poistettujen kehyskuvien parsimista tekoälykommentin kehittämiseksi videoklipille. [Lähde] https://cookbook.openai.com/examples/gpt_with_vision_for_video_understanding](https://www.unite.ai/wp-content/uploads/2025/10/openai-gpt-frame-parsing.jpg)
Kuvat ja koodi OpenAI-tutoriaalista, jossa käsitellään useiden poistettujen kehyskuvien parsimista tekoälykommentin kehittämiseksi videoklipille. Lähde
Mutta käyttäjän on tehtävä muunnos videosta kehyksi joko kutsuen funktioita suuremmassa toimintorutiinissa, kuten edellä olevassa esimerkissä, tai poistamalla kehykset FFMPEG:llä tai erilaisilla ilmaisilla ja maksullisilla videonmuokkausohjelmilla.
Jossain määrin, ehkä jopa suuressa määrin, videoanalyysin rajoitukset suurissa tuotteissa, kuten ChatGPT, riippuvat resurssien käytöstä: vain yhden tekoälyinstanssin varustaminen valikoimalla suosittuja videokoodekkeja ja omistamalla laskentaresursseja levyllä raskas ja CPU-rajoittava prosessi poistamiseen on merkittävä asia, jos satoja miljoonia käyttäjiä päättää käyttää näitä palveluita joka päivä.
Lisäksi temporalinen analyysi voi maalata erilaisen kuvan kuin yksittäinen kehys (kuvittele jonkun menemässä taloon iloisella tuulella ja sitten löytämässä ruumiin); siksi koko lyhyen videoklipin temporal “checksum” on vaativa ja resursseja vaativa tehtävä – sekä erikoistunut alue tutkimuskirjallisuudessa, esimerkiksi Optical Flow -kehysten kehittämisessä, joka periaatteessa “avaa” videon pituuden, jotta se voidaan kohdella ja toimia kuin se olisi staattinen asiakirja:
![Optical flow -kaavioita, jotka korostavat, miten liike seurataan kehysjärjestyksessä, vihreillä vektoreilla osoittamalla liikkeen suunnan ja voimakkuuden. Nämä kartoitukset tarjoavat tarvittavan temporal jatkuvuuden VLM:lle ja voivat myös toimia rakenteellisina oppaina VFX-työvirroissa. [Lähde] https://www.researchgate.net/figure/Optical-flow-field-vectors-shown-as-green-vectors-with-red-end-points-before-and-after_fig6_290181771](https://www.unite.ai/wp-content/uploads/2025/10/optical-flow.jpg)
Optical flow -kaavioita, jotka korostavat, miten liike seurataan kehysjärjestyksessä, vihreillä vektoreilla osoittamalla liikkeen suunnan ja voimakkuuden. Nämä kartoitukset tarjoavat tarvittavan temporal jatkuvuuden VLM:lle ja voivat myös toimia rakenteellisina oppaina VFX-työvirroissa. Lähde
Asettuminen Cliffsin Muistiinpanoihin
Kuitenkin, koska mallit, kuten Google Notebook LM ja uudemmista ChatGPT -versioista, pystyvät lukemaan liittyvät metatiedot (ts. upotettu tekstisisältö, joka kontekstualisoi videon jollain tavoin), ne eivät kiellä videotiedostojen lataamista; ja joskus ne jopa yrittävät tulkita videota, jolla ei ole tällaista tietoa.
Seuraavassa tapauksessa ladin 6 sekunnin satunnaisen klipin Italian elokuvasta Jumalan käsi (2021) NotebookLM:lle, varmistamalla, että klipissä ei ollut mitään hyödyllistä tekstiä, joko metatiedoissa tai tiedostonimessä.
NotebookLM jatkoi sitten monimutkaista harhamaista materiaalia, joka ei ollut lainkaan liitetty videota, yhdessä järjettömän ja liittymättömän viisiminuuttisen podcastin kanssa:

Arkipäivän hetki kuusisekuntisessa klipissä Italian elokuvasta on villinä tulkittu NotebookLM:llä. Lähde: Google NotebookLM
Vaikka Notebook, kuten ChatGPT, hyväksyy YouTube-videon syötteenä, se tekee niin vain, jos videossa on tulkitettava tekstikerrosmerkintä ja/tai tekstitys (ei rasteroituja tekstityksiä, jotka on poltettu videolle).
Tällä tavoin varsinaisen katselun ja videon sisällön kuuntelemisen sekä semanttisen tulkinnan tehtävä (oikeudellinen välttämättömyys YouTube:lle sen tekijänoikeussuojan vuoksi, ja sen tunnistusjärjestelmän kehittämisen vuoksi) on tehty vapaa-ajan kanssa käyttäjän latauksen jälkeen, ja kun klippi voidaan aloittaa tarvittavat prosessointiresurssit.
Oikea videon tulkinta on kallista ja uupuvaa, ja ilmenee, että jopa mallit, jotka on koulutettu erityisesti tätä tehtävää varten, mieluummin lukevat tekstiä kuin katselevat videota.
TL;DW
Tämä, uuden tutkimuksen mukaan, joka on tehty Yhdistyneen kuningaskunnan Bristolin yliopistossa, ja joka on nimeltään Videon arvo ei ole tuhat sanaa, jossa kaksi kirjoittajaa toteaa, että nykyiset huipputason visio-kielimallit (VLM) – mallit, jotka on tarkoitettu pystyväksi analysoimaan videoita monimutkaisemmin ja osallistumaan video-kysymys-vastaus (VQA) – myös oletetaan tekstipohjaisiin tietoihin, kun ne voivat.
Kun annettiin sekä liikkuvia kuvia että kirjoitettuja kysymyksiä ja monivalintavastauksia, tutkimuksen kirjoittajat löysivät, että mallit perustivat valintansa usein tekstin kuviin nähden – useissa tapauksissa suorittaen yhtä hyvin, vaikka kysymys poistettiin kokonaan.
Mitä näyttää olevan tavallinen lyhennys tai petos, se, mikä oli tärkeintä useimmille malleille, oli kyky havaita tekstin kuviin nähden; vasta kun tehtävä tehtiin vaikeammaksi lisäämällä enemmän vastausvaihtoehtoja, Ait aiheuttivat tarkempaa huomiota videolle.
Kirjoittajat antoivat VQA-testejä eri olosuhteissa kuudelle VLM-mallille, joilla oli erilaisia kontekstipituutta, neljällä sopivalla datasetillä; ja löysivät, että tulokset osoittivat mallien riippuvuuden tekstin sisällöstä videon sijaan.

Esimerkki tutkimuksesta, jossa näytetään, miten videoanalyysimalli painottaa näkemistään ja lukeemiaan. Klipissä näkyy henkilö, joka kutoo bambua, mutta malli antaa paljon enemmän painoa kirjoitettuun kysymyksen ja vastausTekstiin kuin itse videoframeihin. Siniset korostukset osoittavat alueita, jotka tukevat valittua vastausta, kun taas punaiset osoittavat niitä, jotka vievät sen vastakkaiseen suuntaan, osoittaen, miten mallin päättely keskittyy sanamuotoon eikä liikkuviin kuviin. Lähde












