Tekoäly

Jopa uusimmat kielen mallit kärsivät vaikeuksista ymmärtäessään ajallista logiikkaa

Published January 27, 2025

Updated April 26, 2026

Martin Anderson

Variation on ChatGPT-4o prompt: ‘1792px x 1024px photorealistic HQ image of a robot looking at a computer screen. On the screen is a picture of a chicken and an egg. The image should not be cartoon-ish, or illustration-like, but should look like a still from a high-budget Hollywood movie’

Tulevien tilojen ennustaminen on kriittinen tehtävä tietokoneen näön tutkimuksessa – ei vähiten robotiikassa, jossa on otettava huomioon todelliset tilanteet. Konenäön järjestelmiin, joille on annettu tehtäväksi kriittisiä tehtäviä, tarvitaan riittävä ymmärrys fyysisestä maailmasta.

Kuitenkin joissakin tapauksissa näennäisesti vaikuttava tietämys ajallisesta todellisuudesta voi olla petollinen: Yhdistyneiden arabiemiirikuntien uusi tutkimus on osoittanut, että uusimmat multimodaaliset suurten kielen mallit (MLLM), mukaan lukien alan johtajat GPT-4o ja Google Gemini, epäonnistuvat ymmärtäessään, miten aika esitetään kuvissa.

Esimerkiksi peräkkäiset parit (ks. kuva alla), jotka olisivat ihmisille helppoja järjestää oikeaan järjestykseen, voivat hämätä edistyneitä MLLM:ejä, kun ne esitetään odottamattomissa yhteyksissä tai kokoonpanoissa (kuten toisen kuvan ensin, yhdistetty yhteen kuvaan, useita peräkkäisiä kuvia, jotka saattavat tai eivät edusta oikeaa ajallista järjestystä jne.).

Tutkimuksessa käytettyjen tietojoukkojen otteita, jotka esittävät peräkkäisiä tapahtumia. Tutkijat ovat julkaissut tiedot osoitteessa https://huggingface.co/datasets/fazliimam/temporal-vqa/viewer

Tutkimuksessa käytettyjen tietojoukkojen otteita, jotka esittävät peräkkäisiä tapahtumia muodossa “ennen ja jälkeen” -kuvat. Tutkijat ovat julkaissut tiedot osoitteessa https://huggingface.co/datasets/fazliimam/temporal-vqa/viewer

Tutkijat antoivat mallien suorittaa perustason ajallisia päättelytehtäviä, kuten määrittää tapahtumien järjestys tai arvioida aikavälejä, ja totesivat, että seitsemän testattua MLLM:ää suorittivat merkittävästi huonommin kuin ihmiset:

’Yleisesti ottaen, [tulokset] osoittavat, että kaikki nykyiset MLLM:t, mukaan lukien GPT-4o – arvioimme edistynein malli – kärsivät ehdotetusta vertailuarviosta. Vaikka GPT-4o:n suorituskyky on muita malleja parempi, se ei pysty johdonmukaisesti osoittamaan tarkkaa ajallista päättelyä eri asetelmissa.

’Kaikkien mallien tulokset ovat huomattavan alhaisia, mikä osoittaa merkittäviä rajoituksia niiden kyvyssä ymmärtää ja tulkita ajallisia järjestyksiä visuaalisista syötteistä. Nämä puutteet ovat ilmeisiä myös silloin, kun malleille annetaan monikuvasyöttejä tai optimoituja ohjauksia, mikä osoittaa, että nykyiset arkkitehtuurit ja koulutusmenetelmät eivät ole riittäviä vankkaan ajalliseen järjestyksen ymmärtämiseen.’

Konenäön järjestelmiä suunnitellaan optimoimaan tarkimpiin, mutta myös tehokkaimpiin ja ihmisten miellyttävimpiin tuloksiin*. Koska ne eivät paljasta päätöksentekoaan selvästi, voi olla vaikea havaita, kun ne ’pettävät’ tai ’lyhentävät’.

Tällöin MLLM saattaa saavuttaa oikean vastauksen väärän menetelmän kautta. Se, että tällainen vastaus voi olla oikein, saattaa inspiroida väärää luottamusta malliin, joka voi tuottaa virheellisiä tuloksia samalla menetelmällä myöhemmin esitetyissä tehtävissä.

Pahimmassa tapauksessa tämä harha voi muodostua syvemmäksi kehitysketjuun, jos ihmiset vaikuttavat siihen ja antavat positiivista palautetta kokeissa ja merkintäistunnoissa, mikä saattaa vaikuttaa siihen, mihin suuntaan data ja/tai malli kehittyy.

Tässä tapauksessa ehdotetaan, että MLLM:t ’tekevät näyttää’ ajan ja ajallisten ilmiöiden todellisesta ymmärryksestä, havainnoimalla ja kiinnittymällä sekundäärisiin osoittimiin (kuten aikaleimoihin esimerkiksi videodatasta, kuvien järjestykseen tai jopa – potentiaalisesti – peräkkäin numeroiden nimien).

Se osoittaa myös, että MLLM:t eivät tyydytä minkäänlaista yleistettyä ajallisten ilmiöiden käsitettä – ainakin siinä määrin kuin ihmiset.

Uusi tutkimus on otsikoitu Voivatko multimodaaliset MLLM:t tehdä visuaalista ajallista ymmärtämistä ja päättelyä? Vastaus on ei!, ja se on peräisin kolmelta tutkijalta Mohamed bin Zayedin yliopistosta ja Alibaba International Digital Commercesta.

Data ja testit

Tutkijat toteavat, että aiemmat vertailuarviot ja tutkimukset, kuten MMMU ja TemporalBench, keskittyvät yksittäisiin kuvasyötteisiin tai muotoilevat kysymyksiä MLLM:ille, jotka saattavat olla liian helppoja vastata, eivätkä paljasta taipumusta ’lyhentämiseen’.

Sen vuoksi tutkijat tarjoavat kaksi uutta lähestymistapaa: Ajallisen järjestyksen ymmärtäminen (TOU) ja Aikahyppyarvio (TLE). TOU-lähestymistapa testaa mallien kykyä määrittää oikea tapahtumien järjestys videoframe-pareista; TLE-menetelmä arvioi MLLM:n kykyä arvioida aikaväli kahden kuvan välillä, vaihdellen sekunneista vuosiin.

Tutkimuksesta, kaksi päätehtävää TemporalVQA-benchmarkissa: Ajallisen järjestyksen ymmärtämisessä malli päättää, kumpi kahdesta kuvasta esittää ensin tapahtuneen tapahtuman; Aikahyppyarvioinnissa malli arvioi, kuinka paljon aikaa on kulunut kahden kuvan välillä, valitsemalla vaihtoehdoista, jotka sisältävät sekunteja, minuutteja, tunteja, päiviä tai vuosia. Nämä tehtävät pyrkivät testaamaan, miten hyvin MLLM:t voivat päätteliä visuaalisten tapahtumien ajasta ja järjestyksestä. Lähde: https://arxiv.org/pdf/2501.10674

Tutkijat keräsivät 360 kuvaparia TOU-benchmarkiin, käyttäen avoimia lähdemateriaaleja Pixabaysta ja Pexelsista, jotta tietojoukkoa voitiin tehdä saataville graafisella käyttöliittymällä.

Videot käsittivät laajan aihevalikoiman, alkaen ihmisistä arjessa olevista toimista ja päättyen ei-ihmisperäisiin sisältöihin, kuten eläimiin ja kasveihin. Näistä valittiin kuvapareja, jotka esittivät tapahtumien järjestystä tarpeeksi suurella vaihtelulla, jotta alkuperäinen kehyksen järjestys olisi ’selvä’.

Ihmisten valinta käytettiin varmistamaan, että kehykset voitiin järjestää määrätysti. Esimerkiksi yksi koottu pari esittää osittain täytettyä teekuppia yhdessä kehyksessä ja samaa kuppi täytettyä teellä seuraavassa kehyksessä, mikä tekee järjestyksen logiikan helppotajuisaksi.

Ajallinen logiikka näistä kahdesta kuvasta ei voida välttää, koska teetä ei voi imeä takaisin suuttimen kautta.

Tällä tavoin saatiin 360 kuvaparia.

Aikahyppyarvioinnissa (TLE) käytettiin tekijänoikeuksienvapaita kuvia Googlen ja Flickrin kautta, sekä valittuja kehyksiä tekijänoikeuksienvapaisista videoista YouTubesta. Videoiden aiheina olivat kohtauksia tai esineitä, joiden muutoksen väli vaihteli sekunneista päiviin ja vuodenaikoihin – esimerkiksi kypsyvää hedelmää tai vuodenaikojen muutosta maisemissa.

Näin ollen 125 kuvaparia koottiin TLE-menetelmään.

Kaikki testatut MLLM:eistä eivät pystyneet käsittelemään useita kuvia; siksi testit erosivat jokaisen mallin kykyjen mukaan.

Useita versioita koottuja tietoja luotiin, joissa joitakin pareja yhdistettiin pystysuunnassa ja toisia vaakasuunnassa. Lisäksi joitakin varianteja vaihdettiin oikean ajallisen järjestyksen kanssa.

Kaksi ohjaustyyppiä kehitettiin. Ensimmäinen seurasi tätä kaavaa:

Tapahtuiko tapahtuma (vasen / ylempi / ensimmäinen) kuvassa ennen tapahtumaa (oikea / alinen / toinen) kuvassa? Vastaa tosi tai epätosi ja perustelut.

Toinen seurasi tätä kaavaa:

Kumpi näistä kahdesta kuvasta esittää ensin tapahtuneen tapahtuman? Vastaa (vasen tai oikea / ylempi tai alinen / ensimmäinen tai toinen) ja perustelut.

Aikahyppyarvioinnissa kysymykset olivat monivalintaisia, joissa mallien tuli arvioida aikaväli kahden esitetyn kuvan välillä, valitsemalla vaihtoehtoja, jotka sisälsivät sekunteja, tunteja, minuutteja, päiviä, kuukausia ja vuosia.

Käytetty ohjaus oli:

Arvioi aika, joka on kulunut ensimmäisen kuvan (vasen) ja toisen kuvan (oikea) välillä.

Valitse yksi seuraavista vaihtoehdoista:

1. Alle 15 sekuntia B. 2-15 minuuttia C. 1-12 tuntia D. 2-30 päivää E. 4-12 kuukautta F. Yli 3 vuotta

Testatut MLLM:t olivat ChatGPT-4o; Gemini1.5-Pro; LlaVa-NeXT; InternVL; Qwen-VL; Llama-3-vision; ja LLaVA-CoT.

Ajallisen järjestyksen ymmärtäminen: Tulokset

Ajallisen järjestyksen ymmärtämisen tulokset eri malleissa ja syötteiden asettelussa, näyttäen tarkkuutta ja johdonmukaisuutta eri asetelmissa ja ohjauksissa.

Tutkijat totesivat, että kaikki testatut MLLM:t, mukaan lukien GPT-4o (joka osoitti parhaimman kokonaissuorituskyvyn), kärsivät merkittävästi TemporalVQA-benchmarkista – ja jopa GPT-4o epäonnistui johdonmukaisesti osoittamasta luotettavaa ajallista päättelyä eri asetelmissa.

Tutkijat väittävät, että MLLM:ien johdonmukainen alhainen tarkkuus osoittaa merkittäviä puutteita niiden kyvyssä tulkita ja päätteliä ajallisia järjestyksiä visuaalisista syötteistä. Tutkijat toteavat, että nämä haasteet jatkuvat myös monikuvasyötteiden ja optimoiden ohjausten kanssa, osoittaen perustavanlaatuisia rajoituksia nykyisissä mallirakenteissa ja koulutusmenetelmissä.

Testit osoittivat merkittäviä eroja suorituskyvyssä eri ohjausstrategioiden välillä. Vaikka GPT-4o paransi optimoiduilla ohjauksilla (saavuttaen 4 % yksittäisissä kuvissa ja 65,3 % monikuvaisissa asetelmissa), suorituskyky säilyi hyväksytyn tason alapuolella.

Mallit, kuten LLaVA-NeXT ja Qwen-VL, olivat vielä herkempiä, ja niiden suorituskyky laski, kun vaihdettiin ohjausta, mikä osoittaa, että ohjausmuotoilu yksinään ei voi korjata MLLM:ien perustavanlaatuisia rajoituksia ajallisen päättelyn suhteen.

Testit osoittivat myös, että kuvien asettelu (ts. pysty- vs. vaakasuora) vaikutti merkittävästi mallien suorituskykyyn. GPT-4o paransi johdonmukaisuuttaan pystysuorassa asettelussa, nousevaan 39,2 %:sta 52,8 %:iin; toisaalta muut mallit, mukaan lukien LLaVA-tyypit, osoittivat voimakkaita suunnanriippuvaisia taipumuksia, menestyen jossain asettelussa, mutta epäonnistuen toisessa.

Tutkimus osoittaa, että nämä epäjohdonmukaisuudet viittaavat riippuvuuteen spatiaalisista vihjeistä, eikä todellisesta ajallisen päättelystä, ja MLLM:t eivät todella analysoi tapahtumien järjestystä tai ymmärrä ajan kulkua.

Laadulliset testit korostavat GPT-4o:n ennusteita, kun se kohtaa eri syötteiden järjestyksiä. Ensimmäisessä järjestyksessä kuvaparit esitetään alkuperäisessä järjestyksessä, kun taas toisessa järjestyksessä järjestys on käänteinen. Oikeat luokittelut on merkitty vihreällä, puhdas virheluokittelu punaisella, harhauttava päättely oranssilla ja epälooginen tai ’epäkelpo’ päättely ruskealla, paljastaen mallin epäjohdonmukaisuudet eri syötteiden asetelmissa.

Vertailutestit yksittäisen ja monikuvaisen syötteen välillä osoittivat rajatun kokonaisparannuksen, GPT-4o suorittaen hieman paremmin monikuvaisessa syötteessä, nousevaan 31,0 %:sta 43,6 %:iin (P1:llä) ja 46,0 %:sta 65,3 %:iin (P2:llä).

Muiden mallien, kuten InternVL:n, suorituskyky oli vakaata, mutta alhainen. Qwen-VL:n suorituskyky parani lievästi. Tutkijat johtopäätöksen, että nämä tulokset osoittavat, että lisävisuaalinen konteksti ei paranna merkittävästi ajallista päättelykykyä, koska mallit kärsivät integroimasta ajallista tietoa tehokkaasti.

Ihmistutkimus

Ihmistutkimuksessa tehtiin kolme kyselyä arvioidakseen, miten hyvin parhaimmin suoriutunut multimodaalinen MLLM suoriutui verrattuna ihmisten arvioihin.

Ihmiset saavuttivat 90,3 %:n tarkkuuden, joka ylitti GPT-4o:n 65,3 %:n 25 prosentilla. Tietojoukko osoittautui luotettavaksi, ja ihmisillä oli vähän virheitä ja yhtenäisiä vastauksia.

Ihmiskäyttäjien tutkimuksen tulokset ensimmäisestä kierroksesta.

Aikahyppyarvio: Tulokset

Aikahyppyarvioinnin tulokset: aikavälin arviointi arvioi mallien tarkkuutta ajallisten välien tunnistamisessa kuvapareissa, aikaskaalassa sekunneista vuosiin. Tehtävä arvioi kunkin mallin kykyä valita oikea aikaskaala ajalliseen aukkoon.

Näissä testeissä MLLM:t suoriutuivat vain kohtalaisesti aikahyppyarvioinnissa: GPT-4o saavutti 70 %:n tarkkuuden, mutta muut mallit suoriutuivat selvästi huonommin (ks. yllä oleva taulukko), ja suorituskyky vaihteli myös merkittävästi eri aikaskaaloissa.

Tutkijat toteavat:

’Aikahyppyarvioinnin tehtävä testaa MLLM:ien kykyä päätellä ajallisia välejä kuvapareista. [Kaikki] MLLM:t, mukaan lukien parhaimmat suorittajat kuten GPT-4o ja Gemini1.5-Pro, kärsivät tästä tehtävästä, saavuttaen vain kohtalaisen 60-70 %:n tarkkuuden.

GPT-4o osoittaa epäjohdonmukaista suorituskykyä, vahvaa suorituskykyä sekunneissa ja vuosissa, mutta heikkoa suorituskykyä tunteja koskien.

Vastaavasti LLaVA-CoT osoittaa poikkeuksellista suorituskykyä sekunneissa ja päivissä, mutta huonoa suorituskykyä muissa aikaväleissä.’

Ihmistutkimus

Aikahyppyarvioinnin ihmistutkimuksessa keskimääräinen ihmisen suorituskyky paransi GPT-4o:n (parhaimman mallin myös tässä luokassa) suorituskykyä 12,3 prosentilla.

Tutkijat toteavat, että jotkut haasteista olivat erityisen vaativia, ja yhdessä tapauksessa kaikki ihmisosallistujat antoivat väärän vastauksen, yhdessä kaikkien AI-osallistujien kanssa.

Tutkijat johtopäätöksen, että GPT-4o osoittaa ’kohtalaisen vankat päättelykyvyt, huolimatta siitä, mihin järjestykseen kuvat esitetään.

Johtopäätös

Jos MLLM:t lopulta keräävät ja omaksuvat tarpeeksi ’lyhenteitä’ tällaisiin haasteisiin, voidaanko sanoa, että ne ovat kehittäneet inhimillistä yleistämiskykyä tässä alueessa, riippumatta siitä, miten he saavuttavat sen.

Ei myöskään tiedetä, miten saavutamme itse ajallisen päättelykyvyn – käykö meillä ’lyhenteitä’, kunnes oppimisen määrä paljastaa mallin, joka toimii ’vaistonaisesti’ tämänkaltaisissa testeissä?

* Näkökulmasta, jossa mallit optimoidaan yhä enemmän menetelmillä, joihin on vaikuttanut ihmisten palautteen antaminen, ja jotka on tehostettu ihmiskokeilla ja seuranneella triagella.

Julkaistu ensimmäisen kerran maanantaina, 27. tammikuuta 2025

Related Topics:advanced LLM techniques LLM LLM hallucinations

Martin Anderson

Kirjailija tekoälystä, alan erikoisosaaja ihmiskuvien synteesissä. Entinen tutkimussisällön johtaja Metaphysic.ai:lla.
Henkilökohtainen sivu: martinanderson.ai
Ota yhteyttä: [email protected]