Andersonin kulma
Tekoälyn kamppailulla analogisten kellojen lukemisessa voi olla syvempi merkitys

Kiinalaisten ja espanjalaisten tutkijoiden uudessa tutkimuksessa havaitaan, että jopa edistyneet multimodaaliset tekoälymallit, kuten GPT-4.1, eivät pysty päättelemään aikaa analogisten kellojen kuvista. Pienet visuaaliset muutokset kelloissa voivat aiheuttaa merkittäviä tulkintavirheitä, ja hienosäätö auttaa vain tuttujen esimerkkien kanssa. Tulokset herättävät huolta näiden mallien luotettavuudesta, kun ne kohtaavat vieraita kuvia tosielämän tehtävissä.
Kun ihmiset kehittävät riittävän syvällisen ymmärryksen jostakin alueesta, kuten painovoimasta tai muista fysiikan perusperiaatteista, siirrymme tiettyjen esimerkkien ulkopuolelle ymmärtääksemme taustalla olevia abstraktioita. Tämä antaa meille mahdollisuuden soveltaa tätä tietoa luovasti eri konteksteissa ja tunnistaa uusia tapauksia, jopa sellaisia, joita emme ole koskaan ennen nähneet, tunnistamalla periaatteen toiminnassa.
Kun verkkotunnuksella on tarpeeksi merkitystä, saatamme jopa alkaa havaita sen missä sitä ei ole olemassa, kuten pareidolia, todellisen tapauksen tunnistamatta jättämisen korkean hinnan vuoksi. Tämä hahmoja tunnistava selviytymismekanismi on niin vahva, että se jopa estää meitä löytää laajemman valikoiman kuvioita missä niitä ei ole.
Mitä aikaisemmin ja toistuvammin jokin alue meille juurrutetaan, sitä syvempää sen maadoittava vaikutus ja elinikäinen säilyminen; ja yksi varhaisimmista visuaalisista tietoaineistoista, joille altistumme lapsena, on opetuskellojen muodossa, joissa painettua materiaalia tai interaktiivisia analogisia kelloja käytetään opettamaan meille ajan kertomista:

Opetusvälineitä, jotka auttavat lapsia oppimaan kertomaan ajan. Lähde: https://www.youtube.com/watch?v=IBBQXBhSNUs
Vaikka kellojen suunnittelun muuttuvat muotit saattaa joskus haastaa meidät, tämän varhaisen toimialueen hallinnan sitkeys on varsin vaikuttavaa, ja sen ansiosta pystymme erottamaan analogiset kellotaulut jopa monimutkaisten tai "epäkeskeisten" suunnitteluvalintojen edessä:

Haastavia kasvoja katsomossa huippumuoti. Lähde: https://www.ablogtowatch.com/wait-a-minute-legibility-is-the-most-important-part-of-watch-design/
Ihmiset ei tarvitse tuhansia esimerkkejä oppia, miten kellot toimivat; kun peruskäsite on ymmärretty, voimme tunnistaa sen lähes missä tahansa muodossa, jopa vääristyneenä tai abstraktoituna.
Tekoälymallien tässä tehtävässä kohtaama vaikeus puolestaan korostaa syvempää ongelmaa: niiden näennäinen vahvuus voi riippua enemmän suuresta altistumisesta kuin ymmärryksestä.
Jäljitelmäpelin tuolla puolen?
Pintapuolisen suorituskyvyn ja aidon "ymmärryksen" välinen jännite on noussut toistuvasti esiin viimeaikaisissa suurten mallien tutkimuksissa. Viime kuussa Zhejiangin yliopisto ja Westlaken yliopisto muotoilivat kysymyksen uudelleen... paperi nimeltään Ymmärtävätkö tohtoritason oikeustieteen maisterit todella alkeislaskutoimituksia? (ei tämän artikkelin aihe), päätelmänä:
Vaikuttavista vertailuarvoista huolimatta mallit osoittavat kriittistä riippuvuutta hahmonsovituksesta todellisen ymmärryksen sijaan, mistä on osoituksena symbolisten esitysten epäonnistumiset ja perusominaisuuksien rikkomukset.
"Suorituskykyä heikentävät eksplisiittiset säännökset viittaavat arkkitehtuurin luontaisiin rajoituksiin. Nämä havainnot paljastavat arviointiaukkoja ja korostavat tarvetta arkkitehtuureille, jotka kykenevät aitoon matemaattiseen päättelyyn hahmontunnistuksen lisäksi."
Tällä viikolla kysymys nousee jälleen esiin, nyt Nanjingin ilmailu- ja avaruustekniikan yliopiston ja espanjalaisen Madridin teknillisen yliopiston yhteistyönä. Otsikolla Ovatko multimodaaliset suuret kielimallit (MLLM) todella oppineet kertomaan ajan analogisista kelloista?, The uusi paperi tutkii, kuinka hyvin multimodaaliset mallit ymmärtävät ajan kertomista.
Vaikka tutkimuksen edistymistä käsitellään artikkelissa vain laajasti yksityiskohtaisesti, tutkijoiden alustavat testit osoittivat, että OpenAI:n GPT-4.1 Multimodaalinen kielimalli kamppaili ajan lukemisen kanssa oikein monipuolisesta kellokuvajoukosta ja antoi usein vääriä vastauksia jopa yksinkertaisissa tapauksissa.
Tämä viittaa mahdolliseen aukkoon mallin harjoitusdatassa, mikä lisää tarvetta tasapainoisemmalle datajoukolle sen testaamiseksi, pystyykö malli todella oppimaan taustalla olevan konseptin. Siksi kirjoittajat kuratoivat synteettisen analogisten kellojen datajoukon, joka kattaa tasaisesti kaikki mahdolliset ajat ja välttää internet-kuvissa tavanomaisia vinoumia:

Esimerkki tutkijoiden synteettisen analogisen kellon tietojoukosta, jota käytetään GPT-mallin hienosäätöön uudessa työssä. Lähde: https://huggingface.co/datasets/migonsa/analog_watches_finetune
Ennen hienosäätö uudella datasetillä GPT-4.1 ei jatkuvasti lukenut näitä kelloja. Uuden kokoelman kokeilun jälkeen sen suorituskyky kuitenkin parani – mutta vasta silloin, kun uudet kuvat näyttivät jo nähdyiltä.
Kun kellon muoto tai viisarien tyyli muuttui, tarkkuus heikkeni jyrkästi; pienetkin muutokset, kuten ohuemmat viisarit tai nuolenkärjet (alla oleva kuva oikealla), riittivät heikentämään tarkkuutta; ja GPT-4.1:llä oli lisäksi vaikeuksia tulkita Dali-tyyliä. 'sulavia kelloja':

Kellokuvat, joissa on vakiomuotoilu (vasen), vääristynyt muoto (keskellä) ja muunnetut viisarit (oikea), sekä GPT-4.1:n palauttamat ajat ennen hienosäätöä ja sen jälkeen. Lähde: https://arxiv.org/pdf/2505.10862
Kirjoittajat päättelevät, että nykyiset mallit, kuten GPT-4.1, saattavat siksi oppia kellon lukemisen pääasiassa visuaalinen kuvioiden yhteensovitus, eikä mitään syvempää ajan käsitettä, väittäen:
'[GPT 4.1] epäonnistuu, kun kelloa muutetaan epämuodostuneeksi tai kun viisareita muutetaan ohuemmiksi ja niissä on nuolenkärki. Aika-arvion keskimääräinen absoluuttinen virhe (MAE) 150 satunnaisen ajanhetken aikana oli 232.48 sekuntia alkuperäisille kelloille, 1380.69 sekuntia, kun muotoa muutetaan, ja 3726.93 sekuntia, kun viisareita vaihdetaan.'
"Nämä tulokset viittaavat siihen, että MLLM ei ole oppinut kertomaan aikaa, vaan pikemminkin muistanut kaavoja."
Tarpeeksi aikaa
Useimmat harjoitusdatajoukot perustuvat kaapattuihin verkkokuviin, jotka toistuvat usein tiettyinä aikoina – erityisesti kohdassa 10:10. suosittu asetelma kellomainoksissa:

Uudesta artikkelista esimerkki 'kymmenen yli kymmenen' -ajan yleisyydestä analogisten kellojen kuvissa.
Tämän rajoitetun kuvattujen aikavälien seurauksena malli saattaa nähdä vain kapean valikoiman mahdollisia kellokonfiguraatioita, mikä rajoittaa sen kykyä yleistää näiden toistuvien kuvioiden ulkopuolelle.
Tutkimuksessa todetaan, miksi mallit eivät tulkitse vääristyneitä kelloja oikein:
Vaikka GPT-4.1 toimii poikkeuksellisen hyvin tavallisten kellokuvien kanssa, on yllättävää, että kellon viisarien muokkaaminen ohentamalla niitä ja lisäämällä nuolenkärkiä johtaa sen tarkkuuden merkittävään laskuun.
Intuitiivisesti voisi olettaa, että visuaalisesti monimutkaisemmalla muutoksella – vääristyneellä kellotaululla – olisi suurempi vaikutus suorituskykyyn, mutta tällä muutoksella näyttää olevan suhteellisesti pienempi vaikutus.
Tämä herättää kysymyksen: miten monikäyttöiset mallit tulkitsevat kelloja ja miksi ne epäonnistuvat? Yksi mahdollisuus on, että ohuemmat viisarit heikentävät mallin kykyä havaita suuntaa, mikä heikentää sen ymmärrystä tilan suunnasta.
"Vaihtoehtoisesti voi olla muita tekijöitä, jotka aiheuttavat hämmennystä, kun malli yrittää yhdistää tunti-, minuutti- ja sekuntiviisarit tarkkaan aikalukemaan."
Kirjoittajat väittävät, että näiden vikojen perimmäisen syyn tunnistaminen on avainasemassa multimodaalisten mallien kehittämisessä: jos ongelma on siinä, miten malli havaitsee tilan suunnan, hienosäätö voi tarjota yksinkertaisen ratkaisun; mutta jos ongelma johtuu laajemmasta vaikeudesta useiden visuaalisten vihjeiden integroinnissa, se viittaa perustavanlaatuisempaan heikkouteen siinä, miten nämä järjestelmät käsittelevät tietoa.
Hienosäätötestit
Jotta testattaisiin, voidaanko mallin viat korjata altistuksella, GPT-4.1:tä hienosäädettiin edellä mainitulla ja kattavalla synteettisellä aineistolla. Ennen hienosäätöä sen ennusteet olivat hajallaan laajalti, ja niissä oli merkittäviä virheitä kaikentyyppisissä kelloissa. Kokoelman hienosäädön jälkeen tarkkuus parani jyrkästi standardikellotauluissa ja vähäisemmässä määrin vääristyneissä kellotauluissa.
Muunnelluilla viisareilla, kuten ohuemmilla muodoilla tai nuolenkärjillä, varustetut kellot tuottivat kuitenkin edelleen suuria virheitä.
Kaksi erillistä vikaantumistapaa ilmeni: normaaleissa ja vääristyneissä kelloissa malli tyypillisesti arvioi viisarien suunnan väärin; mutta kelloissa, joissa oli muutettu... käsien tyylit, se usein sekoitti kummankin käden toiminnon ja erehtyi tunti varten minuutti or minuutti varten toinen.

Vertailu, joka havainnollistaa mallin alkuperäistä heikkoutta ja hienosäädöllä saavutettuja osittaisia parannuksia. Kuvassa näkyy ennustettu ja todellinen aika sekunteina 150 satunnaisesti valitulle kellolle. Vasemmalla, ennen hienosäätöä, GPT-4.1:n ennusteet ovat hajallaan ja usein kaukana oikeista arvoista, kuten punainen vinoviiva osoittaa. Oikealla, tasapainotetun synteettisen tietojoukon hienosäädön jälkeen ennusteet vastaavat paljon paremmin totuutta, vaikka joitakin virheitä on edelleen.
Tämä viittaa siihen, että malli oli oppinut yhdistämään visuaaliset piirteet, kuten käden paksuuden, tiettyihin rooleihin ja kamppaili, kun nämä vihjeet muuttuivat.
Rajallinen parannus vieraisiin malleihin herättää lisää epäilyksiä siitä, oppiiko tämäntyyppinen malli abstraktin ajan kertomisen käsitteen vai ainoastaan tarkentaisiko se kuvioiden yhteensovittamista.
Käsikyltit
Vaikka hienosäätö paransi GPT-4.1:n suorituskykyä perinteisissä analogisissa kelloissa, sillä oli paljon vähemmän vaikutusta ohuemmilla viisareilla tai nuolenkärkien muotoisilla kelloilla, mikä nostaa esiin mahdollisuuden, että mallin epäonnistumiset johtuivat vähemmän abstraktista päättelystä ja enemmän sekaannuksesta siitä, kumpi viisari oli kumpi.
Jotta testattaisiin, voisiko tarkkuus parantua, jos tämä sekaannus poistettaisiin, mallin ennusteille tehtiin uusi analyysi 'muokatun viisarin' tietojoukolle. Tulokset jaettiin kahteen ryhmään: tapaukset, joissa GPT-4.1 tunnisti tunti-, minuutti- ja sekuntiviisarit oikein, ja tapaukset, joissa se ei tunnistanut niitä.
Ennusteissa tehtiin arviointi Keskimääräinen absoluuttinen virhe (MAE) ennen hienosäätöä ja sen jälkeen, ja tuloksia verrattiin standardikellojen tuloksiin; kulmavirhe mitattiin myös kummallekin osoittimelle käyttäen kellotaulun asentoa lähtökohtana:

Virhevertailu kelloille, joissa on ja ei ole käsien roolien sekaannusta muokatussa käden tietojoukossa ennen hienosäätöä ja sen jälkeen.
Suurimmat virheet syntyivät, kun GPT-4.1 sekoitti tuntiviisarin minuuttiviisariin tai päinvastoin, aika-arviot olivat usein kaukana tolaltaan. Sitä vastoin oikein tunnistetun viisarin suunnan virheellisestä arvioinnista johtuvat virheet olivat pienempiä. Kolmesta viisarista tuntiviisarilla oli suurin kulmavirhe ennen hienosäätöä, kun taas sekuntiviisarilla oli pienin.

Käsin tyypin mukainen kulmavirhe ennusteissa, joissa on ja ei ole käsin tehtyä roolisekausta, ennen hienosäätöä ja sen jälkeen, muokatussa käden datajoukossa.
Keskittyen pelkästään suuntavirheisiin, analyysi rajoittui tapauksiin, joissa malli tunnisti oikein kunkin viisarin toiminnon. Jos malli olisi sisäistänyt yleisen ajan kertomisen käsitteen, sen suorituskyvyn näissä esimerkeissä olisi pitänyt vastata sen tarkkuutta standardikelloissa. Se ei kuitenkaan tehnyt niin, ja tarkkuus pysyi huomattavasti heikompana.
Tutkiakseen, onko käsi muoto häiritsi mallin suuntavaistoa, suoritettiin toinen koe: luotiin kaksi uutta tietojoukkoa, jotka molemmat sisälsivät kuusikymmentä synteettistä kelloa, joissa oli vain tuntiviisari ja joka osoitti eri minuuttimerkkiä. Toisessa joukossa käytettiin alkuperäistä viisarin mallia ja toisessa muutettua versiota. Mallia pyydettiin nimeämään rasti, johon viisari osoitti.
Tulokset osoittivat tarkkuuden hieman laskeneen muokatuilla osoittimilla, mutta eivät riittävästi selittämään mallin laajempia puutteita. yksittäinen tuntematon visuaalinen piirre näytti kykenevän häiritsemään mallin yleistä tulkintaa, jopa tehtävissä, jotka se oli aiemmin suorittanut hyvin.

Yleiskatsaus GPT-4.1:n suorituskykyyn ennen hienosäätöä ja sen jälkeen vakio-, vääristyneillä ja modifioiduilla viisareilla, tuoden esiin epätasaiset vahvistukset ja jatkuvat heikkoudet.
Yhteenveto
Vaikka artikkelin painopiste saattaa ensi silmäyksellä vaikuttaa triviaalilta, sillä ei ole erityistä merkitystä, oppivatko näköpohjaiset kielimallit koskaan lukemaan analogisia kelloja 100 %:n tarkkuudella. Työlle antaa painoarvoa sen keskittyminen syvempään, toistuvaan kysymykseen: voiko mallien kyllästäminen useammalla (ja monimuotoisemmalla) datalla johtaa sellaiseen ymmärrykseen alueesta, jonka ihmiset saavuttavat abstraktion ja yleistyksen kautta; vai onko ainoa mahdollinen tie tulvia alue riittävällä määrällä esimerkkejä, jotta voidaan ennakoida kaikki todennäköiset variaatiot päättelyn yhteydessä.
Kumpikin vaihtoehto herättää epäilyksiä siitä, mitä nykyiset arkkitehtuurit todella pystyvät oppimaan.
Julkaistu ensimmäisen kerran maanantaina 19. toukokuuta 2025