Connect with us

Tekoälymallit epäonnistuvat perusasioissa kuten analogisen kellon lukemisessa, kun taas ihmiset menestyvät

Tekoäly

Tekoälymallit epäonnistuvat perusasioissa kuten analogisen kellon lukemisessa, kun taas ihmiset menestyvät

mm

Laaja tutkimus, jossa testattiin 11 johtavaa tekoälymallia ihmisten rinnalla analogisten kellojen lukemisessa, on paljastanut yllättävän heikkouden nykyisissä tekoälyjärjestelmissä. Kun ihmiset saavuttivat 89,1 prosentin täsmällisyyden kellojen lukemisessa, Googlen parhaan mallin onnistuminen oli vain 13,3 prosenttia samassa testissä.

ClockBench-tutkimus, jonka suoritti tutkija Alek Safar, osoittaa, että jopa kehittyneimmät tekoälyjärjestelmät kamppailevat visuaalisten tehtävien kanssa, joita useimmat ihmiset hallitsevat jo lapsena. Tutkimuksessa testattiin Googlelta, OpenAI:lta, Anthropic:lta ja muilta suurilta tekoälylaboratorioilta 180:aa custom-suunniteltua analogista kellota.

Tämä ei rajoitu pelkästään kelloihin. Tulokset korostavat perussääntöjä, joita tekoälyjärjestelmien visuaalisen tiedon prosessoinnissa ja päättelyssä on. “Analogisten kellojen lukeminen asettaa korkean vaatimuksen visuaalisen päättelyn suorittamiselle”, Safar toteaa tutkimusraportissa. Tehtävä edellyttää, että mallit tunnistavat kellojen kädet, ymmärtävät niiden suhteet ja kääntävät visuaalisen asettelun numeeriseksi ajaksi.

Suorituskykyero tulee vielä selvemmäksi, kun tarkastelemme virhetilastoja. Kun ihmiset tekivät virheitä, virheen mediaani oli vain kolme minuuttia. Tekoälymallit puolestaan menettivät merkittävästi enemmän aikaa – noin yhdestä kolmeen tuntiin, mikä vastaa satunnaista arvaamista 12-tuntisella kellolla.

Erityiset heikkoudet paljastuvat

Tekoälyjärjestelmät kamppailevat erityisesti seuraavien asioiden kanssa:

  • Roomalaiset numerot (3,2 prosentin täsmällisyys)
  • Peilikuva tai takaperin olevat kellot
  • Värikkäät taustat tai monimutkaiset suunnitelmat
  • Kellot, joissa on sekuntikäsi ja jotka vaativat tarkkaa lukemista

Mielenkiintoista kyllä, kun tekoälymallit onnistuivat lukea kellon, ne suorittivat hyvin jatko-tehtävissä, kuten ajan lisäämisessä tai aikavyöhykkeiden muunnoksissa. Tämä viittaa siihen, että perusongelma ei olekaan matemaattisessa päättelyssä vaan alkuperäisessä visuaalisessa tunnistamisessa.

Teollisuuden suorituskykyanalyysi

Googlen mallit johtivat joukkoa, Gemini 2.5 Pro saavutti 13,3 prosentin täsmällisyyden ja Gemini 2.5 Flash 10,5 prosenttia. OpenAI:n GPT-5 saavutti 8,4 prosentin tuloksen, kun taas Anthropicin Claude-mallit suorittivat heikommin, Claude 4 Sonnet 4,2 prosentilla ja Claude 4.1 Opus 5,6 prosentilla.

xAI:n Grok 4 saavutti yllättäen heikot tulokset, 0,7 prosentin täsmällisyydellä, vaikka tämä johtui siitä, että malli virheellisesti merkitti 63 prosenttia kaikista kelloista näyttäviksi mahdottomia aikoja, kun vain 20,6 prosenttia niistä oli todella mahdottomia.

Lähde: Alek Safar

Laajemmat vaikutukset tekoälyn kehitykseen

Tutkimus jatkaa “helppo ihmisille, vaikea tekoälylle” -lähestymistapaa, jota on nähty testeissä kuten ARC-AGI ja SimpleBench. Vaikka tekoälyjärjestelmät ovat nopeasti valloittaneet tietopohjaiset tehtävät ja jopa ylittäneet ihmisten suorituskyvyn monilla standardisoiduilla testeillä, perusvisuaalinen päättely edelleen aiheuttaa ongelmia.

Tutkimus viittaa siihen, että nykyiset skaalautumislähestymistavat eivät välttämättä ratkaise visuaalisen päättelyn haasteita. Safar olettaa, että analogiset kellot saattavat olla aliedustettuina koulutusdatasta ja että visuaalisten kello-esitysten kääntäminen tekstiksi päättelyä varten luo lisäksi komplikaatioita.

ClockBench liittyy kasvavaan kokoelmaan mittareita, jotka on suunniteltu havainnoimaan tekoälyn rajoituksia, jotka eivät ole välittömästi ilmeisiä perinteisten testien suorituskyvystä. Kokonainen tietojoukko pysyy yksityisenä estämään tulevien tekoälykoulutusten saastumista, ja vain pieniä näytteitä on julkaistu julkisesti testaamista varten.

Tulokset herättävät kysymyksiä siitä, voivatko olemassa olevat tekoälykehykset ratkaista nämä visuaalisen päättelyn aukot tai vaativatko ne kokonaan uusia lähestymistapoja – samalla tavoin kuin testiajan laskenta avasi edistystä muilla alueilla.

Toistaiseksi vaatimaton analogikello edustaa odottamattoman linnoitusta tekoälyä vastaan, ja se on luettavissa lähes kenelle tahansa ihmiselle, mutta se hämmästyttää maailman kehittyneimpiä tekoälyjärjestelmiä.

Alex McFarland on AI-toimittaja ja kirjailija, joka tutkii viimeisimpiä kehityksiä tekoälyssä. Hän on tehnyt yhteistyötä useiden AI-startup-yritysten ja julkaisujen kanssa maailmanlaajuisesti.