Connect with us

Andersons vinkel

AI’s Struggle to Read Analogue Clocks May Have Deeper Significance

mm
ChatGPT-4o and Adobe Firefly.

En ny rapport fra forskere i Kina og Spania viser at selv avanserte multimodale AI-modeller som GPT-4.1 sliter med å si klokken fra bilder av analoge klokker. Små visuelle endringer i klokkeslettene kan forårsake store tolkningsfeil, og finjustering hjelper bare med kjente eksempler. Resultatene fører til bekymring om påliteligheten til disse modellene når de møter ukjente bilder i virkelige oppgaver.

 

Når mennesker utvikler en dypt nok forståelse av et domene, som tyngdekraft eller andre grunnleggende fysiske prinsipper, går vi utenfor spesifikke eksempler til å gripe de underliggende abstraksjonene. Dette lar oss anvende denne kunnskapen kreativt på tvers av kontekster og å gjenkjenne nye eksempler, selv de vi aldri har sett før, ved å identifisere prinsippet i virksomhet.

Når et domene bærer nok betydning, kan vi sogar begynne å oppfatte det der det ikke eksisterer, som med pareidolia, drevet av den høye kostnaden ved å ikke gjenkjenne et ekte eksempel. Så sterk er denne mønster-gjenkjenning-overlevelsesmekanismen at den sogar disposerer oss til å finne en bredere rekke mønster der det ikke finnes noen.

Jo tidligere og mer repetitivt et domene innføres i oss, jo dypere er dens grunnlegging og livslange varighet; og ett av de tidligste visuelle datasettene vi blir eksponert for som barn, kommer i form av lærklokker, hvor trykt materiale eller interaktive analoge klokker brukes til å lære oss å si klokken:

Læringshjelpemidler for å lære barn å si klokken. Kilde: https://www.youtube.com/watch?v=IBBQXBhSNUs

Læringshjelpemidler for å lære barn å si klokken. Kilde: https://www.youtube.com/watch?v=IBBQXBhSNUs

Selv om endringer i klokkesdesign kan noen ganger utfordre oss, er motstanden av denne tidlige domene-mestringen ganske imponerende, og lar oss skjelne analoge klokkesansikter selv i møte med komplekse eller ‘eksentriske’ designvalg:

Noen utfordrende ansikter i klokke-design.

Noen utfordrende ansikter i klokke-design. Kilde: https://www.ablogtowatch.com/wait-a-minute-legibility-is-the-most-important-part-of-watch-design/

Mennesker trenger ikke tusenvis av eksempler for å lære hvordan klokker fungerer; en gang den grunnleggende konseptet er grepet, kan vi gjenkjenne det i nesten enhver form, selv når det er forvrengt eller abstrahert.

Vanskeligheten AI-modellene møter med denne oppgaven, til motsatt, høylytter en dypere problem: deres åpenbare styrke kan avhenge mer av høyvolum-exponering enn av forståelse.

Beyond the Imitation Game?

Spenningen mellom overflatenivå-ytelse og genuin ‘forståelse’ har dukket opp igjen i nylige undersøkelser av store modeller. Forrige måned omformulerte Zhejiang University og Westlake University spørsmålet i en rapport med tittelen Do PhD-level LLMs Truly Grasp Elementary Addition? (ikke fokusert i denne artikkelen), og konkluderte:

‘Til tross for imponerende benchmark, viser modellene en kritisk avhengighet av mønster-matching fremfor sant forståelse, som bevises av feil med symboliske representasjoner og brudd på grunnleggende egenskaper.

‘Uttrykt regel-tilbud som forringrer ytelsen, antyder innebygde arkitektoniske begrensninger. Disse innsiktene avdekker evaluering-luker og høylytter behovet for arkitekturer i stand til genuint matematisk resonnement utenfor mønster-gjenkjenning.’

Dette spørsmålet dukker opp igjen nå, i et samarbeid mellom Nanjing University of Aeronautics and Astronautics og Universidad Politécnica de Madrid i Spania. Med tittelen Have Multimodal Large Language Models (MLLMs) Really Learned to Tell the Time on Analog Clocks?, utforsker den nye rapporten hvordan godt multimodale modeller forstår tid-såing.

Selv om fremdriften av forskningen dekker bare i bredt detalj i rapporten, etablerte forskernes initielle tester at OpenAI’s GPT-4.1 multimodal språkmodell slitet med å korrekt lese klokken fra et diversifisert sett av klokke-bilder, og ofte ga feil svar selv på enkle tilfeller.

Dette peker mot en mulig lukke i modellens treningsdata, og understreker behovet for en mer balansert datasett for å teste om modellen kan faktisk lære den underliggende konseptet. Derfor kuraterte forfatterne en syntetisk datasett av analoge klokker, som jevnt dekket hver mulig tid, og unngikk de vanlige forutinntakene funnet i internett-bilder:

Et eksempel fra forskernes syntetiske analoge klokke-datasett, brukt til å finjustere en GPT-modell i det nye arbeidet.

Et eksempel fra forskernes syntetiske analoge klokke-datasett, brukt til å finjustere en GPT-modell i det nye arbeidet. Kilde: https://huggingface.co/datasets/migonsa/analog_watches_finetune

Før finjustering på den nye datasett, feilet GPT-4.1 konsekvent med å lese disse klokkene. Etter noen eksponering til den nye samlingen, forbedret imidlertid dens ytelse – men bare når de nye bildene lignet på de det allerede hadde sett.

Når formen på klokken eller stilen på hendene endret, falt nøyaktigheten skarpt; selv små endringer, som tynnere hender eller pilhoder (høyrest bildet nedenfor), var nok til å kaste det av; og GPT-4.1 slitet også med å tolke Dali-liknende ‘smeltende klokker’:

Klokke-bilder med standard-design (venstre), forvrengt form (midten), og modifiserte hender (høyre), sammen med tidene returnert av GPT-4.1 før og etter finjustering.

Klokke-bilder med standard-design (venstre), forvrengt form (midten), og modifiserte hender (høyre), sammen med tidene returnert av GPT-4.1 før og etter finjustering. Kilde: https://arxiv.org/pdf/2505.10862

Forfatterne deduserer at nåværende modeller som GPT-4.1 kanskje derfor lærer klokke-lesing hovedsakelig gjennom visuell mønster-matching, fremfor noen dypere konsept av tid, og hevder:

‘[GPT 4.1] feiler når klokken er deformert eller når hendene er endret til å være tynnere og å ha en pilhode. Den gjennomsnittlige absolutte feilen (MAE) i tid-estimatet over 150 tilfeldige tider var 232,48s for de initielle klokkene, 1380,69s når formen er deformert og 3726,93s når hendene er endret.

‘Disse resultater antyder at MLLM har ikke lært å si klokken, men heller memorisert mønster.’

Tilstrekkelig Tid

De fleste treningsdatasettene avhenger av skrapede web-bilder, som tenderer til å gjenta bestemte tider – spesielt 10:10, en populær innstilling i klokke-reklame:

Et eksempel fra den nye rapporten, som viser forekomsten av 'ti over ti'-tiden i analoge klokke-bilder.

Et eksempel fra den nye rapporten, som viser forekomsten av ‘ti over ti’-tiden i analoge klokke-bilder.

Som et resultat av denne begrensede rekken av tider avbildet, kan modellen kanskje bare se en smal rekke av mulige klokke-konfigurasjoner, og begrense dens evne til å generalisere utenfor disse repetitive mønstrene.

Angående hvorfor modellene feiler å korrekt tolke de forvrengte klokkene, sier rapporten:

‘Selv om GPT-4.1 utfører eksepsjonelt godt med standard klokke-bilder, er det overraskende at å modifisere klokke-hendene ved å gjøre dem tynnere og å legge til pilhoder, fører til en betydelig nedgang i dens nøyaktighet.

‘Intuitivt kunne en forvente at den mer visuelt komplekse endringen – en deformert skive – ville ha en større innvirkning på ytelsen, men denne modifikasjonen synes å ha en relativt mindre effekt.

‘Dette reiser et spørsmål: hvordan tolker MLLM klokker, og hvorfor feiler de? En mulighet er at tynnere hender forringrer modellens evne til å oppfatte retning, og svekker dens forståelse av romlig orientering.

‘Alternativt kan det være andre faktorer som forårsaker forvirring når modellen forsøker å kombinere time-, minutt- og sekund-hendene til en nøyaktig tid-lesning.’

Forfatterne hevder at å identifisere årsaken til disse feilene er nøkkel til å fremme multimodale modeller: hvis problemet ligger i hvordan modellen oppfatter romlig retning, kan finjustering tilby en enkel løsning; men hvis problemet stammer fra en bredere vanskelighet i å integrere flere visuelle signaler, peker det mot en mer grunnleggende svakhet i hvordan disse systemene prosesserer informasjon.

Finjusteringstester

For å teste om modellens feil kunne overvinnes med eksponering, ble GPT-4.1 finjustert på den ovennevnte og omfattende syntetiske datasett. Før finjustering, var dens prediksjoner vidt spredt, med betydelige feil over alle typer klokker. Etter finjustering på samlingen, forbedret nøyaktigheten skarpt på standard klokke-ansikter, og, i mindre grad, på forvrengte ansikter.

Imidlertid fortsatte klokker med modifiserte hender, som tynnere former eller pilhoder, å produsere store feil.

To distinkte feilmodus dukket opp: på normale og forvrengte klokker, tolket modellen vanligvis feil retningen på hendene; men på klokker med endret hånd-stil, forvekslet den ofte funksjonen til hver hånd, og tok time for minutt eller minutt for sekund.

En sammenligning som illustrerer modellens initielle svakhet, og de delvis oppnådde gevinstene gjennom finjustering, som viser predikert versus faktisk tid, i sekunder, for 150 tilfeldig valgte klokker. På venstre side, før finjustering, er GPT-4.1's prediksjoner spredt og ofte langt fra de korrekte verdiene, indikert av den røde diagonale linjen. På høyre side, etter finjustering på en balansert syntetisk datasett, ligner prediksjonene mye mer de faktiske verdiene, selv om noen feil fortsatt forekommer.

En sammenligning som illustrerer modellens initielle svakhet, og de delvis oppnådde gevinstene gjennom finjustering, som viser predikert versus faktisk tid, i sekunder, for 150 tilfeldig valgte klokker. På venstre side, før finjustering, er GPT-4.1’s prediksjoner spredt og ofte langt fra de korrekte verdiene, indikert av den røde diagonale linjen. På høyre side, etter finjustering på en balansert syntetisk datasett, ligner prediksjonene mye mer de faktiske verdiene, selv om noen feil fortsatt forekommer.

Dette antyder at modellen hadde lært å assosiere visuelle trekk som hånd-tykkelse med bestemte roller, og slitet når disse signalene endret.

Den begrensede forbedringen på ukjente design løfter ytterligere tvil om hvorvidt en modell av denne typen lærer det abstrakte konseptet av tid-såing, eller bare finjusterer sin mønster-matching.

Hånd-tegn

Så, selv om finjustering forbedret GPT-4.1’s ytelse på konvensjonelle analoge klokker, hadde den langt mindre innvirkning på klokker med tynnere hender eller pilhoder, og løftet muligheten at modellens feil stammet mindre fra abstrakt resonnement og mer fra forvirring over hvilken hånd var hvilken.

For å teste om nøyaktigheten måtte forbedres hvis denne forvirringen ble fjernet, ble en ny analyse utført på modellens prediksjoner for ‘modifisert-hånd’-datasett. Utgangene ble delt inn i to grupper: tilfeller hvor GPT-4.1 korrekt gjenkjente time-, minutt- og sekund-hendene; og tilfeller hvor den ikke gjorde det.

Prediksjonene ble evaluert for Gjennomsnittlig Absolutt Feil (MAE) før og etter finjustering, og resultater sammenlignet med de fra standard klokker; vinkelfeil ble også målt for hver hånd ved hjelp av skive-posisjon som en baseline:

Feil-sammenligning for klokker med og uten hånd-rolle-forvirring i det modifiserte-hånd-datasett før og etter finjustering.

Feil-sammenligning for klokker med og uten hånd-rolle-forvirring i det modifiserte-hånd-datasett før og etter finjustering.

Forvirringen av klokke-hendene førte til de største feilene. Når GPT-4.1 forvekslet time-hånden med minutt-hånden eller omvendt, var de resulterende tid-estimater ofte langt unna. I kontrast var feilene forårsaket av å misdømme retningen på en korrekt identifisert hånd mindre. Blant de tre hendene, viste time-hånden den høyeste vinkelfeil før finjustering, mens sekund-hånden viste den laveste.

Vinkelfeil etter hånd-type for prediksjoner med og uten hånd-rolle-forvirring, før og etter finjustering, i det modifiserte-hånd-datasett.

Vinkelfeil etter hånd-type for prediksjoner med og uten hånd-rolle-forvirring, før og etter finjustering, i det modifiserte-hånd-datasett.

For å fokusere på retning-feil alene, ble analysen begrenset til tilfeller hvor modellen korrekt identifiserte hver hånds funksjon. Hvis modellen hadde internalisert et generelt konsept av tid-såing, burde dens ytelse på disse eksemplene ha matchet dens nøyaktighet på standard klokker. Den gjorde det ikke, og nøyaktigheten forble merkelig dårligere.

For å undersøke om hånd form forstyrret modellens sans for retning, ble et andre eksperiment utført: to nye datasett ble skapt, hver inneholdende seksti syntetiske klokker med bare en time-hånd, som pekte til en annen minutt-merke. En sett brukte den originale hånd-design, og den andre den endrede versjonen. Modellen ble bedt om å navngi tick-merket som hånden pekte til.

Resultatene viste en liten nedgang i nøyaktighet med de modifiserte hendene, men ikke nok til å forklare modellens bredere feil. En enkel ukjent visuell egenskap syntes å være i stand til å forstyrre modellens samlede tolkning, selv i oppgaver den tidligere hadde utført godt.

Oversikt over GPT-4.1's ytelse før og etter finjustering på standard, forvrengte og modifisert-hånd-klokker, som høylytter ujevne gevinst og varige svakheter.

Oversikt over GPT-4.1’s ytelse før og etter finjustering på standard, forvrengte og modifisert-hånd-klokker, som høylytter ujevne gevinst og varige svakheter.

Konklusjon

Selv om rapportens fokus kan synes trivialt ved første øyekast, er det ikke spesielt viktig om visjon-språk-modeller noen gang lærer å lese analoge klokker med 100% nøyaktighet. Det som gir arbeidet vekt er dets fokus på et dypere gjentakende spørsmål: om å mette modeller med mer (og mer diversifisert) data kan føre til den type domene-forståelse mennesker tilegner seg gjennom abstraksjon og generalisering; eller om den eneste gangbare vei er å flode domenet med nok eksempler til å forutse hver sannsynlig variasjon ved inferens.

Begge ruter løfter tvil om hva nåværende arkitekturer egentlig er i stand til å lære.

 

Først publisert mandag, 19. mai 2025

Forfatter på maskinlæring, domeneekspert på menneskesynthese. Tidligere leder for forskningsinnhold på Metaphysic.ai.