Inteligență artificială

Modelele de inteligență artificială se împotmolesc la citirea ceasurilor analogice, în timp ce oamenii excelează

mm

O studiu cuprinzător care a testat 11 modele de inteligență artificială de top împotriva oamenilor în citirea ceasurilor analogice a expus o slăbiciune surprinzătoare a sistemelor actuale de inteligență artificială. În timp ce oamenii au obținut o acuratețe de 89,1% în citirea orei, cel mai bun model al Google a obținut doar 13,3% acuratețe la același test.

Studiul ClockBench, condus de cercetătorul Alek Safar, demonstrează că chiar și sistemele de inteligență artificială cele mai avansate se luptă cu sarcinile vizuale pe care majoritatea oamenilor le stăpânesc încă din copilărie. Testul a evaluat sisteme de la Google, OpenAI, Anthropic și alte laboratoare de inteligență artificială majore, utilizând 180 de ceasuri analogice personalizate.

Acest lucru depășește ceasurile. Rezultatele subliniază limitări fundamentale în modul în care sistemele de inteligență artificială procesează și raționează informațiile vizuale. “Citirea ceasurilor analogice setează o bară înaltă pentru raționamentul în spațiul vizual”, notează Safar în lucrarea de cercetare. Sarcina necesită ca modelele să identifice acele ceasului, să înțeleagă relațiile lor și să traducă poziționarea vizuală în timp numeric.

Gapul de performanță devine și mai izbitor atunci când se examinează modelele de eroare. Când oamenii au făcut greșeli, eroarea mediană a fost de doar trei minute. Modelele de inteligență artificială, pe de altă parte, au ratat ținta cu una până la trei ore – aproximativ echivalent cu ghicirea aleatorie pe un ceas de 12 ore.

Slăbiciuni specifice descoperite

Sistemele de inteligență artificială s-au confruntat în special cu:

  • Numerele romane (acuratețe de 3,2%)
  • Fețele ceasurilor reflectate sau inversate
  • Fonduri colorate sau designuri complexe
  • Ceasurile cu ace de secundă care necesită citiri precise

Interesant, atunci când modelele de inteligență artificială au reușit să citească un ceas, au performant bine la sarcinile ulterioare, cum ar fi adăugarea timpului sau conversia fusului orar. Acest lucru sugerează că provocarea de bază se află în recunoașterea vizuală inițială, mai degrabă decât în raționamentul matematic.

Descompunerea performanței industriale

Modelele Google au condus pachetul, cu Gemini 2.5 Pro care a obținut o acuratețe de 13,3% și Gemini 2.5 Flash care a atins 10,5%. GPT-5 al OpenAI a obținut o acuratețe de 8,4%, în timp ce modelele Claude ale Anthropic au performant mai slab, cu Claude 4 Sonnet la 4,2% și Claude 4.1 Opus la 5,6%.

xAI’s Grok 4 a postat rezultate surprinzător de slabe, cu o acuratețe de 0,7%, deși acest lucru s-a datorat faptului că modelul a marcat în mod greșit 63% din toate ceasurile ca arătând ore imposibile, atunci când doar 20,6% au făcut-o în realitate.

Sursă: Alek Safar

Implicații mai largi pentru dezvoltarea inteligenței artificiale

Studiul se bazează pe abordarea “ușor pentru oameni, greu pentru inteligența artificială” a testelor, așa cum se vede în teste precum ARC-AGI și SimpleBench. În timp ce sistemele de inteligență artificială au cucerit rapid sarcinile care necesită cunoștințe și au depășit chiar și performanța umană în multe teste standardizate, raționamentul vizual de bază rămâne problematic.

Cercetarea sugerează că abordările actuale de scalare nu pot rezolva provocările raționamentului vizual. Safar ipotezează că ceasurile analogice pot fi subreprezentate în datele de antrenament și că traducerea reprezentărilor vizuale ale ceasurilor în text pentru raționament creează complicații suplimentare.

Studiul ClockBench se alătură unei colecții în creștere de teste proiectate pentru a identifica limitările inteligenței artificiale care nu sunt imediat evidente din performanța pe teste tradiționale. Setul complet de date rămâne privat pentru a preveni contaminarea viitoarelor antrenamente de inteligență artificială, cu doar mostre mici făcute publice pentru testare.

Rezultatele ridică întrebări despre faptul dacă paradigmele actuale de dezvoltare a inteligenței artificiale pot aborda aceste lacune de raționament vizual sau dacă vor fi necesare abordări complet noi – similar cu modul în care calculul la momentul testării a deblocat progresul în alte domenii.

Pentru moment, umilul ceas analogic stă ca o fortăreață neașteptată împotriva inteligenței artificiale, citit de aproape orice om, dar care îi încurcă pe cei mai sofisticați sisteme de inteligență artificială din lume.

Alex McFarland este un jurnalist și scriitor de inteligență artificială, care explorează cele mai recente dezvoltări în domeniul inteligenței artificiale. El a colaborat cu numeroase startup-uri de inteligență artificială și publicații din întreaga lume.