Connect with us

Lupta IA de a citi ceasurile analogice poate avea o semnificație mai profundă

Unghiul lui Anderson

Lupta IA de a citi ceasurile analogice poate avea o semnificație mai profundă

mm
ChatGPT-4o and Adobe Firefly.

Un nou studiu al cercetătorilor din China și Spania a descoperit că chiar și modelele avansate de inteligență artificială multimodală, cum ar fi GPT-4.1, au dificultăți în a citi ora de pe imagini cu ceasuri analogice. Schimbări vizuale mici în ceasuri pot cauza erori majore de interpretare, iar ajustarea fină ajută doar la exemple familiare. Rezultatele ridică îngrijorări cu privire la fiabilitatea acestor modele atunci când se confruntă cu imagini nefamiliare în sarcini din lumea reală.

 

Când oamenii dezvoltă o înțelegere suficient de profundă a unui domeniu, cum ar fi gravitația sau alte principii fizice de bază, trecem dincolo de exemplele specifice pentru a înțelege abstracțiile subiacente. Acest lucru ne permite să aplicăm această cunoaștere în mod creativ în diferite contexte și să recunoaștem noi instanțe, chiar și cele pe care nu le-am văzut niciodată, identificând principiul în acțiune.

Când un domeniu are suficientă importanță, putem chiar să îl percepe în locuri unde nu există, ca în cazul pareidoliei, determinate de costul ridicat al neînțelegerii unei instanțe reale. Așa de puternică este această mecanism de recunoaștere a modelelor de supraviețuire, încât ne și determină să găsim un spectru mai larg de modele acolo unde nu există.

Cu cât un domeniu este introdus mai devreme și mai repetitiv în noi, cu atât încărcătura lui este mai profundă și persistă toată viața; și unul dintre primele seturi de date vizuale la care suntem expuși ca copii vine sub forma ceasurilor didactice, unde materialul tipărit sau ceasurile analogice interactive sunt utilizate pentru a ne învăța cum să citim ora:

Mijloace de învățământ pentru a ajuta copiii să învețe să citească ora. Sursă: https://www.youtube.com/watch?v=IBBQXBhSNUs

Mijloace de învățământ pentru a ajuta copiii să învețe să citească ora. Sursă: https://www.youtube.com/watch?v=IBBQXBhSNUs

Deși modificările în designul ceasurilor ne pot uneori pune în dificultate, reziliența acestei stăpâniri a domeniului este destul de impresionantă, permițându-ne să discernem fețele ceasurilor analogice chiar și în fața unor alegeri de design complexe sau “excentrice”:

Câteva fețe de ceas dificile în moda ceasurilor.

Câteva fețe de ceas dificile în moda ceasurilor. Sursă: https://www.ablogtowatch.com/wait-a-minute-legibility-is-the-most-important-part-of-watch-design/

Oamenii nu au nevoie de mii de exemple pentru a învăța cum funcționează ceasurile; odată ce conceptul de bază este înțeles, putem recunoaște ceasurile în aproape orice formă, chiar și atunci când sunt distorsionate sau abstracte.

Dificultatea cu care se confruntă modelele de IA în această sarcină, pe de altă parte, subliniază o problemă mai profundă: puterea lor aparentă poate depinde mai mult de expunerea la volume mari de date decât de înțelegere.

Dincolo de jocul de imitație?

Tensiunea dintre performanța la nivel de suprafață și înțelegerea reală a apărut repetat în investigațiile recente ale modelelor mari. Luna trecută, Universitatea Zhejiang și Universitatea Westlake au reînnoit întrebarea într-un studiu intitulat Oare modelele LLM de nivel PhD înțeleg realmente adunarea elementară? (nu este focusul acestui articol), concluzionând:

‘În ciuda benchmark-urilor impresionante, modelele arată o dependență critică de recunoașterea modelelor și nu de o înțelegere reală, demonstrată de eșecurile cu reprezentări simbolice și încălcări ale proprietăților de bază.

‘Provizionarea regulilor explicite care afectează performanța sugerează constrângeri arhitecturale inerente. Aceste insight-uri dezvăluie lacune de evaluare și subliniază nevoia de arhitecturi capabile de raționament matematic real dincolo de recunoașterea modelelor.’

Această întrebare reapare acum, într-o colaborare între Universitatea de Aeronautică și Astronautică din Nanjing și Universidad Politécnica de Madrid din Spania. Intitulat Oare modelele multimodale de limbaj mare (MLLM) au învățat realmente să citească ora pe ceasuri analogice?, noul studiu explorează cât de bine modelele multimodale înțeleg citirea orei.

Deși progresul cercetării este acoperit doar în detalii generale în studiu, testele inițiale ale cercetătorilor au stabilit că modelul de limbaj multimodal GPT-4.1 al OpenAI a avut dificultăți în a citi corect ora de pe o serie diversă de imagini cu ceasuri, oferind adesea răspunsuri incorecte chiar și în cazuri simple.

Acest lucru atrage atenția asupra unei posibile lacune în setul de date de antrenare, ridicând nevoia unui set de date mai echilibrat pentru a testa dacă modelul poate învăța realmente conceptul subiacent. Prin urmare, autorii au creat un set de date sintetice de ceasuri analogice, care acoperă în mod uniform fiecare oră posibilă și evită biasurile obișnuite găsite în imagini de pe internet:

Un exemplu din setul de date sintetice de ceasuri analogice al cercetătorilor, utilizat pentru a ajusta fin modelul GPT în noul studiu.

Un exemplu din setul de date sintetice de ceasuri analogice al cercetătorilor, utilizat pentru a ajusta fin modelul GPT în noul studiu. Sursă: https://huggingface.co/datasets/migonsa/analog_watches_finetune

Înainte de ajustarea fină pe noul set de date, GPT-4.1 a eșuat constant în a citi aceste ceasuri. După expunerea la noua colecție, performanța sa s-a îmbunătățit – dar doar atunci când noile imagini semănau cu cele pe care le-a văzut deja.

Când forma ceasului sau stilul acelor s-a schimbat, acuratețea a scăzut brusc; chiar și mici ajustări, cum ar fi ac-uri mai subțiri sau vârfuri de săgeată ( imaginea din dreapta jos), au fost suficiente pentru a-l deruta; și GPT-4.1 a avut dificultăți suplimentare în a interpreta ceasuri “topite” în stilul lui Dali:

Imagini cu ceasuri cu design standard (stânga), formă distorsionată (mijloc) și ac-uri modificate (dreapta), alături de orele returnate de GPT-4.1 înainte și după ajustarea fină.

Imagini cu ceasuri cu design standard (stânga), formă distorsionată (mijloc) și ac-uri modificate (dreapta), alături de orele returnate de GPT-4.1 înainte și după ajustarea fină. Sursă: https://arxiv.org/pdf/2505.10862

Autorii deduc că modelele actuale, cum ar fi GPT-4.1, pot învăța citirea ceasurilor în principal prin recunoașterea modelelor vizuale, și nu prin înțelegerea unui concept mai profund al timpului, afirmând:

‘[GPT 4.1] eșuează atunci când ceasul este deformat sau atunci când ac-urile sunt schimbate pentru a fi mai subțiri și pentru a avea un vârf de săgeată. Eroarea Medie Absolută (MAE) în estimarea orei pe 150 de timpuri aleatorii a fost de 232,48s pentru ceasurile inițiale, 1380,69s atunci când forma este deformată și 3726,93s atunci când ac-urile sunt schimbate.

‘Aceste rezultate sugerează că MLLM nu a învățat să citească ora, ci mai degrabă a memorizat modele.’

Timp suficient

Majoritatea seturilor de date de antrenare se bazează pe imagini web extrase, care tind să repete anumite ore – în special 10:10, o setare populară în reclamele cu ceasuri:

Din noul studiu, un exemplu al prevalenței orei 'zece past ten' în imagini cu ceasuri analogice.

Din noul studiu, un exemplu al prevalenței orei ‘zece past ten’ în imagini cu ceasuri analogice.

Ca urmare a acestui spectru limitat de ore reprezentate, modelul poate vedea doar o gamă îngustă de configurații posibile de ceasuri, limitându-i capacitatea de a generaliza dincolo de aceste modele repetitive.

În ceea ce privește de ce modelele eșuează în a interpreta corect ceasurile distorsionate, studiul afirmă:

‘Deși GPT-4.1 performează excepțional de bine cu imagini standard de ceasuri, este surprinzător că modificarea ac-urilor prin subțierea lor și adăugarea unor vârfuri de săgeată conduce la o scădere semnificativă a acurateței sale.

‘Intuitiv, s-ar putea crede că schimbarea vizuală mai complexă – un cadran deformat – ar avea un impact mai mare asupra performanței, dar această modificare pare să aibă un efect relativ mai mic.’

‘Acest lucru ridică o întrebare: cum interpretează MLLM-urile ceasurile și de ce eșuează? O posibilitate este că ac-urile subțiri împiedică modelul să perceapă direcția, slăbindu-i înțelegerea orientării spațiale.

‘Alternativ, pot exista și alte factori care cauzează confuzie atunci când modelul încearcă să combine mâinile pentru ore, minute și secunde într-o citire de timp precisă.’

Autorii susțin că identificarea cauzei de bază a acestor eșecuri este cheia pentru a avansa modelele multimodale: dacă problema se datorează modului în care modelul percepe direcția spațială, ajustarea fină poate oferi o soluție simplă; dar dacă problema provine dintr-o dificultate mai fundamentală în integrarea mai multor indicii vizuale, aceasta indică o slăbiciune mai profundă în modul în care aceste sisteme procesează informația.

Teste de ajustare fină

Pentru a testa dacă eșecurile modelului ar putea fi depășite prin expunere, GPT-4.1 a fost ajustat fin pe setul de date sintetic menționat. Înainte de ajustarea fină, predicțiile sale erau răspândite pe scară largă, cu erori semnificative în toate tipurile de ceasuri. După ajustarea fină pe colecție, acuratețea s-a îmbunătățit brusc pe fețele standard de ceas, și, într-o măsură mai mică, pe cele distorsionate.

Cu toate acestea, ceasurile cu ac-uri modificate, cum ar fi forme mai subțiri sau vârfuri de săgeată, au continuat să producă erori mari.

Două moduri distincte de eșec au apărut: pe ceasuri normale și distorsionate, modelul a înțeles în mod obișnuit greșit direcția ac-urilor; dar pe ceasurile cu stiluri de ac-uri modificate, a confundat adesea funcția fiecărui ac, luând ora pentru minute sau minute pentru secunde.

O comparație care ilustrează slăbiciunea inițială a modelului și câștigurile parțiale realizate prin ajustarea fină, arătând timpul prezis versus timpul real, în secunde, pentru 150 de ceasuri selectate aleator.

O comparație care ilustrează slăbiciunea inițială a modelului și câștigurile parțiale realizate prin ajustarea fină, arătând timpul prezis versus timpul real, în secunde, pentru 150 de ceasuri selectate aleator.

Acest lucru sugerează că modelul a învățat să asocieze caracteristici vizuale, cum ar fi grosimea ac-urilor, cu roluri specifice, și a avut dificultăți atunci când aceste indicii s-au schimbat.

Îmbunătățirea limitată pe designuri nefamiliare ridică îndoieli suplimentare cu privire la faptul că un model de acest tip învață conceptul abstract de citire a orei sau doar rafinează recunoașterea modelelor.

Semne de mână

Deci, deși ajustarea fină a îmbunătățit performanța GPT-4.1 pe ceasuri analogice convenționale, a avut un impact mult mai mic asupra ceasurilor cu ac-uri subțiri sau cu vârfuri de săgeată, ridicând posibilitatea că eșecurile modelului se datorează mai mult confuziei cu privire la care mână este care.

Pentru a testa dacă acuratețea ar putea fi îmbunătățită dacă această confuzie ar fi eliminată, o nouă analiză a fost efectuată asupra predicțiilor modelului pentru setul de date “ac-uri modificate”. Ieșirile au fost împărțite în două grupuri: cazuri în care GPT-4.1 a recunoscut corect mâinile pentru ore, minute și secunde; și cazuri în care nu a făcut-o.

Predicțiile au fost evaluate pentru Eroare Medie Absolută (MAE) înainte și după ajustarea fină, și rezultatele au fost comparate cu cele de la ceasuri standard; eroarea unghiulară a fost măsurată și pentru fiecare mână, utilizând poziția cadranului ca bază:

Comparație de erori pentru ceasuri cu și fără confuzie de rol de mână în setul de date 'ac-uri modificate' înainte și după ajustarea fină.

Comparație de erori pentru ceasuri cu și fără confuzie de rol de mână în setul de date ‘ac-uri modificate’ înainte și după ajustarea fină.

Confuzia cu privire la rolurile mâinilor de ceas a condus la cele mai mari erori. Când GPT-4.1 a confundat mâna pentru ore cu mâna pentru minute sau invers, estimările timpului au fost adesea foarte departe de realitate. În schimb, erorile cauzate de greșita judecare a direcției unei mâini corect identificate au fost mai mici. Printre cele trei mâini, mâna pentru ore a prezentat cea mai mare eroare unghiulară înainte de ajustarea fină, în timp ce mâna pentru secunde a prezentat cea mai mică.

Eroare unghiulară pe tip de mână pentru predicții cu și fără confuzie de rol de mână, înainte și după ajustarea fină, în setul de date 'ac-uri modificate'.

Eroare unghiulară pe tip de mână pentru predicții cu și fără confuzie de rol de mână, înainte și după ajustarea fină, în setul de date ‘ac-uri modificate’.

Pentru a se concentra doar asupra erorilor de direcție, analiza a fost limitată la cazurile în care modelul a identificat corect funcția fiecărei mâini. Dacă modelul ar fi internalizat un concept general de citire a orei, performanța sa în aceste exemple ar fi trebuit să se potrivească cu acuratețea sa pe ceasuri standard. Nu a fost așa, și acuratețea a rămas semnificativ mai slabă.

Pentru a examina dacă forma mâinii interferează cu simțul direcției modelului, a fost efectuat un al doilea experiment: două seturi de date noi au fost create, fiecare conținând 60 de ceasuri sintetice cu doar o mână pentru ore, care arăta spre o marcă de minut diferită. Un set a utilizat designul original de mână, iar celălalt versiunea modificată. Modelul a fost solicitat să numească marca pe care mâna o indica.

Rezultatele au arătat o scădere ușoară a acuratețței cu mâinile modificate, dar nu suficient de mare pentru a explica eșecurile generale ale modelului. Un singur element vizual nefamiliar a părut capabil să perturbe interpretarea generală a modelului, chiar și în sarcini pe care le-a realizat anterior bine.

Prezentare generală a performanței GPT-4.1 înainte și după ajustarea fină pe ceasuri standard, distorsionate și cu mâini modificate, evidențiind câștiguri inegale și slăbiciuni persistente.

Prezentare generală a performanței GPT-4.1 înainte și după ajustarea fină pe ceasuri standard, distorsionate și cu mâini modificate, evidențiind câștiguri inegale și slăbiciuni persistente.

Concluzie

Deși focusul studiului poate părea trivial la prima vedere, nu contează în mod special dacă modelele de inteligență artificială vizuală vor învăța vreodată să citească ceasurile analogice cu o acuratețe de 100%. Ceea ce dă studiului greutate este accentul său pe o întrebare recurentă mai profundă: dacă saturarea modelelor cu mai multe (și mai diverse) date poate conduce la înțelegerea domeniului pe care oamenii o dobândesc prin abstracție și generalizare; sau dacă singura cale viabilă este de a inunda domeniul cu suficiente exemple pentru a anticipa fiecare variație probabilă la inferență.

Oricare dintre aceste drumuri ridică îndoieli cu privire la ceea ce arhitecturile actuale sunt realmente capabile să învețe.

 

Publicat pentru prima dată luni, 19 mai 2025

Scriitor pe machine learning, specialist în domeniul sintezei de imagini umane. Foster head of research content la Metaphysic.ai.