Inteligență artificială

Chiar și modelele lingvistice de ultimă generație au dificultăți în a înțelege logica temporală

Published January 27, 2025

Updated April 26, 2026

Martin Anderson

Variation on ChatGPT-4o prompt: ‘1792px x 1024px photorealistic HQ image of a robot looking at a computer screen. On the screen is a picture of a chicken and an egg. The image should not be cartoon-ish, or illustration-like, but should look like a still from a high-budget Hollywood movie’

Prezicerea stărilor viitoare este o misiune critică în cercetarea viziunii computaționale – nu în ultimul rând în robotică, unde situațiile din lumea reală trebuie luate în considerare. Sistemele de învățare automată încredințate cu sarcini critice pentru misiuni au nevoie, prin urmare, de o înțelegere adecvată a lumii fizice.

Cu toate acestea, în unele cazuri, o cunoaștere aparent impresionantă a realității temporale poate fi înșelătoare: un nou studiu din Emiratele Arabe Unite a descoperit că modelele lingvistice multimodale de ultimă generație (MLLM), inclusiv liderii din sector GPT-4o și Google Gemini, nu reușesc să interpreteze cum este reprezentat timpul în imagini.

Exemplele de perechi secvențiale (a se vedea imaginea de mai jos), care ar fi nefaste pentru oameni, chiar și atunci când sunt plasate în ordine greșită, pot induce în eroare MLLM avansate atunci când sunt prezentate în contexte sau configurații neașteptate (cum ar fi a doua imagine primul, concatenate în imagini unice, imagini secvențiale multiple care pot sau nu pot reprezenta ordinea temporală corectă și așa mai departe.).

Exemple dintr-unul dintre seturile de date compilate pentru noul studiu, care arată evenimente secvențiale. Cercetătorii au făcut aceste date disponibile la https://huggingface.co/datasets/fazliimam/temporal-vqa/viewer

Exemple dintr-unul dintre seturile de date compilate pentru noul studiu, care arată evenimente secvențiale sub formă de ‘înainte și după’ imagini. Cercetătorii au făcut aceste date disponibile la https://huggingface.co/datasets/fazliimam/temporal-vqa/viewer

Cercetătorii au solicitat modelului să efectueze provocări de bază de raționament temporal, cum ar fi determinarea ordinii evenimentelor sau estimarea lacunelor de timp, și au descoperit că cele șapte MLLM testate au performant sub nivelul de acuratețe uman:

‘În general, [rezultatele] arată că toate MLLM actuale, inclusiv GPT-4o – cel mai avansat model din evaluarea noastră – se luptă cu testul propus. În ciuda performanței superioare a lui GPT-4o față de alte modele, el nu reușește să demonstreze în mod constant un raționament temporal precis în diferite configurații.

‘Scorurile de acuratețe consistentă sunt notabil de scăzute pentru toate modelele, indicând limitări semnificative în capacitatea lor de a înțelege și interpreta secvențe temporale din intrări vizuale. Aceste deficiențe sunt evidente chiar și atunci când modelelor li se oferă intrări multi-imagine sau promturi optimizate, sugerând că arhitecturile și metodele de antrenare actuale sunt insuficiente pentru o înțelegere robustă a ordinii temporale.’

Sistemele de învățare automată sunt proiectate să optimizeze rezultatele cele mai precise, dar și cele mai eficiente și plăcute pentru oameni*. Deoarece ele nu-și dezvăluie în mod explicit raționamentul, poate fi dificil de spus când înșală, sau folosesc ‘scurtături’.

Într-un astfel de caz, MLLM poate ajunge la răspunsul corect prin metoda greșită. Faptul că un astfel de răspuns poate fi corect poate inspira o încredere falsă în model, care ar putea produce rezultate incorecte prin aceeași metodă în sarcinile ulterioare prezentate.

Mai rău, această inducere în eroare poate deveni și mai profund înrădăcinată în lanțul de dezvoltare dacă oamenii sunt impresionați de ea și oferă feedback pozitiv în teste și sesiuni de annotare care pot contribui la direcția pe care ar putea o lua datele și/sau modelul.

În acest caz, sugestia este că MLLM sunt ‘falsificând’ o adevărată înțelegere a cronologiei și fenomenelor temporale, prin observarea și ancorarea pe indicatori secundari (cum ar fi timestamp-urile, de exemplu, în datele video, ordinea imaginilor într-un layout sau chiar – posibil – numele de fișier numerotate secvențial).

Acest lucru indică, de asemenea, că MLLM nu reușesc să satisfacă nicio definiție reală a generalizării unui concept de fenomene temporale – cel puțin, în măsura în care oamenii pot.

Noul studiu se intitulează Pot face MLLM multimodale înțelegere și raționament vizual temporal? Răspunsul este Nu! și provine de la trei cercetători de la Universitatea Mohamed bin Zayed de Inteligență Artificială și Alibaba Comerț Digital Internațional.

Date și teste

Autorii notează că studii și teste anterioare, cum ar fi MMMU și TemporalBench, se concentrează pe intrări de imagini unice sau formulează întrebări pentru MLLM care pot fi prea ușor de răspuns și nu pot descoperi o tendință de comportament de scurtătură.

Prin urmare, autorii oferă două abordări actualizate: Înțelegerea ordinii temporale (TOU) și Estimarea timpului (TLE). Abordarea TOU testează capacitățile modelului de a determina secvența corectă de evenimente din perechi de cadre de film; metoda TLE evaluează capacitatea MLLM de a estima diferența de timp dintre două imagini, variind de la secunde la ani.

Din articol, cele două sarcini principale ale testului TemporalVQA: în Înțelegerea ordinii temporale, modelul decide care dintre cele două imagini arată un eveniment care a avut loc primul; în Estimarea timpului, modelul estimează cât timp a trecut între cele două imagini, selectând din opțiuni care includ secunde, minute, zile sau ani. Aceste sarcini urmăresc să testeze cât de bine MLLM pot raționa despre cronologia și secvența evenimentelor vizuale. Sursa: https://arxiv.org/pdf/2501.10674

Cercetătorii au curat 360 de perechi de imagini pentru testul TOU, folosind videoclipuri deschise de la Pixabay și Pexels, astfel încât să poată face setul de date disponibil prin intermediul unei interfețe grafice.

Videoclipurile au acoperit o gamă de subiecte, de la oameni în activități de zi cu zi la conținut non-uman, cum ar fi animale și plante. Din acestea, perechi de cadre au fost selectate pentru a reprezenta o secvență de evenimente cu variații suficiente pentru a face ca primul cadru să fie ‘evident’.

Selectarea umană a fost utilizată pentru a se asigura că cadrele puteau fi ordonate în mod definitiv. De exemplu, una dintre perechile curate arată o ceașcă de ceai parțial plină într-un cadru și aceeași ceașcă plină cu ceai în următorul cadru, făcând logica secvenței ușor de identificat.

Logica temporală a acestor două imagini nu poate fi evitată, deoarece ceaiul nu poate fi supt înapoi prin ciur.

În acest fel, au fost obținute 360 de perechi de imagini.

Pentru abordarea TLE, imagini fără drepturi de autor au fost alese de la Google și Flickr, precum și cadre selectate din videoclipuri fără drepturi de autor de pe YouTube. Subiectul videoclipurilor a prezentat scene sau obiecte ale căror intervale de schimbare variau de la secunde la zile și până la sezoane – de exemplu, fructe coapte, sau schimbarea anotimpurilor în peisaje.

Astfel, au fost curate 125 de perechi de imagini pentru metoda TLE.

Nu toate MLLM testate puteau procesa imagini multiple; prin urmare, testele au diferit pentru a se adapta capacităților fiecărui model.

Au fost generate multiple versiuni ale seturilor de date curate, în care unele perechi au fost concatenate vertical, iar altele orizontal. Alte variații au schimbat secvența temporală corectă a perechilor.

Două tipuri de prompturi au fost dezvoltate. Primul a urmat acest model:

A fost evenimentul din imaginea (stânga / sus / prima) înainte de evenimentul din imaginea (dreapta / jos / a doua)? Răspundeți cu adevărat sau fals, cu raționament.

Al doilea a urmat acest model:

Care dintre cele două imagini arată evenimentul care a avut loc primul? Răspundeți (stânga sau dreapta / sus sau jos / prima sau a doua), cu raționament.

Pentru TLE, întrebările au fost cu multiple opțiuni, solicitând modelului să evalueze timpul scurs între cele două imagini prezentate, cu secunde, ore, minute, zile, luni și ani disponibile ca unități de timp. În această configurație, imaginea cea mai recentă a fost prezentată pe dreapta.

Promptul utilizat aici a fost:

Estimați timpul care a trecut între prima imagine (stânga) și a doua imagine (dreapta).

Alegeți una dintre următoarele opțiuni:

1. Mai puțin de 15 secunde B. Între 2 minute și 15 minute C. Între 1 oră și 12 ore D. Între 2 zile și 30 de zile E. Între 4 luni și 12 luni F. Mai mult de 3 ani

MLLM testate au fost ChatGPT-4o; Gemini1.5-Pro; LlaVa-NeXT; InternVL; Qwen-VL; Llama-3-vision; și LLaVA-CoT.

Înțelegerea ordinii temporale: Rezultate

Rezultatele înțelegerii ordinii temporale pentru diferite modele și dispozitive de intrare, arătând acuratețea și consistența pentru diverse configurații și prompturi.

În ceea ce privește rezultatele de mai sus, autorii au constatat că toate MLLM testate, inclusiv GPT-4o (care a arătat cea mai bună performanță generală), s-au luptat semnificativ cu testul TemporalVQA – și chiar GPT-4o a eșuat în a demonstra în mod constant un raționament temporal fiabil în diferite configurații.

Autorii susțin că scorurile de acuratețe consistent scăzute la toate MLLM evidențiază limitări semnificative în capacitatea modelelor de a interpreta și raționa despre secvențe temporale din date vizuale. Cercetătorii notează că aceste provocări persistă chiar și cu utilizarea intrărilor multi-imagine și a prompturilor optimizate, ceea ce indică limitări fundamentale în arhitecturile și metodele de antrenare actuale.

Testele au arătat variații semnificative în ceea ce privește strategiile de prompt. În timp ce GPT-4o s-a îmbunătățit cu prompturi optimizate (ajungând la 4% în setări cu o singură imagine și 65,3% în setări cu imagini multiple), performanța a rămas sub nivelurile acceptabile.

Modele precum LLaVA-NeXT și Qwen-VL au fost și mai sensibile, cu performanțe care scad atunci când se utilizează prompturi alternative, sugerând că ingineria prompturilor singură nu poate depăși limitările fundamentale ale MLLM în ceea ce privește raționamentul temporal.

Testele au indicat, de asemenea, că dispozitivul de imagine (de exemplu, vertical versus orizontal) a avut un impact semnificativ asupra performanței modelului. GPT-4o și-a îmbunătățit consistența cu aranjamentele verticale, crescând de la 39,2% la 52,8%; cu toate acestea, alte modele, inclusiv cele din seria LLaVA, au arătat puternice prejudecăți direcționale, excelând într-o orientare, dar eșuând în alta.

Articolul indică faptul că aceste inconstanțe sugerează o dependență de indicii spațiali, mai degrabă decât un adevărat raționament temporal, cu MLLM care nu analizează în mod real secvența de evenimente sau înțelegerea progresului în timp. În schimb, ele par să se bazeze pe modele sau caracteristici vizuale legate de dispozitivul de imagine, cum ar fi poziția sau alinierea lor, pentru a lua decizii.

Testele calitative evidențiază predicțiile lui GPT-4o atunci când este confruntat cu ordine de intrare diferite. În prima ordine, perechile de imagini sunt prezentate în secvența lor originală, în timp ce în a doua ordine, secvența este inversată. Clasificările corecte sunt marcate în verde, clasificările pure greșite în roșu, raționamentele halucinate în portocaliu și raționamentele ilogice sau ‘nevalide’ în maro, evidențiind inconstanțele modelului în diferite configurații de intrare.

Comparațiile între intrările cu o singură imagine și cele cu imagini multiple au demonstrat o îmbunătățire limitată, GPT-4o performând ușor mai bine la intrarea cu imagini multiple, crescând de la 31,0% la 43,6% (cu P1) și de la 46,0% la 65,3% (cu P2).

Alte modele, cum ar fi InternVL, au demonstrat o acuratețe stabilă, dar scăzută, în timp ce Qwen-VL a înregistrat câștiguri minore. Autorii concluzionează că aceste rezultate indică faptul că contextul vizual suplimentar nu îmbunătățește în mod semnificativ capacitățile de raționament temporal, deoarece modelele se luptă să integreze informații temporale în mod eficient.

Studiu uman

Într-un studiu uman, trei sondaje au fost efectuate pentru a evalua cât de strâns a performant cel mai bun MLLM multimodal față de estimarea umană.

Oamenii au obținut o acuratețe de 90,3%, depășind cu 25% acuratețea de 65,3% a lui GPT-4o. Setul de date s-a dovedit a fi fiabil, cu erori umane minime și acorduri consistente asupra răspunsurilor corecte.

Rezultatele studiului cu utilizatori umani pentru prima rundă de teste.

Estimarea timpului: Rezultate

Rezultate pentru TLE: estimarea timpului scurs evaluează acuratețea modelului în identificarea intervalelor dintre perechi de imagini, la scară de la secunde la ani. Sarcina evaluează capacitatea fiecărui model de a selecta scala de timp corectă pentru lacuna temporală.

În aceste teste, MLLM au performant doar moderat la estimarea timpului: GPT-4o a obținut o acuratețe de 70%, dar celelalte modele au performant semnificativ mai prost (a se vedea tabelul de mai sus), iar performanța a variat și semnificativ între diverse scale de timp.

Autorii comentează:

‘Sarcina de estimare a timpului scurs testează capacitatea MLLM de a infera intervale temporale dintre perechi de imagini. [Toate] MLLM, inclusiv performerii de top precum GPT-4o și Gemini1.5-Pro, se luptă cu această sarcină, obținând doar niveluri de acuratețe moderate de 60-70%. GPT-4o arată o performanță inconsistentă, cu o performanță puternică în secunde și ani, dar subperformând în ore.

În mod similar, LLaVA-CoT demonstrează o performanță excepțională în intervalele de timp de secunde și zile, dar arată o performanță notabil de slabă în alte intervale de timp.’

Studiu uman

În studiul uman pentru TLE, performanța medie umană a fost mai bună decât cea a lui GPT-4o (cel mai bun model și în această categorie) cu 12,3%.

Autorii notează că unele dintre provocări au fost deosebit de dificile și că, într-un caz, toți participanții umani au returnat un răspuns greșit, alături de toți participanții AI.

Autorii concluzionează că GPT-4o prezintă ‘capacități de raționament robuste, în ciuda ordinii de prezentare a imaginilor.

Concluzie

Dacă MLLM vor acumula și vor absorbi în cele din urmă suficiente ‘scurtături’ pentru a acoperi chiar și provocările cele mai dificile de acest tip prezentate de autorii acestui studiu, indiferent dacă pot fi spuse că au dezvoltat capacități de generalizare de tip uman în acest domeniu poate deveni un punct lipsit de importanță.

Nici nu se știe exact prin ce rută obținem capacitățile noastre de raționament temporal – oare ‘înșelăm’ până când cantitatea imensă de experiență învățată revelează un model care se comportă ca ‘instinct’ în ceea ce privește acest tip de test?

* Din punctul de vedere că modelele sunt optimizate din ce în ce mai mult cu funcții de pierdere la care feedback-ul uman a contribuit și, în mod eficient, optimizate de teste umane și triaj ulterioare.

Publicat pentru prima dată luni, 27 ianuarie 2025