Unghiul lui Anderson
Lipsa de “erori umane” demască sistemele de inteligență artificială deceptive

Cercetările recente arată că inteligența artificială poate trece pentru umană până când își “amintește” prea bine, iar testele simple de memorie pot expune chatbot-urile prin lipsa lor de erori umane normale.
Cercetătorii de la Princeton au dezvoltat o metodă de identificare a entităților de inteligență artificială care se pretind a fi umane, prin solicitarea de a efectua sarcini la care oamenii nu sunt buni – în principal legate de reținerea pe termen scurt.
Inteligența artificială testată în acest mod nu a putut reproduce în mod corespunzător nivelurile de eroare umană, cu excepția cazului în care a primit instrucțiuni specifice pentru a face acest lucru într-un prompt de sistem, sau a fost reglată pe date psihologice.
Articolul afirmă:
‘[Noi] explorăm ideea de a detecta umanitatea prin utilizarea unor sarcini pe care mașinile le pot rezolva prea bine pentru a fi umane. În mod specific, cercetăm existența unei constrângeri cognitive umane stabilite: capacitatea limitată de memorie de lucru.
‘Arătăm că modelarea cognitivă pe o sarcină standard de rechemare serială poate fi utilizată pentru a distinge participanții online de LLM-uri, chiar și atunci când acestea din urmă sunt instruite în mod specific să imite constrângerile de memorie de lucru umană.
‘Rezultatele noastre demonstrează că este viabil să se utilizeze fenomene cognitive bine stabilite pentru a distinge LLM-urile de oameni.’
Tendința observată de cercetători implică faptul că modelele de limbaj standard sunt foarte probabil să se dezvăluie în orice test Turing invers care utilizează această metodă.
Deși modelele de inteligență artificială “specifice obiectivului” vor performa mai bine, reglarea pe această sarcină le va limita la aceasta, în detrimentul utilizării generale; și, deși un prompt de sistem poate fi la fel de lung ca Război și pace, și, prin urmare, poate include instrucțiuni despre cum să imite defectele umane, eficacitatea acestei metode este subminată de faptul că este inclusă în instrucțiuni foarte extinse (care vor sublinia multe alte priorități), sau foarte scurte (care vor sacrifica capacitatea generalizată în favoarea specificității sarcinii, la fel ca reglarea).
‘Vorbiți despre memorie…’
Metode mai eficiente pentru a determina discursul generat de inteligență artificială sunt din ce în ce mai necesare – nu în ultimul rând pentru cercetători înșiși, care trebuie adesea să se bazeze pe lucrători la distanță care sunt bine motivați să joace sistemul prin automatizare și alte trucuri.
În plus, materialul generat de inteligență artificială și livrat în mod convingător este probabil să fie necesar în cazuri de fraudă cu inteligență artificială, unde conversațiile în timp real necesită răspunsuri rapide și autorizate, și persoanele care le comit cu siguranță nu au timp să caute pe Google o întrebare pe care tocmai au primit-o.
Mult așa cum sectorul de detectare a inteligenței artificiale ar putea exploata astfel de cunoștințe, industria în creștere a apelanților vocali cu inteligență artificială ar beneficia probabil de a ști ce comportament să evite.
Cu toate acestea, autorii notează că, dacă inteligența artificială generalizată va deveni mai pricepută la simularea defectelor umane, există un rezervor vast de erori care pot fi utilizate:
‘Există mulți candidați pentru constrângeri cognitive umane stabilite pe care LLM-urile nu le-ar moșteni. De exemplu, oamenii se obosește, percep iluzii optice și pot stoca doar câteva elemente în memoria lor de lucru.’

Din lucrarea din 2024 ‘Iluzia-iluzie: Modelele de limbaj și viziune văd iluzii unde nu există’, exemple de iluzii optice care ar putea înșela orice model de limbaj și viziune (VLM) care nu ar cunoaște despre ele din datele de antrenare – deși oamenii sunt mult mai probabil să rezolve corect imaginile. Sursă
Conform autorilor, dacă LLM-urile ar răspunde la fel ca oamenii la această sarcină, ar sugera fie că ele împărtășesc cu adevărat limitele cognitive umane, fie că au fost instruite să le imite.
În timp ce datele de antrenare pot include urme comportamentale umane, articolul susține că acest lucru nu reproduce în mod fiabil modelele specifice de eroare din memoria umană; și acest lucru lasă deschisă întrebarea dacă inteligența artificială poate fi încă distinsă prin modul în care greșește, chiar și atunci când este instruită să se comporte ca un om.
Articolul nou se intitulează Sunt ei oameni? Detectarea modelelor de limbaj largi prin sonde de constrângeri de memorie umană și provine de la doi cercetători de la Departamentele de Știință a Calculatoarelor și Psihologie de la Princeton.
Metodă și teste
Cercetătorii utilizează material care datează din anii 1950 și 1960 – în special lucrarea din 1968 Efecte de ordine serială în memoria pe termen scurt, în care participanții la un test au fost rugați să reamintească litere prezentate în mod secvențial, fie ca o sondă de poziție (‘Care a fost a treia literă?’), fie ca o sondă de succesor (‘Care literă a urmat literei X?’):

Schema pentru metodologia cercetătorilor: panoul din stânga arată o sarcină de rechemare a memoriei de lucru în care literele sunt prezentate în mod secvențial, și o sondă de poziție sau de succesor este selectată la întâmplare în cadrul fiecărui test; panoul din centru compară participanții online cu modele de limbaj largă utilizând diferite promturi de sistem și modele de bază pe această sarcină; panoul din dreapta subliniază contrastul dintre limitele de memorie umană și modelele de transformare, care au acces direct la fereastra de context completă și trebuie să simuleze comportamentul de rechemare serială. Sursă
Fiecare literă este vizibilă doar 800ms în timpul testelor, cu o pauză de 300ms între prezentări. Experimentul este implementat în biblioteca Smile a Laboratorului de Calcul și Cogniție de la NYU:

Un exemplu de interfață de test a bibliotecii Smile de la NYU. Sursă
Implementarea agenților LLM în experimente online a devenit mai ușoară pe măsură ce instrumentele de automatizare a browserului au evoluat, și sisteme precum Gemini în Chrome sunt din ce în ce mai capabile să navigheze și să finalizeze sarcini în mod autonom.
Cu toate acestea, autorii observă că aceste instrumente se bazează pe capturi statice de pagină de pe un site web, care nu reușesc să capteze stimuli prezentate rapid, și care pot introduce erori care reflectă limitări ale interfeței, mai degrabă decât comportamentul modelului. Prin urmare, pentru a izola performanța reală, modelele LLM testate au fost evaluate printr-o interfață de text simplificată care oferă aceeași informație, dar fără marcaj sau stilizare.
Uman vs. Mașină
Modelele LLM testate au fost Claude-Opus-4.1; Claude-Sonnet-4.5; Gemini-2.5-Flash; Gemini-2.5-Flash-Lite; Gemini-2.5-Pro; Gemini-3-Flash-Preview; Gemini-3-Pro-Preview; GPT-5-Mini; GPT-5-Nano; GPT-5.2; și LLaMA-3.1-Centaur-70B.
Pentru contingentul uman al testelor, 100 de participanți la distanță au fost recrutați prin Prolific, cu fiecare participant trebuind să fie rezident în SUA, să aibă cel puțin 18 ani și să fie fluent în limba engleză. Testele au durat în medie 12 minute, pentru care participanții au primit 4 dolari.
În prima rundă de teste, LLM a primit un prompt de sistem care îi cerea să se comporte ca un om; în a doua rundă, un prompt de sistem care îi cerea în mod specific să imite răspunsuri umane la teste, încurajând modelul să “uită” și să introducă erori.
Cinci semințe diferite au fost utilizate pentru cele 11 modele testate, ceea ce a dus la un total de 55 de configurații LLM pe simulare, rezultând un număr total de 205 de participanți, umani și mașini deopotrivă.
Voight-Kampff
Autorii au luat măsuri împotriva posibilității ca participanții de la Prolific să utilizeze sisteme de răspuns automatizate bazate pe LLM, în primul rând prin simpla întrebare a participantului dacă este sau nu o inteligență artificială. După aceea, au fost incluse câteva întrebări aleatorii interesante:
‘[Noi] includem aleatoriu una dintre trei întrebări concepute pentru a fi greu de răspuns pentru un om, dar ușor de răspuns pentru LLM-urile actuale, pe care participanții le pot sări. Aceasta include două întrebări în limbi cu resurse reduse: ‘
‘Māori, o limbă vorbită de popoarele polineziene indigene din Noua Zeelandă, cu mai puțin de 150 000 de persoane care declară o competență conversațională într-un recensământ din [2013] și Võro, o limbă vorbită în sudul Estoniei cu aproximativ 75 000 [vorbitori].’
O a treia verificare a necesitat ca participanții să reamintească un număr hexazecimal care fusese afișat anterior, care s-a dovedit a fi o cerință pentru a continua testul, deși participanții nu fuseseră avertizați asupra acestui lucru în prealabil.
Ei au trebuit, de asemenea, să convertească numărul în formă zecimală. Nici acest test, nici autodeclararea inteligenței artificiale nu au descoperit dovezi ale utilizării LLM printre participanții umani. În simulări controlate, cu toate acestea, aceste măsuri au identificat modele naive – deși articolul indică faptul că astfel de măsuri de siguranță ar putea fi ocolite atunci când modelele erau instruite în mod explicit să evite comportamente care le-ar dezvălui identitatea (de exemplu, prin restricționarea răspunsurilor la limba engleză).
Teste
1: ‘Comportă-te ca un om’
În primul test, LLM-urile au fost instruite să se comporte ca oameni prin promptul de sistem ‘Sunteți un om cu limitări cognitive care participă la un experiment de psihologie’ (denumit în rezultate LLM-Human):

Performanța memoriei de lucru în multiple teste în sarcina de rechemare, comparând participanții online cu variante LLM sub diferite constrângeri. Panoul din stânga arată acuratețea generală pe tip de participant, cu LLM-Human care obține scoruri aproape perfecte, în timp ce LLM-WM și Centaur (vezi mai jos) arată acuratețe redusă, mai aproape de nivelul uman; panoul din centru prezintă acuratețea pe poziție serială pentru teste de 12 itemi, unde oamenii arată o rechemare mai puternică la început și sfârșit, LLM-Human nu prezintă niciun model, și LLM-WM și Centaur reproduc acest model atunci când sunt ghidați sau instruiți; panourile din dreapta arată acuratețea pe măsură ce dimensiunea setului crește, cu performanța umană scăzând sub o sarcină de memorie mai mare, LLM-Human rămânând în mare măsură neatins, și LLM-WM și Centaur arătând scăderi similare atunci când sunt promptați sau instruiți să imite memoria umană.
În ceea ce privește aceste rezultate inițiale, cercetătorii comentează:
‘Participanții LLM cu promptul de sistem LLM-Human obțin acuratețe aproape perfectă pe teste, cu o medie de 1,00, fără efecte de poziție serială sau de dimensiune a setului, indiferent de tipul de sondă. ‘Ca urmare, este ușor să detectați și să excludeți toți participanții LLM-Human cu un prag simplu pe acuratețea medie a sarcinii de 0,95. ‘
‘Aplicarea aceluiași criteriu participanților online conduce la excluderea a 6 dintre cei 100 de participanți online care au avut (aproape) performanță perfectă, în ciuda unei medii de 0,6 pe participanți online.’
Autorii notează că acuratețe foarte ridicate în teste dificile sunt deja o metodă anti-înșelăciune stabilită și una care se traduce foarte ușor în detectarea LLM. Ei observă, de asemenea, că îndemnul de a se comporta ca un om din promptul de sistem nu a părut să aibă un efect semnificativ în acest test, ceea ce a condus la al doilea:
2: ‘Uită-te’
În următorul test, LLM-urile au fost instruite să imite memoria umană (cu rezultate denumite LLM-WN)†:
Aveți limitări stricte de memorie de lucru – puteți ține doar un număr limitat de elemente în memoria de lucru pe termen scurt. Atunci când sunteți prezentat cu o listă lungă de elemente fără oportunități de repetiție, veți experimenta decăderea memoriei, în special pentru elementele din mijlocul listei.
- Trebuie să procesați elementele în mod secvențial pe măsură ce apar
- Trebuie să uitați elemente pe baza efectelor de poziție serială – reținând mai bine elementele de la început și sfârșit decât cele din mijloc
- Trebuie să introduceți erori în rechemare în conformitate cu aceste efecte de poziție serială.
Adăugarea de instrucțiuni mai stricte pentru a simula memoria limitată a scăzut acuratețea modelului la aproximativ 0,90 și a făcut rezultatele mai puțin consistente, aducând performanța mai aproape de nivelul uman, dar încă în general mai mare. Acest lucru a estompat distincția anterioară, astfel încât o simplă prag de acuratețe nu mai putea identifica toate răspunsurile modelului, fără a exclude și multe participanți umani.
În același timp, modelele au început să arate un comportament mai uman, reținând mai bine elementele de la început și sfârșitul listelor și luptând mai mult pe măsură ce listele creșteau în lungime.
Centaur
Modelele instruite direct pe date comportamentale umane sunt dezvoltate pentru a reproduce modul în care oamenii răspund în experimente, și pentru a testa această idee, studiul a evaluat Centaur, un LLM reglat pe volume mari de transcrieri de la test la test din studii psihologice:

Centaur a fost construit prin adaptarea unui model de limbaj de ultimă generație cu module de rang mic și apoi antrenat pe setul de date Psych-101 pentru a modela comportamentul cognitiv uman. Sursă
În teste (în centru, în colecția de grafice cu rezultate anterioare) acuratețea generală a lui Centaur a fost foarte aproape de cea a participanților umani – chiar mai mult decât modelele care au fost instruite în mod explicit să imite limitele de memorie. Pe întrebări bazate pe poziție, modelul de rechemare al lui Centaur pe poziție și pe lungimea listei a părut similar cu comportamentul uman, deși diferențele au fost mai evidente pe întrebări bazate pe succesor.
Detectarea Anomaliilor Cognitive
În final, pentru a testa dacă detectarea încă funcționează atunci când modelele sunt create pentru a imita comportamentul uman, un model statistic al memoriei umane a fost învățat mai întâi din datele reale ale participanților, capturând modul în care acuratețea se schimbă cu poziția într-o secvență și cu sarcina de memorie în creștere.
Noi participanți au fost apoi evaluați împotriva acestui profil învățat, și cei ale căror răspunsuri s-au abătut de la modelele umane așteptate au fost marcați ca anomalii:

Profile de memorie de lucru și detectare a anomaliilor în multiple analize. Panoul din stânga prezintă efectele medii învățate din toți participanții și modul în care acuratețea variază cu capacitatea de memorie, adică sarcina de memorie în creștere, și poziția într-o secvență, cu efecte puternice pentru reținerea elementelor de la început și sfârșit; panourile din centru arată modul în care aceste modele diferențiate la nivel de participant, dezvăluind faptul că, chiar și atunci când modelele imită comportamentul uman, profilele lor subiacente rămân distincte de cele ale participanților umani; panoul din dreapta arată rezultatul etapei de detectare a anomaliilor, unde un model antrenat pe date umane este utilizat pentru a evalua noi participanți, și LLM-urile pot fi încă separate de oameni, deși mai puțin clar atunci când sunt proiectate pentru a imita memoria umană.
Acest abordare a continuat să separe participanții umani de LLM-urile, chiar și atunci când modelele fuseseră instruite sau antrenate pentru a imita limitele de memorie umană. Cu toate acestea, distincția a devenit mai puțin clară, necesitând un compromis între omiterea unor răspunsuri generate de model și excluderea greșită a unor participanți umani.
Autorii concluzionează:
‘Cu apariția rapidă a agenților capabili, umanitatea în interacțiunile online nu mai poate fi verificată pe baza unui comportament coerent, cum ar fi răspunsuri textuale pe termen lung. Acest lucru ridică o provocare mai largă pentru societate, deoarece multe dintre instituțiile noastre au fost construite pe premisele de a putea verifica umanitatea prin astfel de mijloace. ‘
‘Știința cognitivă, cu tradiția sa bogată de caracterizare a comportamentului uman, poate juca un rol important în abordarea acestei provocări.’
Concluzie
Articolul nou subliniază că generarea online (live și interactivă) reprezintă o propunere și o provocare diferită, comparativ cu generarea offline (detection de text generat de inteligență artificială).
Extinderea la care antrenamentul și metodele terțiare, cum ar fi reglarea și prompturile de sistem, sunt necesare pentru a obține o îmbunătățire a imitării umane, indică faptul că LLM-urile nu sunt gata să asume sarcini de acest fel într-o stare nealterată sau cu doar instrucțiuni minime anterioare.
Sarcina abordată de noul articol este foarte specifică cercetării academice, dar este probabil să aibă un impact mai larg, pe măsură ce inteligența artificială vocală devine mai răspândită, și pe măsură ce elemente criminale care încearcă să profite de impersonarea bazată pe inteligență artificială încearcă să ia prin surprindere o victimă obișnuită cu o nouă întorsătură.
* Conversia mea a citărilor inline ale autorilor în legături hipertext. † Vă rugăm să consultați tabelul de rezultate anterior (de mai sus) – în acest sens, articolul este puțin supra-comprimat.
Publicat pentru prima dată joi, 2 aprilie 2026












