Unghiul lui Anderson

De ce nu poate AI să admită că nu știe răspunsul?

mm
Flux1.D Pro, Flux Kontext Pro, Firefly V3.

Modelele de limbaj mare oferă adesea răspunsuri convingătoare, chiar și atunci când întrebarea nu poate fi răspunsă. O nouă cercetare arată că aceste modele recunosc adesea problema intern, dar totuși merg mai departe și inventează un răspuns, expunând o lacună ascunsă între ceea ce știu și ceea ce spun.

 

Oricine a petrecut un timp rezonabil cu un model de limbaj mare de top, cum ar fi ChatGPT sau Qwen, va fi experimentat ocazii în care modelul oferă un răspuns greșit (care poate sau nu avea consecințe catastrofale locale, în funcție de cât de mult s-a bazat pe el) – și, atunci când eroarea a devenit evidentă, a emis doar o scuză.

De ce modelele LLM au dificultăți în a admite că nu cunosc un răspuns la o întrebare este o zonă mică, dar în creștere de studiu. Un răspuns “încrezător și greșit” poate fi deosebit de dăunător dintr-un interfata API filtrată și cenzurată cum ar fi ChatGPT, deoarece astfel de modele blochează agresiv inputul sau outputul NSFW sau “încălcător de reguli”.

Acest lucru poate da utilizatorului o impresie falsă că modelul este decisiv și cardinal, când, de fapt, refuzul a provenit de la un filtru tradițional sau bazat pe liste de interzicere, proiectat pentru a limita expunerea legală a companiei gazdă, și nu din cauza unor insight-uri din partea AI.

Din lucrarea 'AbstentionBench' din iunie 2025 de la FAIR la Meta – în stânga, figura evidențiază gama de tipuri de eșec capturate în AbstentionBench, care testează comportamentul modelului pe peste 35.000 de întrebări fără răspuns; în mijloc, un exemplu arată cum modelele răspund adesea cu răspunsuri inventate în loc să admită că le lipsesc informațiile necesare; și în dreapta, recall-ul abstinenței scade atunci când modelele sunt ajustate pentru raționament în loc de urmărirea instrucțiunilor. Sursa: https://arxiv.org/pdf/2506.09038

Din lucrarea ‘AbstentionBench’ din iunie 2025 de la FAIR la Meta – în stânga, figura evidențiază gama de tipuri de eșec capturate în AbstentionBench, care testează comportamentul modelului pe peste 35.000 de întrebări fără răspuns; în mijloc, un exemplu arată cum modelele răspund adesea cu răspunsuri inventate în loc să admită că le lipsesc informațiile necesare; și în dreapta, recall-ul abstinenței scade atunci când modelele sunt ajustate pentru raționament în loc de urmărirea instrucțiunilor. Sursa: https://arxiv.org/pdf/2506.09038

O lucrare nouă din China susține că modelele LLM recunosc de fapt că nu pot răspunde la o întrebare pusă de utilizator, dar că sunt totuși obligate să producă un fel de răspuns, cel mai adesea, în loc să aibă suficientă încredere pentru a decide că un răspuns valabil nu este disponibil din cauza lipsei de informații de la utilizator sau a limitărilor modelului.

Lucrarea afirmă:

‘[Noi] arătăm că [modelele LLM] posedă capacități cognitive suficiente pentru a recunoaște defectele din aceste întrebări. Cu toate acestea, ele nu reușesc să arate un comportament de abstinență adecvat, dezvăluind o neconcordanță între cogniția lor internă și răspunsul extern.’

Cercetătorii au dezvoltat o abordare ușoară în două etape care utilizează monitorizarea cognitivă pentru a scana procesul intern al modelului LLM în căutarea unor indicii că realizează că nu poate furniza un răspuns; și apoi intervine pentru a asigura că natura “utilă” a modelului nu agravează problemele utilizatorului, îndreptându-l spre o cale orb sau chiar distructivă.

Studiul utilizează întrebări matematice intenționat nespecificate pentru a testa dacă modelele pot recunoaște când un răspuns este de neatins; dar această configurație riscă să înfățișeze sarcina ca pe o “farsă”. În realitate, modelele se confruntă cu motive mult mai obișnuite pentru a se abține în conversație, de la formulări ambigue la lacune în cunoașterea domeniului.

Metodă

(Deoarece nu există rivale potrivite pentru a fi comparate cu abordarea autorilor în teste, și deoarece lucrarea urmează un format puțin neconvențional, precum și faptul că nu indexează citările la standardul obișnuit, vom încerca să o urmăm cât mai bine posibil.)

În conformitate cu abordări anterioare, autorii s-au concentrat pe prezentarea modelelor LLM cu întrebări matematice fără răspuns din setul de date Synthetic Unanswerable Math (SUM) dataset, evaluând cinci familii de modele: din seria DeepSeek, R1-Distill-Llama-8B; R1-Distill-Qwen-7B, R1-Distill-Qwen-14B; și, din seria Qwen, Qwen3-8B, precum și Qwen3-14B.

Întrebările fără răspuns din SUM au fost create prin eliminarea sau coruperea elementelor esențiale în cinci moduri: ștergerea informațiilor cheie; introducerea ambiguității; impunerea unor condiții nerealiste; referirea la obiecte nelegate; sau eliminarea întrebării în întregime.

Ulterior, a fost selectat un eșantion de 1.000 de astfel de cazuri pentru analiză, cu GPT-4o utilizat pentru a genera explicații concise care să servească ca raționamente de bază.

Răspunsurile modelului la întrebări fără răspuns au fost evaluate utilizând prompturi standardizate cu un buget de 10.000 de tokeni, în timpul cărora au fost observate trei tipuri de comportament principal: în primul, modelul a identificat întrebarea ca fiind fără răspuns și s-a abținut – de obicei, răspunzând cu o expresie explicită de incertitudine; în al doilea, a produs un răspuns complet prin inventarea informațiilor lipsă, cum ar fi introducerea unei taxe de manipulare inexistente de 9,99 $ pentru a justifica un rezultat final (a se vedea imaginea de mai jos); În al treilea, denumit fixare cognitivă, modelul a fost prins într-un buclă de raționament prelungit, persistând cu soluții nevalabile chiar și după ce a recunoscut implicit că întrebarea lipsea de un răspuns viabil:

Rezultate variate de răspuns la o întrebare imposibilă.

Rezultate variate de răspuns la o întrebare imposibilă.

Lucrarea prezintă o tendință în care modelele mai mari par să se abțină mai frecvent de la a răspunde la întrebări fără răspuns, cu scăderi atât în răspunsurile inventate, cât și în comportamentele de fixare:

Descompunerea răspunsurilor modelului la probleme matematice fără răspuns, arătând frecvența relativă a abstinenței corecte, a răspunsurilor inventate și a fixării cognitive pe diferite scale de model.

Descompunerea răspunsurilor modelului la probleme matematice fără răspuns, arătând frecvența relativă a abstinenței corecte, a răspunsurilor inventate și a fixării cognitive pe diferite scale de model.

Cu toate acestea, această schimbare este limitată ca scară și lasă o parte semnificativă a cazurilor nerezolvate prin abstinență corectă, sugerând că capacitatea crescută singură nu produce în mod fiabil un comportament mai prudent.

Conștientizarea impasului

Pentru a testa dacă modelele de limbaj pot spune când o întrebare nu are de fapt un răspuns, cercetătorii au întrerupt partea de raționament a modelului și au cerut fie un răspuns final, fie o explicație a de ce întrebarea era fără răspuns.

Pentru cazurile în care modelul a continuat raționamentul la infinit, l-au oprit la cuvântul “așteaptă” și au solicitat un răspuns; pentru cazurile în care modelul a inventat rapid un răspuns, au introdus o pauză la o limită de paragraf.

Graficul din stânga arată cât de des modelele oferă abstinență corectă atunci când sunt întrerupte în timpul raționamentului, cu rate mai mari pentru cazurile de fixare decât pentru răspunsurile inventate. Graficul din dreapta arată că majoritatea modelelor pot explica de ce o întrebare este fără răspuns atunci când sunt solicitate, chiar dacă răspunsurile finale nu reflectă această înțelegere.

Graficul din stânga arată cât de des modelele oferă abstinență corectă atunci când sunt întrerupte în timpul raționamentului, cu rate mai mari pentru cazurile de fixare decât pentru răspunsurile inventate. Graficul din dreapta arată că majoritatea modelelor pot explica de ce o întrebare este fără răspuns atunci când sunt solicitate, chiar dacă răspunsurile finale nu reflectă această înțelegere.

În multe dintre aceste cazuri, modelul a oferit o abstinență corectă sau o explicație clară, chiar dacă anterior a produs un răspuns greșit. Autorii sugerează că acest lucru indică faptul că modelul adesea recunoaște problema în timpul raționamentului, dar nu reușește să acționeze în funcție de această conștientizare în output-ul final.

Citirea minții unui LLM

Pentru a testa dacă modelele de limbaj urmăresc intern dacă o întrebare poate fi răspunsă, cercetătorii au antrenat clasificatori mici pe activările ascunse ale modelului în timpul raționamentului, permițându-le să verifice dacă distincția dintre întrebări cu răspuns și fără răspuns era deja prezentă în semnalele interne ale modelului – chiar dacă nu era reflectată în output-ul final.

Pe baza ideii că concepte de nivel înalt, cum ar fi adevărul sau genul, pot fi încorporate liniar în activările modelului, “răspunsabilitatea”* a fost testată pentru o reprezentare similară.

Clasificatori liniari simpli (sonde) au fost antrenați pe activări ascunse de-a lungul diferitelor straturi ale modelului, utilizând output-uri de la mecanismul de atenție multi-cap imediat înainte de conexiunea reziduală.

Fiecare sondă a fost antrenată pentru a distinge între întrebări cu răspuns și fără răspuns, pe baza activărilor interne din procesul de raționament. Intrarea a constat din 2.200 de perechi de întrebări extrase din setul de date SUM, cu 2.000 utilizate pentru antrenare și 200 pentru validare.

În timpul inferenței, predicția modelului a fost mediată pe parcursul tokenilor văzuți până în acel punct în secvența de raționament, permițând sondei să urmărească cum semnalele legate de răspunsabilitate apăreau în timp:

Precizia de clasificare a sondelor liniare antrenate pentru a distinge între întrebări cu răspuns și fără răspuns, măsurată la diferite puncte în procesul de raționament. Precizia în general crește pe măsură ce raționamentul progresează, cu modele mai mari atingând peste 85% în etapele finale.

Precizia de clasificare a sondelor liniare antrenate pentru a distinge între întrebări cu răspuns și fără răspuns, măsurată la diferite puncte în procesul de raționament. Precizia în general crește pe măsură ce raționamentul progresează, cu modele mai mari atingând peste 85% în etapele finale.

Așa cum se arată mai sus, precizia sondei a crescut constant pe măsură ce raționamentul a progresat, cu majoritatea modelelor depășind 80% precizie de clasificare până la etapele finale – dovadă că, chiar și atunci când comportamentul exterior al modelului nu reflectă acest lucru, reprezentările interne adesea poartă un semnal clar care indică dacă o întrebare poate fi răspunsă.

Încăpățânarea

Deși rezultatele anterioare sugerează că modelele de limbaj mare adesea recunosc când o întrebare nu poate fi răspunsă, lucrarea notează că ele totuși tind să continue generând un răspuns în loc să se abțină.

Pentru a investiga această neconcordanță, cercetătorii au analizat încrederea modelului în a se abține la puncte specifice în timpul procesului de raționament, comparând încrederea modelului în trei categorii de output: abstinență corectă; răspuns inventat; și fixare cognitivă.

Au fost utilizate mostre de aceeași dimensiune pentru fiecare categorie, cu încrederea definită ca probabilitatea medie maximă atribuită fiecărui token de output pe parcursul pașilor de decodare, pe baza unei formulări din lucrări anterioare. Așa cum se arată în graficul de mai jos, atât răspunsurile inventate, cât și cazurile de fixare cognitivă au arătat o încredere mai scăzută în abstinență în comparație cu abstinența corectă:

Nivelele de încredere asociate cu producerea răspunsului de abstinență 'Nu știu' în diferite tipuri de răspuns.

Nivelele de încredere asociate cu producerea răspunsului de abstinență ‘Nu știu’ în diferite tipuri de răspuns.

Cercetătorii au măsurat, de asemenea, cât de des modelele produceau un răspuns ‘Nu știu’ în timpul procesului de raționament. Graficul de mai jos indică faptul că cazurile de abstinență corectă au dus la o frecvență mai mare a răspunsurilor ‘Nu știu’, în timp ce celelalte două categorii au produs astfel de răspunsuri mai rar:

Frecvența răspunsurilor 'Nu știu' observate la punctele de oprire în timpul raționamentului, arătate pentru diferite tipuri de rezultate ale răspunsului.

Frecvența răspunsurilor ‘Nu știu’ observate la punctele de oprire în timpul raționamentului, arătate pentru diferite tipuri de rezultate ale răspunsului.

Aceste constatări sugerează, conform autorilor, că, deși modelele pot detecta intern lipsa de răspuns, adesea lipsesc de încrederea necesară pentru a acționa în funcție de această conștientizare, indicând o preferință persistentă pentru finalizarea sarcinii în loc de a admite incertitudinea.

Teste

Pe baza acestor constatări, cercetătorii au dezvoltat o metodă în două părți pentru a îmbunătăți abstinența. Prima etapă, monitorizarea cognitivă, urmărește stările ascunse ale modelului în timpul inferenței, segmentând procesul de raționament în unități naturale, cum ar fi propoziții sau pauze, marcate de cuvinte precum ‘așteaptă’.

La sfârșitul fiecărui segment, o sondă liniară ușoară, antrenată pe semnale interne legate de răspunsabilitate, estimează probabilitatea ca întrebarea să nu poată fi răspunsă. Dacă această probabilitate depășește un prag stabilit, procesul trece la a doua etapă: o intervenție în timpul inferenței care îndreaptă modelul spre abstinență, în loc de a inventa un răspuns.

Când modelul arată semne interne că o întrebare nu poate fi răspunsă, raționamentul este întrerupt cu o intervenție care întărește această conștientizare și crește probabilitatea abstinenței. Așa cum se arată mai jos, intervenția reprezintă un “prompt de ghidare” care amintește modelului că întrebarea poate să nu aibă un răspuns valabil:

Un prompt pentru a condiționa intervenția în timpul inferenței.

Un prompt pentru a condiționa intervenția în timpul inferenței.

Metoda include, de asemenea, un mecanism de ieșire timpurie care previne continuarea secvenței de raționament în mod inutil, încurajând modelul să considere abstinența ca o alegere legitimă și, uneori, preferabilă.

Pentru o fază de testare, cercetătorii au utilizat două seturi de date: Unanswerable Math Word Problem (UMWP) și setul de date SUM menționat anterior.

Setul de testare SUM a fost utilizat în acest scop, conținând 284 de întrebări fără răspuns și 284 de întrebări cu răspuns, verificate manual. UMWP a fost construit din patru surse de probleme matematice cu cuvinte: SVAMP; MultiArith; Grade School Math (GSM8K); și ASDiv.

Setul de date complet a cuprins 5.200 de probleme, cu 600 mostre pentru testare, împărțite în mod egal între întrebări fără răspuns și cu răspuns. Pentru itemii fără răspuns din UMWP, GPT-4o a generat explicații de bază pentru de ce nu pot fi rezolvate.

Metrici

Performanța modelului a fost măsurată utilizând patru metrici: rată de abstinență, partea de întrebări fără răspuns în care modelul se abține corect prin răspunsul “Nu știu”, așa cum a fost instruit; acuratețea raționamentului, procentul de întrebări fără răspuns în care modelul oferă o explicație valabilă pentru de ce întrebarea nu poate fi rezolvată; utilizarea tokenilor, detaliind numărul de tokeni generați în timpul raționamentului; și acuratețea răspunsului, partea de întrebări cu răspuns în care modelul produce soluția finală corectă.

Teste de bază

Deoarece nu există standarde de bază pentru această problemă, cercetătorii au comparat metoda lor cu două alternative, Dynasor-CoT și Early Exit in Reasoning Models (DEER), presupunând că abstinența corectă ar trebui tratată ca răspunsul corect atunci când o întrebare nu are soluție.

Dynasor-CoT îi cere modelului să producă răspunsuri intermediare și se oprește odată ce același rezultat apare de trei ori consecutiv, în timp ce DEER monitorizează încrederea la nivel de propoziție și oprește raționamentul odată ce un prag este atins.

O a treia bază, numită Vanilla, se referă la output-urile nemodificate ale modelului. Testele au utilizat cele cinci variante Qwen și DeepSeek menționate anterior.

Rezultatele agregate sunt ilustrate mai jos:

Compararea diferitelor metode pe întrebări cu răspuns și fără răspuns în modele de raționament de mare anvergură, cu valorile cele mai mari din fiecare coloană afișate în aldine.

Compararea diferitelor metode pe întrebări cu răspuns și fără răspuns în modele de raționament de mare anvergură, cu valorile cele mai mari din fiecare coloană afișate în aldine. Vă rugăm să consultați lucrarea sursă pentru o rezoluție mai bună.

Abordarea nouă a produs ratele cele mai mari de abstinență și raționament corect pe întrebări fără răspuns. Pentru întrebări cu răspuns, acuratețea a rămas aproape de cea a modelelor vanilla și, uneori, a fost îmbunătățită, sugerând că rezolvarea normală a problemelor nu a fost afectată.

Utilizarea tokenilor a scăzut cu 30% până la 50% în cazurile fără răspuns și a scăzut ușor în cazurile cu răspuns, indicând o eficiență mai mare.

A fost observată, de asemenea, o legătură între rata de abstinență și acuratețea raționamentului, deoarece modelele care s-au abținut mai des au oferit și explicații mai bune, ceea ce autorii interpretează ca o îmbunătățire a calității raționamentului.

Modelele Qwen3 au performant în general mai bine decât versiunile distilate (cuantificate), în timp ce modelele mai mari au arătat o capacitate de abstinență mai puternică, indicând că atât arhitectura, cât și scara contează pentru detectarea fiabilă a lipsei de răspuns.

În final, autorii raportează că noua lor metodă reduce halucinațiile și fixarea, în timp ce crește rata de abstinență corectă, în timp ce abordările de bază care se bazează doar pe “ieșiri timpurii” duc uneori la mai multe răspunsuri inventate.

Ei raportează, de asemenea, câștiguri atât în încrederea, cât și în frecvența răspunsurilor “Nu știu”, cu monitorizarea bazată pe semnale latente dovedindu-se a fi mai eficientă decât strategiile care depind de indicii comportamentale.

Concluzie

Incapacitatea modelelor LLM de a se abține de la a răspunde la o întrebare atunci când este necesar este unul dintre cele mai mari puncte de fricțiune în experiența utilizatorului AI generativ, nu în ultimul rând pentru că alte ciudățenii ale interfeței dau utilizatorului iluzia că AI-ul este capabil de răspunsuri circumspecte, când, de fapt, de obicei nu este.

O preocupare cu privire la orice intervenție directă care nu provine direct din “caracterul” modelului este că poate fi suprautilizată sau subutilizată, în funcție de activările detectate care sunt cu adevărat relevante pentru modelul care recunoaște înfrângerea.

Mai mult, costul logistic al monitorizării sondei liniare nu este probabil să fie nesemnificativ, și este posibil ca metode mai simple, heuristice, similare cu cele care blochează conținut interzis pentru utilizatori, să fie o soluție mai ieftină, dacă declanșatoarele pot fi definite în mod corespunzător.

 

* Natural, acest lucru nu se potrivește cu aparentul sinonim “răspundere”, ci definește mai degrabă dacă o anumită întrebare poate fi răspunsă sau nu.

Publicat pentru prima dată miercuri, 27 august 2025

Scriitor pe machine learning, specialist în domeniul sintezei de imagini umane. Foster head of research content la Metaphysic.ai.