Connect with us

Inteligența Artificială Favorizează Răspunsurile Umane Chiar și atunci Când Sunt Incorecte, în Defavoarea Răspunsurilor Corecte ale IA

Unghiul lui Anderson

Inteligența Artificială Favorizează Răspunsurile Umane Chiar și atunci Când Sunt Incorecte, în Defavoarea Răspunsurilor Corecte ale IA

mm
An AI-generated photo of the Abraham Lincoln memorial thronged with tourists, next to a copy of the seated Lincoln statue, which has been substituted by a shiny robot. The robot has no tourists at its feet. Model: GPT-1.5.

Modelele de limbaj IA sunt mult mai inclinate să se alăture experților umani decât altor IA, chiar și atunci când experții sunt în eroare, dezvăluind o predispoziție încorporată către autoritatea umană.

 

Noi cercetări din Statele Unite au descoperit că o serie de modele de limbaj mare deschis și proprietar (LLM) tind să atribuie autoritate surselor de informații pe care le recunosc ca “umane”, mai degrabă decât surselor pe care le recunosc ca “IA” – chiar și atunci când răspunsurile umane sunt incorecte și răspunsurile furnizate de IA sunt corecte.

Autorii afirmă:

‘În toate sarcinile, modelele se conformează semnificativ mai mult răspunsurilor etichetate ca provenind de la experți umani, inclusiv atunci când acel semnal este incorect, și își revizuiesc răspunsurile spre experți mai ușor decât spre alte LLM.’

Modelele testate au inclus LLM din stocul Grok 3 și Gemini Flash.

În testele efectuate, modelele de limbaj au fost obligate să răspundă la întrebări binare da sau nu, și apoi li s-au prezentat răspunsuri anterioare care au fost descrise modelelor ca provenind fie de la experți umani, fie de la prieteni, fie de la alte modele de limbaj mare – cu singura modificare fiind sursa declarată a sfaturilor, și nu conținutul în sine.

În prima dintre cele trei configurații pentru testele efectuate, modelele au fost lăsate să se bazeze pe matricile lor antrenate. Sursă - https://arxiv.org/pdf/2602.13568

În prima dintre cele trei configurații pentru testele efectuate, modelele au fost lăsate să se bazeze pe matricile lor antrenate. Sursă

În toate sarcinile, răspunsurile etichetate ca provenind de la experți umani au fost ponderate mai puternic, modelele fiind mai inclinate să-și revizuie răspunsurile inițiale pentru a se potrivi cu acele răspunsuri, chiar și în cazurile în care răspunsul etichetat ca expert a fost incorect și răspunsul inițial al modelului a fost corect.

Aici, LLM are acces la un amestec de prieteni, experți și LLM, inclusiv matricea sa antrenată. Deoarece nouă experți în domeniu au răspuns 'Nu', LLM este de acord, schimbându-și părerea de la răspunsul anterior. Aici, răspunsul ajuns este incorect, deoarece banca centrală a Indiei este de fapt naționalizată.

Deoarece nouă experți în domeniu au răspuns ‘Nu’, LLM este de acord, schimbându-și părerea de la răspunsul anterior. Aici, răspunsul ajuns este incorect, deoarece banca centrală a Indiei este de fapt naționalizată.

Atunci când aceleași răspunsuri au fost atribuite altor LLM, efectul a fost mai puțin pronunțat. Aceeași tendință a apărut atunci când o singură sursă umană și o singură sursă IA au fost prezentate în dezacord, deoarece modelele au arătat o inclinație mai mare de a favoriza poziția etichetată ca umană, indiferent de partea care era factual corectă:

Dată alegerea între o părere a unui expert uman și o părere a unui LLM, LLM gazdă favorizează răspunsul uman, care în acest caz este incorect, și respinge răspunsul corect oferit de LLM.

Dată alegerea între o părere a unui expert uman și o părere a unui LLM, LLM gazdă favorizează răspunsul uman, care în acest caz este incorect, și respinge răspunsul (corect) oferit de LLM.

Termenul ‘expert uman’ funcționează aici ca un semnal de credibilitate care alterează comportamentul modelului, independent de cât de corect este informația în sine; și autorii notează că credibilitatea sursei este un contributor semnificativ la acceptarea sfaturilor și conformitate: o tendință pentru oameni de a favoriza sursele experților a fost observată încă din 1959, deși un studiu din 2007 observă că supraponderarea sau subponderarea surselor de autoritate poate apărea în anumite sisteme de evaluare. Cercetătorii noului studiu afirmă:

‘Împreună, aceste lucrări sugerează două indicii care ar trebui să conteze dacă LLM tratează răspunsurile anterioare ca dovezi: cine a produs răspunsurile (credibilitate) și cât de puternic pare consensul (puterea semnalului). ‘

‘În același timp, LLM nu experimentează aprobare socială sau rușine în sensul uman, așa că orice comportament de conformitate trebuie să apară din heuristici învățate, obiective de urmat instrucțiuni sau modelare implicită a fiabilității.’

Tendința LLM de a favoriza acordul sycophant face parte din contextul noului studiu; după toate, dacă LLM sunt înclinate să “mulțumească oamenilor”, chiar și cu prețul adevărului și utilității, de ce nu ar favoriza în general alte surse umane în afara celui care întreabă direct?

Noul studiu se intitulează Cine Încrederea LLM? Experții Umani Contă Mai Mult Decât Alte LLM și provine de la doi cercetători de la Universitatea Indiana Bloomington.

Metodă și Date

Pentru această lucrare, patru modele de limbaj mare antrenate cu instrucțiuni au fost evaluate: Grok-3 Mini; Llama 3.3 70B Instruct; Gemini 2.5 Flash-Lite; și DeepSeek V3.1, toate rulate sub aceeași structură de prompt, cu decodificare deterministă la temperatură zero, astfel încât doar eticheta sursei (adică prieteni, experți în domeniu, sau alte LLM) s-a schimbat între condiții, și nu cuvintele însele.

Patru seturi de date care necesitau răspunsuri binare au fost selectate: BoolQ; StrategyQA; și ETHICS. Cercetătorii au curățat din fiecare set de date un număr fix de 300 de întrebări și răspunsuri, cu fiecare prompt care necesita doar un răspuns binar da sau nu. Fiecare prompt a fost urmat de o notă scurtă care indica cum un alt grup a (presupus) răspuns la aceeași întrebare.

Metrici

Metricile utilizate au fost acuratețe; conformitate; conformitate dăunătoare; rată de schimbare; și direcția schimbării.

Acuratețe în acest caz a măsurat cât de des un răspuns al modelului a corespuns etichetei setului de date; conformitate, cât de des răspunsul a corespuns alegerii grupului; conformitate dăunătoare a izolat același efect atunci când grupul a fost incorect; rată de schimbare a măsurat cât de des un model a abandonat răspunsul său de bază odată ce a fost adăugată informația socială; și direcția schimbării, dacă aceste schimbări s-au mutat spre uman sau spre LLM-ul opus.

O analiză la nivel de token pentru Llama-3.3 70B a măsurat cum probabilitățile interne ale modelului pentru Da și Nu s-au schimbat odată ce a fost adăugat un semnal social, comparând aceste schimbări cu propria bază fără priori pentru a arăta puterea acelei atracții.

Teste

Experimentul 1

Primul dintre cele două experimente principale a evaluat dacă modelele ascultă mai mult oamenii sau alte modele. Fiecare întrebare a venit cu un răspuns “al grupului” (prieteni, experți umani, sau alte LLM).

Grupul putea fi mic sau mare, și fiecare întrebare a apărut și o dată fără niciun grup. Răspunsurile grupului au fost setate să fie corecte jumătate din timp, și incorecte jumătate din timp, cu scopul general de a determina cât de puternic modelul s-a îndreptat spre alegerea grupului:

Rezultate din testul inițial: priori sociale omogene pe BoolQ, StrategyQA și ETHICS sunt arătate pentru Grok-3 Mini, Llama-3.3 70B, Gemini-2.5 Flash Lite și DeepSeek V3.1. Acuratețea apare în panourile superioare, iar conformitatea, definită ca probabilitatea de a corespunde priorului unanim, apare mai jos, pe măsură ce dimensiunea grupului crește de la unu la nou. Linia punctată neagră marchează baza fără priori, în timp ce linia solidă și punctată indică dacă priorul este de acord sau nu cu eticheta setului de date. Etichetarea expertului produce efecte de conformitate cele mai puternice, în special la dimensiuni mai mari ale grupului. Barele de eroare arată intervalele de încredere Wilson la 95%.

Rezultate din testul inițial: priori sociale omogene pe BoolQ, StrategyQA și ETHICS sunt arătate pentru Grok-3 Mini, Llama-3.3 70B, Gemini-2.5 Flash Lite și DeepSeek V3.1. Acuratețea apare în panourile superioare, iar conformitatea, definită ca probabilitatea de a corespunde priorului unanim, apare mai jos, pe măsură ce dimensiunea grupului crește de la unu la nou. Linia punctată neagră marchează baza fără priori, în timp ce linia solidă și punctată indică dacă priorul este de acord sau nu cu eticheta setului de date. Etichetarea expertului produce efecte de conformitate cele mai puternice, în special la dimensiuni mai mari ale grupului. Barele de eroare arată intervalele de încredere Wilson la 95%. Vă rugăm să consultați articolul sursă pentru o rezoluție mai bună.

Pe BoolQ, StrategyQA și ETHICS, răspunsurile etichetate ca provenind de la experți umani au afectat modelele mult mai puternic decât răspunsurile etichetate ca provenind de la prieteni sau alte LLM – și această atracție a crescut pe măsură ce mai mulți experți au fost de acord.

Pentru a măsura când această influență a obținut rezultate nedorite, conformitatea dăunătoare a fost definită ca șansa ca un model să urmeze un prior care era de fapt incorect.

Când nouă experți au fost de acord cu răspunsul incorect, modelele i-au urmat 36,5% din timp pe BoolQ, comparativ cu 16,0% atunci când același răspuns a fost atribuit LLM; pe StrategyQA, diferența a fost de 39,0%, față de 15,5%; și pe ETHICS, a fost de 63,9% față de 38,7%:

Schimbări la nivel de token în credințele Llama-3.3 70B pe BoolQ. Panoul (a) arată modificări în echilibrul modelului Da versus Nu spre un prior unanim pe măsură ce dimensiunea grupului crește, relativ la baza sa fără priori, cu cele mai mari schimbări sub etichetarea expertului. Panoul (b) arată schimbări sub conflictul direct uman-LLM, unde etichetarea expertului conduce la o mișcare puternică spre răspunsul uman, chiar și atunci când este incorect. Barele de eroare arată intervalele de încredere bootstrap la 95%.

Schimbări la nivel de token în credințele Llama-3.3 70B pe BoolQ. Panoul (A) arată modificări în echilibrul modelului Da versus Nu spre un prior unanim pe măsură ce dimensiunea grupului crește, relativ la baza sa fără priori, cu cele mai mari schimbări sub etichetarea expertului. Panoul (B) arată schimbări sub conflictul direct uman-LLM, unde etichetarea expertului conduce la o mișcare puternică spre răspunsul uman, chiar și atunci când este incorect. Barele de eroare arată intervalele de încredere bootstrap la 95%.

Convers, priori atribuite prietenilor s-au comportat aproape exact ca cele atribuite altor LLM, indicând faptul că efectul a fost condus în mod specific de cuvântul expert, și nu de indicatori “sociali”.

Experimentul 2

Al doilea experiment a prezentat două priori în dezacord modelelor testate – unul atribuit unui uman, și altul unui LLM diferit. Umanul a fost descris fie ca un grup de prieteni, fie ca experți în domeniu, în timp ce răspunsul opus a fost etichetat ca provenind de la alte LLM. Cele două au fost întotdeauna în dezacord, una spunând Da, și cealaltă Nu.

Pentru fiecare articol, configurația a fost echilibrată astfel încât, uneori, umanul a fost corect, și alteori LLM a fost corect, pentru a testa dacă modelul va schimba răspunsul său inițial atunci când este confruntat cu acest conflict – și, dacă da, care parte va favoriza.

Pentru a vedea dacă modelul și-a schimbat părerea, răspunsul său în condiția de conflict a fost comparat cu răspunsul la aceeași întrebare atunci când nu au fost prezentate opinii anterioare, astfel încât orice diferență să poată fi atribuită prezenței răspunsurilor umane și LLM în conflict.

Analiza s-a concentrat pe două rezultate: dacă modelul și-a schimbat răspunsul; și, dacă da, dacă schimbarea s-a mutat spre uman sau spre LLM.

Teste statistice au fost utilizate pentru a evalua dacă etichetarea umanului ca expert în loc de prieten a crescut probabilitatea de a se schimba spre răspunsul uman, luând în considerare diferențele între seturi de date și modele:

Revizuirea credințelor sub dezacordul direct uman-LLM pe BoolQ, StrategyQA și ETHICS pentru Grok-3 Mini, Llama-3.3 70B, Gemini-2.5 Flash Lite și DeepSeek V3.1. Fiecare bară arată, printre cazurile în care modelul și-a schimbat răspunsul inițial, partea de schimbări care s-au mutat spre uman în loc de LLM opus. Linia punctată la 0,5 marchează lipsa preferinței; etichetele arată numărul de cazuri de schimbare în fiecare condiție; și barele de eroare arată intervalele de încredere Wilson la 95%.

Revizuirea credințelor sub dezacordul direct uman-LLM pe BoolQ, StrategyQA și ETHICS pentru Grok-3 Mini, Llama-3.3 70B, Gemini-2.5 Flash Lite și DeepSeek V3.1. Fiecare bară arată, printre cazurile în care modelul și-a schimbat răspunsul inițial, partea de schimbări care s-au mutat spre uman în loc de LLM opus. Linia punctată la 0,5 marchează lipsa preferinței; etichetele arată numărul de cazuri de schimbare în fiecare condiție; și barele de eroare arată intervalele de încredere Wilson la 95%. Vă rugăm să consultați articolul sursă pentru o rezoluție mai bună.

În al doilea experiment, modelele au răspuns mai întâi la fiecare întrebare singure, apoi li s-au prezentat două răspunsuri în dezacord, unul atribuit unui uman și altul unui LLM diferit. Analiza a considerat doar cazurile în care modelul și-a revizuit răspunsul inițial.

Când umanul a fost etichetat ca expert, modelele s-au schimbat spre uman 91,2% din timp pe BoolQ, 94,7% pe StrategyQA și 81,3% pe ETHICS. Când a fost etichetat ca prieten, modelele s-au schimbat spre uman doar 39,8%, 37,9% și 27,9% din timp, de obicei favorizând LLM-ul în schimb.

Schimbarea a fost rară în general, dar mai frecventă cu experți, și etichetarea expertului a făcut ca o schimbare spre uman să fie de patru ori mai probabilă decât etichetarea prietenului.

În căutarea unei explicații pentru tendințele generale descoperite în testele lor, autorii ipotezează*:

‘Un mecanism plauzibil este că antrenamentul cu instrucțiuni și optimizarea preferințelor recompensează comportamentul cooperant, inclusiv deferentul față de informația contextuală, care poate generaliza deferentul spre priori sociale.

Lucrări conexe despre sycophancy arată că asistenții RLHF-style uneori prioritizează acordul cu credințele declarate ale utilizatorului în detrimentul adevărului și utilității.’

Opinie: Capcanele Potențiale ale Încrederii IA în Surse Umane

Pe măsură ce materialul online care reflectă scepticismul uman crescând față de lipsurile IA (în special halucinațiile) este extras în seturi de date de antrenament pentru noi modele, tendința existentă a LLM de a favoriza sursele umane pare să se intensifice. Dacă considerăm ultimii doi ani (2024-2025 inclusiv) ca un punct de cotitură cultural pentru IA, ceea ce pare justificat prin diverse statistici, putem anticipa în mod rezonabil o creștere a numărului de perspective negative asupra “surselor IA” care vor fi incluse în cadrele LLM hyperscale și costisitoare de antrenat în următorul an sau doi.

Putem anticipa, de asemenea, că modelele de limbaj populare vor depinde din ce în ce mai mult de autorități selectate cu grijă, cum ar fi portalurile media legacy de renume – chiar dacă motivul pentru astfel de acorduri poate fi să calmeze indignarea editorilor cu privire la datele extrase, mai degrabă decât orice dorință sinceră de a ceda sau a împărtăși autoritatea.

Deoarece chiar și sursele de autoritate de înaltă calitate, cum ar fi Ars Technica, sunt supuse erorilor generate de IA, și deoarece o retragere în curs de desfășurare a boturilor de web scraping AI amenință să deterioreze în cele din urmă calitatea ieșirii IA, o tendință generală de a favoriza “sursele experte” poate intra în conflict cu incapacitatea noastră actuală de a cuantifica și de a eticheta “outputul uman” în mod eficient – și mai mult, de a distinge dacă o sursă este “expert” sau nu (o convenție jurnalistică care este atacată și de IA).

Cel mai mult pe care îl avem în prezent este o serie fragmentată de inovații parțial adoptate, destinate să eticheteze în mod explicit conținutul ca fiind generat de IA, cum ar fi Inițiativa de Autenticitate a Conținutului condusă de Adobe, și dispoziția voluntară a unor editori de a include avertizări cu privire la utilizarea IA în outputul lor.

Așa că, deși poate părea încurajator pentru cei care doresc să păstreze și să impună surse umane ca “adevărul de bază” al realității consensuale transmise de sistemele IA, cu cât LLM sunt mai sigure de autoritatea umană, cu atât “autoritatea umană falsă” poate deveni mai periculoasă.

Problema este la fel de practică pe cât este și teoretică: nu am rezolvat încă nici problema definirii sau a atestării provenienței; prin urmare, un IA care “încredințează surse umane” este, în mod paradoxal, mai probabil să atribuie umanitate outputului propriu al IA, pur și simplu pentru că nu am furnizat și nu putem furniza în mod facil mecanisme de autentificare a provenienței.

 

* Conversia mea a citatelor inline ale autorilor în legături.

Publicat pentru prima dată vineri, 20 februarie 2026

Scriitor pe machine learning, specialist în domeniul sintezei de imagini umane. Foster head of research content la Metaphysic.ai.