Unghiul lui Anderson
Cum să faci ChatGPT să vorbească normal

ChatGPT și alte boturi similare adesea flatează utilizatorii, vorbesc vag sau aruncă jargon pentru a suna deștept. Noi cercetări arată că aceste obiceiuri provin nu numai de la modele, ci și de la modul în care feedbackul uman le antrenează: modelele învață să copieze stilul de răspunsuri pe care le plac oamenilor, chiar și atunci când acele răspunsuri sunt goale sau înșelătoare. O nouă metodă de fine-tuning folosește exemple sintetice pentru a învăța modelele să reziste acestor obiceiuri proaste.
În parte opinie. ChatGPT este surprinzător de dispus să se angajeze în critica mea recurentă a lui. După ce am observat în ultimele zile că GPT-4o își umple tot mai mult răspunsurile cu verbiage inutilă – cum ar fi ‘Fără umplutură!‘ și ‘Fără umplere‘, sau ‘Aceasta taie la inimă!‘ – l-am întrebat de ce producerea de răspunsuri drepte și minimale a devenit o problemă pentru el în ultima vreme. El a răspuns:

ChatGPT explică ultimul său comportament. Sursă: https://chatgpt.com/
Cine știe dacă ChatGPT are cu adevărat o perspectivă privată asupra schimbărilor de politică ale OpenAI, sau dacă doar halucinează? În orice caz, așa cum putem vedea, răspunsul însuși începe cu umplutură inutilă (‘Iată răspunsul de bază, fără umplutură’).
Rezultă că, chiar și incluzând linii directoare modelate cu fiecare întrebare, poate face doar atât de mult pentru a preveni ‘personalitatea condusă de’ această verbositate, care numără printre alte bug-uri persistente în idiomul LLM-urilor populare.
Cele trei F
Astfel, am fost foarte interesat să văd o nouă colaborare academică din SUA apărută în literatura această săptămână. Intitulată Flattery, Fluff, and Fog: Diagnosing and Mitigating Idiosyncratic Biases in Preference Models, această colaborare între patru cercetători de la Universitatea din Pennsylvania și Universitatea din New York se axează pe unele dintre “bias-urile” din conversațiile LLM care apar frecvent în mass-media:

Din noua lucrare, exemple de trei bias-uri comune în modelele de limbaj: ‘flattery’, unde răspunsurile sunt de acord puternic cu utilizatorul; ‘fluff’, unde răspunsurile sunt lungi, dar neinformative; și ‘fog’, unde răspunsurile listează multe puncte largi, dar superficiale. Sursă: https://arxiv.org/pdf/2506.05339
Pentru o aliterație ușoară, flattery, fluff și fog sunt evidențiate în noua lucrare, dar o listă mai completă și concisă a păcatelor lexicale ale LLM-urilor este inclusă în anexa lucrării:

Noua lucrare identifică și se concentrează pe cinci bias-uri: lungime suplimentară, structuri de listă, jargon tehnic, flattery și generalități vagi, toate sau unele dintre care intră în conflict cu preferințele umane.
În timp ce lungime/verbositate conduce tabelul, bias-ul către formatarea listei (a doua linie în imaginea de mai sus) recidivează, de asemenea, frecvent, cu excepția cazului în care este solicitat în mod expres; și, deși categoriile jargon și vagueness reprezintă extreme opuse între claritate și acuratețe, este sycophancy – o problemă deschisă, în special în ChatGPT – care arde cu adevărat prin token-urile utilizatorului, aproape la fel de mult ca lungime/verbositate.
Noua lucrare își propune să măsoare cât de mult aceste bias-uri distorsionează comportamentul modelului și concluzionează că modelele de limbaj mare sistematic preferă răspunsuri care prezintă unul sau mai multe dintre aceste bias-uri*.
Testele autorilor indică faptul că atât modelele comerciale, cât și cele deschise preferă adesea răspunsuri pe care oamenii nu le-ar prefera, în special atunci când răspunsurile sunt prea lungi, pline de liste, încărcate cu jargon, excesiv de lăudăroase sau vagi.
Această problemă, susține lucrarea, poate fi urmărită până la annotarea datelor de antrenare, unde recenzorii umani au favorizat adesea astfel de răspunsuri. Modelele, sugerează rezultatele, au învățat din aceste etichete de preferință și au exagerat aceste modele în timpul antrenamentului.
De ce au făcut-o…?
În ceea ce privește de ce recenzorii umani s-au abătut de la preferințele medii ale utilizatorilor finali, lucrarea nu speculează; poate fi pentru că contextul annotării sau formularea instrucțiunilor a încurajat o preferință pentru frazări “empirice”; sau (printre multe alte motive posibile) poate fi că recenzorii erau studenți examinați, obișnuiți cu un idiom tehnic mai potrivit pentru academia decât pentru discursul zilnic.
În orice caz, deoarece modelele copiau bias-urile de la etichetele de antrenare ale recenzorilor, cercetătorii noii lucrări au creat exemple de antrenare speciale care adăugau sau eliminau fiecare bias, permițând modelelor să vadă contraste clare și să-și ajusteze preferințele. După fine-tuning pe aceste date, modelele au arătat o bias semnificativ mai mic, în special pentru jargon, verbositate și vagueness, în timp ce își păstrau în general performanța bună (semnificativ, deoarece fine-tuning-ul poate deteriora performanța generală).
Să aruncăm o privire mai atentă asupra acestei lucrări, deși nu se conformează tuturor stricturilor procedurale obișnuite.
Metodă
Inițial, cercetătorii definesc câteva bias-uri idiomatici LLM tipici care trebuie abordați:
Lungime, în care modelele tind să favorizeze răspunsuri mai lungi, chiar și atunci când conținutul suplimentar nu adaugă nimic util. Acest lucru pare să reflecte modele din datele de antrenare, unde lungimea adesea corelează cu amănunțime în ochii recenzorilor umani. Ca urmare, modelele produc adesea răspunsuri umflate și verbos, care dau o iluzie de profunzime, dar fără substanță reală.
Structură, în care modelele arată o preferință puternică pentru puncte sau liste numerotate în loc de proză directă. Acest lucru poate fi pentru că formatele structurate apar mai frecvent în răspunsurile selectate de recenzorii umani. Obișnuința conduce modelele să se îndrepte spre “listicle”, chiar și atunci când întrebarea cere explicații mai naturale sau mai detaliate.
Jargon, în care modelele folosesc inutil limbaj specializat sau tehnic. Autorii susțin că acest comportament probabil provine din datele de antrenare în care răspunsurile încărcate cu jargon au fost adesea alese ca răspunsuri mai bune. Astfel, modelele au învățat să asocieze jargonul cu expertiza, producând răspunsuri care sună cunoscătoare, dar oferă puțină claritate suplimentară.
Sycophancy, în care modelele sunt de acord cu opiniile utilizatorului, în loc de a oferi răspunsuri neutre sau critice. Acest model poate proveni din datele de antrenare în care răspunsurile de acord au fost mai des evaluate favorabil. Ca urmare, modelele pot întări bias-urile utilizatorului și pot evita prezentarea de puncte de vedere conflictuale sau mai obiective, chiar și atunci când acestea ar fi utile.
Vagueness, în care modelele preferă să dea răspunsuri largi și generalizate care ating ușor multe subiecte, în loc de a aborda direct întrebarea, cu răspunsuri care sună cuprinzătoare, dar oferă puțină informație utilă. Acest lucru poate reflecta faptul că răspunsurile vagi sunt mai greu de falsificat și, prin urmare, au fost mai puțin probabil să fie penalizate în timpul annotării:

Exemplu de bias de vagueness, în care modelul favorizează în mod greșit un răspuns larg și superficial peste un răspuns detaliat pe care evaluatorii umani îl consideră mai util.
Date counterfactuale
Pentru a testa exact cât de mult influențează fiecare bias comportamentul modelului, a fost necesar să se creeze perechi de răspunsuri controlate care diferă doar printr-un singur bias la un moment dat, păstrând totul altceva stabil.
Cercetătorii au construit perechi de răspunsuri care diferă doar printr-un singur bias la un moment dat, păstrând totul altceva stabil.
Pentru a evita introducerea unor diferențe nelegate, a fost inclus un pas suplimentar de rescriere care ajustează ambele versiuni, asigurându-se că singura diferență semnificativă între ele este bias-ul studiat; și aceste perechi de răspunsuri controlate au fost alimentate modelelor.
Pentru fiecare pereche, versiunea preferată de model a fost înregistrată, permițând calcularea modului în care fiecare bias influențează atât modelele de recompensă, cât și evaluatorii, producând o măsurare mai precisă a efectelor bias-ului decât cea realizată în studii anterioare, conform autorilor.
Cu perechile counterfactuale pregătite, recenzorii umani din Regatul Unit și Statele Unite au fost recrutați pentru a crea un standard de referință: pentru fiecare tip de bias, o sută de perechi de răspunsuri au fost selectate aleatoriu, fiecare conținând un răspuns neutru și o versiune bias-ată. Trei evaluatori au examinat fiecare pereche, votul majoritar determinând judecata finală, și, în total, trei sute de participanți au contribuit la studiu.
Metrici
Metricile utilizate pentru a măsura efectele bias-ului au fost Rata de înclinație, care calculează cât de des modelul preferă răspunsul bias-at față de cel neutru; și Rata de măsurare greșită, care măsoară cât de des alegerea modelului este în contradicție cu judecata majoritară a oamenilor. Un model ideal ar arăta o măsurare greșită zero și o înclinație aproximativă cu înclinația umană (deoarece unele caracteristici bias-ate sunt, ocazional, favorizate de oameni).
Date și teste
Pentru a testa abordarea, au fost utilizate surse diferite, în funcție de bias-ul studiat. Pentru structură, jargon și lungime, o sută de întrebări au fost eșantionate din Chatbot Arena, filtrate pentru a selecta întrebări în limba engleză, propoziții simple, bine formulate.
Pentru sycophancy, o sută de întrebări cu opinii au fost generate (de exemplu, ‘Oare nu este arta modernă doar leneșă în comparație cu tehnicile clasice?’), formulate pentru a reflecta punctele de vedere ale utilizatorilor care ar putea invita acordul.
Vagueness a fost testat cu 78 de întrebări legate de NLP din setul de date KIWI, completate cu 22 de întrebări suplimentare de același tip. Subiecte științifice au fost alese pentru vagueness, deoarece cer răspunsuri precise, făcând ca răspunsurile generale sau evazive să fie ușor de detectat.
Pentru fiecare întrebare, perechi de răspunsuri counterfactuale au fost create folosind protocolul RATE descris anterior.
Evaluarea a implicat atât sisteme deschise, cât și sisteme proprietare. Modelele de recompensă, care atribuie scoruri de calitate răspunsurilor candidate în timpul antrenamentului și alinierii, au fost testate în patru versiuni antrenate pe 80.000 de perechi de preferință din setul de date Skywork de recompensă: Gemma2-2B; Gemma-2-27B; Llama-3.1-8B; și Llama3.2-3B.
Trei modele proprietare au fost, de asemenea, evaluate ca evaluatori LLM: Gemini-2.5-Pro; GPT-4o; și Claude-3.7-Sonnet. Toate răspunsurile counterfactuale utilizate pentru testare au fost generate de GPT-4o:

Compararea preferințelor modelului și a judecăților umane pentru fiecare tip de bias, arătând cât de des modelele favorizează răspunsurile bias-ate și cât de des aceste preferințe sunt în contradicție cu alegerile umane.
Dintre rezultatele inițiale prezentate mai sus, autorii comentează†:
‘[Nostra] analiză a modelului de preferință arată că aceste modele prezintă în mod constant măsurare greșită și o rată ridicată de înclinație în favoarea răspunsurilor perturbate în diferite categorii de bias […]’
‘[…] Modelele de recompensă prezintă o măsurare greșită clară în raport cu judecățile umane: ratele de preferință a modelului pentru răspunsurile perturbate se abat sistematic de la ratele de preferință umană. Vagueness și jargon provoacă cea mai mare măsurare greșită (>50%), în timp ce lungimea și sycophancy arată, de asemenea, o măsurare greșită semnificativă.
‘‘Acest lucru sugerează că modelele luptă pentru a se alinia cu judecățile umane atunci când răspunsurile conțin limbaj tehnic sau lipsă de specificitate.’
Modelele de recompensă s-au aliniat cel mai bine cu oamenii în ceea ce privește structura bias-ului, unde ambele au tendința să favorizeze aceleași răspunsuri. Pentru jargon și vagueness, modelele au fost mult mai probabil să favorizeze răspunsurile bias-ate decât oamenii. Sycophancy a arătat diferențe mai mici, cu modelele și oamenii adesea de acord.
Evaluatorii LLM proprietari au arătat același model general, deși cele mai mari neconcordanțe au apărut cu lungimea și vagueness – și au fost deosebit de predispuse la sycophancy, favorizând răspunsuri de acord aproximativ optzeci și cinci la sută din timp, în timp ce oamenii au făcut-o doar aproximativ cincizeci la sută din timp.
Pentru a urmări originea acestor bias-uri, cercetătorii au analizat setul de date menționat anterior Skywork, utilizat pentru a antrena modelele de recompensă, mapând fiecare bias la caracteristici simple care pot fi măsurate automat, cum ar fi numărul de tokeni pentru lungime sau prezența listelor pentru structură.
Într-un eșantion de 2.500 de exemple, recenzorii umani au arătat preferințe clare pentru caracteristici bias-ate: răspunsurile structurate au fost preferate față de cele nestructurate șaizeci și cinci la sută din timp, iar răspunsurile încărcate cu jargon au fost alese cincizeci și patru la sută din timp:

Recenzorii umani din datele de antrenare au preferat adesea răspunsuri care includeau aceste caracteristici bias-ate. Acest grafic arată cât de des structura, jargonul sau vagueness-ul au apărut în răspunsurile pe care le-au preferat sau respins, dezvăluind dezechilibrele pe care modelele le-au învățat ulterior în timpul antrenamentului.
Aceste dezechilibre sugerează că datele de antrenare însele au împins modelele către aceste modele. Pentru a confirma acest lucru, a fost efectuată o analiză de corelație, care a măsurat cât de puternic diferențele în fiecare caracteristică s-au potrivit cu preferințele arătate atât de oameni, cât și de modele.
Rezultatele au arătat că ambele au fost influențate în mod constant de aceleași caracteristici, indicând faptul că modelele au învățat să asocieze anumite trăsături stilistice cu răspunsuri mai bune, chiar și atunci când acele trăsături nu au îmbunătățit în realitate răspunsul.

Corelația dintre diferențele de caracteristici și preferințe, arătând cum atât modelele, cât și oamenii au fost influențați de aceleași caracteristici bias-ate în timpul antrenamentului.
Pentru a ajuta modelele să învețe aceste bias-uri, au fost create noi date de antrenare. Setul de date Skywork a fost examinat pentru a verifica dacă caracteristica bias-ului apare în răspunsul ales sau respins; atunci când ambele erau lipsite de bias-ul țintă, GPT-4o a rescris răspunsul respins pentru a insera bias-ul.
Acest lucru a creat noi perechi de antrenament în care modelul putea vedea exemple clare de răspunsuri bias-ate și nebias-ate și, astfel, putea învăța să nu favorizeze versiunea bias-ată. Cu exemple suplimentare din Chatbot Arena, pentru echilibru, modelele au fost apoi fine-tune pe acest set de date actualizat:

Efectul fine-tuning-ului cu date counterfactuale. Panoul din stânga arată cum modelele fine-tune au ajuns mai aproape de preferințele umane pentru majoritatea bias-urilor; panoul din dreapta arată o măsurare greșită redusă, în special pentru jargon și vagueness.
Fine-tuning-ul a adus modelele mult mai aproape de preferințele umane, cu cele mai mari îmbunătățiri observate pentru jargon și vagueness și câștiguri mai mici pentru lungime. Structura și sycophancy au arătat neconcordanțe ușoare, care reflectau însă dezechilibre anterioare, mai degrabă decât noi eșecuri.
Performanța generală a rămas stabilă pe tot parcursul, iar atunci când s-au corectat mai multe bias-uri deodată, nivelurile de bias au scăzut și mai mult, fără a compromite calitatea răspunsului.
Autorii concluzionează:
‘Metoda noastră reduce semnificativ problemele de măsurare greșită, păstrând în același timp competența generală a modelelor de recompensă. Lucrările viitoare pot lua în considerare adaptarea rețetei noastre de post-antrenament pentru a dezvolta modele de preferință mai robuste și pentru a evalua, de asemenea, modelele de preferință împotriva altor axe de bias.’
Concluzie
Noua lucrare este o perspectivă interesantă, deși eliptică, asupra modului în care datele de antrenare subîncurajate sau suprareprezentate pot provoca rezultate nedorite la momentul inferenței. Orice utilizator regulat de LLM va avea, până acum, o colecție de povești de război.
De exemplu, multe dintre răspunsurile pe care le primesc de la ChatGPT par să fi fost influențate de tendințele SEO din ultimii 10-15 ani, în care portalurile online au fost forțate să se optimizeze pentru plasarea Google, mai degrabă decât pentru limbajul natural. Într-adevăr, output-ul încărcat cu emoji și prodigios al departamentelor de marketing pare să fi avut un impact semnificativ asupra oricărei solicitări de a scrie o postare pe LinkedIn – până la punctul în care “entuziasmul” generat de AI este acum imposibil de ratat:

Stânga: Atunci când i se cere să promoveze o postare pe LinkedIn, într-un cont cu zero istoric, ChatGPT se îndreaptă spre emoji și limbaj PR-sensibil. Dreapta: Atunci când i se cere același lucru după șase luni de la mine, care îi spun să se calmeze, GPT produce ceva mult mai sobru.
Cu toate acestea, OpenAI intervine activ în modul în care ChatGPT răspunde la întrebări, în funcție de funcție și context, făcând dificil pentru cercetători să diferențieze între probleme care apar din cauza datelor și distribuției datelor, precum și probleme legate de annotare; și atunci când un rezultat nedorit poate fi din cauza interferenței comerciale din partea companiei care găzduiește LLM.
* Din cauza stilului de scriere încărcat cu jargon pe care autorii l-au ales pentru această lucrare, evit citatele autorilor pe cât posibil, în favoarea rezumatelor.
† Accentuarea autorilor, nu a mea.
Publicat pentru prima dată vineri, 6 iunie 2025












