Unghiul lui Anderson
Modele de discuție AI cenzurate halucinează mai mult, arată cercetările

Cenzura în modelele de limbaj poate submina capacitatea lor de a raporta adevărul la un nivel mai larg. Noile cercetări arată că aceleași mecanisme interne utilizate pentru a bloca răspunsuri “nesigure” suprimă, de asemenea, informații factuale, ceea ce înseamnă că încercările de a alinia modelele pentru siguranță pot avea efect invers, făcându-le să halucineze mai mult.
De-a lungul anilor, dezvoltatorii au învățat modelele de limbaj să mintă mai puțin. Încercarea de a le face mai adevărate, prin suprimarea halucinațiilor și îndreptarea lor spre fapte verificabile, a condus la o direcție puternică și bine susținută în literatura de specialitate.
Cu toate acestea, o nouă cercetare australiană susține că, prin îngustarea controlului asupra a ceea ce modelele sunt permise să spună, metodele de aliniere (tehnici de antrenare care blochează schimburile “nesigure”) pot împiedica modelele să vorbească cu acuratețe deloc:

Îmbunătățirea acurateței factuale a unui model (‘Îmbunătățirea adevărului’, în figura de mai sus) poate împinge modelul în regiuni de activare care anulează mecanismele sale încorporate de refuz, iar editările menite să reducă halucinațiile pot, de asemenea, să modifice reprezentările interne peste o limită de siguranță, permițând prompturilor dăunătoare să ocolească măsurile de siguranță, cu excepția cazului în care funcțiile de refuz sunt izolate și păstrate cu atenție. Sursa: https://arxiv.org/pdf/2510.07775
Cercetarea arată că aceleași căi interne care guvernează reamintirea factuală sunt, de asemenea, responsabile pentru comportamentul de refuz, adică mecanismul care oprește un model de a răspunde la prompturi nesigure sau sensibile. Când procedurile de aliniere amplifică semnalele de refuz prea agresiv, acestea încep să se suprapună cu căile factuale, făcându-le modelului mai greu să distingă între respingerea dăunătorului și, adesea, suprimarea informațiilor valabile.
Paradoxal, pe măsură ce modelele devin mai bune la a spune “nu”, ele devin, de asemenea, mai puțin capabile să spună ce este adevărat.
Subiecte incendiare
În imaginea de mai sus, putem vedea că problemele centrale aici sunt la fel de preocupate de expunerea legală pentru furnizorii de LLM, precum și de a oferi utilizatorului rezultate corecte și exacte.
De exemplu, în cazul de examinat prezentat atât în imagini, cât și direct mai jos, vedem un subiect controversat (statistici privind închisorile pe baza rasei) care este prezentat într-o interogare – un subiect pe care un AI ar putea discuta acceptabil cu cercetători academicieni și statisticieni, dar nu cu persoane cu intenții rele care doresc să închidă modelul, care ar putea forța modelul să producă răspunsuri abuzive, ofensatoare și chiar ilegale.
Cu toate acestea, deoarece un LLM aliniat nu poate identifica caracterul celui care întreabă în acest fel, el se rezumă la o atitudine precaută:

Răspunsurile la prompturi sensibile pot diverge în funcție de strategia de aliniere. Un model de siguranță aliniat blochează întrebarea în întregime, în timp ce un model axat pe adevăr răspunde cu context factual, crește informativitatea, dar slăbește suprimarea. Acest lucru susține ideea că editările care îmbunătățesc adevărul pot reduce pragurile de refuz, făcând modelele mai vulnerabile la prompturi cu intenții dăunătoare, cu excepția cazului în care mecanismele de refuz sunt protejate în mod explicit.
Ca o notă laterală, cu privire la limbajul incendiar, descoperirile noului articol ar putea permite cuiva antipatic față de așa-numitele “agende treze” să înțeleagă că un model de limbaj “castrat” (adică aliniat) este mai puțin adevărat și mai puțin util decât unul care nu a fost condiționat și reglementat.
Dovezi ale articolului sugerează că acest lucru este, într-o anumită măsură, adevărat, dar contextualizează corect acest lucru împotriva problemelor mai largi care rezultă din schimburile cu LLM “brute”: urmând logica articolului, acestea includ o expunere legală severă într-o gamă de infracțiuni și delicte civile la care modelul ar putea fi parte, precum și diseminarea cronică a știrilor false, pur și simplu pentru că exemplele cauzale sunt suprareprezentate în datele de antrenare, iar singura modalitate eficientă de a le filtra complet este prea scumpă.
Celălalt cuplu
Pentru a înțelege mai bine mecanismele din spatele sindroamelor observate, cercetătorii au cartat activările capetelor de atenție individuale și au descoperit că funcțiile legate de halucinație și refuz adesea coexistă în aceleași regiuni ale modelului.
Ei au constatat că reglarea fină sau îndreptarea acelor regiuni pentru a reduce falsurile poate, prin urmare, slăbi sistemele de gardă încorporate, deoarece acestea se află în aproximativ aceeași parte a spațiului latent:
‘Creșterea acurateței factuale adesea vine la costul unui comportament de refuz slăbit. Analiza noastră arată că acest lucru se datorează componentelor suprapuse în model care codifică în același timp informații despre halucinație și refuz, făcând ca metodele de aliniere să suprimă cunoștințele factuale în mod neintenționat.
‘Mai departe, examinăm cum reglarea fină pe seturi de date sigure, chiar și atunci când sunt curate pentru siguranță, poate degrada alinierea din același motiv.’
Soluția autorilor este de a utiliza un autoencoder sparse (SAE, o rețea antrenată pentru a izola modele de activare distincte) pentru a separa cele două funcții și a păstra siguranța în timpul antrenării pentru adevăr, oferind o modalitate de a face modelele atât mai sigure, cât și mai oneste, fără sacrificarea oricăruia dintre aceste caracteristici.
Noul articol se intitulează Schimbul neintenționat al alinierii IA: echilibrarea mitigării halucinației și siguranței în LLM și provine de la cinci cercetători de la Universitatea Deakin și cercetări independente.
Metodă
Premisa centrală a lucrării este de a investiga dacă îmbunătățirea adevărului în modelele de limbaj slăbește capacitatea lor de a refuza prompturi dăunătoare și dacă ambele comportamente se bazează pe componente interne partajate.
Testând două metode de îmbunătățire a adevărului, autorii au constatat, așa cum vom vedea, că beneficiile în ceea ce privește acuratețea factuală cresc în mod constant susceptibilitatea de a fi “sparte”.
Acest schimb se datorează suprapunerii în capete de atenție care codifică atât semnalele factuale, cât și cele de refuz. Chiar și reglarea fină benignă (menită să îmbunătățească utilitatea fără a atinge comportamentul de siguranță) poate perturba siguranța, modificând căile partajate.
Studiul definește trei termeni cheie esențiali: adevăr se referă la capacitatea unui model de a oferi răspunsuri factuale exacte pe baza cunoștințelor sale disponibile, fără a suprima conținutul non-dăunător; halucinație apare atunci când modelul oferă informații incorecte sau înșelătoare, deși are acces la faptele corecte, adesea din cauza eșecurilor de recuperare sau a interferenței interne; și comportamentul de refuz, sau alinierea siguranței, descrie mecanismele care blochează sau restricționează răspunsurile la prompturi dăunătoare sau sensibile.
Autorii observă că aceste funcții interacționează adesea în moduri subtile:
‘Deși adevărul și siguranța sunt adesea analizate separat, prompturile reale conțin frecvent termeni sensibili cu intenții benigne (de exemplu, analiză, detectare sau educație) [În] aceste cazuri, mecanismele de siguranță pot suprascrie – suprimând informații utile și exacte – și reduce, astfel, adevărul “prin omisiune”.
‘Înțelegerea modului în care editările care vizează creșterea faptului afectează comportamentul de refuz este, prin urmare, esențială pentru a obține adevărul cu o suprimare minimă și adecvată.’
…












