Inteligență artificială

Lupta de a opri inteligența artificială să înșele la teste

Published June 3, 2021

Updated April 28, 2026

Martin Anderson

Noi descoperiri ale cercetării de la o universitate chineză oferă o perspectivă asupra motivului pentru care modelele de procesare a limbajului natural generativ, cum ar fi GPT-3, tind să “înșele” atunci când li se pune o întrebare dificilă, producând răspunsuri care pot fi corecte din punct de vedere tehnic, dar fără a avea o înțelegere reală a de ce răspunsul este corect; și de ce demonstrează o capacitate mică sau deloc de a explica logica din spatele răspunsurilor “ușoare”. Cercetătorii propun, de asemenea, metode noi pentru a face sistemele “să învețe mai mult” în timpul fazei de antrenament.

Problema este dublă: în primul rând, proiectăm sisteme care încearcă să obțină rezultate rapide și cu o utilizare optimă a resurselor. Chiar și acolo unde, ca în cazul GPT-3, resursele pot fi considerabil mai mari decât cele pe care un proiect de cercetare obișnuit în domeniul NLP le poate pune la dispoziție, această cultură a optimizării bazate pe rezultate continuă să domine metodologia, deoarece a devenit o convenție academică.

În consecință, arhitecturile noastre de antrenament recompensează modelele care converg rapid și produc răspunsuri aparent potrivite la întrebări, chiar dacă modelul NLP nu este ulterior capabil să justifice răspunsul său sau să demonstreze cum a ajuns la concluziile sale.

O predispoziție timpurie de a înșela

Acest lucru se întâmplă pentru că modelul învață “răspunsuri scurte” mult mai devreme în timpul antrenamentului decât învață tipuri mai complicate de achiziție a cunoștințelor. Deoarece creșterea acurateței este adesea recompensată în mod nediscriminatoriu pe tot parcursul antrenamentului, modelul prioritizează orice abordare care îi permite să răspundă la o întrebare “cu ușurință” și fără a avea o perspectivă reală.

Deoarece învățarea scurtăturilor va reprezenta inevitabil primele succese în timpul antrenamentului, sesiunea va tinde în mod natural să se îndepărteze de sarcina mai dificilă de a obține o perspectivă utilă și mai completă epistemologică, care poate conține straturi mai profunde și mai intuitive de atribuire și logică.

Alimentarea IA cu “răspunsuri ușoare”

A doua problemă este că, deși inițiativele de cercetare recente au studiat tendința IA de a “înșela” în acest fel și au identificat fenomenul “scurtăturilor”, nu a existat până acum niciun efort de a clasifica materialul “scurtătură” într-un set de date care contribuie, ceea ce ar fi primul pas logic în abordarea ceea ce poate dovedi a fi o eroare fundamentală de arhitectură în sistemele de înțelegere a citirii mașinilor (MRC).

Noul articol, o colaborare între Institutul Wangxuan de Tehnologie a Calculatorului și Laboratorul Cheie MOE de Lingvistică Computațională de la Universitatea Peking, testează diverse modele de limbaj împotriva unui set de date nou annotat care include clasificări pentru soluții “ușoare” și “grele” pentru o întrebare posibilă.

Source: https://arxiv.org/pdf/2106.01024.pdf

Setul de date utilizează parafrazarea ca criteriu pentru răspunsurile mai complicate și profunde, deoarece o înțelegere semantică este necesară pentru a reformula cunoștințele obținute. În schimb, răspunsurile “scurtătură” pot utiliza tokeni precum date și alte cuvinte cheie care încapsulează, pentru a produce un răspuns care este factual corect, dar fără context sau raționament.

Componenta “scurtătură” a anotărilor prezintă corespondența cuvântului întrebării (QWM) și corespondența simplă (SpM). Pentru QWM, modelul utilizează entități extrase din datele text furnizate și elimină contextul; pentru SpM, modelul identifică suprapunerea între propozițiile răspunsului și întrebările furnizate în datele de antrenament.

Datele “scurtătură” aproape “virale” în influență într-un set de date

Cercetătorii susțin că seturile de date tind să conțină o proporție ridicată de întrebări “scurtătură”, care fac modelele antrenate să se bazeze pe trucuri “scurtătură”.

Cele două modele utilizate în experimente au fost BiDAF și BERT-base. Cercetătorii observă că, chiar și atunci când sunt antrenate pe variații ale setului de date cu o proporție mai mare de întrebări “grele”, ambele modele performează mai bine la întrebările “scurtătură” decât la întrebările parafrazate “grele”, în ciuda numărului mic de exemple din seturile de date.

Acest lucru prezintă “datele scurtătură” aproape în contextul unui virus – că trebuie să existe foarte puțin din ele într-un set de date pentru a fi adoptate și prioritate în antrenament, sub standarde și practici convenționale în NLP.

Dovada înșelăciunii

O metodă pe care o utilizează cercetarea pentru a demonstra fragilitatea unui răspuns “scurtătură” este de a înlocui un cuvânt entitate “ușor” cu un cuvânt anormal. Atunci când o metodă “scurtătură” a fost utilizată, logica răspunsului “înșelat” nu poate fi furnizată; dar atunci când răspunsul a fost furnizat dintr-un context mai profund și o evaluare semantică a unui spectru mai larg de text care contribuie, este posibil pentru sistem să deconstruiască eroarea și să reconstruiască un răspuns corect.

Înlocuirea ‘Beyoncé’ (o persoană) cu ‘America’ (o locație), revelează dacă modelul are o logică de fundal pentru răspunsul său.

Scurtături datorate unei imperative economice

Referitor la unele dintre motivele arhitecturale pentru care “scurtăturile” sunt atât de prioritizate în fluxurile de lucru de antrenament NLP, autorii comentă ‘Modelele MRC pot învăța trucurile scurtătură, cum ar fi QWM, cu resurse computaționale mai mici decât provocările de înțelegere, cum ar fi identificarea parafrazării’.

Acesta, apoi, ar putea fi un rezultat neintenționat al filozofiilor standard de optimizare și de conservare a resurselor în abordările de înțelegere a citirii mașinilor, și a presiunii de a obține rezultate cu resurse limitate în timp scurt.

Cercetătorii notează, de asemenea:

‘[Deoarece] trucul scurtătură poate fi utilizat pentru a răspunde corect la majoritatea întrebărilor de antrenament, întrebările nerăspunse limitate care au rămas nu pot motiva modelele să exploreze soluții sofisticate care necesită abilități provocatoare.’

Dacă rezultatele articolului sunt ulterior confirmate, pare că vastul și în continuă expansiune domeniu al prelucrării datelor poate trebui să ia în considerare “cărțile ascunse” în date ca o problemă de abordat pe termen lung, sau să revizuiască arhitecturile NLP pentru a prioritiza rutine mai provocatoare pentru ingestia de date.