Inteligență artificială

Obținerea NLP pentru a pune la încercare întrebările greșit informate

Published September 10, 2021

Updated April 5, 2026

Martin Anderson

Unele întrebări sunt de neatâtnat pentru că conțin informații incorecte – presupuneri pe care persoana care aude întrebarea trebuie să le filtreze și să le respingă. Acest lucru presupune, desigur, că ascultătorul are suficiente informații corecte pentru a pune la încercare întrebarea, în loc de a utiliza întrebarea însăși ca sursă de informații (greșite).

Este o provocare pentru sistemele de Procesare a Limbajului Natural (NLP) cum ar fi GPT-3, care au o tendință de a “halucina” informații pentru a menține dialogul.

În prezent, întrebarea “Când a inventat Marie Curie uraniul?” adresată lui GPT-3 va primi probabil răspunsul “Marie Curie a inventat uraniul în 1898”.

Sursă: https://beta.openai.com/playground (Da Vinci instruct beta).

De fapt, uraniul a fost descoperit în 1789 de chimistul german Martin Heinrich Klaproth, în timp ce revelația soților Curie din 1898 a fost izolarea radiului.

Problema sistemelor NLP care ignoră presupunerile incorecte a devenit vizibilă într-un număr de declarații publice în acest an, inclusiv modul în care rezultatele căutării asistate de AI de la Google vor ignora informațiile incorecte din întrebarea “Când a pus Neil Armstrong piciorul pe Marte?” – o eroare care încă se arată la momentul scrierii acestui articol și se aplică în mod egal lui Povestea jucăriilor, al cărui personaj Buzz Lightyear a aterizat pe Lună pe 21 iulie 1969.

Tom Hanks, un alt absolvent al Povestea jucăriilor, este creditat și el de către Google pentru aterizarea pe Lună în 1970, în ciuda faptului că personajul său din Apollo 13, astronautul Jim Lovell, este cel mai faimos pentru faptul că nu a reușit să aterizeze pe Lună.

Abordarea problemelor de presupunere în schimburile NLP

Acum, Google Research, împreună cu cercetători de la Universitatea Johns Hopkins și Universitatea Brown, investighează noi metode de învățare automată prin care sistemele NLP pot fi în cele din urmă făcute să pună la încercare întrebările incorecte din punct de vedere factual, în același mod în care este esențial pentru profesorii umani să o facă în timpul conversațiilor cu elevii.

Articolul recent publicat Care lingvist a inventat becul? descrie un efort concertat pentru a dezvolta un sistem nou care să identifice presupunerile și să le verifice veracitatea înainte de a continua schimbul de informații.

Noul algoritm preprocesează întrebările înainte de a reveni la conversație, descompunând “autentificarea” întrebării într-un proces în trei etape.

Nu se calculează! În stânga, ‘blocarea’ care apare chiar și atunci când un sistem NLP avansat a putut identifica că întrebarea nu are sens. În dreapta, o descompunere a unui algoritm propus care încearcă să rectifice eroarea sursă. Sursă: https://arxiv.org/pdf/2101.00391.pdf

Deși pare a fi o rutină de verificare simplă care ar fi trebuit să fie integrată în sistemele de cunoaștere de la început, majoritatea rutinelor de antrenare NLP învață informații cu un nivel excesiv de încredere pentru datele sursă, inclusiv discursul (cum ar fi știrile false) care ar fi putut fi publicate pe canale “de încredere” anterioare.

Prin urmare, o problemă cheie este identificarea prin consens a unei surse de fapte fiabile într-un climat în care proliferarea de “știri” incorecte prin intermediul rețelelor sociale ar acorda, în mod implicit, autoritatea sub logica generalizării învățării automate, cel puțin până când fenomenul știrilor false a devenit o zonă critică de interes în domeniu în ultimii ani.

Determinarea celei mai bune abordări pentru întrebările de neatâtnat

Pentru a determina o abordare potrivită pentru rezolvarea unei întrebări care conține informații incorecte, cercetătorii au rulat 100 de astfel de întrebări prin patru modele Q&A diferite și au cerut subiecților umani să aleagă cea mai bună sau mai puțin problematică soluție generată de modele.

Cele patru rezultate arhitecturale posibile pentru “întrebarea proastă” au fost: ‘De neatâtnat’ – unde un sistem Q&A cu carte închisă efectiv închide întrebarea fără alte explicații; ‘Explicație bazată pe eșecul presupunerii’ – unde sistemul nu reușește să verifice presupunerea incorectă, efectiv un răspuns “de neatâtnat”, cu o explicație adăugată; ‘Explicație extractivă’ – unde sistemul extrage o citat relevant din Wikipedia și o anexează la fraza introductivă “Această întrebare este de neatâtnat pentru că…”; și ‘Rescriere în domeniu deschis’ – unde un sistem competitiv caută surse suplimentare din Wikipedia.

Acest exemplu de patru posibile răspunsuri la o întrebare aparent ‘de neatâtnat’ ilustrează complexitatea încercării de a găsi o soluție competitivă bazată pe domeniu pentru problema respectivă.

Pe parcursul testelor, cei cinci participanți (recruitați pe o platformă de crowdsourcing internă Google) au preferat răspunsurile bazate pe presupuneri, ceea ce i-a determinat pe cercetători să dezvolte un nou cadru pentru a descompune și verifica întrebările.

În noul sistem, declanșatoarele lingvistice sunt obținute din întrebare printr-un generator bazat pe reguli care descompune propoziția în afirmații factuale presumate. Dacă sunt derivate mai multe presupuneri din întrebare, fiecare este investigată și va contribui la răspunsul final dacă abordează presupunerile incorecte din întrebarea originală.

Seturi de date

Presupunerile generate în etapa inițială au fost modificate manual pentru a crea un set de date de verificare cu presupuneri “de aur”. Orice presupuneri care au apărut din ramificarea întrebării, dar care nu erau prezente în întrebările originale, au fost eliminate.

Doi dintre autorii articolului au annotat manual 462 de presupuneri în termeni de verificabilitate da/nu, pe baza unei pagini Wikipedia relevante asociate cu fiecare întrebare. Cazurile de dezacord au fost rezolvate în discuții ulterioare înainte de a fi incluse în setul de date.

Cercetătorii au utilizat zero-shot NLI, o sarcină de clasificare a premiselor/ipotezelor care a necesitat descompunerea articolelor Wikipedia legate de întrebări. Deoarece acest proces rezultă în multe mai multe perechi decât întrebarea poate implica sau decât modelul să susțină, rezultatele filtrate au fost apoi agregate și etichetate.

Rezultate și formularea răspunsului

Cele mai eficiente rezultate au fost obținute prin soluția cea mai laborioasă: un hibrid fin reglat, bazat pe reguli/NLI, generat din ALBERT QNLI cu propoziții și presupuneri Wikipedia.

Performanța modelelor de verificare, unde ‘propoziții Wikipedia’ utilizează propoziții obținute din articolele Wikipedia legate de întrebări, și ‘presupuneri Wikipedia’ sunt presupuneri generate din acele propoziții.

Utilizând această formulare, cercetătorii au dezvoltat un sistem de șablon în care un fapt negativ din Wikipedia a fost anexat la “Această întrebare este de neatâtnat pentru că…” și fraze similare. Deși nu este o soluție ideală, autorii sugerează că răspunsurile bazate pe neverificabilitate sunt susceptibile de a reduce incidența falselor negative.

Sistemul a fost implementat în cele din urmă într-un model de construcție extinsă a transformatorului (ETC).

Implicații

În funcție de performanța sa finală în lumea reală, se poate argumenta că această abordare poate duce la simpla substituire a “neverificabilului” cu “de neatâtnat”, în cazurile în care sistemul de cercetare nu poate evalua o corecție utilă pentru o presupunere incorectă a întrebării. Efectiv, pare a fi o infrastructură pentru sisteme de verificare viitoare și mai bune.

Cercetătorii recunosc deja că costul cererilor API bazate pe tokenuri este un factor limitativ la formularea răspunsurilor mai lungi pe care acest sistem le va genera, și trebuie presupus că suplimentarul de “cercetare live” a unei întrebări pare să adauge latență chiar și sistemelor de scară largă, cum ar fi GPT-3, deoarece răspunsul acestor sisteme a depins până în prezent de încorporarea generalizată a cunoștințelor la momentul antrenării, și nu de rutinele extinse de verificare bazate pe rețea.

În plus, cercetătorii notează că sistemul are în prezent limitări legate de analiza aspectelor semantice ale textului:

De exemplu, cine crede Pip că este mama Estelle are o posesie încorporată sub un verb nefactiv crede , dar generatorul nostru ar genera totuși ‘ Estella are ‘ mamă .’

Cu toate acestea, echipa se imaginează noi sisteme de întrebări și răspunsuri mai robuste și mai cooperante, care vor fi dezvoltate pe baza acestei cercetări:

În viitor, ne propunem să ne bazăm pe această lucrare prin propunerea de sisteme QA mai robuste și mai cooperante. De exemplu, diferite tipuri de eșecuri ale presupunerii ar putea fi abordate prin strategii de răspuns mai fluide – de exemplu, încălcarea presupunerii unicității poate fi gestionată mai bine prin furnizarea tuturor răspunsurilor posibile, în loc de a afirma că presupunerea unicității a fost încălcată.