Inginerie promptă

Abordarea halucinației în modelele lingvistice mari: un studiu asupra tehnicilor de ultimă oră

Publicat

în urmă 4 luni

Ianuarie 19, 2024

Modelele de limbaj mari (LLM) precum GPT-4, PaLM și Llama au deblocat progrese remarcabile în capabilitățile de generare a limbajului natural. Cu toate acestea, o provocare persistentă care limitează fiabilitatea și desfășurarea în siguranță a acestora este tendința lor de a halucina – generând conținut care pare coerent, dar este incorect sau neîntemeiat din contextul de intrare.

Pe măsură ce LLM-urile continuă să devină mai puternice și omniprezente în aplicațiile din lumea reală, abordarea halucinațiilor devine imperativă. Acest articol oferă o prezentare cuprinzătoare a celor mai recente tehnici pe care cercetătorii le-au introdus pentru a detecta, cuantifica și atenua halucinațiile în LLM.

Înțelegerea halucinațiilor în LLM

Halucinația se referă la inexactități faptice sau născociri generate de LLM care nu sunt bazate pe realitate sau contextul furnizat. Câteva exemple includ:

Inventarea de detalii biografice sau evenimente neevidențiate în materialul sursă atunci când generează text despre o persoană.
Oferirea de sfaturi medicale defectuoase prin confabularea efectelor secundare ale medicamentelor sau a procedurilor de tratament.
Crearea de date, studii sau surse inexistente pentru a susține o afirmație.

Acest fenomen apare deoarece LLM-urile sunt instruite pe cantități mari de date text online. Deși acest lucru le permite să obțină capacități puternice de modelare a limbajului, înseamnă, de asemenea, că învață să extrapoleze informații, să facă salturi logice și să completeze golurile într-o manieră care pare convingătoare, dar poate fi înșelătoare sau eronată.

Unii factori cheie responsabili pentru halucinații includ:

Generalizarea modelului – LLM-urile identifică și extind modele în datele de formare care ar putea să nu se generalizeze bine.
Cunoștințe învechite – Preinstruirea statică previne integrarea de noi informații.
Ambiguitate – Îndemnurile vagi lasă loc pentru presupuneri incorecte.
Prejudecățile – Modelele perpetuează și amplifică perspectivele distorsionate.
Împământare insuficientă – Lipsa de înțelegere și raționament înseamnă modele care generează conținut pe care nu le înțeleg pe deplin.

Abordarea halucinațiilor este esențială pentru o implementare de încredere în domenii sensibile precum medicina, dreptul, finanțele și educația, unde generarea de informații greșite ar putea duce la vătămări.

Taxonomia tehnicilor de atenuare a halucinațiilor

Cercetătorii au introdus diverse tehnici de combatere a halucinațiilor în LLM, care pot fi clasificate în:

1. Inginerie promptă

Aceasta implică elaborarea cu atenție a indicațiilor care să ofere context și să ghideze LLM către răspunsuri concrete și fundamentate.

Augmentare de recuperare – Recuperarea dovezilor externe la conținutul de bază.
Bucle de feedback – Oferirea iterativă de feedback pentru a rafina răspunsurile.
Reglaj prompt – Ajustarea solicitărilor în timpul reglajului fin pentru comportamentele dorite.

2. Dezvoltarea modelului

Crearea de modele în mod inerent mai puțin predispuse la halucinații prin schimbările arhitecturale.

Strategii de decodare – Generarea de text în moduri care sporesc fidelitatea.
Întemeierea cunoștințelor – Încorporarea bazelor externe de cunoștințe.
Funcții noi de pierdere – Optimizarea pentru fidelitate în timpul antrenamentului.
Reglaj fin supravegheat – Utilizarea datelor etichetate de oameni pentru a spori adevărul.

În continuare, analizăm tehnicile proeminente pentru fiecare abordare.

Tehnici notabile de atenuare a halucinațiilor

Recuperare Augmented Generation

Generarea augmentată de recuperare îmbunătățește LLM-urile prin regăsirea și condiționarea generării de text pe documente de dovezi externe, mai degrabă decât să se bazeze doar pe cunoștințele implicite ale modelului. Acest lucru bazează conținutul în informații actualizate, verificabile, reducând halucinațiile.

Tehnicile proeminente includ:

CÂRPĂ – Utilizează un modul retriever care oferă pasaje relevante pentru un model seq2seq din care să genereze. Ambele componente sunt antrenate cap la cap.
RARR – Folosește LLM-uri pentru a cerceta afirmațiile neatribuite în textul generat și pentru a le revizui pentru a le alinia cu dovezile recuperate.
Recuperarea cunoștințelor – Validează generațiile nesigure folosind cunoștințele preluate înainte de a produce text.
LLM-Augmenter – Caută iterativ cunoștințele pentru a construi lanțuri de dovezi pentru solicitările LLM.

Feedback și raționament

Folosirea feedback-ului iterativ în limbaj natural sau a auto-raționamentului permite LLM-urilor să își rafineze și să-și îmbunătățească rezultatele inițiale, reducând halucinațiile.

Golfuleţ folosește o tehnică de lanț de verificare. LLM redactează mai întâi un răspuns la întrebarea utilizatorului. Apoi generează întrebări potențiale de verificare pentru a-și verifica propriul răspuns, pe baza încrederii sale în diverse declarații făcute. De exemplu, pentru un răspuns care descrie un nou tratament medical, CoVe poate genera întrebări precum „Care este rata de eficacitate a tratamentului?”, „A primit aprobarea de reglementare?”, „Care sunt potențialele efecte secundare?”. În mod esențial, LLM încearcă apoi să răspundă independent la aceste întrebări de verificare, fără a fi părtinit de răspunsul său inițial. Dacă răspunsurile la întrebările de verificare contrazic sau nu pot susține afirmațiile făcute în răspunsul inițial, sistemul le identifică ca fiind halucinații probabile și rafinează răspunsul înainte de a-l prezenta utilizatorului.

ROCHIE se concentrează pe reglarea LLM-urilor pentru a se alinia mai bine la preferințele umane prin feedback-ul în limbaj natural. Abordarea permite utilizatorilor neexperți să ofere critici în formă liberă asupra generațiilor de modele, cum ar fi „Efectele secundare menționate par exagerate” sau instrucțiuni de rafinare precum „Vă rugăm să discutați și eficiența costurilor”. DRESS folosește învățarea prin consolidare pentru a antrena modele pentru a genera răspunsuri condiționate de un astfel de feedback care se aliniază mai bine cu preferințele umane. Acest lucru îmbunătățește interacțiunea, reducând în același timp declarațiile nerealiste sau neacceptate.

MixAlign se ocupă de situațiile în care utilizatorii pun întrebări care nu corespund direct pasajelor de dovezi preluate de sistem. De exemplu, un utilizator poate întreba „Se va agrava poluarea în China?” în timp ce pasajele preluate discută tendințele de poluare la nivel global. Pentru a evita halucinarea cu context insuficient, MixAlign clarifică în mod explicit utilizatorul atunci când nu este sigur cum să-și relaționeze întrebarea cu informațiile preluate. Acest mecanism uman în buclă permite obținerea de feedback pentru a fundamenta și a contextualiza corect dovezile, prevenind răspunsurile neîntemeiate.

Reflectie de sine tehnica antrenează LLM-urile să evalueze, să ofere feedback și să-și rafineze în mod iterativ propriile răspunsuri folosind o abordare cu mai multe sarcini. De exemplu, având în vedere un răspuns generat pentru o întrebare medicală, modelul învață să-și noteze acuratețea faptică, să identifice orice afirmații contradictorii sau nesusținute și să le editeze prin preluarea cunoștințelor relevante. Învățându-le LLM această buclă de feedback de verificare, critică și îmbunătățire iterativă a propriilor rezultate, abordarea reduce halucinația oarbă.

Acordare promptă

Ajustarea promptă permite ajustarea instrucțiunilor furnizate LLM-urilor în timpul reglajului fin pentru comportamentele dorite.

SynTra Metoda utilizează o sarcină de rezumare sintetică pentru a minimiza halucinația înainte de a transfera modelul în seturi de date de rezumat reale. Sarcina sintetică oferă pasaje de intrare și cere modelelor să le rezumă doar prin recuperare, fără abstracție. Acest lucru antrenează modelele să se bazeze complet pe conținutul din sursă, mai degrabă decât să halucineze informații noi în timpul rezumatului. S-a demonstrat că SynTra reduce problemele de halucinație atunci când modelele ajustate sunt implementate pe sarcini țintă.

REVAREA antrenează un prompt retriever universal care oferă promptul soft optim pentru învățare cu câteva lovituri în sarcini nevăzute în aval. Prin preluarea prompturilor eficiente reglate pe un set divers de sarcini, modelul învață să generalizeze și să se adapteze la sarcini noi în care îi lipsesc exemplele de instruire. Acest lucru îmbunătățește performanța fără a necesita reglarea specifică sarcinii.

Arhitecturi model noi

LA PUNCT este un sistem axat pe asistarea verificatorilor și validatorilor umani. Acesta identifică automat afirmațiile de fapt potențial verificabile făcute într-un anumit text. FLEEK transformă aceste declarații demne de verificare în interogări, preia dovezi aferente din bazele de cunoștințe și oferă aceste informații contextuale validatorilor umani pentru a verifica în mod eficient acuratețea documentelor și nevoile de revizuire.

CAD abordarea decodării reduce halucinațiile în generarea limbajului prin decodare conștientă de context. Mai exact, CAD amplifică diferențele dintre distribuția de ieșire a unui LLM atunci când este condiționată de un context față de generată necondiționat. Acest lucru descurajează contrazicerea dovezilor contextuale, îndreptând modelul către generații întemeiate.

DoLA atenuează halucinațiile faptice prin contrastarea logiturilor din diferite straturi ale rețelelor de transformatoare. Deoarece cunoștințele faptice tind să fie localizate în anumite straturi medii, amplificarea semnalelor din acele straturi factuale prin contrastul logit al DoLA reduce generațiile de fapte incorecte.

THAM cadrul introduce un termen de regularizare în timpul antrenamentului pentru a minimiza informația reciprocă între intrări și ieșiri halucinate. Acest lucru ajută la creșterea dependenței modelului de un anumit context de intrare, mai degrabă decât de imaginația nelegată, reducând halucinațiile oarbe.

Întemeierea cunoștințelor

Punerea la bază a generațiilor LLM în cunoștințe structurate previne speculațiile și fabricarea nestăpânite.

RHO modelul identifică entitățile într-un context conversațional și le leagă de un grafic de cunoaștere (KG). Faptele și relațiile conexe despre acele entități sunt preluate din KG și fuzionate în reprezentarea contextului oferită LLM. Această direcționare a contextului îmbogățit cu cunoștințe reduce halucinațiile în dialog, menținând răspunsurile legate de fapte fundamentate despre entitățile/evenimentele menționate.

HAR creează seturi de date de antrenament contrafactual care conțin halucinații generate de model pentru a preda mai bine împământarea. Având în vedere un pasaj faptic, modelele sunt îndemnate să introducă halucinații sau distorsiuni generând o versiune contrafactuală modificată. Reglarea fină a acestor date obligă modelele să aibă un conținut mai bun în sursele faptice originale, reducând improvizația.

Reglaj fin supravegheat

Autocar – Cadru interactiv care răspunde la întrebările utilizatorilor, dar solicită și corecții pentru îmbunătățire.
R-Tuning – Ajustarea conștientă de refuz refuză întrebările neacceptate identificate prin lacune de cunoștințe privind datele de instruire.
AJUSTARE FINA – Metodă de decodare care ierarhizează generațiile în funcție de cât de bine susțin ipotezele faptele de intrare.

Provocări și limitări

În ciuda progreselor promițătoare, rămân câteva provocări cheie în atenuarea halucinațiilor:

Tehnicile schimbă adesea calitatea, coerența și creativitatea cu veridicitatea.
Dificultate în evaluarea riguroasă dincolo de domenii limitate. Valorile nu captează toate nuanțele.
Multe metode sunt costisitoare din punct de vedere computațional, necesitând o recuperare extinsă sau auto-raționare.
Depinde în mare măsură de calitatea datelor de formare și de sursele externe de cunoștințe.
Este greu de garantat generalizarea în domenii și modalități.
Rădăcinile fundamentale ale halucinațiilor, cum ar fi supra-extrapolarea, rămân nerezolvate.

Abordarea acestor provocări necesită probabil o abordare pe mai multe straturi care combină îmbunătățiri ale datelor de antrenament, îmbunătățiri ale arhitecturii modelului, pierderi de creștere a fidelității și tehnici de inferență în timp.

Drumul în față

Atenuarea halucinațiilor pentru LLM rămâne o problemă deschisă de cercetare cu progres activ. Câteva direcții viitoare promițătoare includ:

Tehnici hibride: Combinați abordări complementare, cum ar fi regăsirea, fundamentarea cunoștințelor și feedback-ul.
Modelarea cauzalității: Îmbunătățiți înțelegerea și raționamentul.
Integrarea cunoștințelor online: Țineți cunoștințele despre lume actualizate.
Verificare formala: Oferiți garanții matematice asupra comportamentelor modelului.
interpretabilitate: Construiți transparență în tehnicile de atenuare.

Pe măsură ce LLM-urile continuă să prolifereze în domenii cu mize mari, dezvoltarea de soluții robuste pentru a reduce halucinațiile va fi esențială pentru a asigura implementarea lor sigură, etică și fiabilă. Tehnicile chestionate în acest articol oferă o imagine de ansamblu asupra tehnicilor propuse până acum, acolo unde rămân provocări mai deschise de cercetare. În general, există o tendință pozitivă de îmbunătățire a faptului modelului, dar progresul continuu necesită abordarea limitărilor și explorarea unor noi direcții, cum ar fi cauzalitatea, verificarea și metodele hibride. Cu eforturi sârguincioase din partea cercetătorilor din diferite discipline, visul unor LLM puternice, dar de încredere, poate fi tradus în realitate.

Urmeaza

Tutorial: Cum să creați și să partajați GPT-uri personalizate

Nu ratați

Antrenamentul de încorporare de text îmbunătățită cu modele de limbă mari

Aayush Mittal

Mi-am petrecut ultimii cinci ani scufundându-mă în lumea fascinantă a învățării automate și a învățării profunde. Pasiunea și expertiza mea m-au determinat să contribui la peste 50 de proiecte diverse de inginerie software, cu un accent deosebit pe AI/ML. Curiozitatea mea continuă m-a atras și către Procesarea limbajului natural, un domeniu pe care sunt dornic să îl explorez în continuare.