Prompt engineering
Abordarea Halucinațiilor în Modelele Lingvistice Mari: O Revizuire a Tehnicilor de Ultimă Oră

Modelele lingvistice mari (LLM) precum GPT-4, PaLM și Llama au deblocat progrese remarcabile în capacitățile de generare a limbajului natural. Cu toate acestea, o provocare persistentă care limitează fiabilitatea și implementarea lor sigură este tendința lor de a halucina – generarea de conținut care pare coerent, dar este incorect din punct de vedere factual sau nefondat pe contextul de intrare.
Pe măsură ce LLM-urile continuă să devină mai puternice și mai ubiquue în aplicațiile din lumea reală, abordarea halucinațiilor devine imperativă. Acest articol oferă o revizuire cuprinzătoare a celor mai recente tehnici introduse de cercetători pentru a detecta, cuantifica și mitigă halucinațiile în LLM-urile.
Înțelegerea Halucinațiilor în LLM-urile
Halucinația se referă la inexactități factuale sau fabricații generate de LLM-urile care nu sunt bazate pe realitate sau contextul furnizat. Exemple includ:
- Inventarea de detalii biografice sau evenimente care nu sunt dovedite în materialul sursă atunci când se generează text despre o persoană.
- Furnizarea de sfaturi medicale defectuoase prin confabularea efectelor secundare ale medicamentelor sau procedurilor de tratament.
- Fabricarea de date, studii sau surse inexistente pentru a susține o pretenție.
Acest fenomen apare deoarece LLM-urile sunt antrenate pe cantități mari de date textuale online. În timp ce acest lucru le permite să obțină capacități puternice de modelare a limbajului, acesta înseamnă și că ele învață să extrapoleze informații, să facă salturi logice și să umple golurile într-un mod care pare convingător, dar poate fi înșelător sau eronat.
Factorii cheie responsabili de halucinații includ:
- Generalizarea pattern-ului – LLM-urile identifică și extind pattern-uri în datele de antrenare, care nu se generalizează bine.
- Cunoașterea învechită – Antrenamentul static preîmpiedică integrarea noilor informații.
- Ambiguitatea – Prompt-urile vagi permit încăperi pentru ipoteze incorecte.
- Prejudecățile – Modelele perpetuează și amplifică perspective înclinate.
- Lipsa de bazare – Lipsa de înțelegere și raționament înseamnă că modelele generează conținut pe care nu îl înțeleg pe deplin.
Abordarea halucinațiilor este critică pentru implementarea de încredere în domenii sensibile, cum ar fi medicina, dreptul, finanțele și educația, unde generarea de informații incorecte poate duce la prejudicii.
Taxonomia Tehnicilor de Mitigare a Halucinațiilor
Cercetătorii au introdus diverse tehnici pentru a combate halucinațiile în LLM-urile, care pot fi categorizate în:
1. Ingineria Prompt-ului
Acesta implică crearea atentă a prompt-urilor pentru a oferi context și a ghida LLM-ul către răspunsuri factuale și bazate.
- Augmentarea prin recuperare – Recuperarea dovezilor externe pentru a baza conținutul.
- Bucle de feedback – Furnizarea iterativă a feedback-ului pentru a rafina răspunsurile.
- Reglarea prompt-ului – Ajustarea prompt-urilor în timpul fine-tuning-ului pentru comportamente dorite.
2. Dezvoltarea Modelului
Crearea de modele inerent mai puțin predispuse la halucinații prin modificări arhitecturale.
- Strategii de decodare – Generarea textului în moduri care cresc fidelitatea.
- Bază de cunoaștere – Integrarea bazelor de cunoaștere externe.
- Functii de pierdere noi – Optimizarea pentru fidelitate în timpul antrenamentului.
- Reglare supravegheată – Utilizarea datelor etichetate de oameni pentru a îmbunătăți factualitatea.
Următorul, revizuim tehnici proeminente sub fiecare abordare.
Tehnici Notabile de Mitigare a Halucinațiilor
Generare Augmentată prin Recuperare
Generarea augmentată prin recuperare îmbunătățește LLM-urile prin recuperarea și condiționarea generării de text pe documente de dovadă externe, mai degrabă decât să se bazeze exclusiv pe cunoașterea implicită a modelului.
Tehnici proeminente includ:
- RAG – Utilizează un modul de recuperare care oferă pasaje relevante pentru un model seq2seq pentru a genera.
- RARR – Împune LLM-urile să cerceteze afirmații neatribuite în textul generat și să le revizuiască pentru a se alinia cu dovezile recuperate.
- Recuperarea Cunoașterii – Verifică generațiile nesigure utilizând cunoașterea recuperată înainte de a produce text.
- LLM-Augmenter – Caută iterativ cunoașterea pentru a construi lanțuri de dovezi pentru prompt-urile LLM.
Feedback și Raționament
Utilizarea feedback-ului natural al limbajului sau a raționamentului auto-permit LLM-urilor să rafineze și să îmbunătățească ieșirile inițiale, reducând halucinațiile.
CoVe utilizează o tehnică de verificare în lanț.
DRESS se concentrează pe ajustarea LLM-urilor pentru a se alinia mai bine cu preferințele umane prin feedback-ul limbajului natural.
MixAlign se ocupă de situațiile în care utilizatorii pun întrebări care nu corespund direct cu pasajele recuperate de sistem.
Tehnica Auto-Reflectare antrenează LLM-urile să evalueze, să ofere feedback și să rafineze iterativ propriile răspunsuri utilizând o abordare multi-task.
Reglarea Prompt-ului
Reglarea prompt-ului permite ajustarea prompt-urilor oferite LLM-urilor în timpul fine-tuning-ului pentru comportamente dorite.
Metoda SynTra utilizează o sarcină de rezumare sintetică pentru a minimiza halucinația.
UPRISE antrenează un recuperator de prompt universal care oferă prompt-ul moale optimal pentru învățarea cu few-shot pe sarcini downstream necunoscute.
Arhitecturi de Modele Noi
FLEEK este un sistem care asistă verificatorii și validatorii umani.
Abordarea CAD de decodare reduce halucinația în generarea limbajului prin decodarea conștientă de context.
DoLA mitigă halucinațiile factuale prin contrastarea logit-urilor din straturile diferite ale rețelelor transformator.
Cadrul THAM introduce un termen de regularizare în timpul antrenamentului pentru a minimiza informația mutuală între intrări și ieșiri halucinate.
Bază de Cunoaștere
Baza de cunoaștere a generațiilor LLM-urilor în cunoașterea structurată previne speculațiile și fabricațiile neînfrânate.
Modelul RHO identifică entitățile într-un context conversațional și le leagă de un graf de cunoaștere.
HAR creează seturi de date de antrenament contrafactuale care conțin halucinații generate de model pentru a învăța mai bine bazarea conținutului.
Reglare Supravegheată
- Coach – Un cadru interactiv care răspunde la întrebările utilizatorilor, dar solicită și corecții pentru a se îmbunătăți.
- R-Tuning – Reglarea care refuză întrebările neacceptate identificate prin lacunele de cunoaștere din datele de antrenament.
- TWEAK – O metodă de decodare care clasifică generațiile pe baza cât de bine ipotezele susțin faptele de intrare.
Provocări și Limitări
În ciuda progresului promițător, unele provocări cheie rămân în mitigarea halucinațiilor:
- Tehnicile adesea fac schimb între calitate, coerență și creativitate pentru veracitate.
- Dificultatea în evaluarea riguroasă dincolo de domenii limitate.
- Multe metode sunt computațional costisitoare, necesitând recuperări extinse sau auto-raționament.
- Depind puternic de calitatea datelor de antrenament și a surselor de cunoaștere externe.
- Greu de garantat generalizabilitatea pe domenii și modalități.
- Rădăcinile fundamentale ale halucinației, cum ar fi extrapolarea excesivă, rămân nerezolvate.
Abordarea acestor provocări necesită probabil o abordare multistratificată care combină îmbunătățirile datelor de antrenament, îmbunătățirile arhitecturii modelului, pierderile care cresc fidelitatea și tehnicile din timpul inferenței.
Drumul Înainte
Mitigarea halucinațiilor pentru LLM-urile rămâne o problemă deschisă de cercetare cu progres activ.
- Tehnici hibride: Combinați abordări complementare, cum ar fi recuperarea, bazarea cunoașterii și feedback-ul.
- Modelarea cauzalității: Îmbunătățiți înțelegerea și raționamentul.
- Integrarea cunoașterii online: Țineți cunoașterea lumii actualizată.
- Verificarea formală: Oferiți garanții matematice cu privire la comportamentul modelului.
- Interpretabilitatea: Construiți transparența în tehnici de mitigare.
Pe măsură ce LLM-urile continuă să prolifereze în domenii cu miză ridicată, dezvoltarea de soluții robuste pentru a reduce halucinațiile va fi cheia pentru a asigura implementarea lor sigură, etică și de încredere.










