Prompt engineering

Přístup k halucinacím ve velkých jazykových modelech: Přehled nejnovějších technik

Published January 19, 2024

Updated April 27, 2026

Aayush Mittal Mittal

Velké jazykové modely (LLM) jako GPT-4, PaLM a Llama odemkly pozoruhodný pokrok v možnostech generování přirozeného jazyka. Nicméně, trvalým výzvám omezujícím jejich spolehlivost a bezpečné nasazení je jejich tendence halucinovat – generovat obsah, který parece koherentní, ale je fakticky nesprávný nebo neodpovídá vstupnímu kontextu.

Jak LLM pokračují v růstu a stávají se stále více všudypřítomnými v reálných aplikacích, řešení halucinací se stává nezbytným. Tento článek poskytuje komplexní přehled nejnovějších technik, které výzkumníci představili pro detekci, kvantifikaci a zmírnění halucinací v LLM.

Pochopení halucinace v LLM

Halucinace označují faktické nesprávnosti nebo vymyšlené údaje generované LLM, které nejsou založeny na realitě nebo poskytnutém kontextu. Některé příklady zahrnují:

Vynález biografických detailů nebo událostí, které nejsou doloženy ve zdrojovém materiálu, při generování textu o osobě.
Poskytování vadného lékařského poradenství tím, že vymýšlí vedlejší účinky léků nebo postupy léčby.
Vynález neexistujících dat, studií nebo zdrojů pro podporu tvrzení.

Tento jev vzniká proto, že LLM jsou trénovány na velkém množství online textových dat. Zatímco to umožňuje získat silné jazykové modelovací schopnosti, také znamená, že se učí extrapolovat informace, dělat logické skoky a vyplňovat mezery způsobem, který parece přesvědčivý, ale může být zavádějící nebo nesprávný.

Některé klíčové faktory odpovědné za halucinace zahrnují:

Generalizace vzorů – LLM identifikují a rozšiřují vzory v trénovacích datech, které nemusí dobře generalizovat.
Staré znalosti – Statické předtrénování brání integraci nových informací.
Ambiguity – Nejasné podněty umožňují prostor pro nesprávné předpoklady.
Předpojatosti – Modely prodlužují a zesilují zkreslené perspektivy.
Nedostatečné zakotvení – Chybí pochopení a rozumění, což znamená, že modely generují obsah, který plně nerozumí.

Řešení halucinací je kritické pro důvěryhodné nasazení v citlivých oblastech, jako je medicína, právo, finance a vzdělávání, kde generování nesprávných informací by mohlo vést ke škodě.

Taxonomie technik pro zmírnění halucinací

Výzkumníci představili různé techniky pro boj proti halucinacím v LLM, které lze rozdělit do:

1. Inženýrství podnětů

Toto zahrnuje pečlivé vytváření podnětů pro poskytnutí kontextu a vedení LLM směrem k faktickým, zakotveným odpovědím.

Doplnění vyhledáváním – Vyhledání externích důkazů pro zakotvení obsahu.
Smęki zpětné vazby – Iterativní poskytování zpětné vazby pro rafinaci odpovědí.
Upravení podnětu – Upravení podnětů během jemného ladění pro požadované chování.

2. Vývoj modelu

Vytvoření modelů, které jsou inherentně méně náchylné k halucinacím prostřednictvím architektonických změn.

Strategie dekódování – Generování textu způsoby, které zvyšují věrnost.
Zakotvení znalostí – Začlenění externích znalostních bází.
Nové funkce ztráty – Optimalizace pro věrnost během trénování.
Dozorované jemné ladění – Použití lidsky označených dat pro zlepšení faktičnosti.

Dále budeme přehlížet prominentní techniky pod každým přístupem.

Příznivé techniky pro zmírnění halucinací

Generace s vyhledáváním

Generace s vyhledáváním zlepšuje LLM tím, že vyhledává a kondicionuje generování textu na externí důkazy dokumentů, místo aby se spoléhal pouze na implicitní znalosti modelu. To zakotví obsah v aktuálních, ověřitelných informacích, snižuje halucinace.

Příznivé techniky zahrnují:

RAG – Používá vyhledávací modul, který poskytuje relevantní pasáže pro seq2seq model pro generování. Oba komponenty jsou trénovány koncově.
RARR – Používá LLM pro výzkum neatribuovaných tvrzení v generovaném textu a reviduje je tak, aby odpovídaly vyhledaným důkazům.
Vyhledání znalostí – Ověřuje nejisté generace pomocí vyhledaných znalostí před produkcí textu.
LLM-Augmenter – Iterativně vyhledává znalosti pro konstrukci důkazních řetězců pro podněty LLM.

Zpětná vazba a rozumění

Využití iterativní přirozené jazykové zpětné vazby nebo sebe-rozumění umožňuje LLM rafinovat a zlepšit jejich počáteční výstupy, snižuje halucinace.

CoVe používá techniku řetězce ověření. LLM nejprve vypracuje odpověď na dotaz uživatele. Poté generuje potenciální ověřovací otázky pro faktické ověření své vlastní odpovědi, na základě své jistoty v různých tvrzeních. Například pro odpověď popisující novou lékařskou léčbu, CoVe může vygenerovat otázky jako “Jaká je účinnost léčby?”, “Získala regulační schválení?”, “Jaké jsou potenciální vedlejší účinky?”. Kriticky, LLM pak pokusí nezávisle zodpovědět tyto ověřovací otázky bez zkreslení své počáteční odpovědi. Pokud odpovědi na ověřovací otázky popírají nebo nemohou podporovat tvrzení učiněná v původní odpovědi, systém identifikuje je jako pravděpodobné halucinace a rafinuje odpověď, než ji představí uživateli.

DRESS se zaměřuje na ladění LLM, aby se lépe shodovaly s lidskými preferencemi prostřednictvím přirozené jazykové zpětné vazby. Tento přístup umožňuje ne-expertním uživatelům poskytovat volné kritiky modelových generací, jako je “Uvedené vedlejší účinky parece přehnané” nebo instrukce pro rafinaci, jako “Prosím, diskutujte také o nákladové efektivitě”. DRESS používá učení s posilováním pro trénování modelů, aby generovaly odpovědi podmíněné na takové zpětné vazbě, které se lépe shodují s lidskými preferencemi. To zlepšuje interaktivitu, zatímco snižuje nereálná nebo nepodporovaná tvrzení.

MixAlign se zabývá situacemi, kdy uživatelé kladou otázky, které přímo nekorespondují s důkazy pasážemi vyhledanými systémem. Například uživatel může zeptat “Zhorší se znečištění v Číně?”, zatímco vyhledané pasáže diskutují o globálních trendech znečištění. Aby se zabránilo halucinacím s nedostatečným kontextem, MixAlign explicitně zjišťuje u uživatele, když je nejistý, jak vztáhnout jejich otázku k vyhledaným informacím. Tento mechanismus “člověk v smyčce” umožňuje získat zpětnou vazbu pro správné zakotvení a kontextualizaci důkazů, předcházející neodpovídajícím odpovědím.

Technika Sebe-odraz trénuje LLM, aby vyhodnotily, poskytly zpětnou vazbu na a iterativně rafinovaly své vlastní odpovědi pomocí multi-úkolového přístupu. Například pro odpověď vygenerovanou pro lékařský dotaz, model se učí skóre faktické přesnosti, identifikuje jakékoli protichůdná nebo nepodporovaná tvrzení a edituje je vyhledáním relevantních znalostí. Učením LLM této zpětné vazby pro kontrolu, kritiku a iterativní zlepšování svých vlastních výstupů, přístup snižuje slepou halucinaci.

Upravení podnětu

Upravení podnětu umožňuje upravit instrukční podněty poskytnuté LLM během jemného ladění pro požadované chování.

Metoda SynTra používá syntetickou úlohu sumarizace pro minimalizaci halucinace před přenosem modelu do reálných sumarizačních dat. Syntetická úloha poskytuje vstupní pasáže a žádá modely, aby je sumarizovaly prostřednictvím vyhledávání pouze, bez abstrakce. To trénuje modely, aby se spoléhaly zcela na zdrojový obsah, místo aby halucinovaly nové informace během sumarizace. SynTra je prokázáno, že snižuje problémy s halucinacemi, když jemně upravené modely jsou nasazeny na cílové úkoly.

UPRISE trénuje univerzální vyhledávač podnětu, který poskytuje optimální měkký podnět pro few-shot učení na neviditelných downstream úkolech. Vyhledáváním efektivními podněty upravenými na rozmanitém souboru úkolů, model se učí generalizovat a přizpůsobovat se novým úkolem, kde postrádá trénovací příklady. To zlepšuje výkon bez požadavku na úkol-specifické ladění.

Nové architektury modelu

FLEEK je systém zaměřený na pomoc lidským faktorům a validatorům. Automaticky identifikuje potenciálně ověřitelná faktická tvrzení učiněná v daném textu. FLEEK transformuje tato ověřitelná tvrzení na dotazy, vyhledává související důkazy z znalostních bází a poskytuje tyto kontextové informace lidským validatorům pro efektivní ověření přesnosti dokumentu a potřeby revidování.

Přístup CAD snižuje halucinaci v jazykové generaci prostřednictvím kontextově-aware dekódování. Konkrétně CAD zesiluje rozdíly mezi výstupním rozložením LLM, když je podmíněno kontextem, ve srovnání s generovaným nezávisle. To odrazuje od protichůdných kontextových důkazů, směruje model směrem k zakotveným generacím.

DoLA zmírňuje faktické halucinace kontrastováním logitů z různých vrstev transformačních sítí. Jelikož faktické znalosti tendují být lokalizovány v určitých středních vrstvách, zesilování signálů z těch faktických vrstev prostřednictvím kontrastu logitů DoLA snižuje nesprávné faktické generace.

Rámec THAM představuje regularizační termín během trénování pro minimalizaci vzájemné informace mezi vstupy a halucinovanými výstupy. To pomáhá zvýšit závislost modelu na poskytnutém vstupním kontextu, místo aby se spoléhal na nevázanou fantazii, snižuje slepé halucinace.

Zakotvení znalostí

Zakotvení generací LLM v strukturovaných znalostech brání nekontrolované spekulaci a fabrikaci.

Model RHO identifikuje entity v konverzačním kontextu a propojuje je se znalostní bází (KG). Související fakta a vztahy o těchto entitách jsou vyhledány z KG a sloučeny do kontextové reprezentace poskytnuté LLM. To snižuje halucinace v dialogu, zatímco udržuje odpovědi spojené se zakotvenými fakty o zmíněných entitách/událostech.

HAR vytváří kontrafaktické trénovací datové sady obsahující modelově generované halucinace, aby lépe naučily zakotvení. Daný faktický pasáž, modely jsou podněceny k zavedení halucinací nebo zkreslení, generující alterovanou kontrafaktickou verzi. Jemné ladění na tomto datovém souboru nutí modely lépe zakotvit obsah v původních faktických zdrojích, snižuje improvizaci.

Dozorované jemné ladění

Coach – Interaktivní rámec, který odpovídá na uživatelské dotazy, ale také žádá o korekce pro zlepšení.
R-Tuning – Odmítnutí-aware ladění odmítá nepodporovaná dotazy identifikované prostřednictvím znalostních mezer v trénovacích datech.
TWEAK – Metoda dekódování, která řadí generace na základě toho, jak dobře hypotézy podporují vstupní fakta.

Výzvy a omezení

Navzdory slibnému pokroku, některé klíčové výzvy zůstávají při zmírnění halucinací:

Techniky často obchodují kvalitu, koherenci a kreativitu za věrnost.
Obtížnost v přísném hodnocení za hranicemi omezených domén. Metriky nezachycují všechny nuance.
Mnohé metody jsou výpočetně nákladné, vyžadující rozsáhlé vyhledávání nebo sebe-rozumění.
Silně závisí na kvalitě trénovacích dat a externích zdrojů znalostí.
Těžko zaručit generalizovatelnost napříč doménami a modalitami.
Základní kořeny halucinace, jako je nadměrná extrapolace, zůstávají nevyřešeny.

Řešení těchto výzev pravděpodobně vyžaduje víceložiskový přístup kombinující vylepšení trénovacích dat, zlepšení architektury modelu, ztrátové funkce zvyšující věrnost a techniky na úrovni inference.

Cesta vpřed

Zmírnění halucinací pro LLM zůstává otevřeným výzkumným problémem s aktivním pokrokem. Některé slibné budoucí směry zahrnují:

Hybridní techniky: Kombinujte komplementární přístupy, jako je vyhledávání, zakotvení znalostí a zpětná vazba.
Modelování kauzality: Zlepšete porozumění a rozumění.
Integrace online znalostí: Udržujte světové znalosti aktuální.
Formální ověření: Poskytněte matematické záruky chování modelu.
Interpretovatelnost: Vytvořte transparentnost do technik zmírnění.

Jak LLM pokračují v proliferaci napříč high-stakes doménami, vývoj robustních řešení pro omezení halucinací bude klíčový pro zajištění jejich bezpečného, etického a spolehlivého nasazení. Techniky přehlednuté v tomto článku poskytují přehled technik navržených dosud, kde více otevřených výzkumných výzev zůstává. Celkově je pozitivní trend směrem ke zlepšení faktičnosti modelu, ale pokračující pokrok vyžaduje řešení omezení a prozkoumání nových směrů, jako je kauzalita, ověření a hybridní metody. S pečlivými úsilími výzkumníků napříč disciplínami, sen o mocných, ale důvěryhodných LLM může být přeložen do reality.

Aayush Mittal

Já jsem strávil posledních pět let ponořen do fascinujícího světa Machine Learning a Deep Learning. Moje vášeň a odbornost mě vedly k tomu, abych přispěl k více než 50 různým softwarovým inženýrským projektům, se zvláštním zaměřením na AI/ML. Moje pokračující zvědavost mě také táhne směrem k Natural Language Processing, oblasti, kterou jsem ochoten dále prozkoumat.