Prompt engineering

Rozwiązywanie problemu hallucynacji w dużych modelach językowych: Przegląd najnowszych technik

Published January 19, 2024

Updated April 27, 2026

Aayush Mittal Mittal

Duże modele językowe (LLM) takie jak GPT-4, PaLM i Llama odblokowały zdumiewające postępy w możliwościach generowania języka naturalnego. Jednakże, jeden z największych wyzwań ograniczających ich niezawodność i bezpieczne wdrożenie jest ich tendencja do hallucynacji – generowania treści, które wydają się spójne, ale są faktualnie niepoprawne lub niezwiązane z kontekstem wejściowym.

Ponieważ LLM są coraz bardziej potężne i powszechne w aplikacjach świata rzeczywistego, rozwiązywanie problemu hallucynacji staje się niezbędne. Artykuł ten zapewnia kompleksowy przegląd najnowszych technik wprowadzonych przez badaczy w celu wykrywania, ilościowego określania i łagodzenia hallucynacji w LLM.

Zrozumienie hallucynacji w LLM

Hallucynacja odnosi się do faktualnych nieścisłości lub fabrykacji generowanych przez LLM, które nie są uzasadnione w rzeczywistości lub dostarczonym kontekście. Przykłady obejmują:

Wynajdywanie biograficznych szczegółów lub zdarzeń niepotwierdzonych w materiałach źródłowych podczas generowania tekstu o osobie.
Świadczenie wadliwej porady medycznej poprzez fabrykowanie skutków ubocznych leków lub procedur leczenia.
Wynajdywanie nieistniejących danych, badań lub źródeł w celu poparcia twierdzenia.

Zjawisko to powstaje, ponieważ LLM są szkolone na ogromnych ilościach danych tekstowych z Internetu. Chociaż pozwala to na osiągnięcie silnych możliwości modelowania języka, oznacza to również, że uczą się one ekstrapolować informacje, podejmować logiczne skoki i wypełniać luki w sposób, który wydaje się przekonywujący, ale może być mylący lub błędny.

Niektóre kluczowe czynniki odpowiedzialne za hallucynacje obejmują:

Uogólnianie wzorców – LLM identyfikują i rozszerzają wzorce w danych szkoleniowych, które mogą nie uogólniać się dobrze.
Przestarzała wiedza – Statyczne wstępne szkolenie uniemożliwia integrację nowych informacji.
Niejasność – Niewyraźne wskazówki pozwalają na niepoprawne założenia.
Uprzedzenia – Modele utrwalają i zwiększają skrzywione perspektywy.
Niewystarczające uzasadnienie – Brak zrozumienia i rozumowania oznacza, że modele generują treści, których nie w pełni rozumieją.

Rozwiązywanie problemu hallucynacji jest krytyczne dla godnego zaufania wdrożenia w wrażliwych dziedzinach, takich jak medycyna, prawo, finanse i edukacja, gdzie generowanie nieprawidłowych informacji mogłoby prowadzić do szkody.

Taksonomia technik łagodzenia hallucynacji

Badacze wprowadzili różnorodne techniki, aby zwalczyć hallucynacje w LLM, które można zaklasyfikować do:

1. Inżynieria wskazówek

Obejmuje to staranne tworzenie wskazówek, aby zapewnić kontekst i skierować LLM w stronę faktualnych, uzasadnionych odpowiedzi.

Wzmocnienie pobierania – Pobieranie zewnętrznych dowodów w celu uzasadnienia treści.
Pętle sprzężenia zwrotnego – Wprowadzanie sprzężenia zwrotnego w celu udoskonalenia odpowiedzi.
Dostosowanie wskazówek – Dostosowywanie wskazówek podczas dokształcania w celu uzyskania pożądanych zachowań.

2. Rozwój modelu

Tworzenie modeli, które są od początku mniej skłonne do hallucynacji za pomocą zmian architektury.

Strategie dekodowania – Generowanie tekstu w sposób, który zwiększa wierność.
Uzasadnienie wiedzy – Włączanie zewnętrznych baz wiedzy.
Nowe funkcje straty – Optymalizacja wierności podczas szkolenia.
Nadzorowane dokształcanie – Używanie danych oznaczonych przez ludzi w celu poprawy faktualności.

Następnie przeglądamy wybitne techniki w ramach każdego podejścia.

Godne uwagi techniki łagodzenia hallucynacji

Wzmocnione generowanie pobierania

Wzmocnione generowanie pobierania ulepsza LLM, pobierając i warunkując generowanie tekstu na zewnętrznych dokumentach dowodowych, zamiast polegać wyłącznie na niejawnej wiedzy modelu. To uzasadnia treść w najnowszych, weryfikowalnych informacjach, redukując hallucynacje.

Wyróżniające się techniki obejmują:

RAG – Używa modułu pobierającego, który dostarcza istotne passaże dla modelu seq2seq do generowania. Oba komponenty są szkolone w sposób końcowy.
RARR – Zatrudnia LLM do badania nieprzypisanych twierdzeń w wygenerowanym tekście i rewizji ich w celu dopasowania do pobranych dowodów.
Pobieranie wiedzy – Waliduje niepewne generacje, używając pobranych informacji przed wygenerowaniem tekstu.
LLM-Augmenter – W sposób ciągły wyszukuje wiedzę w celu konstrukcji łańcuchów dowodów dla wskazówek LLM.

Sprzężenie zwrotne i rozumowanie

Wykorzystywanie iteracyjnego sprzężenia zwrotnego języka naturalnego lub samorozumowania pozwala LLM na udoskonalenie i poprawę swoich początkowych danych wyjściowych, redukując hallucynacje.

CoVe zatrudnia łańcuch techniki weryfikacji. LLM najpierw tworzy projekt odpowiedzi na zapytanie użytkownika. Następnie generuje potencjalne pytania weryfikacyjne w celu sprawdzenia własnej odpowiedzi, opartej na swojej pewności co do różnych stwierdzeń. Na przykład, dla odpowiedzi opisującej nowe leczenie medyczne, CoVe może wygenerować pytania takie jak “Jaki jest wskaźnik skuteczności leczenia?”, “Czy otrzymało ono zatwierdzenie regulacyjne?”, “Jakie są potencjalne skutki uboczne?”. Istotne jest to, że system następnie próbuje samodzielnie odpowiedzieć na te pytania weryfikacyjne bez uprzedzeń wynikających z początkowej odpowiedzi. Jeśli odpowiedzi na pytania weryfikacyjne sprzeczne lub nie mogą poprzeć stwierdzeń poczynionych w oryginalnej odpowiedzi, system identyfikuje je jako prawdopodobne hallucynacje i udoskonala odpowiedź przed jej przedstawieniem użytkownikowi.

DRESS koncentruje się na dostosowaniu LLM, aby lepiej odpowiadały preferencjom ludzkim za pomocą sprzężenia zwrotnego języka naturalnego. Podejście pozwala użytkownikom niebędącym ekspertami na dostarczanie krytyki w postaci wolnego tekstu dotyczącej generacji modelu, takiej jak “Wymienione skutki uboczne wydają się przesadzone” lub instrukcje ulepszenia, takie jak “Proszę również omówić efektywność kosztową”. DRESS używa uczenia ze wzmocnieniem, aby trenować modele do generowania odpowiedzi uwarunkowanych takim sprzężeniem zwrotnym, które lepiej odpowiadają preferencjom ludzkim. To zwiększa interaktywność, jednocześnie redukując niewiarygodne lub niepoparte stwierdzenia.

MixAlign zajmuje się sytuacjami, w których użytkownicy zadają pytania, które nie odpowiadają bezpośrednio pobranym passaży przez system. Na przykład, użytkownik może zapytać “Czy zanieczyszczenie środowiska pogorszy się w Chinach?”, podczas gdy pobrane passaże omawiają trendy zanieczyszczenia na całym świecie. Aby uniknąć hallucynacji z niewystarczającym kontekstem, MixAlign wyraźnie wyjaśnia użytkownikowi, kiedy jest niepewny, jak odnosić swoje pytanie do pobranych informacji. Ten mechanizm z ludzkim uczestnictwem pozwala na uzyskanie sprzężenia zwrotnego w celu prawidłowego uzasadnienia i kontekstualizacji dowodów, zapobiegając nieuzasadnionym odpowiedziom.

Technika Samorozumowanie trenuje LLM do oceny, dostarczania sprzężenia zwrotnego i iteracyjnego udoskonalenia swoich własnych odpowiedzi za pomocą podejścia wielozadaniowego. Na przykład, dla odpowiedzi wygenerowanej dla zapytania medycznego, model uczy się oceniać dokładność faktualną, identyfikować sprzeczne lub niepoparte stwierdzenia i edytować je, pobierając istotną wiedzę. Nauczając LLM tego sprzężenia zwrotnego sprawdzania, krytyki i iteracyjnego udoskonalania własnych danych wyjściowych, podejście redukuje ślepe hallucynacje.

Dostosowanie wskazówek

Dostosowanie wskazówek pozwala na dostosowanie instrukcyjnych wskazówek dostarczonych do LLM podczas dokształcania w celu pożądanych zachowań.

Metoda SynTra zatrudnia syntetyczne zadanie podsumowania w celu minimalizacji hallucynacji przed przeniesieniem modelu do rzeczywistych zbiorów danych podsumowania. Zadanie syntetyczne dostarcza passaże wejściowe i prosi modele o podsumowanie ich za pomocą pobierania, bez abstrakcji. To trenuje modele do polegania wyłącznie na treści źródłowej, zamiast hallucynowania nowych informacji podczas podsumowania. SynTra wykazuje się redukowaniem problemów z hallucynacjami, gdy modele dokształcane są wdrożone w zadaniach docelowych.

UPRISE trenuje uniwersalny pobierający wskazówki, który dostarcza optymalną miękką wskazówkę dla nauki kilku przykładów w niezbadanych zadaniach dolnych. Pobierając skuteczne wskazówki dostosowane do różnorodnego zestawu zadań, model uczy się uogólniać i dostosowywać do nowych zadań, gdzie brakuje przykładów szkoleniowych. To zwiększa wydajność bez wymogu dostosowania zależnego od zadania.

Nowe architektury modelu

FLEEK to system skoncentrowany na wspieraniu ludzkich sprawdzających i walidatorów. Automatycznie identyfikuje potencjalnie weryfikowalne twierdzenia faktualne poczynione w danym tekście. FLEEK przekształca te sprawdzalne stwierdzenia w pytania, pobiera powiązane dowody z baz wiedzy i dostarcza te informacje kontekstowe ludzkim walidatorom w celu skutecznej weryfikacji dokładności dokumentu i potrzeb rewizyjnych.

Podejście CAD redukuje hallucynację w generowaniu języka poprzez świadome dekodowanie kontekstu. Konkretnie, CAD zwiększa różnice między rozkładem wyjściowym LLM, gdy jest on warunkowany kontekstem, a generowanym niezależnie. To zniechęca do sprzeczności z dowodami kontekstowymi, kierując model w stronę uzasadnionych generacji.

DoLA łagodzi hallucynacje faktualne, kontrastując logity z różnych warstw sieci transformatorowej. Ponieważ wiedza faktualna ma tendencję do lokalizowania się w pewnych środkowych warstwach, zwiększanie sygnałów z tych warstw faktualnych za pomocą kontrastu logitów DoLA redukuje niepoprawne generacje faktualne.

Ramka THAM wprowadza termin regularyzacji podczas szkolenia w celu minimalizacji wzajemnej informacji między danymi wejściowymi a wygenerowanymi hallucynacjami. To pomaga zwiększyć uzależnienie modelu od kontekstu wejściowego, zamiast niezwiązanej wyobraźni, redukując ślepe hallucynacje.

Uzasadnienie wiedzy

Uzasadnianie generacji LLM w strukturalnej wiedzy zapobiega niepohamowanej spekulacji i fabrykacji.

Model RHO identyfikuje jednostki w kontekście konwersacyjnym i łączy je z grafem wiedzy (KG). Powiązane fakty i relacje dotyczące tych jednostek są pobierane z KG i łączone z reprezentacją kontekstu dostarczonej do LLM. To wzbogacone kontekstem kierowanie redukuje hallucynacje w dialogu, utrzymując odpowiedzi związane z uzasadnionymi faktami o wymienionych jednostkach/zdarzeniach.

HAR tworzy zestawy szkoleniowe z hallucynacjami wygenerowanymi przez model, aby lepiej nauczyć uzasadniania. Dla danego passage’u faktualnego, modele są proszone o wprowadzenie hallucynacji lub zniekształceń, generując zmienioną wersję kontrfaktualną. Dokształcanie na tych danych zmusza modele do lepszego uzasadniania treści w źródłowych faktach, redukując improwizację.

Nadzorowane dokształcanie

Coach – Interaktywna ramka, która odpowiada na zapytania użytkowników, ale także prosi o poprawki w celu udoskonalenia.
R-Tuning – Odmowa świadoma – dostosowanie odmawia niepopartych pytań zidentyfikowanych za pomocą luk w wiedzy w danych szkoleniowych.
TWEAK – Metoda dekodowania, która klasyfikuje generacje na podstawie tego, jak dobrze hipotezy wspierają fakty wejściowe.

Wyzwania i ograniczenia

Pomimo obiecującego postępu, niektóre kluczowe wyzwania pozostają w łagodzeniu hallucynacji:

Techniki często wymieniają jakość, spójność i kreatywność na rzecz prawdziwości.
Trudność w rygorystycznej ocenie poza ograniczonymi dziedzinami. Miary nie ujmują wszystkich niuansów.
Wiele metod jest obciążających obliczeniowo, wymagając obszernego pobierania lub samorozumowania.
Silnie zależą od jakości danych szkoleniowych i zewnętrznych źródeł wiedzy.
Trudno zagwarantować ogólną przydatność w różnych dziedzinach i modalnościach.
Podstawowe korzenie hallucynacji, takie jak nadmierna ekstrapolacja, pozostają nierozwiązane.

Rozwiązanie tych wyzwań prawdopodobnie wymaga wielowarstwowego podejścia, łączącego ulepszenia danych szkoleniowych, poprawy architektury modelu, strat losowych zwiększających wierność i techniki czasu inferencji.

Przyszłość

Łagodzenie hallucynacji dla LLM pozostaje otwartym problemem badawczym z aktywnym postępem. Niektóre obiecujące przyszłe kierunki obejmują:

Techniki hybrydowe: Kombinacja komplementarnych podejść, takich jak pobieranie, uzasadnienie wiedzy i sprzężenie zwrotne.
Modelowanie przyczynowości: Poprawa zrozumienia i rozumowania.
Integracja wiedzy online: Utrzymywanie aktualności wiedzy świata.
Weryfikacja formalna: Zapewnienie matematycznych gwarancji dotyczących zachowania modelu.
Interpretowalność: Budowanie przejrzystości w techniki łagodzenia.

Ponieważ LLM będą nadal szeroko stosowane w dziedzinach o wysokim ryzyku, rozwijanie solidnych rozwiązań w celu ograniczenia hallucynacji będzie kluczem do zapewnienia ich bezpiecznego, etycznego i niezawodnego wdrożenia. Techniki przeglądane w tym artykule zapewniają przegląd technik proponowanych dotychczas, przy czym pozostają otwarte wyzwania badawcze. Ogólnie jest pozytywny trend w kierunku zwiększania faktualności modelu, ale dalszy postęp wymaga rozwiązania ograniczeń i eksploracji nowych kierunków, takich jak przyczynowość, weryfikacja i metody hybrydowe. Z wytrwałymi wysiłkami badaczy z różnych dziedzin, marzenie o potężnych, a jednocześnie godnych zaufania LLM może zostać przekształcone w rzeczywistość.

Aayush Mittal

Spędziłem ostatnie pięć lat, zanurzając się w fascynującym świecie Machine Learning i Deep Learning. Moja pasja i ekspertyza doprowadziły mnie do udziału w ponad 50 różnych projektach inżynierii oprogramowania, ze szczególnym uwzględnieniem AI/ML. Moja nieustanna ciekawość również skierowała mnie w stronę Natural Language Processing, dziedziny, którą chcę bardziej zbadać.