Kąt Andersona

Metoda ‘Zen’ aby zapobiec hallucynacjom modelom językowym

mm
AI-generated image: A robot sits in front of a laptop and a 'Eureka!' light-bulb lights up over its head. Z-Image, Qwen Edit (509), and Firefly V3

Powiedzenie ChatGPT, aby sprawdził losową odpowiedź przed rozwiązaniem rzeczywistego problemu, sprawia, że model myśli bardziej i częściej udziela prawidłowej odpowiedzi – nawet jeśli poprzednia „losowa” odpowiedź nie ma nic wspólnego z Twoim rzeczywistym zapytaniem.

 

Interesujący nowy artykuł z Chin opracował bardzo tanimą metodę, aby zapobiec hallucynacjom modelom językowym, takim jak ChatGPT, i poprawić jakość odpowiedzi: model musi najpierw sprawdzić odpowiedź na całkowicie niezwiązane pytanie:

Przykład niezwiązanego pytania, które może „uwolnić umysł” modelu LLM i pomóc mu w skupieniu się na (rzeczywistym) następnym zapytaniu. Źródło: https://arxiv.org/pdf/2511.21734

Przykład niezwiązanego pytania, które może „uwolnić umysł” modelu LLM i pomóc mu w skupieniu się na (rzeczywistym) następnym zapytaniu. Źródło

Ta metoda Zen jest niezwykle tanią metodą poprawy wydajności w porównaniu z innymi, bardziej zaangażowanymi metodami, takimi jak dokształcanie, tworzenie podpowiedzi i próbkowanie równoległe, i działa na modelach otwartych i zamkniętych.

Autorzy przedstawiają oszczędności skali, które są możliwe dzięki poprawie wyjścia w ten sposób*:

‘Aby wdrożyć z minimalną wiedzą, VF musi tylko podać losową lub trywialną odpowiedź w podpowiedzi. Proces weryfikacji okazuje się mieć znacznie mniej tokenów wyjściowych niż zwykła ścieżka CoT, [czasem] nawet bez jawnej procedury weryfikacji, więc [wymaga] bardzo [mało] dodatkowych obliczeń w czasie testów.’

W testach ta metoda – nazwana Weryfikacja jako pierwsza (VF) – była w stanie poprawić odpowiedzi w różnych zadaniach, w tym w rozumowaniu matematycznym, na platformach otwartych i komercyjnych.

Część powodu, dla którego ta technika działa, może być uzasadniona w sposób, w jaki modele językowe absorbują i przyswajają trendy w psychologii ludzkiej, tak że bezpośrednie pytanie może sprawić, że model staje się „obronny” i „nerwowy”, podczas gdy prośba o weryfikację pracy innej nie angażuje tych „instynktów przetrwania”.

Idea główna polega na tym, że weryfikacja odpowiedzi wymaga mniej wysiłku niż generowanie jej od podstaw i może wyzwolić inny sposób rozumowania, który uzupełnia standardową łańcuch myśli.

Promptowanie modelu do krytyki danej odpowiedzi (tj. odpowiedzi, której model nie był zaangażowany w tworzenie) może również aktywować rodzaj myślenia krytycznego, który pomaga uniknąć nadmiernej ufności w pierwszych wrażeniach modelu.

Praca charakteryzuje proces w kategoriach odwrotnego sposobu myślenia:

Rozpoczynając od proponowanej odpowiedzi i myśląc wstecz w kierunku pytania, można wyeksponować skróty lub spostrzeżenia, które są trudniejsze do znalezienia, gdy myśli się do przodu od problemu. Ta „odwrotna ścieżka” może mieć prostszą trajektorię i oferować uzupełniające informacje do standardowego łańcucha myśli.

Rozpoczynając od proponowanej odpowiedzi i myśląc wstecz w kierunku pytania, można wyeksponować skróty lub spostrzeżenia, które są trudniejsze do znalezienia, gdy myśli się do przodu od problemu. Ta „odwrotna ścieżka” może mieć prostszą trajektorię i oferować uzupełniające informacje do standardowego łańcucha myśli.

Badacze skodyfikowali centralną koncepcję w Iter-VF, sekwencyjną metodę skalowania czasu testowego, która iteracyjnie udoskonala odpowiedzi, unikając problemu akumulacji błędów, typowego dla strategii samokorekcji często spotykanych w architekturach LLM.

Nowa praca jest zatytułowana Poproszenie LLM o weryfikację jako pierwszą jest prawie darmobę, i pochodzi od dwóch badaczy z Wydziału Inżynierii Elektrycznej na Uniwersytecie Tsinghua w Pekinie.

Metoda

Główna idea nowej pracy polega na odwróceniu zwykłego przepływu myślenia w modelach językowych. Zamiast prosić model o rozwiązanie problemu od podstaw, najpierw podaje się mu kandydującą odpowiedź (często niepoprawną lub arbitralną) i prosi o sprawdzenie, czy ta odpowiedź ma sens.

To powoduje, że model myśli wstecz, pracując wstecz od proponowanej odpowiedzi w kierunku pytania. Gdy weryfikacja jest kompletna, model następnie rozwiązuje oryginalny problem w zwykły sposób.

Odwrócenie to, jak twierdzi praca, redukuje niedbałe błędy i zachęca do bardziej refleksyjnego sposobu myślenia, pomagając LLM odkryć ukrytą strukturę i uniknąć mylących założeń.

Jak widać w poniższych przykładach, nawet prośba do modelu o weryfikację oczywiście błędnej odpowiedzi, takiej jak ’10’ , może pomóc mu odzyskać od błędnego logicznego i przewyższyć standardowe podejście łańcucha myśli:

Prośba do modelu o weryfikację odpowiedzi pierwszej pomaga mu dostrzec nieścisłości i zaangażować się bardziej w problem. W tym przykładzie standardowe podejście prowadzi do płynnej, ale niepoprawnej odpowiedzi, podczas gdy podpowiedź Weryfikacja jako pierwsza wyzwala wyraźniejszą strukturę logiczną i poprawną odpowiedź.

Prośba do modelu o weryfikację odpowiedzi pierwszej pomaga mu dostrzec nieścisłości i zaangażować się bardziej w problem. W tym przykładzie standardowe podejście prowadzi do płynnej, ale niepoprawnej odpowiedzi, podczas gdy podpowiedź Weryfikacja jako pierwsza wyzwala wyraźniejszą strukturę logiczną i poprawną odpowiedź.

W odniesieniu do wielu rzeczywistych problemów nie jest łatwo podać modelowi odpowiedź do sprawdzenia, szczególnie gdy zadanie jest otwarte, takie jak pisanie kodu lub wywoływanie interfejsu API. Dlatego metoda ta najpierw podaje swoją najlepszą odpowiedź w zwykły sposób, a następnie podaje tę odpowiedź z powrotem w formacie Weryfikacja jako pierwsza:

Gdy model jest proszony o weryfikację swojej wcześniejszej odpowiedzi, on łapie błąd w swojej logice i ponownie pisze odpowiedź poprawnie. Podpowiedź Weryfikacja jako pierwsza pomaga mu skoncentrować się na konkretnym błędzie, a nie powtarzać ten sam błąd.

Gdy model jest proszony o weryfikację swojej wcześniejszej odpowiedzi, on łapie błąd w swojej logice i ponownie pisze odpowiedź poprawnie. Podpowiedź Weryfikacja jako pierwsza pomaga mu skoncentrować się na konkretnym błędzie, a nie powtarzać ten sam błąd.

Ta metoda stanowi Iter-VF. Model powtarza ten cykl, udoskonala swoją odpowiedź za każdym razem, bez potrzeby ponownego szkolenia lub specjalistycznych narzędzi. W przeciwieństwie do innych strategii samokorekcji, które mogą nakładać się na wcześniejsze myśli i ryzykować dezorientację modelu, Iter-VF bierze pod uwagę tylko najnowszą odpowiedź w każdym kroku.

Dane i testy

Autorzy oceniają tę metodę w czterech dziedzinach: zadaniach ogólnych, gdzie VF jest zainicjowana z trywialną odpowiedzią; zadaniach czasochłonnych, gdzie Iter-VF jest porównywany z rywalizującymi strategiami skalowania; zadaniach otwartych takich jak pisanie kodu i wywoływanie interfejsu API, gdzie VF używa własnej wcześniejszej odpowiedzi modelu; i modelach komercyjnych, gdzie wewnętrzne kroki rozumowania są niedostępne.

Aby przetestować tę metodę, badacze użyli trzech benchmarków rozumowania: GSM8K i MATH500 dla zadań matematycznych; i GPQA-Diamond dla pytań naukowych na poziomie studiów wyższych.

W każdym przypadku model otrzymywał albo trywialną odpowiedź, taką jak ‘1’ dla odpowiedzi numerycznych; albo losowo wybraną odpowiedź wielokrotnego wyboru, jako punkt wyjścia do weryfikacji. Nie dodano specjalnego dostosowania ani wiedzy wcześniej, a punkt odniesienia do porównania był standardowym podejściem łańcucha myśli.

Testy zostały przeprowadzone na pełnym zakresie Qwen2.5 i Llama3 modeli instrukcji, od 1B do 72B (parametrów) wielkości. Modele Qwen użyte w tym badaniu to Qwen2.5-1.5B-Instruct, Qwen2.5-3B-Instruct, Qwen2.5-14B-Instruct i Qwen2.5-72B-Instruct. Warianty Llama3 to Llama3.2-1B-Instruct, Llama3.2-3B-Instruct, Llama3.1-8B-Instruct i Llama3.3-70B-Instruct.

Jak widać poniżej, poprawa z podejściem Weryfikacja jako pierwsza była stabilna na wszystkich rozmiarach modeli, z wyraźnymi zyskami widocznymi nawet przy 1B parametrach i kontynuującymi się do 72B:

Przez wszystkie rozmiary modeli w rodzinach Qwen2.5 i Llama3, podejście Weryfikacja jako pierwsza konsekwentnie przewyższało standardowe podejście łańcucha myśli na GSM8K, MATH500 i GPQA-Diamond.

Przez wszystkie rozmiary modeli w rodzinach Qwen2.5 i Llama3, podejście Weryfikacja jako pierwsza konsekwentnie przewyższało standardowe podejście łańcucha myśli na GSM8K, MATH500 i GPQA-Diamond.

Wpływ okazał się najmocniejszy na benchmarkach obliczeniowych, takich jak GSM8K i MATH500, gdzie weryfikacja błędnej odpowiedzi prowadziła do lepszego rozumowania niż próba rozwiązania od podstaw. Na GPQA-Diamond, który opiera się bardziej na wiedzy niż na strukturze dedukcyjnej, przewaga była mniejsza, ale stabilna.

Koszt obliczeniowy Weryfikacji jako pierwszej był umiarkowany: w poniższej tabeli widać, że generowanie kroku weryfikacji dodało około 20-50% więcej tokenów wyjściowych w porównaniu ze standardowym podejściem łańcucha myśli:

Średnia liczba tokenów wyjściowych wygenerowanych podczas każdej metody podpowiedzi, na benchmarkach GSM8K, MATH500 i GPQA.

Średnia liczba tokenów wyjściowych wygenerowanych podczas każdej metody podpowiedzi, na benchmarkach GSM8K, MATH500 i GPQA.

Mimo to dodatkowy koszt pozostał znacznie poniżej strategii wymagających wielu próbek lub planowania rekursywnego.

Na poniższym wykresie widać, jak czuła jest ta metoda do jakości odpowiedzi:

Zyski dokładności z podejściem Weryfikacja jako pierwsza, gdy model otrzymuje trywialne, nieprawdopodobne lub poprawne odpowiedzi do weryfikacji na GSM8K, MATH500 i GPQA.

Zyski dokładności z podejściem Weryfikacja jako pierwsza, gdy model otrzymuje trywialne, nieprawdopodobne lub poprawne odpowiedzi do weryfikacji na GSM8K, MATH500 i GPQA.

Jak oczekiwano, dokładność skacze jeszcze wyżej, gdy odpowiedź jest poprawna; ale metoda działała dobrze niezależnie, sugerując, że zyski nie były napędzane przez informację w odpowiedzi, ale po prostu przez akt weryfikacji.

Iter-VF został również porównany z czterema strategiami skalowania w czasie testów, które działają bez ponownego szkolenia lub adaptacji zadań. W Samokorekcji, model był promptowany do rewizji swoich odpowiedzi, reflektując na wcześniejszych krokach rozumowania; w PHP, wcześniejsze odpowiedzi były dołączane do wejścia jako kontekstowe wskazówki, choć nie podano instrukcji, jak je wykorzystać.

Ponadto, w Samospójności, kilka ścieżek rozumowania było próbkowanych i ostateczna odpowiedź była wybierana przez głosowanie większości; i wreszcie, w Najlepszy z N, kilka wyjść było generowanych niezależnie i ocenianych za pomocą podpowiedzi weryfikującej, a odpowiedź o najwyższej ocenie była wybierana.

Dwie wersje Iter-VF zostały zaimplementowane: jedna zainicjowana z trywialną odpowiedzią (‘1’), a druga zainicjowana ze standardową odpowiedzią CoT:

Dokładność i wydajność tokenów na MATH500 przy rosnących budżetach wyjściowych, pokazując, że obie wersje Iter-VF przewyższają wszystkie metody odniesienia na wszystkich skalach modeli.

Dokładność i wydajność tokenów na MATH500 przy rosnących budżetach wyjściowych, pokazując, że obie wersje Iter-VF przewyższają wszystkie metody odniesienia na wszystkich skalach modeli.

Iter-VF dał lepsze wyniki niż wszystkie inne metody, gdy dostępna była niska liczba obliczeń, co autorzy przypisali temu, jak sprawdza odpowiedzi, a nie jak dobre są odpowiedzi początkowe (ponieważ zarówno VF, jak i CoT szybko osiągnęły podobną dokładność).

PHP działał gorzej, pomimo tego, że wykorzystywał wcześniejsze odpowiedzi jako wskazówki, prawdopodobnie dlatego, że LLM nie wykorzystywały tych wskazówek dobrze.

W przeciwieństwie do PHP i Samokorekcji, które kumulują kontekst na przestrzeni iteracji, Iter-VF rozważa tylko najnowszą odpowiedź w każdym kroku. To Markowskie podejście unika kumulowania dezorientacji długich łańcuchów myślowych – słabości szczególnie szkodliwej dla Samokorekcji.

Metody równoległe, takie jak Samospójność i Najlepszy z N, unikały tego problemu, choć ich poprawy były wolniejsze i bardziej umiarkowane.

(n.b. Sekcja wyników, chociaż wyczerpująca, jest nieprzyjazna i rozwlekle czytana, i musimy w tym momencie przerwać większość pozostałej relacji, odnosząc czytelnika do oryginalnego artykułu w celu uzyskania więcej szczegółów).

Gdy przetestowano na GPT-5 Nano i GPT-5 Mini, zamkniętych modelach komercyjnych, które ukrywają pełną ścieżkę rozumowania i zwracają tylko ostateczną odpowiedź, Iter-VF poprawił wydajność bez polegania na pośrednich wyjściach. W poniższej tabeli widać zyski na MATH500 i GPQA, potwierdzając, że podejście weryfikacja-następnie-generuj pozostaje skuteczne nawet wtedy, gdy tylko wejście i ostateczna odpowiedź są dostępne:

Dokładność na MATH500 i GPQA, gdy Iter-VF jest stosowany do modeli GPT-5 z ukrytymi ścieżkami rozumowania.

Dokładność na MATH500 i GPQA, gdy Iter-VF jest stosowany do modeli GPT-5 z ukrytymi ścieżkami rozumowania.

Wnioski

Chociaż nowy artykuł wprowadza nieprzezroczystość w sekcji wyników, odkrycie ogólnego rodzaju cechy w klasie modeli AI jest jednak fascynującym rozwojem. Każdy, kto regularnie używa modelu LLM, musi rozwinąć szereg sztuczek, aby obejść ich słabości, ponieważ każda z nich staje się oczywista z czasem, a wzorzec się pojawia; i wszyscy mają nadzieję znaleźć „sztuczkę” tak stosowną i uogólnioną jak ta.

Jednym z największych problemów w implementacji i aktualizacji okna kontekstowego w modelu LLM wydaje się być znalezienie balansu między zachowaniem postępu sesji a możliwością wyjścia w nowe kierunki, gdy jest to konieczne, bez wpadnięcia w fałszywe halucynacje lub niezwiązane z tematem dane wyjściowe. W przypadku przedstawionym przez nowy artykuł widzimy przykład delikatnego, ale stanowczego „wezwania do działania”, które wydaje się ponownie skupiać i resetować model LLM bez utraty kontekstu. Będzie interesujące zobaczyć, czy kolejne projekty zaadaptują i rozwiną tę metodę.

Badacze bardzo podkreślają ogromną oszczędność swojej nowej metody – rozważania, które miałyby znacznie mniejszą wagę nawet 12 miesięcy temu. Dziś implikacje hiperskali AI sprawiają, że oszczędności zasobów, które kiedyś uważano za pedantyczne w „czystej” erze badań, stają się teraz kardynalne i niezbędne.

 

* Proszę zauważyć, że jestem ograniczony od włączania zwykłej liczby cytatów z artykułu, ponieważ standard angielskiego w niektórych częściach mógłby wprowadzić czytelnika w błąd. Dlatego wziąłem na siebie wolność podsumowania kluczowych spostrzeżeń zamiast, i odnoszę czytelnika do oryginalnego artykułu w celu weryfikacji.

Opublikowano po raz pierwszy w czwartek, 4 grudnia 2025

Pisarz na temat uczenia maszynowego, specjalista ds. syntezowania obrazów ludzi. Były kierownik treści badawczych w Metaphysic.ai.