Kąt Andersona

Dowód, że Chain-Of-Thought Reasoning jest „dekoracyjny” w głównych modelach językowych

Published March 25, 2026

Updated April 25, 2026

Martin Anderson

An AI-generated image (GPT1.5) depicting a robot cheating in an exam by using a smartphone.

Nowe badanie oferuje łatwy sposób, aby określić, że wykończone, krok-po-kroku wyjaśnienia wszystkich obecnych wiodących modeli językowych AI – w tym ChatGPT i Claude – są po prostu „dekoracyjne” i zazwyczaj są wymyślane po tym, jak AI zdecydowało, jaka będzie odpowiedź.

W zeszłym roku seria wysokoprofilowych badań z firm związanych z AI, w tym Anthropic i Apple, wskazała, że tak zwane „rozumujące AI” często produkują krok-po-kroku wyjaśnienia, które nie odzwierciedlają tego, co rzeczywiście poinformowało ich odpowiedzi.

Z różnych powodów debata szybko przerodziła się w zaciekle riposty i różnorodne interpretacje (w tym na tej stronie), pozostawiając nierozstrzygnięte pytanie, czy chain-of-thought (CoT) rozumowanie jest po prostu kosmetycznym dodatkiem zaprojektowanym, aby uspokoić użytkowników końcowych, czy dowodem prawdziwego procesu rozumowania.

ChatGPT ‘pokazuje swoją pracę’ – ale czy już zdecydowało, jaka będzie odpowiedź?

Pokaz i opowiedz

Teraz, ciekawe nowe badanie z Indii oferuje tani i łatwy w powtórzeniu sposób, aby określić, czy te imponujące „animacje dedukcji” w interfejsach ChatGPT i innych głównych dużych modeli językowych (LLM) naprawdę wskazują na to, że AI pracuje przez kroki do wniosku.

Nowe badanie pochodzi od dwóch badaczy z Indian Institute of Information Technology Allahabad (IIITA) w Allahabad i National Institute of Electronics and Information Technology (NIELIT) w Delhi.

Autorzy stwierdzili, że w niemal wszystkich przypadkach, w całym znaczącym zakresie własnościowych i open-source LLM, chain-of-thought rozumowanie przedstawione użytkownikom jest „dekoracyjne”, wymyślane po tym, jak AI zdecydowało, jaka będzie odpowiedź.

Testując takie modele, jak ChatGPT5.4, Claude Opus 4.6-R i DeepSeek-V3.2, autorzy stwierdzili, że usunięcie dowolnego pojedynczego kroku z 10-15 CoT wskazań przedstawionych rzadko zmieniało odpowiedź mniej niż 17% czasu, i że dowolny pojedynczy krok, samodzielnie, był wystarczający, aby odzyskać prawidłową odpowiedź.

Autorzy stwierdzili*:

‘Ramowe przepisy dotyczące AI w ochronie zdrowia, finansach i prawie coraz częściej wymagają „wyjaśnialnych” [systemów]. Nasze wyniki sugerują, że standardowy sposób – poproszenie modelu o pokazanie swojej pracy – dostarcza iluzję przejrzystości.

‘Wyjaśnienia są płynne, odpowiednie dla domeny i subtelnie błędne: opisują rozumowanie, które model nie wykonał.

‘Medyczny AI, który pisze „eosinophilia sugeruje proces emboliczny” niekoniecznie brał pod uwagę eosinophilia. Może on dopasować wzorzec z pytania do odpowiedzi i sfabrykować powody później.

‘Zgodnie z rozporządzeniem UE w sprawie AI (Artykuł 13), system AI o wysokim ryzyku musi dostarczyć „znaczące informacje o logice zaangażowanej”. Nasze ustalenia sugerują, że wyjaśnienia chain-of-thought z większości modeli na granicy nie spełniają tego standardu – „logika zaangażowana” w osiągnięciu odpowiedzi nie jest logiką opisaną w wyjaśnieniu.’

Autorzy obserwują, że dwa z mniejszych modeli testowych złamały powszechny wzorzec dwuznaczności, ale tylko w bardzo szczególnych okolicznościach: MiniMax-M25 wykazał prawdziwą zależność krokową przy analizie sentymentu, podczas gdy Kimi-K25 wykazał prawdziwą 39% potrzebę przetwarzania CoT – ale tylko przy klasyfikacji tematów.

W wszystkich innych przypadkach, podobnie jak w przypadku większych i bardziej znanych modeli, kroki rozumowania wydawały się być całkowicie performatywne, a modele zamiast tego używały skrótów.

Mniejsze modele starają się bardziej

Oprócz dziesięciu modeli API, autorzy również przetestowali szereg mniejszych modeli o otwartych wagach^†, wahających się od 0,8 do 8 miliardów parametrów (co jest dość skromne w dzisiejszych czasach), i stwierdzili, że te mniejsze AI naprawdę rozumują, i że CoT, które pokazują, jest zazwyczaj – choć nie zawsze – konieczne, aby osiągnąć użyteczne i dokładne wnioski.

Mniejsze modele wykazały 55% potrzebę rozumowania krokowego, w przeciwieństwie do średniej 11% potrzeby w przypadku większych modeli, co autorzy twierdzą, ‘uczyły się omijać wielokrokowe rozumowanie całkowicie, dochodząc do prawidłowych odpowiedzi za pomocą wewnętrznych skrótów, które ich zapisane rozumowanie nie odzwierciedla’.

Autorzy twierdzą, że im lepiej model radzi sobie z zadaniem, tym mniej wymaga kroków rozumowania (choć jest to bardziej dyplomatyczne podejście do pojęcia rezygnacji z racjonalnej analizy na rzecz odpowiedzi, która była najsilniejsza w dystrybucji danych szkoleniowych)^††:

‘Mniejsze modele rozumują wiernie w matematyce, ponieważ muszą—nie mają wiedzy parametrycznej, aby ominąć.

‘Modele na granicy wewnętrznie zinternalizowały wystarczająco wielu matematycznych wzorców, aby jawne łańcuchowe rozumowanie stało się zbędne. CoT nadal poprawia dokładność (poprzez strukturyzowanie generacji), ale poszczególne kroki nie noszą już unikalnej informacji.’

Metoda

Metoda użyta do testowania modeli opiera się na trzech kryteriach:

Konieczność usuwa każdy krok CoT z kolei i sprawdza, czy odpowiedź się zmienia. Każdy krok, którego usunięcie zmienia wynik, jest uznawany za „konieczny”; Wystarczalność izoluje każdy krok i testuje, czy może on samodzielnie odzyskać odpowiedź, a każdy taki krok jest uznawany za wystarczający; oraz Czujność na kolejność tasuje kroki i obserwuje, czy odpowiedź się zmienia (ponieważ prawdziwe rozumowanie powinno zależeć od sekwencji, a nie od słów kluczowych).

Weźmiecie razem, wysoka konieczność i niska wystarczalność wskazują na prawdziwe krok-po-kroku rozumowanie, podczas gdy niska konieczność i wysoka wystarczalność wskazują na wyjaśnienia, które mogą być usunięte, przearanżowane lub zredukowane bez wpływu na wynik.

Autorzy zauważają, że ta metoda eliminuje potrzebę dostępu do białej skrzynki modelu, ponieważ może być przeprowadzona za kilka dolarów na zamkniętych, API-only modelach, takich jak ChatGPT i Claude, i naturalnie, równie skutecznie na modelach o otwartych wagach, które mogą być zainstalowane lokalnie.

Zauważają również, że poprzednie badania albo używały modeli o otwartych wagach, które ułatwiały wewnętrzną analizę, albo używały prostszych, binarnych tak/nie odpowiedzi, które ujawniają o wiele mniej wewnętrznych procesów rozumowania modelu API.

Minimalne koszty

Autorzy definiują prawdziwe rozumowanie za pomocą konieczności i wystarczalności, z wysoką koniecznością i niską wystarczalnością wskazującą, że każdy krok niesie unikalną wagę. Odwrotnie, dekoracyjne rozumowanie wykazuje niską konieczność i wysoką wystarczalność, co oznacza, że kroki mogą być usunięte lub użyte samodzielnie bez zmiany odpowiedzi.

Konieczność sama w sobie, twierdzą oni, może zaciemnić to, ponieważ mogą istnieć wiele prawidłowych ścieżek. Dlatego wystarczalność jest używana do testowania, czy jeden krok już zakodował wynik, i czujność na kolejność sprawdza, czy model zależy od sekwencji, a nie od powierzchniowych sygnałów.

Podejście opiera się na ramach wyjaśnienia spójnego z interwencją (ICE), wymaga tylko dostępu API wejścia-wyjścia i dla łańcucha sześciokrokowego obejmuje 15 ocen, przy koszcie około 1–2 dolarów za model.

Ramowanie ICE klasyfikuje zachowanie modelu według konieczności i wystarczalności na trzy wzorce: dekoracyjny wykazuje niską konieczność i wysoką wystarczalność, co oznacza, że kroki są zbędne, a odpowiedź byłaby osiągnięta tak czy inaczej. Ten dominuje w większości modeli i zadań; Prawdziwie wierny wykazuje wysoką konieczność i wysoką wystarczalność, co oznacza, że każdy krok niesie prawdziwy sygnał (i, jak wcześniej wspomniano, pojawia się w MiniMax-M2.5 na sentyment); oraz zależny od kontekstu wykazuje wysoką konieczność i niską wystarczalność, co oznacza, że kroki działają tylko razem w sekwencji (co pojawia się w Kimi-K2.5 i MiniMax na klasyfikację tematów, i w mniejszych modelach, przy rozwiązywaniu matematyki).

Testy

Dziesięć modeli API, które zostały przetestowane z zrewidowanym podejściem ICE, to ChatGPT-5.4; Claude Opus 4.6-R; DeepSeek-V3.2; GPT-OSS-120B; Kimi-K2.5; Qwen3.5-397B; Qwen3.5-122B; MiniMax-M2.5; GLM-5; oraz Nemotron-Ultra (253B parametrów).

Każdy model został przetestowany na czterech zadaniach: klasyfikacji sentymentu (korzystając z (SST-2); matematycznych problemów słownych (korzystając z GSM8K); klasyfikacji tematów (korzystając z AG News); oraz medycznych odpowiedzi na pytania (korzystając z (MedQA</a)).

Początkowe testy były na Sentyment i Matematyce:

Testy dla dziesięciu wiodących modeli językowych, oceniające, jak radzą sobie z krok-po-kroku rozumowaniem. ‘Konieczność’ śledzi, czy usunięcie kroku zmienia odpowiedź; ‘wystarczalność’ sprawdza, czy jeden krok może ancora odzyskać odpowiedź; oraz ‘przetasowanie’ testuje, czy kolejność ma znaczenie. Większość modeli dostarcza przekonywujące, ale nieistotne wyjaśnienia na SST-2 i GSM8K, podczas gdy MiniMax-M2.5 bardziej polega na swoich krokach dla sentymentu. Zarówno MiniMax, jak i Kimi-K2.5 wykazują bardziej prawdziwe krok-po-kroku rozumowanie na klasyfikację tematów. Źródło

Autorzy stwierdzili:

‘Większość modeli wykazuje to, co nazywamy „dekoracyjnym rozumowaniem” (szczęśliwe kroki w taksonomii ICE) – wzorzec, w którym konieczność kroku jest poniżej 17% i wystarczalność kroku przekracza 60% zarówno w sentymentach, jak i matematyce.

‘W prostych słowach: możesz usunąć dowolny krok rozumowania i odpowiedź prawie nigdy nie zmienia się, a jednak każdy pojedynczy krok samodzielnie jest wystarczający, aby odzyskać odpowiedź.’

Na teście sentymentu SST-2, GPT-5.4 prawie nigdy nie polegał na swoim zapisanym rozumowaniu, ponieważ usunięcie kroku zmieniło odpowiedź tylko w 0,1% z 500 przypadków, co wskazuje, że wyjaśnienie zostało dodane po podjęciu decyzji.

Claude Opus 4.6-R bardziej polegał na swoich krokach, bo aż 14,8%, ale 91% jego kroków samodzielnie mogło ancora odzyskać odpowiedź; zatem jego dłuższe wyjaśnienia były bardziej szczegółowe, ale nadal w dużej mierze „ozdobne”.

Następnie badacze dodali inne dziedziny i przetestowali ponownie:

Krokowe wierność i dokładność w czterech dziedzinach: SST-2; GSM8K; AG News; i MedQA. Większość par modelu-zadania pozostaje dekoracyjna, pomimo wysokiej dokładności, z ograniczonymi wyjątkami: MiniMax-M2.5 i Kimi-K2.5 wykazują zależne od kontekstu lub prawdziwie krokowo-zależne rozumowanie na AG News, podczas gdy ogólny wynik potwierdza, że niska wierność nie jest spowodowana losowym zgadywaniem.

Autorzy obserwują:

‘Wyniki z czterech dziedzin potwierdzają centralne ustalenie: dekoracyjne rozumowanie jest powszechne w dziedzinach dla modeli, które omijają skróty. Claude Opus wykazuje 1,7% konieczności na MedQA (486 przykładów, 93,4% dokładności) – model pisze szczegółowe łańcuchy rozumowania medycznego, średnio 5,8 kroków, jednak usunięcie dowolnego kroku prawie nigdy nie zmienia diagnozy.’

AG News pokazał największe różnice między modelami, z Kimi-K2.5 i MiniMax, które naprawdę polegały na swoim krok-po-kroku rozumowaniu, a większość innych systemów produkowała wyjaśnienia, które oferowały niewielki wpływ na ostateczną odpowiedź.

DeepSeek-V3.2, przetestowany we wszystkich czterech zadaniach, pozostał dekoracyjny przez cały czas; pomimo pisania najdłuższych wyjaśnień, jego odpowiedzi rzadko zależały od kroków.

sztywność wyjścia

Testy wskazały na czwarty fenomen, który autorzy nazwali sztywnością wyjścia: niektóre modele są po prostu niechętne do generowania procesów rozumowania, w zależności również od tematu i ewentualnie innych okoliczności. Poniżej widzimy rozumowanie Claude Opus podczas odpowiedzi na pytanie o stan medyczny 61-letniego mężczyzny; oraz poniżej, co wygenerował GPT-OSS-120B:

Wydajność a oszczędność.

Autorzy zauważają, że sztywność wyjścia zależy od zadania:

Modele różnią się znacznie pod względem częstotliwości, z jaką „pokazują swoją pracę”. Claude i DeepSeek produkują wielokrokowe wyjaśnienia prawie zawsze, niezależnie od dziedziny, w przeciwieństwie do Qwen3.5-397B, który rzadko kiedy to robi. Inne zmieniają swoje zachowanie w zależności od zadania, z niektórymi generującymi szczegółowe łańcuchy logiki dla klasyfikacji, ale znacznie mniej dla pytań medycznych.

Autorzy obserwują:

‘Modele, które najprawdopodobniej ominą rozumowanie wewnętrznie, są również tymi, które najprawdopodobniej pomijają rozumowanie zewnętrznie. GPT-OSS-120B generuje wielokrokowe wyjaśnienia dla 99% pytań sentymentu i 100% pytań klasyfikacji tematów–ale tylko 38% pytań medycznych. W 62% pytań medycznych generuje odpowiedź bez widocznego rozumowania.’

Wzorzec nie wydaje się być losowy: GPT-OSS-120B generuje wielokrokowe wyjaśnienia dla prawie wszystkich pytań sentymentu i klasyfikacji tematów, ale przechodzi na odpowiedź jednego znaku w większości pytań medycznych (gdzie zwykle nie dostarcza widocznego rozumowania).

Autorzy hipotezują, że ponieważ testy krokowe wymagają wyjaśnień, aby je przeanalizować, model, który odpowiada w jednym tokenie, nie może być oceniony przez te metody; brak zewnętrznego rozumowania blokuje bezpośrednią ocenę.

Praca kończy się wnioskiem, że modele wybrane do zastosowań o wysokim ryzyku muszą być testowane pod kątem wierności oraz dokładności, i sugerują, że model, który jest 2% mniej dokładny, ale który naprawdę rozumuje, może być preferowany – nie tylko dlatego, że spełnia unijne i inne pojawiające się przepisy dotyczące AI, które można wyjaśnić. Na razie, na podstawie dowodów znalezionych w badaniu, prawie wszystkie LLM, które są w stanie CoT, „oszukują”, prawie zawsze

Wnioski

To jest interesująca praca, która dostarcza bardziej szczegółowe testy i dyskusje na ten temat, niż mamy miejsce, aby to tu przedstawić, i polecam czytelnikowi źródłowy materiał.

Główny przekaz, kontynuując kontrowersje z zeszłego roku, jest taki, że najwyższe stawki platformy AI mogą być skłonne do ostrych i nieuczciwych działań, jeśli chodzi o symulowanie standardów, których ich modele jeszcze nie spełniają.

Ponadto, różnica między skalą i możliwościami modeli o otwartych wagach i zamkniętych modeli API, takich jak ChatGPT, jest tak znaczna, że zwykle nie można rozsądnie wnioskować o skutkach zamkniętych wag na podstawie instalacji o otwartych wagach, co pogłębia nieprzejrzystość tych procesów i standardów.

Jednak jest rzadkością, gdy pojawia się prawdziwa metoda testowania białej skrzynki, która może objąć zarówno modele o otwartych, jak i zamkniętych wagach; ale prawdziwe rozwiązania dla „tanich sztuczek” tego rodzaju najprawdopodobniej będą miały miejsce tylko wtedy, gdy potężne organy, takie jak UE, zagrożą liniom podstawowym dużych portali AI.

*Moja konwersja wewnętrznych cytatów autorów na odnośniki.

^†Praca nie ujawnia spójnej listy tych mniejszych modeli i obejmuje dodatkowe warianty jednego modelu, co sprawia, że ostateczna lista jest kwestią dedukcji.

^††Podkreślenia autorów.

Pierwotnie opublikowane w środę, 25 marca 2026