Sztuczna inteligencja
Koniec łańcucha myśli? CoreThink i badacze z Uniwersytetu Kalifornijskiego proponują zmianę paradygmatu w rozumowaniu AI

Przez lata, wyścig w sztucznej inteligencji dotyczył skali. Większe modele, więcej kart graficznych, dłuższe wprowadzania. OpenAI, Anthropic i Google prowadziły prace nad ogromnymi modelami językowymi (LLM), doskonaleniem uczenia się wzmocnionego i łańcuchowym wprowadzaniem myśli—technikami zaprojektowanymi w celu symulowania rozumowania poprzez wyjaśnianie krok po kroku odpowiedzi.
Jednak nowy techniczny artykuł pt. CoreThink: Warstwa symbolicznego rozumowania do rozumowania nad długimi zadaniami z LLM od CoreThink AI i badaczy z Uniwersytetu Kalifornijskiego twierdzi, że ten paradygmat może osiągnąć swój sufit. Autorzy stawiają prowokacyjne twierdzenie: LLM są potężnymi generatorami tekstu statystycznego, ale nie są silnikami rozumowania. I łańcuch myśli, metoda najczęściej używana do sugerowania czegoś innego, jest bardziej teatrem wykonawczym niż prawdziwą logiką.
W odpowiedzi, zespół wprowadza Ogólne Symbole, warstwę neuro-symulacyjnego rozumowania zaprojektowaną do podłączenia do istniejących modeli. Ich oceny pokazują dramatyczne poprawy w szerokim zakresie zadań rozumowania—osiągnięte bez ponownego szkolenia lub dodatkowych kosztów kart graficznych. Jeśli zostanie to potwierdzone, ten podejście może oznaczać punkt zwrotny w tym, jak systemy AI są projektowane do logiki i podejmowania decyzji.
Czym jest łańcuch myśli — i dlaczego ma to znaczenie
Łańcuch myśli (CoT) stał się jedną z najczęściej stosowanych technik w nowoczesnej AI. Poprzez poproszenie modelu o napisanie kroków swojego rozumowania przed dostarczeniem odpowiedzi, badacze stwierdzili, że mogą często poprawić wyniki benchmarków w obszarach takich jak matematyka, kodowanie i planowanie. Na powierzchni wydawało się to przełomem.
Jednak raport podkreśla ograniczenia tego podejścia. Wyjaśnienia CoT mogą wyglądać przekonywająco, ale studia pokazują, że często są niewiernymi wobec tego, co model rzeczywiście obliczył, racjonalizując dane wyjściowe po fakcie, zamiast ujawniać prawdziwą logikę. To tworzy prawdziwe zagrożenia. W medycynie, prawdopodobna narracja może maskować zależność od fałszywych korelacji, prowadząc do niebezpiecznych błędów diagnostycznych. W prawie, sfabrykowane racje mogą być mylone z prawdziwymi uzasadnieniami, zagrażając procesowi i odpowiedzialności.
Artykuł dodatkowo podkreśla niewydajność: łańcuchy CoT często rosną nadmiernie długie w przypadku prostych problemów, podczas gdy w przypadku złożonych problemów kurczą się do płytkiego rozumowania. Wynikiem jest zmarnowany obliczeniowy i, w wielu przypadkach, zmniejszona dokładność. Autorzy dochodzą do wniosku, że łańcuch myśli jest „performatywny, a nie mechanistyczny”—powierzchniowy pokaz, który tworzy iluzję interpretowalności bez jej dostarczania.
Sztuczna inteligencja symboliczna: Od wczesnych marzeń do nowych odrodzeń
Krytyka CoT zaprasza do spojrzenia wstecz na historię sztucznej inteligencji symbolicznej. W jej wczesnych dekadach, badania nad AI krążyły wokół systemów opartych na regułach, które kodowały wiedzę w jawnej formie logicznej. Systemy eksperckie takie jak MYCIN próbowały diagnozować choroby, stosując ręcznie wytworzone reguły, a systemy wykrywania oszustw opierały się na ogromnych zestawach logiki, aby wyłapać anomalie.
Sztuczna inteligencja symboliczna miała niezaprzeczalne zalety: każdy krok jej rozumowania był przejrzysty i śledzalny. Ale te systemy były kruche. Kodowanie dziesiątek tysięcy reguł wymagało ogromnej pracy, a także miały trudności z nowymi sytuacjami. Krytycy tacy jak Hubert Dreyfus twierdzili, że ludzka inteligencja opiera się na niejawnych, kontekstowo-naprowadzonych umiejętnościach, których żaden zestaw reguł nie mógł uchwycić. Do lat 90. podejścia symboliczne ustąpiły miejsca sieciom neuronowym opartym na danych.
W ostatnich latach, jest odnowiony wysiłek, aby połączyć zalety obu światów poprzez neuro-symulacyjną AI. Pomysł jest prosty: pozwól sieciom neuronowym radzić sobie z zabrudzonymi, percepcyjnymi danymi wejściowymi, takimi jak obrazy lub tekst, podczas gdy moduły symboliczne zapewniają strukturalne rozumowanie i gwarancje logiczne. Ale większość tych hybryd miała trudności z integracją. Symboliczne szkielety były zbyt sztywne, podczas gdy moduły neuronowe często podważały spójność. Wynikiem były złożone, ciężkie systemy, które nie spełniały obietnicy interpretowalności.
Ogólne Symbole: Nowa warstwa rozumowania
CoreThink’s Ogólne Symbole Rozumowania (GSR) ma na celu pokonanie tych ograniczeń za pomocą innego podejścia. Zamiast tłumaczenia języka na sztywne struktury formalne lub wysokowymiarowe osadzania, GSR działa całkowicie w ramach samego języka naturalnego. Każdy krok rozumowania jest wyrażony w słowach, co zapewnia, że kontekst, nuans i modalność są zachowane. To oznacza, że różnice takie jak „musi” a „powinien” są przenoszone przez proces rozumowania, a nie abstrahowane.
Ramka działa poprzez parsowanie danych wejściowych rodzimie w języku naturalnym, stosowanie ograniczeń logicznych za pomocą transformacji językowych oraz wytwarzanie słownych śladów rozumowania, które pozostają w pełni czytelne dla ludzi. Gdy pojawiają się sprzeczności lub błędy, są one ujawniane bezpośrednio w ścieżce rozumowania, umożliwiając przejrzystość i debugowanie. Aby pozostać wydajnym, system obcina niepotrzebne kroki, umożliwiając stabilne długoterminowe rozumowanie bez skalowania GPU.
Ponieważ działa jako warstwa, a nie wymaga ponownego szkolenia, GSR może być stosowany do istniejących modeli podstawowych. W ocenach, konsekwentnie dostarczał poprawy dokładności między 30 a 60 procent w zadaniach rozumowania, wszystko bez zwiększania kosztów szkolenia.
Wyniki benchmarków
Poprawy są najlepiej ilustrowane przez benchmarki. Na LiveCodeBench v6, który ocenia problemy kodowania na poziomie konkursowym, CoreThink osiągnął 66,6 procentowy wskaźnik przejścia—znacznie wyższy niż wiodące modele w swojej kategorii. W SWE-Bench Lite, benchmarku dla naprawy błędów w świecie rzeczywistym, pobranym z repozytoriów GitHub, system osiągnął 62,3 procentową dokładność, najwyższy wynik dotąd zgłoszony. I na ARC-AGI-2, jednym z najbardziej wymagających testów abstrakcyjnego rozumowania, uzyskał 24,4 procent, znacznie przewyższając modele pionierskie takie jak Claude i Gemini, które pozostają poniżej 6 procent.
Te liczby odzwierciedlają więcej niż surową dokładność. W szczegółowych studiach przypadków, warstwa symboliczna umożliwiła modelom działać inaczej. W ColumnTransformer z biblioteki scikit-learn, na przykład, model bazowy zaproponował powierzchniowy patch, który maskował błąd. System CoreThink-augmented zidentyfikował problem synchronizacji u podstawy i naprawił go w sposób kompleksowy. Na trudnym wyzwaniu LeetCode, model bazowy źle zastosował programowanie dynamiczne i całkowicie nie powiódł się, podczas gdy warstwa symbolicznego rozumowania poprawiła błędną reprezentację stanu i wyprodukowała działające rozwiązanie.
Jak to pasuje do odrodzenia symbolicznego
Ogólne Symbole dołączają do rosnącego ruchu prób przywrócenia struktury do rozumowania AI. Klasyczna sztuczna inteligencja symboliczna pokazała wartość przejrzystości, ale nie mogła dostosować się do nowości. Tradycyjne hybrydy neuro-symulacyjne obiecywały równowagę, ale często stawały się niewygodne. Stosy planistyczne, które montowały wyszukiwanie na LLM, oferowały wczesną nadzieję, ale załamały się pod złożonością, gdy zadania rosły.
Ostatnie postępy wskazują na potencjał nowych hybryd. Na przykład AlphaGeometry od DeepMind wykazał, że struktury symboliczne mogą przewyższyć czyste modele neuronowe w zadaniach geometrycznych. Podejście CoreThink-a rozszerza ten trend. W swoim potoku ARC-AGI, deterministyczne wykrywanie obiektów i abstrakcja wzorca symbolicznego są połączone z neuronową realizacją, produkując wyniki znacznie wykraczające poza te z systemów LLM-only.
Kluczowa różnica polega na tym, że Ogólne Symbole nie polegają na sztywnych regułach logicznych lub masowym ponownym szkoleniu. Poprzez rozumowanie bezpośrednio w języku, pozostaje elastyczny, zachowując interpretowalność. To sprawia, że jest lżejszy niż wcześniejsze hybrydy i, co najważniejsze, praktyczny do integracji z aplikacjami przedsiębiorstw.
Dlaczego to ma znaczenie
Jeśli łańcuch myśli jest iluzją rozumowania, to przemysł AI stoi przed pilnym wyzwaniem. Przedsiębiorstwa nie mogą polegać na systemach, które tylko pozornie rozumują, zwłaszcza w środowiskach o wysokim ryzyku, takich jak medycyna, prawo i finanse. Artykuł sugeruje, że prawdziwy postęp nastąpi nie dzięki dalszemu skalowaniu modeli, ale dzięki przemyśleniu samych podstaw rozumowania.
Ogólne Symbole są jedną z takich podstaw. Oferują lekką, interpretowalną warstwę, która może udoskonalić istniejące modele bez ponownego szkolenia, produkując prawdziwe poprawy rozumowania, a nie tylko powierzchniowe narracje. Dla szerszej społeczności AI oznacza to możliwą zmianę paradygmatu: powrót rozumowania symbolicznego, nie jako kruche zestawy reguł, ale jako elastyczny towarzysz uczenia się neuronowego.
Jak to ujmuje autor: „Nie musimy dodawać więcej parametrów, aby uzyskać lepsze rozumowanie—musimy przemyśleć podstawy.”












