Umělá inteligence

Konec Chain-of-Thought? CoreThink a výzkumníci z University of California navrhují paradigmatický posun v AI reasoningu

mm

Po mnoho let byl závod v oblasti umělé inteligence zaměřen na měřítko. Více modelů, více GPU, delší výzvy. OpenAI, Anthropic a Google vedly útok s masivními velkými jazykovými modely (LLM), učení s posilováním a chain-of-thought promptingem—technikami navrženými pro simulaci rozumu tím, že se vysvětlí krok za krokem.

Ale nová technická bílá kniha s názvem CoreThink: A Symbolic Reasoning Layer to reason over Long Horizon Tasks with LLMs od CoreThink AI a výzkumníků z University of California argumentuje, že tento paradigmatický přístup může být na své hranici. Autoři činí provokativní tvrzení: LLM jsou silné statistické textové generátory, ale nejsou rozumnými motory. A chain-of-thought, metoda nejčastěji používaná pro navrhování jiného přístupu, je více divadlem než skutečným logickým procesem.

Na odpověď tým představuje General Symbolics, neuro-symbolický rozumný vrstva navržen pro připojení k existujícím modelům. Jejich hodnocení ukazují dramatické zlepšení v širokém spektru rozumných benchmarků—dosáhnutých bez opětovného trénování nebo dodatečných nákladů na GPU. Pokud je tento přístup ověřen, může to znamenat zásadní posun v tom, jak jsou AI systémy navrhovány pro logiku a rozhodování.

Co je Chain-of-Thought — a proč je to důležité

Chain-of-thought (CoT) prompting se stal jednou z nejvíce široce přijímaných technik v moderní AI. Když se modelu řekne, aby napsal své rozumné kroky před tím, než poskytne odpověď, výzkumníci zjistili, že mohou často zlepšit benchmarkové skóre v oblastech, jako je matematika, kódování a plánování. Na povrchu to vypadalo jako průlom.

Ale zpráva zdůrazňuje omezení tohoto přístupu. CoT vysvětlení mohou vypadat přesvědčivě, ale studie ukazují, že jsou často nevěrné k tomu, co model skutečně vypočítal, racionalizují výstupy po faktu, spíše než odhalují skutečný logický proces. To vytváří reálná rizika. V medicíně může přesvědčivý narativ skrýt závislost na podezřelých korelacích, což vede k nebezpečným falešným diagnózám. V právu mohou být vynalezené racionalizace chybně považovány za skutečné ospravedlnění, ohrožující spravedlivý proces a odpovědnost.

Článek dále zdůrazňuje neefektivnost: CoT řetězce často rostou nadměrně dlouhé na jednoduchých problémech, zatímco na složitých problémech se zhroutí do mělkého rozumu. Výsledkem je zbytečná výpočetní kapacita a ve многих případech snížená přesnost. Autoři uzavírají, že chain-of-thought je “performační, ne mechanistický”—povrchový projev, který vytváří iluzi interpretability bez jejího skutečného poskytování.

Symbolic AI: Od raných snů k novým obrodám

Kritika CoT zve k pohledu zpět do historie symbolické AI. V jejích raných dekádách se AI výzkum točil kolem pravidel založených na systémech, které kódovaly znalosti do explicitní logické formy. Expertní systémy, jako je MYCIN, se pokusily diagnostikovat nemoci aplikací ručně vytvořených pravidel, a systémy pro detekci podvodů se spoléhaly na rozsáhlé logické sady pro odhalení anomálií.

Symbolic AI měla nesporné silné stránky: každý krok jejího rozumu byl transparentní a stopovatelný. Ale tyto systémy byly křehké. Kódování desítek tisíc pravidel vyžadovalo enormní práci, a měly problémy, když se setkaly s novými situacemi. Kritici, jako je Hubert Dreyfus, argumentovali, že lidská inteligence závisí na tacitních, kontextově řízených znalostech, které žádná pravidla nemohou zachytit. Na konci 90. let se symbolické přístupy vzdaly ve prospěch datově řízených neuronových sítí.

V posledních letech došlo k obnovenému úsilí kombinovat silné stránky obou světů prostřednictvím neuro-symbolické AI. Nápad je přímý: neuronové sítě by měly zpracovávat špinavé, percepční vstupy, jako jsou obrázky nebo text, zatímco symbolické moduly by měly poskytovat strukturovaný rozum a logické záruky. Ale většina těchto hybridů se potýkala s integrací. Symbolické páteře byly příliš rigidní, zatímco neuronové moduly často podkopaly konzistenci. Výsledkem byly složité, těžké systémy, které nedokázaly dodat slibovanou interpretovatelnost.

General Symbolics: Nová rozumná vrstva

CoreThinkův General Symbolics Reasoner (GSR) se snaží překonat tato omezení jiným přístupem. Místo překladu jazyka do rigidních formálních struktur nebo vysokodimenzionálních vnoření GSR funguje zcela v rámci přirozeného jazyka. Každý krok rozumu je vyjádřen slovy, což zajišťuje, že kontext, nuance a modalita jsou zachovány. To znamená, že rozdíly, jako je “musí” versus “mělo by”, jsou přenášeny skrze rozumný proces, spíše než abstrahovány.

Rámec funguje tak, že vstupní údaje jsou analyzovány původně v přirozeném jazyce, aplikují se logické omezení prostřednictvím lingvistických transformací a produkují verbatim rozumné stopy, které zůstávají plně čitelné pro člověka. Když se objeví rozpory nebo chyby, jsou přímo zobrazeny v rozumném procesu, což umožňuje transparentnost a ladění. Aby zůstal efektivní, systém odstraňuje zbytečné kroky, což umožňuje stabilní dlouhodobé rozumné procesy bez škálování GPU.

Protože funguje jako vrstva, spíše než vyžaduje opětovné trénování, GSR může být aplikován na existující základní modely. V hodnoceních GSR konzistentně dosahoval zlepšení přesnosti mezi 30 a 60 procenty napříč úkoly rozumu, vše bez zvýšení nákladů na trénování.

Benchmark výsledky

Zlepšení jsou nejlépe ilustrována prostřednictvím benchmarků. Na LiveCodeBench v6, který hodnotí soutěžní úkoly programování, CoreThink dosáhl 66,6 procentní úspěšnost—substantiálně vyšší než vedoucí modely v jeho kategorii. V SWE-Bench Lite, benchmarku pro opravu chyb z GitHub repozitářů, systém dosáhl 62,3 procentní přesnosti, nejvyššího výsledku, který byl dosud hlášen. A na ARC-AGI-2, jedné z nejnáročnějších testů abstraktního rozumu, dosáhl 24,4 procent, daleko překonávající hranici modelů, jako je Claude a Gemini, které zůstávají pod 6 procenty.

Tyto čísla odrážejí více než pouhou přesnost. V podrobných případových studiích umožnila symbolická vrstva modelům jednat jinak. V ColumnTransformer scikit-learn, například, základní model navrhl povrchní opravu, která maskovala chybu. CoreThink-augmentovaný systém identifikoval problém se synchronizací na kořeni a komplexně ho opravil. Na obtížném LeetCode výzvě základní model nesprávně aplikoval dynamické programování a selhal úplně, zatímco symbolická rozumná vrstva opravila chybné stavové vyjádření a produkovala funkční řešení.

Jak se to hodí do symbolické obrody

General Symbolics se připojuje k rostoucímu hnutí pokusů o navrácení struktury do AI rozumu. Klasická symbolická AI ukázala hodnotu transparentnosti, ale nemohla se přizpůsobit novinkám. Tradiční neuro-symbolické hybridy slibovaly rovnováhu, ale často se staly neúnosnými. Plánovací zásobníky, které připojily hledání k LLM, nabízely ranou naději, ale zhroutily se pod komplexitou, když úkoly škálovaly.

Nedávné pokroky ukazují na potenciál nových hybridů. DeepMindův AlphaGeometry, například, prokázal, že symbolické struktury mohou překonat čisté neuronové modely v geometrických úkolech. CoreThinkův přístup prodlužuje tuto tendenci. V jeho ARC-AGI pipeline je deterministická detekce objektů a symbolická abstrakce vzorců kombinována s neuronovou exekucí, produkující výsledky daleko za hranicí LLM-only systémů. Při použití nástrojů symbolická vrstva pomáhá udržovat kontext a vynucovat omezení, umožňující spolehlivější multi-obratové plánování.

Klíčový rozdíl spočívá v tom, že General Symbolics nezávisí na rigidní logice nebo masivním opětovném trénování. Rozumním procesem přímo v jazyce zůstává flexibilní, zatímco zachovává interpretovatelnost. To činí ji lehčí než dříve hybridy a, zásadně, praktickou pro integraci do podnikových aplikací.

Proč je to důležité

Pokud je chain-of-thought iluzí rozumu, pak AI průmysl čelí naléhavé výzvě. Podniky nemohou spoléhat na systémy, které pouze vypadají, že rozumějí, zejména v prostředí s vysokými ставkami, jako je medicína, právo a finance. Článek naznačuje, že skutečný pokrok bude pocházet z přehodnocení základů rozumu samotného.

General Symbolics je jedním z takových základů. Nabízí lehkou, interpretovatelnou vrstvu, která může vylepšit existující modely bez opětovného trénování, produkující skutečné rozumné zlepšení, spíše než povrchové narativy. Pro širší AI komunitu to může znamenat možný paradigmatický posun: návrat symbolického rozumu, ne jako křehké sady pravidel, ale jako flexibilní společník neuronálního učení.

Jak autoři uvádějí: “Nemusíme přidávat více parametrů, abychom získali lepší rozumění—musíme přehodnotit základy.”

Antoine je vizionářský líder a zakládající partner Unite.AI, poháněný neotřesitelnou vášní pro formování a propagaci budoucnosti AI a robotiky. Jako sériový podnikatel věří, že AI bude mít na společnost stejně disruptivní vliv jako elektřina, a často je chycen při tom, jak hovoří o potenciálu disruptivních technologií a AGI. Jako futurist, je zasvěcen prozkoumání toho, jak tyto inovace budou formovat náš svět. Kromě toho je zakladatelem Securities.io, platformy zaměřené na investice do špičkových technologií, které předefinovávají budoucnost a mění celé sektory.