Kunstig intelligens

Afslutningen på Chain-of-Thought? CoreThink og University of California-forskere foreslår en paradigmeskift i AI-resonnering

mm

I mange år har kapløbet i kunstig intelligens været om skala. Større modeller, flere GPU’er, længere prompts. OpenAI, Anthropic og Google har ledet an med massive store sprogmodeller (LLM’er), forstærkning af finjustering og chain-of-thought-prompting – teknikker designede til at simulere resonnering ved at stave ud trin-for-trin-svar.

Men en ny teknisk hvidbog med titlen CoreThink: En symbolisk resonanslag til at resonere over Lange Horizon-opgaver med LLM’er fra CoreThink AI og University of California-forskere argumenterer for, at denne paradigme måske er ved at nå sit loft. Forfatterne fremlægger en provokerende påstand: LLM’er er kraftfulde statistiske tekstgenereringsmodeller, men de er ikke resonansmaskiner. Og chain-of-thought, metoden der oftest bruges til at antyde noget andet, er mere performance-teater end ægte logik.

Som svar introducerer holdet General Symbolics, en neuro-symbolisk resonanslag designet til at indsætte i eksisterende modeller. Deres evalueringer viser dramatiske forbedringer på tværs af et bredt spektrum af resonansbenchmarks – opnået uden omtræning eller ekstra GPU-omkostninger. Hvis denne tilgang bliver valideret, kunne det markere et vendepunkt i, hvordan AI-systemer designes til logik og beslutningstagning.

Hvad er Chain-of-Thought — og hvorfor er det vigtigt

Chain-of-thought (CoT) prompting er blevet en af de mest udbredte teknikker i moderne AI. Ved at bede en model om at skrive ud sine resonanstrin før levering af et svar, fandt forskerne, at de ofte kunne forbedre benchmark-resultater i områder som matematik, kodning og planlægning. På overfladen så det ud som et gennembrud.

Alligevel understreger rapporten begrænsningerne af denne tilgang. CoT-forklaringer kan se overbevisende ud, men studier viser, at de ofte er utro mod, hvad modellen faktisk beregnede, og rationaliserer outputs efter faktum i stedet for at afsløre sand logik. Dette skaber reelle risici. I medicin kan en plausibel narrativ skjule afhængighed af spurious korrelationer, hvilket kan føre til farlige misdiagnoser. I loven kan fabrikerede begrundelser blive forvekslet med ægte begrundelser, hvilket true due process og ansvarlighed.

Rapporten fremhæver yderligere ineffektiviteten: CoT-kæder vokser ofte for langt på simple problemer, mens de kollapser i overfladisk resonnering på komplekse problemer. Resultatet er spildt beregning og, i mange tilfælde, reduceret nøjagtighed. Forfatterne konkluderer, at chain-of-thought er “performative, ikke mekanisk” – en overfladisk visning, der skaber illusionen af fortolkning uden at levere den.

Symbolisk AI: Fra tidlige drømme til nye genoplivninger

Kritikken af CoT inviterer til en tilbageblik på historien om symbolisk AI. I dens tidligste årtier drejede AI-forskning sig om regelbaserede systemer, der kodificerede viden i eksplizit logisk form. Ekspertsystemer som MYCIN forsøgte at diagnosticere sygdomme ved at anvende håndlavede regler, og svindelforesystemer afhang af store logiksatser for at fange anomalier.

Symbolisk AI havde uanfægtelige styrker: Hver trin af dens resonnering var gennemsigtig og sporbar. Men disse systemer var skrøbelige. Kodificering af titusinder af regler krævede enormt arbejde, og de kæmpede, når de stod over for nye situationer. Kritikere som Hubert Dreyfus argumenterede for, at menneskelig intelligens afhænger af taktisk, kontekstbestemt viden, som ingen regelsæt kunne fange. I 1990’erne gav symboliske tilgange plads til data-drevne neurale netværk.

I de seneste år er der blevet gjort en fornyet indsats for at kombinere styrkerne fra begge verdener gennem neuro-symbolisk AI. Ideen er enkel: Lad neurale netværk håndtere beskidte, perceptionelle indgange som billeder eller tekst, mens symboliske moduler leverer struktureret resonnering og logiske garantier. Men de fleste af disse hybrider har kæmpet med integration. Symboliske rygsøjler var for stive, mens neurale moduler ofte undergravede konsistens. Resultatet var komplekse, tunge systemer, der ikke leverede den lovede fortolkning.

General Symbolics: En ny resonanslag

CoreThink’s General Symbolics Reasoner (GSR) søger at overvinde disse begrænsninger med en anden tilgang. I stedet for at oversætte sprog til stive formelle strukturer eller højdimensionelle indlejninger, opererer GSR fuldstændigt inden for naturligt sprog selv. Hver trin af resonnering udtrykkes i ord, hvilket sikrer, at kontekst, nuance og modalitet bevares. Dette betyder, at forskelle som “skal” versus “bør” føres gennem resonansprocessen, i stedet for at abstrahere dem væk.

Rammeværket fungerer ved at parse indgange naturligt i naturligt sprog, anvende logiske begrænsninger gennem lingvistiske transformationer og producere ordret resonansspor, der forbliver fuldstændigt læselige for mennesker. Når modsigelser eller fejl opstår, bliver de fremhævet direkte i resonansstien, hvilket muliggør gennemsigtighed og fejlfinding. For at forblive effektivt beskærer systemet unødvendige trin, hvilket muliggør stabil langhorisontresonnering uden GPU-skala.

Fordi det fungerer som en lag i stedet for at kræve omtræning, kan GSR anvendes på eksisterende basismodeller. I evalueringer leverede det konsekvent nøjagtighedsforbedringer på mellem 30 og 60 procent på tværs af resonansopgaver, alt uden at øge træningsomkostninger.

Benchmark-resultater

Forbedringerne illustreres bedst gennem benchmarks. På LiveCodeBench v6, der evaluerer konkurrenceklasse-kodningsproblemer, opnåede CoreThink en 66,6-procentig beståelsesprocent – væsentligt højere end førende modeller i dens kategori. I SWE-Bench Lite, en benchmark for virkelige fejlreparationer hentet fra GitHub-repositorier, nåede systemet 62,3-procentig nøjagtighed, det højeste resultat, der er rapporteret. Og på ARC-AGI-2, en af de mest krævende tests af abstrakt resonnering, scorede det 24,4 procent, langt overgående frontmodeller som Claude og Gemini, der forbliver under 6 procent.

Disse tal reflekterer mere end ren nøjagtighed. I detaljerede casesstudier enablede den symboliske lag modellerne til at opføre sig anderledes. I scikit-learns ColumnTransformer foreslog f.eks. en baseline-model en overfladisk løsning, der skjulte fejlen. Det CoreThink-forbedrede system identificerede i stedet synchroniseringsproblemet ved roden og fik det fuldstændigt løst. På en svær LeetCode-udfordring misbrugte den grundlæggende model dynamisk programmering og fejlede fuldstændigt, mens den symboliske resonanslag korrigerede den fejlbehæftede tilstandsrepræsentation og producerede en fungerende løsning.

Hvordan det passer ind i den symboliske genoplivning

General Symbolics slutter sig til en voksende bevægelse af forsøg på at bringe struktur tilbage i AI-resonnering. Klassisk symbolisk AI viste værdien af gennemsigtighed, men kunne ikke tilpasse sig nyt. Traditionelle neuro-symboliske hybrider lovede balance, men ofte blev de uoverskuelige. Planlægningsstakke, der boltede søgning på LLM’er, tilbød tidligt håb, men kollapsede under kompleksitet, da opgaver skalaerede.

Seneste fremskridt peger på potentialet for nye hybrider. DeepMinds AlphaGeometry har f.eks. demonstreret, at symboliske strukturer kan overgå rene neurale modeller på geometriproblemer. CoreThinks tilgang udvider denne tendens. I dens ARC-AGI-pipeline kombineres deterministisk objektgenkendelse og symbolisk mønsterabstraktion med neuralt udførelse, hvilket producerer resultater langt ud over dem fra LLM-kun-systemer. I værktøjsbrug hjælper den symboliske lag med at opretholde kontekst og påtvinge begrænsninger, hvilket muliggør mere pålidelig multi-turn-planlægning.

Nøgleforskellen er, at General Symbolics ikke afhænger af stive logik eller massiv omtræning. Ved at resonere direkte i sprog forbliver det fleksibelt, mens det bevarer gennemsigtighed. Dette gør det lettere end tidligere hybrider og, afgørende, praktisk for integration i virksomhedsapplikationer.

Hvorfor det er vigtigt

Hvis chain-of-thought er en illusion af resonnering, står AI-industrien over for en presserende udfordring. Virksomheder kan ikke afhænge af systemer, der kun ser ud til at resonere, især i højrisiko-miljøer som medicin, loven og finans. Rapporten foreslår, at reel fremgang vil komme fra at omdefinere grundlaget for resonnering selv.

General Symbolics er et sådant grundlag. Det tilbyder en let, fortolkelig lag, der kan forbedre eksisterende modeller uden omtræning, og producerer ægte resonansforbedringer i stedet for overfladiske narrativer. For den bredere AI-fællesskab markerer det en mulig paradigmeskift: en tilbagevenden af symbolisk resonnering, ikke som skrøbelige regelsæt, men som en fleksibel ledsager til neural læring.

Som forfatterne siger: “Vi har ikke brug for at tilføje flere parametre for at få bedre resonnering – vi har brug for at omdefinere grundlaget.”

Antoine er en visionær leder og medstifter af Unite.AI, drevet af en urokkelig passion for at forme og fremme fremtiden for AI og robotteknologi. En serieiværksætter, han tror, at AI vil være lige så omvæltende for samfundet som elektricitet, og bliver ofte fanget i at tale begejstret om potentialet for omvæltende teknologier og AGI.

Som en futurist, er han dedikeret til at udforske, hvordan disse innovationer vil forme vores verden. Derudover er han grundlægger af Securities.io, en platform, der fokuserer på at investere i skærende teknologier, der gendefinerer fremtiden og omformer hele sektorer.