Inteligență artificială
Sfârșitul lanțului de gândire? CoreThink și cercetătorii de la Universitatea din California propun o schimbare de paradigmă în raționamentul inteligenței artificiale

De ani de zile, cursa în inteligența artificială a fost despre scară. Modele mai mari, mai multe GPU, prompturi mai lungi. OpenAI, Anthropic și Google au condus încărcătura cu modele de limbaj mari (LLM), fine-tuning prin învățare prin întărire și prompturi de lanț de gândire—tehnici proiectate pentru a simula raționamentul prin scrierea pas cu pas a răspunsurilor.
Dar o nouă lucrare tehnică intitulată CoreThink: Un strat de raționament simbolic pentru a raționa peste sarcini pe termen lung cu LLM de la CoreThink AI și cercetători de la Universitatea din California susține că acest paradigme poate fi pe punctul de a atinge plafonul. Autorii fac o afirmație provocatoare: LLM-urile sunt generatoare statistice de text puternice, dar nu sunt motoare de raționament. Și lanțul de gândire, metoda cel mai des utilizată pentru a sugera contrariul, este mai mult teatru de performanță decât logică adevărată.
Ca răspuns, echipa introduce General Symbolics, un strat de raționament neuro-simbolic proiectat pentru a se conecta la modele existente. Evaluările lor arată îmbunătățiri dramatice într-o gamă largă de benchmark-uri de raționament—realizate fără reantrenare sau costuri suplimentare de GPU. Dacă este validat, această abordare ar putea marca un punct de cotitură în modul în care sistemele de inteligență artificială sunt proiectate pentru logică și luare a deciziilor.
Ce este lanțul de gândire — și de ce contează
Lanțul de gândire (CoT) a devenit una dintre cele mai răspândite tehnici în inteligența artificială modernă. Prin solicitarea unui model să scrie pașii săi de raționament înainte de a furniza un răspuns, cercetătorii au descoperit că pot îmbunătăți adesea scorurile de benchmark în domenii precum matematică, programare și planificare. La suprafață, părea a fi o descoperire.
Cu toate acestea, raportul subliniază limitările acestei abordări. Explicațiile CoT pot părea convingătoare, dar studii arată că adesea sunt nefidele față de ceea ce modelul a calculat în realitate, raționalizând ieșirile după fapt, mai degrabă decât dezvăluind logica adevărată. Acest lucru creează riscuri reale. În medicină, o narativă plauzibilă poate masca dependența de corelații spurii, ducând la diagnostice periculoase. În drept, raționalizări fabricate pot fi confundate cu justificări autentice, amenințând procesul echitabil și răspunderea.
Lucrarea subliniază, de asemenea, ineficiența: lanțurile CoT cresc adesea excesiv de lungi la probleme simple, în timp ce se prăbușesc în raționamente superficiale la probleme complexe. Rezultatul este o irosire a calculului și, în multe cazuri, o precizie redusă. Autorii concluzionează că lanțul de gândire este „performant, nu mecanic”—o demonstrație de suprafață care creează iluzia interpretării fără a o furniza.
Inteligența artificială simbolică: De la visele timpurii la reînnoiri noi
Critica CoT ne invită să aruncăm o privire asupra istoriei inteligenței artificiale simbolice. În primele sale decenii, cercetarea în inteligența artificială s-a învârtit în jurul sistemelor bazate pe reguli care codifică cunoașterea în formă logică explicită. Sistemele expert, precum MYCIN, au încercat să diagnosticheze boli prin aplicarea unor reguli create de mână, iar sistemele de detectare a fraudei s-au bazat pe seturi logice uriașe pentru a prinde anomalii.
Inteligența artificială simbolică a avut forțe indiscutabile: fiecare pas al raționamentului său era transparent și urmăribil. Dar aceste sisteme erau fragile. Codificarea a zeci de mii de reguli a necesitat o muncă imensă, iar ele au luptat atunci când s-au confruntat cu situații noi. Criticii, precum Hubert Dreyfus, au argumentat că inteligența umană depinde de cunoașterea tacită, context-dependentă, pe care niciun set de reguli nu o poate capta. În anii 1990, abordările simbolice au cedat locul rețelelor neuronale conduse de date.
În ultimii ani, a existat o reînnoită încercare de a combina forțele ambelor lumi prin inteligența artificială neuro-simbolică. Ideea este simplă: să se lase rețelele neuronale să gestioneze intrările perceptive murdare, precum imagini sau text, în timp ce modulele simbolice oferă raționament structurat și garanții logice. Dar majoritatea acestor hibride au luptat cu integrarea. Spinele simbolice erau prea rigide, în timp ce modulele neuronale adesea submina coerența. Rezultatul a fost sisteme complexe și grele care nu au reușit să furnizeze interpretarea promisă.
General Symbolics: Un nou strat de raționament
General Symbolics Reasoner (GSR) al CoreThink își propune să depășească aceste limitări cu o abordare diferită. În loc să traducă limbajul în structuri formale rigide sau în încorporări de înaltă dimensiune, GSR funcționează în întregime în cadrul limbajului natural în sine. Fiecare pas al raționamentului este exprimat în cuvinte, asigurând că contextul, nuanța și modalitatea sunt păstrate. Acest lucru înseamnă că diferențele, precum „trebuie” versus „ar trebui”, sunt transmise prin procesul de raționament, mai degrabă decât abstractizate.
Cadrul funcționează prin analiza intrărilor native în limbaj natural, aplicând constrângeri logice prin transformări lingvistice și producând urme de raționament verbatim care rămân pe deplin citibile de către oameni. Atunci când apar contradicții sau erori, ele sunt afișate direct în calea de raționament, permițând transparența și depanarea. Pentru a rămâne eficient, sistemul taie pașii inutili, permițând un raționament stabil pe termen lung fără scalare GPU.
Deoarece funcționează ca un strat și nu necesită reantrenare, GSR poate fi aplicat la modele de bază existente. În evaluări, a livrat îmbunătățiri constante ale preciziei de 30 până la 60 la sută în sarcini de raționament, toate fără creșterea costurilor de antrenament.
Rezultatele benchmark-ului
Îmbunătățirile sunt ilustrate cel mai bine prin benchmark-uri. Pe LiveCodeBench v6, care evaluează probleme de codare de concurs, CoreThink a atins un procentaj de trecere de 66,6 la sută—substanțial mai mare decât modelele lider din categoria sa. În SWE-Bench Lite, un benchmark pentru repararea bug-urilor din lumea reală, extras din depozitele GitHub, sistemul a atins o precizie de 62,3 la sută, cel mai bun rezultat raportat până acum. Și pe ARC-AGI-2, unul dintre cele mai solicitante teste de raționament abstract, a obținut 24,4 la sută, depășind cu mult modelele de frontieră, precum Claude și Gemini, care rămân sub 6 la sută.
Aceste numere reflectă mai mult decât pură precizie. În studii de caz detaliate, stratul simbolic a permis modelelor să acționeze diferit. În ColumnTransformer din scikit-learn, de exemplu, un model de bază a propus o reparare superficială care a mascat eroarea. Sistemul CoreThink-augmentat a identificat, în schimb, problema de sincronizare din rădăcina și a reparat-o în mod cuprinzător. Pe o provocare dificilă de pe LeetCode, modelul de bază a aplicat greșit programarea dinamică și a eșuat complet, în timp ce stratul de raționament simbolic a corectat reprezentarea defectuoasă a stării și a produs o soluție funcțională.
Cum se încadrează în reînnoirea simbolică
General Symbolics se alătură unei mișcări în creștere de încercări de a aduce structura înapoi în raționamentul inteligenței artificiale. Inteligența artificială simbolică clasică a arătat valoarea transparenței, dar nu a putut adapta la noutate. Hibrizii neuro-simbolici tradiționali au promis echilibru, dar adesea au devenit neîndemânatici. Stivele de planificare care au conectat căutarea la LLM-uri au oferit speranțe timpurii, dar s-au prăbușit sub complexitate pe măsură ce sarcinile au crescut.
Progresele recente indică potențialul unor noi hibride. AlphaGeometry de la DeepMind, de exemplu, a demonstrat că structurile simbolice pot depăși modelele neuronale pure în probleme de geometrie. Abordarea CoreThink extinde această tendință. În pipeline-ul ARC-AGI, detectarea obiectelor deterministice și abstractizarea simbolică a pattern-urilor sunt combinate cu execuția neurală, producând rezultate mult dincolo de cele ale sistemelor LLM numai.
Diferența cheie este că General Symbolics nu se bazează pe logică rigidă sau reantrenare masivă. Prin raționament direct în limbaj, rămâne flexibil, păstrând în același timp interpretarea. Acest lucru îl face mai ușor decât hibrizii anteriori și, în mod crucial, practic pentru integrarea în aplicații enterprise.
De ce contează
Dacă lanțul de gândire este o iluzie a raționamentului, atunci industria inteligenței artificiale se confruntă cu o provocare presantă. Întreprinderile nu pot depinde de sisteme care par a raționa, mai ales în medii cu risc ridicat, precum medicina, dreptul și finanele. Lucrarea sugerează că progresul real va veni nu din scalarea modelelor mai departe, ci din reevaluarea fundațiilor raționamentului în sine.
General Symbolics este una dintre aceste fundații. Oferește un strat ușor și interpretabil care poate îmbunătăți modelele existente fără reantrenare, producând îmbunătățiri reale ale raționamentului, mai degrabă decât simple narative de suprafață. Pentru comunitatea mai largă a inteligenței artificiale, marchează o posibilă schimbare de paradigmă: o reîntoarcere a raționamentului simbolic, nu ca seturi de reguli fragile, ci ca un companion flexibil pentru învățarea neurală.
Așa cum spun autorii: „Nu avem nevoie să adăugăm mai multe parametri pentru a obține un raționament mai bun—trebuie să reevaluăm fundațiile.”












