Kunstig intelligens

Miragen om AI-resonnering: Hvorfor Chain-of-Thought måske ikke er, hvad vi tror

mm

Store sprogmodeller (LLMs) har imponeret os med deres evne til at bryde komplekse problemer ned i små skridt. Når vi beder LLMs om at løse et matematisk problem, viser de nu deres arbejde, hvor de går gennem hvert logisk skridt før de når frem til et svar. Denne tilgang, kaldet Chain-of-Thought (CoT)-resonnering, har gjort AI-systemer mere menneskelignende i deres tænkeproces. Men hvad hvis denne imponerende resonans-evne i virkeligheden er en illusion? Ny forskning fra Arizona State University foreslår, at det, der ligner ægte logisk tænkning, måske i virkeligheden er en sofistikeret mønster-genkendelses-teknik. I denne artikel vil vi udforske denne opdagelse og analysere dens implikationer for, hvordan vi designer, evaluerer og stoler på AI-systemer.

Problemet med den nuværende forståelse

Chain-of-thought-prompting er blevet en af de mest anerkendte fremskridt i AI-resonnering. Det giver mulighed for modeller at løse alt fra matematiske problemer til logiske puslespil ved at vise deres arbejde gennem mellemste skridt. Denne åbenlyse resonans-evne har ført til, at mange tror, at AI-systemer udvikler inferentielle evner, der ligner menneskelig tænkning. Imidlertid har forskere begyndt at sætte spørgsmålstegn ved denne tro.

I en ny studie observerede de, at når de blev bedt om at besvare spørgsmål som, om USA blev etableret i et skudår eller et normalt år, gav LLMs en inkonsistent besvarelse. Mens de korrekt identificerede årsagen til, at 1776 er deleligt med 4, og fastslog, at det var et skudår, konkluderede modellerne alligevel, at USA blev etableret i et normalt år. I dette tilfælde demonstrerede modellerne viden om reglerne og viste logiske skridt, men nåede til en modstridende konklusion.

Sådanne eksempler antyder, at der måske er en grundlæggende kløft mellem, hvad der ligner resonans, og ægte logisk slutning.

En ny vinkel på AI-resonnering

En nøgleinnovation i denne forskning er introduktionen af en “datafordelingslins” til at undersøge Chain-of-Thought (CoT)-resonnering. Forskerne formodede, at CoT er en avanceret mønster-genkendelses-teknik, der opererer på statistiske regelmæssigheder i træningsdata, snarere end ægte logisk slutning. Modellen genererer resonansveje, der approksimerer, hvad den har set før, snarere end at udføre logiske operationer.

For at teste denne hypotese oprettede forskerne DataAlchemy, en kontrolleret eksperimentel miljø. I stedet for at teste forudtrænede LLMs med deres komplekse træningshistorik trænede de mindre modeller fra scratch på omhyggeligt designede opgaver. Denne tilgang eliminerer kompleksiteten af storstiletræning og giver mulighed for systematisk testning af, hvordan distributionsændringer påvirker resonanspræstation.

Forskerne fokuserede på simple transformationsopgaver, der involverede sekvenser af bogstaver. For eksempel lærte de modeller at anvende operationer som rotation af bogstaver i alfabetet (A bliver N, B bliver O) eller skiftning af positioner i en sekvens (APPLE bliver EAPPL). Ved at kombinere disse operationer har forskerne oprettet multi-skridts resonans-kæder af varierende kompleksitet. Denne tilgang gav dem fordelene af præcision. De kan kontrollere nøjagtigt, hvad modellerne lærte under træning, og derefter teste, hvor godt de generaliserer til nye situationer. Denne niveau af kontrol er umulig med store kommercielle AI-systemer, der er trænet på massive, diverse datasæt.

Når AI-resonnering bryder sammen

Forskerne testede CoT-resonnering på tværs af tre kritiske dimensioner, hvor virkelige anvendelser måske adskiller sig fra træningsdata.

Opgavegeneralisering undersøgte, hvordan modeller håndterer nye problemer, de aldrig har mødt før. Når testet på transformationer, der var identiske med træningsdata, opnåede modellerne perfekt præstation. Imidlertid forårsagede små variationer dramatiske fejl i deres resonans-evne. Selv når de nye opgaver var sammensætninger af kendte operationer, fejlede modellerne at anvende deres lærede mønstre korrekt.

En af de mest bekymrende indsighter var, hvordan modeller ofte producerede resonansskridt, der var perfekt formateret og så logiske ud, men førte til forkerte svar. I nogle tilfælde producerede de korrekte svar gennem tilfældighed, mens de fulgte helt forkerte resonansveje. Disse fund antyder, at modellerne i virkeligheden matcher overflademønstre snarere end at forstå underliggende logik.

Længdegeneralisering testede, om modellerne kunne håndtere resonans-kæder, der var længere eller kortere end dem i træningsdata. Forskerne fandt, at modeller, der var trænet på længde 4, fuldstændigt fejlede, når de blev testet på længder 3 eller 5, på trods af, at disse var relativt mindre ændringer. Desuden ville modellerne forsøge at tvinge deres resonans ind i den kendte mønsterlængde ved at tilføje eller fjerne skridt på en upassende måde snarere end at tilpasse sig de nye krav.

Formatgeneralisering vurderede følsomheden over for overfladevariationer i, hvordan problemer præsenteres. Selv mindre ændringer som indsættelse af støjtoken eller let ændring af promptstrukturen forårsagede betydelig præstationsnedgang. Dette afslørede, hvor afhængige modellerne er af præcise formateringsmønstre fra træningsdata.

Det skrøbelige problem

På tværs af alle tre dimensioner afslørede forskningen en konsekvent mønster: CoT-resonnering fungerer godt, når den anvendes på data, der ligner trænings eksempler, men bliver skrøbelig og fejlbehæftet, selv under moderate distributionsændringer. Den åbenlyse resonans-evne er i virkeligheden en “skrøbelig mirage”, der forsvinder, når modellerne møder ukendte situationer.

Dette skrøbelighed kan manifestere sig på flere måder. Modeller kan producere flydende, velstrukturerede resonans-kæder, der er fuldstændigt forkerte. De kan følge perfekt logisk form, mens de mangler grundlæggende logiske forbindelser. Nogle gange producerer de korrekte svar gennem matematisk tilfældighed, mens de demonstrerer fejlbehæftede resonansprocesser.

Forskningen viste også, at overvåget finjustering på små mængder nye data hurtigt kan genskabe præstation, men dette udvider blot modellens mønster-genkendelses-repertoire snarere end udvikler ægte resonans-evner. Det er som at lære at løse en ny type matematisk problem ved at huske bestemte eksempler snarere end at forstå de underliggende matematiske principper.

Reale implikationer

Disse fund kan have alvorlige implikationer for, hvordan vi implementerer og stoler på AI-systemer. I højest stake-domæner som medicin, finans eller juridisk analyse kan evnen til at producere plausibelt lydende, men grundlæggende fejlbehæftet resonans, være mere farlig end simplet forkerte svar. Fremkomsten af logisk tænkning kan føre til, at brugere placerer uretfærdiget tillid til AI-konklusioner.

Forskningen foreslår flere vigtige retningslinjer for AI-praktikere. Først bør organisationer ikke behandle CoT som en universel løsning på problemer. Standardtesttilgange, der bruger data, der ligner trænings-sæt, er utilstrækkelige til at evaluere ægte resonans-evner. I stedet er rigorøs ud-af-distributions-testning essentiel for at forstå modellens begrænsninger.

Anden, modellernes tendens til at producere “flydende nonsens” kræver omhyggelig menneskelig overvågning, især i kritiske anvendelser. Den koherente struktur af AI-genererede resonans-kæder kan skjule grundlæggende logiske fejl, der måske ikke er øjeblikkeligt åbenlyse.

At se ud over mønster-genkendelse

Måske det vigtigste er, at denne forskning udfordrer AI-fællesskabet til at gå ud over overflade-niveau-forbedringer og udvikle systemer med ægte resonans-evner. Nuværende tilgange, der afhænger af at skala op data og parametre, kan ramme grundlæggende begrænsninger, hvis de primært er sofistikerede mønster-genkendelses-systemer.

Arbejdet formindsker ikke den praktiske nytte af nuværende AI-systemer. Mønster-genkendelse i stor skala kan være bemærkelsesværdigt effektiv for mange anvendelser. Imidlertid fremhæver det vigtigheden af at forstå den sande natur af disse evner snarere end at tilskrive menneske-lignende resonans, hvor ingen eksisterer.

Vejen frem

Denne forskning åbner vigtige spørgsmål om fremtiden for AI-resonnering. Hvis nuværende tilgange er fundamentalt begrænsede af deres træningsdistributioner, hvilke alternative tilgange kan føre til mere robuste resonans-evner? Hvordan kan vi udvikle evalueringmetoder, der kan skelne mellem mønster-genkendelse og ægte logisk slutning?

Forskningen fremhæver også vigtigheden af gennemsigtighed og korrekt evaluering i AI-udvikling. Da disse systemer bliver mere sofistikerede og deres output mere overbevisende, kan gapet mellem åbenlyse og virkelige evner blive stadig mere farligt, hvis det ikke forstås korrekt.

Bottom Line

Chain-of-Thought-resonnering i LLMs afspejler ofte mønster-genkendelse snarere end sand logik. Mens outputtet kan se overbevisende ud, kan det fejle under nye betingelser, hvilket rejser bekymringer for kritiske felter som medicin, jura og videnskab. Denne forskning understreger behovet for bedre testning og mere pålidelige tilgange til AI-resonnering.

Dr. Tehseen Zia er en fastansat lektor ved COMSATS University Islamabad, med en ph.d. i AI fra Vienna University of Technology, Østrig. Specialiseret i kunstig intelligens, maskinlæring, datavidenskab og computer vision, har han gjort betydelige bidrag med publikationer i anerkendte videnskabelige tidsskrifter. Dr. Tehseen har også ledet forskellige industrielle projekter som hovedundersøger og fungeret som AI-rådgiver.