Følg os

Kunstig intelligens

LLM'er er ikke ræsonnerende - de er bare rigtig gode til at planlægge

mm

Store sprogmodeller (LLM'er) kan lide OpenAI's o3, Googles Gemini 2.0og DeepSeeks R1 har vist bemærkelsesværdige fremskridt med at tackle komplekse problemer, generere menneskelignende tekst og endda skrive kode med præcision. Disse avancerede LLM'er kaldes ofte "ræsonneringsmodeller" for deres bemærkelsesværdige evner til at analysere og løse komplekse problemer. Men gør disse modeller faktisk grund, eller er de bare usædvanligt gode til planlægning? Denne skelnen er subtil, men alligevel dyb, og den har store konsekvenser for, hvordan vi forstår mulighederne og begrænsningerne ved LLM'er.

For at forstå denne sondring, lad os sammenligne to scenarier:

  • Ræsonnement: En detektiv, der efterforsker en forbrydelse, skal sammensætte modstridende beviser, udlede, hvilke der er falske og nå frem til en konklusion baseret på begrænsede beviser. Denne proces involverer slutninger, opløsning af modsigelser og abstrakt tænkning.
  • Planlægning: En skakspiller, der beregner den bedste rækkefølge af træk for at skakmat deres modstander.

Mens begge processer involverer flere trin, engagerer detektiven sig i dybe ræsonnementer for at drage slutninger, evaluere modsigelser og anvende generelle principper til en specifik sag. Skakspilleren er på den anden side primært engageret i planlægning og udvælger en optimal rækkefølge af træk for at vinde spillet. LLM'er, som vi vil se, fungerer meget mere som skakspilleren end detektiven.

Forstå forskellen: ræsonnement vs. planlægning

For at indse, hvorfor LLM'er er gode til at planlægge i stedet for at ræsonnere, er det vigtigt først at forstå forskellen mellem begge udtryk. Ræsonnement er processen med at udlede nye konklusioner fra givne præmisser ved hjælp af logik og slutninger. Det involverer at identificere og korrigere uoverensstemmelser, generere ny indsigt i stedet for blot at give information, træffe beslutninger i tvetydige situationer og engagere sig i kausal forståelse og kontrafaktisk tænkning som "Hvad nu hvis?" scenarier.

Planlægning fokuserer på den anden side på at strukturere en række handlinger for at opnå et specifikt mål. Den er afhængig af at bryde komplekse opgaver op i mindre trin, følge kendte problemløsningsstrategier, tilpasse tidligere lærte mønstre til lignende problemer og udføre strukturerede sekvenser i stedet for at udlede ny indsigt. Mens både ræsonnement og planlægning involverer trin-for-trin bearbejdning, kræver ræsonnement dybere abstraktion og slutninger, hvorimod planlægning følger etablerede procedurer uden at generere fundamentalt ny viden.

Hvordan LLM'er nærmer sig "ræsonnement"

Moderne LLM'er, såsom OpenAI's o3 og DeepSeek-R1, er udstyret med en teknik, kendt som Chain-of-Thought (CoT) ræsonnement for at forbedre deres problemløsningsevner. Denne metode tilskynder modeller til at opdele problemer i mellemtrin og efterligne den måde, mennesker tænker et problem på logisk. For at se, hvordan det virker, overvej et simpelt matematisk problem:

Hvis en butik sælger æbler for 2 USD stykket, men tilbyder en rabat på 1 USD pr. æble, hvis du køber mere end 5 æbler, hvor meget ville 7 æbler så koste?

En typisk LLM, der bruger CoT-prompt, kan løse det sådan her:

  1. Bestem den almindelige pris: 7 * $2 = $14.
  2. Identificer, at rabatten gælder (da 7 > 5).
  3. Beregn rabatten: 7 * $1 = $7.
  4. Træk rabatten fra det samlede beløb: $14 – $7 = $7.

Ved eksplicit at udlægge en sekvens af trin minimerer modellen risikoen for fejl, der opstår ved at forsøge at forudsige et svar på én gang. Selvom denne trinvise opdeling får LLM'er til at ligne ræsonnement, er det i det væsentlige en form for struktureret problemløsning, ligesom at følge en trin-for-trin opskrift. På den anden side kan en sand begrundelsesproces genkende en generel regel: Hvis rabatten gælder ud over 5 æbler, koster hvert æble $1. Et menneske kan udlede en sådan regel med det samme, men en LLM kan ikke, da den blot følger en struktureret sekvens af beregninger.

Hvorfor tankekæde er planlægning, ikke ræsonnement

Mens Chain-of-Thought (CoT) har forbedret LLM'ers præstationer i logikorienterede opgaver som matematiske tekstproblemer og kodningsudfordringer, involverer det ikke ægte logisk ræsonnement. Dette skyldes, at CoT følger proceduremæssig viden og er afhængig af strukturerede trin i stedet for at generere nye indsigter. Det mangler en sand forståelse af kausalitet og abstrakte relationer, hvilket betyder, at modellen ikke engagerer sig i kontrafaktisk tænkning eller overvejer hypotetiske situationer, der kræver intuition ud over synlige data. Derudover kan CoT ikke fundamentalt ændre sin tilgang ud over de mønstre, det er blevet trænet i, hvilket begrænser dets evne til at ræsonnere kreativt eller tilpasse sig i ukendte scenarier.

Hvad skal der til for at LLM'er bliver sande ræsonnementmaskiner?

Så hvad har LLM'er brug for for virkelig at ræsonnere som mennesker? Her er nogle nøgleområder, hvor de kræver forbedring og potentielle tilgange for at opnå det:

  1. Symbolsk forståelse: Mennesker ræsonnerer ved at manipulere abstrakte symboler og relationer. LLM'er mangler imidlertid en ægte symbolsk ræsonnementmekanisme. Integrering af symbolsk AI eller hybridmodeller, der kombinerer neurale netværk med formelle logiske systemer, kunne forbedre deres evne til at engagere sig i ægte ræsonnement.
  2. Kausal slutning: Sand ræsonnement kræver forståelse af årsag og virkning, ikke kun statistiske sammenhænge. En model, der begrunder må udlede underliggende principper fra data i stedet for blot at forudsige det næste token. Forskning i kausal AI, som eksplicit modellerer årsag-og-virkning-forhold, kan hjælpe LLM'er med at gå fra planlægning til ræsonnement.
  3. Selv reflektion og Metakognition: Mennesker evaluerer konstant deres egne tankeprocesser ved at spørge "Gir denne konklusion mening?" LLM'er har på den anden side ikke en mekanisme til selvrefleksion. At bygge modeller, der kritisk kan evaluere deres egne output, ville være et skridt i retning af ægte ræsonnement.
  4. Sund fornuft og intuition: Selvom LLM'er har adgang til enorme mængder viden, kæmper de ofte med grundlæggende sund fornuft ræsonnement. Dette sker, fordi de ikke har erfaringer fra den virkelige verden til at forme deres intuition, og de kan ikke let genkende de absurditeter, som mennesker ville opfange med det samme. De mangler også en måde at bringe dynamik fra den virkelige verden ind i deres beslutningstagning. En måde at forbedre dette på kunne være ved at bygge en model med en fornuftsmotor, som kan involvere at integrere sanseinput fra den virkelige verden eller bruge vidensgrafer til at hjælpe modellen med bedre at forstå verden, som mennesker gør.
  5. Kontrafaktisk tænkning: Menneskelig ræsonnement involverer ofte spørgsmålet: "Hvad nu hvis tingene var anderledes?" LLM'er kæmper med den slags "hvad nu hvis"-scenarier, fordi de er begrænset af de data, de er blevet trænet i. For at modeller kan tænke mere som mennesker i disse situationer, skal de simulere hypotetiske scenarier og forstå, hvordan ændringer i variabler kan påvirke resultaterne. De skal også have en måde at teste forskellige muligheder og komme frem til nye indsigter i stedet for blot at forudsige baseret på det, de allerede har set. Uden disse evner kan LLM'er ikke rigtig forestille sig alternative fremtider – de kan kun arbejde med det, de har lært.

Konklusion

Selvom LLM'er kan synes at ræsonnere, bruger de faktisk planlægningsteknikker til at løse komplekse problemer. Uanset om de løser et matematisk problem eller udfører logisk deduktion, organiserer de primært kendte mønstre på en struktureret måde snarere end at have en dyb forståelse af principperne bag dem. Denne sondring er afgørende i AI-forskning, fordi hvis vi forveksler sofistikeret planlægning med ægte ræsonnement, risikerer vi at overvurdere AI's sande evner.

Vejen til sand ræsonnement AI vil kræve fundamentale fremskridt ud over symbolske forudsigelser og sandsynlighedsplanlægning. Det vil kræve gennembrud i symbolsk logik, kausal forståelse og metakognition. Indtil da vil LLM'er forblive kraftfulde værktøjer til struktureret problemløsning, men de vil ikke rigtig tænke på den måde, mennesker gør.

Dr. Tehseen Zia er fast lektor ved COMSATS University Islamabad og har en ph.d. i kunstig intelligens fra Wiens teknologiske universitet, Østrig. Med speciale i kunstig intelligens, maskinlæring, datavidenskab og computersyn har han ydet betydelige bidrag med publikationer i velrenommerede videnskabelige tidsskrifter. Dr. Tehseen har også ledet forskellige industrielle projekter som Principal Investigator og fungeret som AI-konsulent.