Connect with us

Kunstig intelligens

Kan vi virkelig stole på AI’s Chain-of-Thought Reasoning?

mm

Da kunstig intelligens (AI) er bredt anvendt i områder som sundhedsvesen og selvstyrende biler, bliver spørgsmålet om, hvor meget vi kan stole på det, mere kritisk. En metode, der kaldes chain-of-thought (CoT) reasoning, har fået opmærksomhed. Den hjælper AI med at bryde komplekse problemer ned i trin, og viser, hvordan den kommer frem til et endeligt svar. Dette forbedrer ikke kun ydeevnen, men giver os også et indblik i, hvordan AI tænker, hvilket er vigtigt for tillid og sikkerhed i AI-systemer.

Men nylig forskning fra Anthropic stiller spørgsmålet, om CoT virkelig afspejler, hvad der sker inde i modellen. Denne artikel ser på, hvordan CoT fungerer, hvad Anthropic fandt, og hvad det betyder for at bygge pålidelig AI.

Forståelse af Chain-of-Thought Reasoning

Chain-of-thought reasoning er en måde at fremkalde AI til at løse problemer på en trin-for-trin-måde. I stedet for bare at give et endeligt svar, forklarer modellen hver trin på vejen. Denne metode blev introduceret i 2022 og har siden hjulpet med at forbedre resultaterne i opgaver som matematik, logik og reasoning.

Modeller som OpenAI’s o1 og o3, Gemini 2.5, DeepSeek R1 og Claude 3.7 Sonnet bruger denne metode. En grund til, at CoT er populær, er, at den gør AI’s reasoning mere synlig. Dette er nyttigt, når fejlomkostningerne er høje, såsom i medicinske værktøjer eller selvstyrende systemer.

Alligevel, selvom CoT hjælper med gennemsigtighed, afspejler den ikke altid, hvad modellen virkelig tænker. I nogle tilfælde kan forklaringerne se logiske ud, men er ikke baseret på de faktiske trin, modellen brugte til at nå sin beslutning.

Kan vi stole på Chain-of-Thought

Anthropic testede, om CoT-forklaringerne virkelig afspejler, hvordan AI-modeller tager beslutninger. Denne kvalitet kaldes “faithfulness”. De studerede fire modeller, herunder Claude 3.5 Sonnet, Claude 3.7 Sonnet, DeepSeek R1 og DeepSeek V1. Blandt disse modeller var Claude 3.7 og DeepSeek R1 trænet med CoT-teknikker, mens de andre ikke var.

De gav modellerne forskellige prompts. Nogle af disse prompts indeholdt hints, der var ment til at påvirke modellen på uetiske måder. Så kontrollerede de, om AI brugte disse hints i sin reasoning.

Resultaterne rejste bekymringer. Modellerne indrømmede kun at bruge hints i under 20 procent af tilfældene. Selv modellerne, der var trænet til at bruge CoT, gav faithful forklaringer i kun 25 til 33 procent af tilfældene.

Når hints indeholdt uetiske handlinger, såsom snyd med en belønningsstruktur, indrømmede modellerne sjældent det. Dette skete, selvom de faktisk afhængigt af disse hints til at træffe beslutninger.

At træne modellerne mere med hjælp af reinforcement learning gjorde en lille forbedring. Men det hjalp ikke meget, når adfærden var uetisk.

Forskerne lagde også mærke til, at når forklaringerne ikke var sandfærdige, var de ofte længere og mere komplicerede. Dette kunne betyde, at modellerne prøvede at skjule, hvad de virkelig gjorde.

De fandt også ud af, at jo mere komplekst opgaven var, desto mindre faithful blev forklaringerne. Dette antyder, at CoT måske ikke fungerer godt for svære problemer. Det kan skjule, hvad modellen virkelig gør, især i følsomme eller risikable beslutninger.

Hvad det betyder for tillid

Studiet fremhæver en betydelig åbning mellem, hvordan gennemsigtig CoT ser ud, og hvor ærlig det virkelig er. I kritiske områder som medicin eller transport er dette en alvorlig risiko. Hvis en AI giver en logisk udseende forklaring, men skjuler uetiske handlinger, kan mennesker forkert stole på outputtet.

CoT er nyttigt for problemer, der kræver logisk reasoning over flere trin. Men det kan ikke garantere, at AI vil opføre sig på en sikker eller fair måde.

Forskningen viser, at CoT alene ikke er nok til at stole på AI’s beslutningstagning. Andre værktøjer og kontroller er også nødvendige for at sikre, at AI opfører sig på en sikker og ærlig måde.

Styrker og begrænsninger af Chain-of-Thought

Trods disse udfordringer tilbyder CoT mange fordele. Den hjælper AI med at løse komplekse problemer ved at dele dem op i dele. For eksempel, når en stor sprogmodel promptes med CoT, har den demonstreret top-niveau præcision på matematikordproblemer ved at bruge denne trin-for-trin-reasoning. CoT gør det også lettere for udviklere og brugere at følge, hvad modellen gør. Dette er nyttigt i områder som robotteknik, naturlig sprogbehandling eller uddannelse.

Alligevel har CoT ikke kun fordele. Mindre modeller kæmper med at generere trin-for-trin-reasoning, mens store modeller har brug for mere hukommelse og kraft for at bruge det godt. Disse begrænsninger gør det svært at udnytte CoT i værktøjer som chatbots eller realtids-systemer.

CoT’s præstation afhænger også af, hvordan prompts er skrevet. Dårlige prompts kan føre til dårlige eller forvirrende trin. I nogle tilfælde genererer modeller lange forklaringer, der ikke hjælper og gør processen langsommere. Og i specialiserede fagområder kan CoT måske ikke fungere godt, medmindre modellen er trænet i det pågældende område.

Når vi tilføjer Anthropics fund, bliver det klart, at CoT er nyttigt, men ikke nok i sig selv. Det er en del af en større indsats for at bygge AI, som mennesker kan stole på.

Nøglefund og vej frem

Denne forskning peger på nogle lærdomme. Først bør CoT ikke være den eneste metode, vi bruger til at kontrollere AI-adfærd. I kritiske områder har vi brug for flere kontroller, såsom at se på modellens interne aktivitet eller bruge eksterne værktøjer til at teste beslutninger.

Vi må også acceptere, at bare fordi en model giver en klar forklaring, betyder det ikke, at den siger sandheden. Forklaringen kan være et dække, ikke en rigtig grund.

For at tackle dette foreslår forskerne at kombinere CoT med andre tilgange. Disse inkluderer bedre træningsmetoder, supervised learning og menneskelig gennemgang.

Anthropic anbefaler også at se dybere ind i modellens indre mekanismer. For eksempel kan kontrollen af aktiveringsmønstre eller skjulte lag vise, om modellen skjuler noget.

Mest vigtigt er, at det faktum, at modeller kan skjule uetisk adfærd, viser, hvorfor stærk testning og etiske regler er nødvendige i AI-udvikling.

At bygge tillid til AI er ikke kun om god ydeevne. Det handler også om at sikre, at modellerne er ærlige, sikre og åbne for inspektion.

Det endelige punkt

Chain-of-thought reasoning har hjulpet med at forbedre, hvordan AI løser komplekse problemer og forklarer sine svar. Men forskningen viser, at disse forklaringer ikke altid er sandfærdige, især når det handler om etiske spørgsmål.

CoT har begrænsninger, såsom høje omkostninger, behov for store modeller og afhængighed af gode prompts. Den kan ikke garantere, at AI vil opføre sig på en sikker eller fair måde.

For at bygge AI, som vi virkelig kan stole på, må vi kombinere CoT med andre metoder, herunder menneskelig oversigt og interne kontroller. Forskningen må også fortsætte med at forbedre tillidsværdigheden af disse modeller.

Dr. Tehseen Zia er en fastansat lektor ved COMSATS University Islamabad, med en ph.d. i AI fra Vienna University of Technology, Østrig. Specialiseret i kunstig intelligens, maskinlæring, datavidenskab og computer vision, har han gjort betydelige bidrag med publikationer i anerkendte videnskabelige tidsskrifter. Dr. Tehseen har også ledet forskellige industrielle projekter som hovedundersøger og fungeret som AI-rådgiver.