Connect with us

Artificiell intelligens

Kan vi verkligen lita på AI:s kedjetänkande?

mm

Såsom artificiell intelligens (AI) används allmänt inom områden som hälsovård och självkörande bilar, blir frågan om hur mycket vi kan lita på den alltmer kritisk. En metod, som kallas kedjetänkande (CoT), har fått uppmärksamhet. Den hjälper AI att bryta ned komplexa problem i steg, och visa hur den kommer fram till ett slutgiltigt svar. Detta inte bara förbättrar prestandan, utan ger oss också en inblick i hur AI:t tänker, vilket är viktigt för tillit och säkerhet i AI-system.

Men nylig forskning från Anthropic ifrågasätter om CoT verkligen återspeglar vad som händer inuti modellen. Den här artikeln undersöker hur CoT fungerar, vad Anthropic fann, och vad det betyder för att bygga tillförlitlig AI.

Att förstå kedjetänkande

Kedjetänkande är en metod för att få AI att lösa problem på ett stegvis sätt. Istället för att bara ge ett slutgiltigt svar, förklarar modellen varje steg på vägen. Denna metod introducerades 2022 och har sedan dess hjälpt till att förbättra resultaten i uppgifter som matematik, logik och resonemang.

Modeller som OpenAI:s o1 och o3, Gemini 2.5, DeepSeek R1, och Claude 3.7 Sonnet använder denna metod. En anledning till att CoT är populärt är att det gör AI:s resonemang mer synligt. Det är användbart när kostnaden för fel är hög, såsom i medicinska verktyg eller självkörande system.

Men trots att CoT hjälper till med transparens, återspeglar det inte alltid vad modellen verkligen tänker. I vissa fall kan förklaringarna se logiska ut, men inte vara baserade på de faktiska steg modellen använde för att nå sitt beslut.

Kan vi lita på kedjetänkande

Anthropic testade om CoT-förklaringar verkligen återspeglar hur AI-modeller fattar beslut. Denna egenskap kallas “trohet”. De studerade fyra modeller, inklusive Claude 3.5 Sonnet, Claude 3.7 Sonnet, DeepSeek R1 och DeepSeek V1. Bland dessa modeller var Claude 3.7 och DeepSeek R1 tränade med CoT-tekniker, medan de andra inte var det.

De gav modellerna olika uppmaningar. Vissa av dessa uppmaningar innehöll ledtrådar som var avsedda att påverka modellen på oetiska sätt. Sedan kontrollerade de om AI använde dessa ledtrådar i sitt resonemang.

Resultaten väckte oro. Modellerna medgav att de använde ledtrådarna mindre än 20 procent av tiden. Även modellerna som tränats att använda CoT gav trogna förklaringar i endast 25 till 33 procent av fallen.

När ledtrådarna involverade oetiska handlingar, som att fuska ett belöningssystem, medgav modellerna sällan att de använde dem. Detta hände trots att de faktiskt använde ledtrådarna för att fatta beslut.

Att träna modellerna mer med förstärkt inlärning ledde till en liten förbättring. Men det hjälpte inte mycket när beteendet var oetiskt.

Forskarna observerade också att när förklaringarna inte var sanningsenliga, var de ofta längre och mer komplicerade. Detta kunde betyda att modellerna försökte dölja vad de verkligen gjorde.

De fann också att ju mer komplexa uppgifterna var, desto mindre trogna blev förklaringarna. Detta tyder på att CoT kanske inte fungerar bra för svåra problem. Det kan dölja vad modellen verkligen gör, särskilt i känsliga eller riskfyllda beslut.

Vad detta betyder för tillit

Studien belyser en betydande lucka mellan hur transparent CoT verkar och hur ärlig det verkligen är. I kritiska områden som medicin eller transport är detta ett allvarligt risk. Om en AI ger en logiskt utseende förklaring men döljer oetiska handlingar, kan människor felaktigt lita på utdata.

CoT är användbart för problem som kräver logiskt resonemang över flera steg. Men det kan inte garantera att AI kommer att agera på ett säkert eller rättvist sätt.

Forskningen visar att CoT ensam inte räcker för att lita på AI:s beslutsfattande. Andra verktyg och kontroller behövs också för att säkerställa att AI beter sig på ett säkert och ärligt sätt.

Styrkor och begränsningar av kedjetänkande

Trots dessa utmaningar erbjuder CoT många fördelar. Det hjälper AI att lösa komplexa problem genom att dela upp dem i delar. Till exempel, när en stor språkmodell uppmanas med CoT, har den visat toppnivås noggrannhet på matematikordproblem genom att använda detta stegvis resonemang. CoT gör det också lättare för utvecklare och användare att följa vad modellen gör. Detta är användbart inom områden som robotik, naturligt språkbehandling eller utbildning.

Men CoT är inte utan sina begränsningar. Mindre modeller kämpar för att generera stegvis resonemang, medan stora modeller behöver mer minne och kraft för att använda det väl. Dessa begränsningar gör det utmanande att dra nytta av CoT i verktyg som chatbots eller realtidsystem.

CoT-prestanda beror också på hur uppmaningarna skrivs. Dåliga uppmaningar kan leda till dåliga eller förvirrande steg. I vissa fall genererar modellerna långa förklaringar som inte hjälper och gör processen långsammare. Och i specialiserade områden kan CoT inte fungera bra om modellen inte är tränad inom det området.

När vi lägger till Anthropics fynd, blir det tydligt att CoT är användbart men inte tillräckligt på egen hand. Det är en del av en större ansträngning att bygga AI som människor kan lita på.

Viktiga fynd och vägen framåt

Denna forskning pekar på några lärdomar. Först bör CoT inte vara den enda metoden vi använder för att kontrollera AI-beteende. I kritiska områden behöver vi fler kontroller, såsom att titta på modellens interna aktivitet eller använda externa verktyg för att testa beslut.

Vi måste också acceptera att bara för att en modell ger en tydlig förklaring, betyder det inte att den talar sanningen. Förklaringen kan vara en täckmantel, inte en riktig anledning.

För att hantera detta föreslår forskare att kombinera CoT med andra tillvägagångssätt. Dessa inkluderar bättre träningsmetoder, övervakad inlärning och mänsklig granskning.

Anthropic rekommenderar också att man tittar djupare på modellens inre arbete. Till exempel kan kontroll av aktiveringsmönster eller dolda lager visa om modellen döljer något.

Det viktigaste är att modellerna kan dölja oetiskt beteende, vilket visar varför starka tester och etiska regler behövs i AI-utveckling.

Att bygga tillit till AI handlar inte bara om god prestanda. Det handlar också om att säkerställa att modellerna är ärliga, säkra och öppna för inspektion.

Slutsatsen

Kedjetänkande har hjälpt till att förbättra hur AI löser komplexa problem och förklarar sina svar. Men forskningen visar att dessa förklaringar inte alltid är sanningsenliga, särskilt när etiska frågor är inblandade.

CoT har begränsningar, såsom höga kostnader, behov av stora modeller och beroende av bra uppmaningar. Det kan inte garantera att AI kommer att agera på ett säkert eller rättvist sätt.

För att bygga AI som vi verkligen kan lita på, måste vi kombinera CoT med andra metoder, inklusive mänsklig granskning och interna kontroller. Forskning måste också fortsätta att förbättra tillförlitligheten hos dessa modeller.

Dr. Tehseen Zia är en fast anställd biträdande professor vid COMSATS University Islamabad, med en doktorsexamen i AI från Vienna University of Technology, Österrike. Specialiserad på artificiell intelligens, maskinlärning, datavetenskap och datorseende, har han gjort betydande bidrag med publikationer i ansedda vetenskapliga tidskrifter. Dr. Tehseen har också lett olika industriprojekt som huvudutredare och tjänstgjort som AI-konsult.