Andersons vinkel

Hvorfor kan AI ikke bare indrømme, at den ikke kender svaret?

mm
Flux1.D Pro, Flux Kontext Pro, Firefly V3.

Store sprogmodeller giver ofte selvbevidste svar, selv når spørgsmålet ikke kan besvares. Ny forskning viser, at disse modeller ofte internt erkender problemet, men alligevel fortsætter med at fremstille noget, der afslører en skjult kløft mellem, hvad de ved, og hvad de siger.

 

Enhver, der har brugt en rimelig mængde tid med en førende stor sprogmodel, såsom ChatGPT eller Qwen-serien, har oplevet situationer, hvor modellen giver et forkert svar (der måske eller måske ikke har haft nogen katastrofal lokal konsekvens, afhængigt af, hvor meget man har været afhængig af det) – og når fejlen blev klar, udgav den blot en undskyldning.

Hvorfor førende LLM’er har så stor svigt i at indrømme, at de ikke kender svaret på et spørgsmål, er et lille, men voksende forskningsområde. Et ‘selvbevidst forkert’ svar kan være særligt skadeligt fra et højt censureret og filteret API-baseret interface, såsom ChatGPT, fordi sådanne modeller aggressivt blokerer NSFW eller andre ‘regelkrænkende’ input eller output.

Dette kan give brugeren en falsk forestilling om, at modellen er afgørende og kardinal, når det i virkeligheden er afvist fra en traditionel heuristik eller filterbaseret filter designet til at begrænse værtselskabets juridiske eksponering på alle måder, ikke fra nogen indsigt fra AI.

Fra juni 2025 'AbstentionBench' papiret fra FAIR at Meta – til venstre, figuren fremhæver omfanget af fejltyper fanget i AbstentionBench, som tester modeladfærd på over 35.000 usvarlige spørgsmål; i midten, et eksempel viser, hvordan modellerne ofte responderer med fabrikerede svar i stedet for at indrømme, at de mangler nok information; og til højre, abstention recall falder, når modellerne er afstemt for resonans i stedet for instruktionsfølgen. Kilde: https://arxiv.org/pdf/2506.09038

Fra juni 2025 ‘AbstentionBench’ papiret fra FAIR at Meta – til venstre, figuren fremhæver omfanget af fejltyper fanget i AbstentionBench, som tester modeladfærd på over 35.000 usvarlige spørgsmål; i midten, et eksempel viser, hvordan modellerne ofte responderer med fabrikerede svar i stedet for at indrømme, at de mangler nok information; og til højre, abstention recall falder, når modellerne er afstemt for resonans i stedet for instruktionsfølgen. Kilde: https://arxiv.org/pdf/2506.09038

En ny artikel fra Kina påstår, at LLM-modeller faktisk hemmeligt ved, at de ikke kan besvare et spørgsmål, der er stillet af brugeren, men at de alligevel er tvunget til at fremstille et svar, det meste af tiden, i stedet for at have nok tillid til at beslutte, at et gyldigt svar ikke er tilgængeligt på grund af mangel på information fra brugeren eller modellens begrænsninger eller af andre årsager.

Artiklen fastslår:

‘[Vi] viser, at [LLM’er] besidder tilstrækkelige kognitive evner til at erkende fejlene i disse spørgsmål. Men de lykkes ikke med at udvise passende afholdenhed, hvilket afslører en misligning mellem deres interne kognition og eksterne respons.’

Forskerne har udviklet en letvægts to-trins tilgang, der bruger kognitiv overvågning/sondering til at skanne LLM’ens interne proces for tegn på, at den erkender, at den ikke kan levere et svar; og derefter griber ind, for at sikre, at modellens ‘hjælpsomme’ natur ikke forværres brugerens problemer ved at føre dem ned ad en blind eller endda destruktiv vej.

Studiet bruger bevidst underbestemte matematiske spørgsmål til at teste, om modeller kan erkende, når et svar er ukendt; men denne opsætning risikerer at fremstille opgaven som en ‘trick’. I virkeligheden står modeller over for langt mere rutinemæssige årsager til at afholde sig, fra tvetydig formulering til huller i domæneviden.

Den nye artikel har titlen At svare på det usvarlige er at fejle bevidst: Analyse og afhjælpning af afholdenhedsfejl i store resonansmodeller og kommer fra fire forskere på tværs af State Key Laboratory for Novel Software Technology og National Institute of Healthcare Data Science på Nanjing University.

Metode

(Da der ikke er nogen passende rivaler til at pit imod forfatternes tilgang i tests, og da artiklen følger en lidt usædvanlig format, samt ikke indexerer citeringer til den sædvanlige standard, vil vi forsøge at følge det så godt som muligt.)

I overensstemmelse med tidligere tilgange, fokuserede forfatterne på at præsentere LLM’er med usvarlige matematiske spørgsmål fra Synthetic Unanswerable Math (SUM) dataset, hvor de evaluerede fem model-familier:  Fra DeepSeek rækken, R1-Distill-Llama-8B; R1-Distill-Qwen-7B, R1-Distill-Qwen-14B; og fra Qwen serien, Qwen3-8B, samt Qwen3-14B.

De usvarlige problemer i SUM blev oprettet ved at fjerne eller korrumperede essentielle elementer på fem måder: slette nøgleinformation; introducere tvetydighed; påføre urealistiske betingelser; henvisning til ikke-relaterede objekter; eller fjerne spørgsmålet helt.

Derefter blev et udvalg på 1.000 sådanne tilfælde valgt til analyse, med GPT-4o brugt til at generere korte forklaringer som grund-sandheder.

Modellernes svar på usvarlige spørgsmål blev evaluerede ved hjælp af standardiserede prompts med en 10.000-token budget, under hvilken tre hovedadfærdsmønstre blev observeret: i den første, modellen identificerede spørgsmålet som uløseligt og afholdt sig – typisk responderende med en ekspllicit udtryk for usikkerhed; i den anden, den producerede et komplet svar ved at opfinde manglende information, såsom introduktion af en ikke-eksisterende $9,99 håndtering af for at retfærdiggøre en slutresultat (se billedet nedenfor); I den tredje, kaldet kognitiv fastlåsning, modellen blev fanget i en udvidet resonansløkke, persistere med ugyldige løsningsveje, selv efter implicit at have erkendt, at spørgsmålet manglede en livskraftig løsning:

Forskellige responsudfald til et umuligt spørgsmål.

Forskellige responsudfald til et umuligt spørgsmål.

Artiklen præsenterer en tendens, hvor større modeller synes at afholde sig mere hyppigt fra at svare på usvarlige spørgsmål, med fald i både hallucinerede svar og fastlåsningsadfærd:

Opdeling af modellernes svar på usvarlige matematiske problemer, der viser den relative hyppighed af korrekte afholdenheder, hallucinerede svar og kognitiv fastlåsning på tværs af forskellige modellskalaer.

Opdeling af modellernes svar på usvarlige matematiske problemer, der viser den relative hyppighed af korrekte afholdenheder, hallucinerede svar og kognitiv fastlåsning på tværs af forskellige modellskalaer.

Men denne skift er begrænset i omfang, og efterlader en betydelig del af tilfælde uløste gennem korrekt afholdenhed, hvilket antyder, at øget kapacitet alene ikke pålideligt producerer mere forsigtig adfærd.

Bevidsthed om pat

For at teste, om sprogmodeller kan fornemme, når et spørgsmål faktisk ikke har noget svar, afbrød forskerne modellens resonansdel midtvejs og bad enten om et endeligt svar eller en forklaring på hvorfor spørgsmålet var usvarligt.

For tilfælde, hvor modellen fortsatte med at resonere uendeligt, stoppede de den ved ordet ‘vent’, og bad om en respons; for tilfælde, hvor modellen hurtigt hallucinerede et svar, indsattes en pause ved en afgrænsning.

Den venstre figur viser, hvor ofte modellerne giver korrekte afholdenheder, når de afbrydes midt i resonansen, med højere hyppighed for fastlåsnings tilfælde end for hallucinerede svar. Den højre figur viser, at de fleste modeller kan forklare, hvorfor et spørgsmål er usvarligt, når de bliver bedt om det, selv om deres endelige svar ikke reflekterer denne forståelse.

Den venstre figur viser, hvor ofte modellerne giver korrekte afholdenheder, når de afbrydes midt i resonansen, med højere hyppighed for fastlåsnings tilfælde end for hallucinerede svar. Den højre figur viser, at de fleste modeller kan forklare, hvorfor et spørgsmål er usvarligt, når de bliver bedt om det, selv om deres endelige svar ikke reflekterer denne forståelse.

I mange af disse tilfælde gav modellen en korrekt afholdenhed eller en klar forklaring, selv om den tidligere havde produceret et forkert svar. Forfatterne mener, at dette indikerer, at modellen ofte erkender problemet under sin resonans, men ikke handler på denne erkendelse i sin endelige output.

At læse tanker i en LLM

For at teste, om sprogmodeller internt sporer, om et spørgsmål kan besvares, trænede forskerne små klassificatorer på modellernes skjulte aktiveringer under resonans, hvilket tillod dem at kontrollere, om forskellen mellem svarlige og usvarlige spørgsmål allerede var til stede i modellens interne signaler – selv om det ikke blev reflekteret i dens endelige output.

Bygget på idéen om, at højtniveau koncepter såsom sandhed eller køn kan lineært indlejres i modelaktiveringer, blev ‘svarlighed’* testet for lignende repræsentation.

Simple lineære klassificatorer (sonder) blev trænet på skjulte aktiveringer på tværs af forskellige modelllag, ved hjælp af output fra multi-head attention mekanismen lige før den residuelle forbindelse.

Hver sonde blev trænet til at skelne mellem svarlige og usvarlige spørgsmål, baseret på interne aktiveringer fra resonansprocessen. Input bestod af 2.200 spørgsmålpar, der blev samplet fra SUM-datasættet, med 2.000 brugt til træning og 200 til validering.

Ved inferens tidspunkt blev modellens forudsigelse gennemsnittet over de tokens, der blev set indtil dette punkt i resonanssekvensen, hvilket tillod sonden at spore, hvordan svarlighedsrelaterede signaler opstod over tid:

Klassificeringsnøjagtighed af lineære sonder trænet til at skelne mellem svarlige og usvarlige spørgsmål, målt på forskellige punkter i resonansprocessen. Nøjagtigheden forbedres generelt, efterhånden som resonansen skrider frem, med større modeller, der når over 85% i de endelige faser.

Klassificeringsnøjagtighed af lineære sonder trænet til at skelne mellem svarlige og usvarlige spørgsmål, målt på forskellige punkter i resonansprocessen. Nøjagtigheden forbedres generelt, efterhånden som resonansen skrider frem, med større modeller, der når over 85% i de endelige faser.

Som vist ovenfor forbedres sondens nøjagtighed stadigt, efterhånden som resonansen skrider frem, med de fleste modeller, der overstiger 80% klassificeringsnøjagtighed ved de endelige trin – et bevis på, at selv når modellens ydre adfærd ikke reflekterer det, bærer interne repræsentationer ofte et klart signal, der indikerer, om et spørgsmål kan besvares.

Stædigt insisteren

Selv om tidligere resultater antyder, at store sprogmodeller ofte erkender, når et spørgsmål ikke kan besvares, påstår artiklen, at de alligevel har tendens til at fortsætte med at generere et svar i stedet for at vælge at afholde sig.

For at undersøge denne misligning analyserede forskerne modellernes tillid til at afholde sig på bestemte punkter under resonansprocessen, sammenlignende modellens tillid på tværs af tre kategorier af output: korrekt afholdenhed; hallucineret svar; og kognitiv fastlåsning.

Lige store prøver blev brugt til hver kategori, med tillid defineret som gennemsnittet af den maksimale sandsynlighed, der blev tildelt hver output-token over afkodnings trin, baseret på en formel fra tidligere arbejde. Som vist i grafen nedenfor, viste både hallucinerede svar og kognitiv fastlåsning lavere afholdenhedstilid i forhold til korrekt afholdenhed:

Tillidsniveauer forbundet med at producere afholdenhedsresponsen 'Jeg ved ikke' over forskellige responstyper.

Tillidsniveauer forbundet med at producere afholdenhedsresponsen ‘Jeg ved ikke’ over forskellige responstyper.

Forskerne målte også, hvor ofte modellerne producerede en ‘Jeg ved ikke’ respons under resonansprocessen. Grafen nedenfor viser, at korrekte afholdenhedstilfælde resulterede i højere afholdenhedsfrekvens, mens de to andre kategorier producerede sådanne responser mindre hyppigt:

Hyppigheden af 'Jeg ved ikke' responser observeret ved stoppunkter under resonans, vist for forskellige responstyper.

Hyppigheden af ‘Jeg ved ikke’ responser observeret ved stoppunkter under resonans, vist for forskellige responstyper.

Disse fund antyder, ifølge forfatterne, at selv om modeller kan erkende usvarlighed internt, mangler de ofte tilliden til at handle på denne erkendelse, hvilket indikerer en vedvarende præference for at fuldføre opgaven i stedet for at indrømme usikkerhed.

Tests

Bygget på disse fund udviklede forskerne en to-del metode designet til at forbedre afholdenhed. Den første fase, kognitiv overvågning, sporer modellens skjulte tilstande under inferens, opdeler modellens resonansproces i naturlige enheder såsom klausuler eller pauser, markeret med ord som ‘vent’.

Ved slutningen af hver enhed estimerer en letvægts, lineær sonde trænet på interne signaler forbundet med svarlighed sandsynligheden for, at spørgsmålet ikke kan besvares. Hvis denne sandsynlighed overskrider en fastsat grænse, går processen videre til den anden fase: en inferenstidsintervention, der styre modellen mod at afholde sig i stedet for at hallucinere en respons.

Når modellen viser interne tegn på, at et spørgsmål ikke kan besvares, afbrydes resonansen med en intervention, der forstærker denne erkendelse og øger sandsynligheden for afholdenhed. Som vist nedenfor repræsenterer interventionen en ‘vejledningsprompt’, der minder modellen om, at spørgsmålet måske mangler et gyldigt svar:

En prompt til at betinge inferenstidsintervention.

En prompt til at betinge inferenstidsintervention.

Metoden inkluderer også en tidlig exit-mekanisme, der forhindrer, at resonanssekvensen fortsætter unødvendigt, og opmuntrer modellen til at se afholdenhed som en legitim og undertiden foretrukken valg.

Til en testfase brugte forskerne to datasæt: Unanswerable Math Word Problem (UMWP) og det ovenfor nævnte SUM.

SUM’s test-sæt blev brugt til dette formål, indeholdende 284 usvarlige og 284 svarlige manuelt kontrollerede spørgsmål.  UMWP blev konstrueret fra fire matematiske ordproblemkilder: SVAMP; MultiArith; Grade School Math (GSM8K); og ASDiv.

Den fulde datasæt bestod af 5.200 problemer, med 600 samplet til test, opdelt ligeligt mellem usvarlige og svarlige spørgsmål. For de usvarlige punkter i UMWP genererede GPT-4o grund-sandhederne for, hvorfor de ikke kunne løses.

Metrikker

Modellernes præstation blev målt ved hjælp af fire metrikker: afholdenhedsrate,  andelen af usvarlige spørgsmål, hvor modellen korrekt afholder sig ved at svare “Jeg ved ikke”, som instrueret; grundnøjagtighed, procentdelen af usvarlige spørgsmål, hvor modellen giver en gyldig forklaring på, hvorfor spørgsmålet ikke kan løses; tokenbrug, detaljer om antallet af tokens genereret under resonans; og svarnøjagtighed, andelen af svarlige spørgsmål, hvor modellen producerer den korrekte endelige løsning.

Testbaser

Da der ikke findes standardbaser for dette problem, sammenlignede forskerne deres metode med to alternativer, Dynasor-CoT og Dynamic Early Exit in Reasoning Models (DEER), under antagelse af, at korrekt afholdenhed burde behandles som det rigtige svar, når et spørgsmål ikke har en løsning.

Dynasor-CoT beder modellerne om at producere mellemregninger og stopper, når det samme resultat vises tre gange i træk, mens DEER overvåger tillid på sætningsniveau og stopper resonansen, når en grænse nås.

En tredje baseline, kaldet Vanilla, refererer til umodificerede modelloutput. Testene anvendte de ovenfor nævnte fem Qwen og DeepSeek varianter.

De samlede resultater vises nedenfor:

Sammenligning af forskellige metoder på svarlige og usvarlige spørgsmål på tværs af store resonansmodeller, med de højeste værdier i hver kolonne vist i fed.

Sammenligning af forskellige metoder på svarlige og usvarlige spørgsmål på tværs af store resonansmodeller, med de højeste værdier i hver kolonne vist i fed. Se kildeartiklen for bedre opløsning.

Den nye tilgang producerede de højeste rater af afholdenhed og præcis resonans på usvarlige spørgsmål.  For svarlige spørgsmål forblev nøjagtigheden tæt på den for de rene modeller og forbedredes undertiden, hvilket antyder, at normal problemløsning ikke blev skadet.

Tokenbrug faldt med 30% til 50% på usvarlige tilfælde og faldt lidt på svarlige tilfælde, hvilket pegede på større effektivitet.

En sammenhæng blev også observeret mellem afholdenhedsrate og grundnøjagtighed, da modeller, der afholdt sig oftere, også gav bedre forklaringer, hvilket forfatterne tolker som en forbedring af resonanskvalitet.

Qwen3-modellerne overgik generelt de distillerede (kvantificerede) versioner, mens større modeller viste stærkere afholdenhedsevne, hvilket antyder, at både arkitektur og skala er vigtige for pålidelig usvarlighedsdetektion.

Til sidst rapporterer forfatterne, at deres nye metode reducerer hallucinationer og fastlåsning, samtidig med at den øger raterne af korrekte afholdenheder, hvorimod baseline-tilgange, der kun afhænger af ‘tidlige exit’, undertiden kan føre til flere hallucinerede svar.

De rapporterer også gevinster i både tillid og hyppighed af “Jeg ved ikke” responser, med overvågning baseret på latente signaler, der viser sig mere effektiv end strategier, der afhænger af adfærdsrelaterede tegn.

Konklusion

LLM’ernes manglende evne til at afholde sig fra at svare på et spørgsmål, hvor nødvendigt, er et af de største gnidningspunkter i den generative AI-brugeroplevelse, ikke mindst fordi andre ejendommeligheder ved interfacet giver brugeren illusionen om, at AI’en er i stand til omhyggelige svar, når – i hvert fald for øjeblikket – det som regel ikke er tilfældet.

En bekymring ved enhver direkte form for intervention, der ikke følger direkte fra modellens ‘karakter’, er, at den kan være over- eller underbrugt, afhængigt af, om de detekterede aktiveringer faktisk er relevante for, at modellen giver op.

Dertil kommer, at den logistiske omkostning ved lineær sondeovervågning sandsynligvis ikke er ubetydelig, og det er muligt, at enklere heuristiske metoder, lignende dem, der gate-keeper censureret indhold fra brugere, måske kan være en billigere løsning, hvis anchor-udløserne kan defineres tilstrækkeligt.

 

* Naturligvis er dette ikke i overensstemmelse med den åbenlyse synonym ‘ansvarlighed’, men definerer i stedet, om et bestemt spørgsmål overhovedet kan besvares.

Først udgivet onsdag, 27. august 2025

Forfatter til maskinlæring, domæne-specialist i menneskesynthese af billeder. Tidligere leder af forskningsindhold på Metaphysic.ai.