Andersons vinkel
Hvorfor Kan AI Ikke Bare Indrømme, At Den Ikke Kender Svaret?

Store sprogmodeller giver ofte selvbevidste svar, selv når spørgsmålet ikke kan besvares. Ny forskning viser, at disse modeller ofte internt erkender problemet, men alligevel fortsætter med at finde på noget, og afslører en skjult kløft mellem, hvad de ved, og hvad de siger.
Enhver, der har brugt en rimelig mængde tid med en førende stor sprogmodel, såsom ChatGPT eller Qwen-serien, har oplevet situationer, hvor modellen giver et forkert svar (der måske eller måske ikke har haft nogen katastrofale lokale konsekvenser, afhængigt af, hvor meget man har været afhængig af det) – og, når fejlen blev åbenbar, udstedte den blot en undskyldning.
Hvorfor førende LLM’er har så svært ved at indrømme, at de ikke kender svaret på et spørgsmål, er et lille, men voksende forskningsområde. Et ‘selvbevidst forkert’ svar kan være særligt skadeligt fra et højt censureret og filteret API-baseret interface, såsom ChatGPT, fordi sådanne modeller aggressivt blokerer NSFW eller andre ‘regelkrænkende’ input eller output.
Dette kan give brugeren den falske illusion, at modellen er afgørende og kardinal, når det i virkeligheden er afvist af en traditionel heuristisk eller filterbaseret filter, der er designet til at begrænse værtselskabets juridiske eksponering på alle omkostninger, og ikke af nogen indsigt fra AI.

Fra juni 2025 ‘AbstentionBench’ papiret fra FAIR at Meta – til venstre, figuren fremhæver omfanget af fejltyper, der er fanget i AbstentionBench, som tester modeladfærd på over 35.000 usvarlige spørgsmål; i midten, viser et eksempel, hvordan modellerne ofte responderer med fabrikerede svar i stedet for at indrømme, at de mangler tilstrækkelig information; og til højre, abstention recall falder, når modellerne er afstemt for resonnering i stedet for instruktionsfølgen. Kilde: https://arxiv.org/pdf/2506.09038
En ny artikel fra Kina påstår, at LLM-modellerne faktisk hemmeligt ved, at de ikke kan besvare et spørgsmål, der er stillet af brugeren, men at de alligevel er tvunget til at producere et eller andet svar, det meste af tiden, i stedet for at have nok tillid til at beslutte, at et gyldigt svar ikke er tilgængeligt på grund af mangel på information fra brugeren eller modellens begrænsninger eller af andre årsager.










