Andersons vinkel

Hvorfor kan AI ikke bare innrømme at den ikke vet svaret?

Published August 27, 2025

Updated April 2, 2026

Martin Anderson

Flux1.D Pro, Flux Kontext Pro, Firefly V3.

Store språkmodeller gir ofte selvbevisste svar selv når spørsmålet ikke kan besvares. Ny forskning viser at disse modellene ofte erkjenner problemet internt, men likevel går videre og finner på noe, og avslører en skjult gap mellom hva de vet og hva de sier.

Enhver som har tilbragt en rimelig mengde tid med en ledende stor språkmodell som ChatGPT eller Qwen-serien, vil ha opplevd situasjoner der modellen gir et feil svar (som kan ha hatt noen katastrofale lokale konsekvenser, avhengig av hvor mye du har litet på det) – og, når feilen ble klar, utstedte den bare en unnskyldning.

Hvorfor ledende LLMer har så store vanskeligheter med å innrømme at de ikke vet svaret på et spørsmål, er et litt, men voksende forskningsområde. Et ‘selvbevisst feil’ svar kan være særlig skadelig fra et høyt sensurert og filtert API-basert grensesnitt som ChatGPT, fordi slike modeller aggressivt blokkerer NSFW eller andre ‘regelbrudd’ inn- eller utdata.

Dette kan gi en bruker en feil impresjon av at modellen er avgjørende og kardinal, når det i virkeligheten er et tradisjonelt heuristisk eller filterbasert filter designet for å begrense vertselskapets juridiske eksponering til enhver pris, ikke fra noen innsikt fra AI.

Fra juni 2025 ‘AbstentionBench’ papir fra FAIR ved Meta – til venstre, figuren fremhever rekken av feiltype som er fanget i AbstentionBench, som tester modelladfærd på over 35 000 usvarbare spørsmål; i midten, et eksempel viser hvordan modellene ofte responderer med fabrikkerte svar i stedet for å innrømme at de mangler nok informasjon; og på høyre side, avholdelse gjentakelse går ned når modellene er justert for resonnering i stedet for instruksjonsfølging. Kilde: https://arxiv.org/pdf/2506.09038

En ny artikkel fra Kina hevder at LLM-modellene faktisk hemmelig vet at de ikke kan svare på et spørsmål stilt av brukeren, men at de likevel er tvunget til å produsere noen slags svar, mesteparten av tiden, i stedet for å ha nok tillit til å bestemme at et gyldig svar ikke er tilgjengelig på grunn av mangel på informasjon fra brukeren, eller begrensningene i modellen, eller av andre grunner.