Andersons vinkel

ChatGPT-5 og Gemini 2.5 hallucinerer i 40% af testede nyhedsredaktionsspørgsmål

Published October 1, 2025

Updated May 17, 2026

Martin Anderson

A robot journalist in a retro newsroom. SDXL, Flux Kontext Pro, Firefly 3, et al.

En ny undersøgelse viser, at ChatGPT-5 og Google Gemini producerer hallucinationer i 40% af nyhedsredaktionsspørgsmål, ofte opfinder selvbevidste påstande, der ikke er underbygget af verificerbare kendsgerninger. Google’s NotebookLM klarer sig bedre med kun 13% – en rate, der ville få enhver journalist i verden fyret. Undersøgelsen fandt, at modellerne ofte forvrængede kilder ved at omdanne meninger til kendsgerninger og ved at fjerne tilskrivning, hvilket gør dem til risikable værktøjer til journalistik. Forfatterne opfordrer til bedre, dedikeret værktøjer til disse opgaver.

Store sprogmodeller har set en hurtig tilpasning til journalistik i nyere tid, i arbejdspladsmiljøer, der i forvejen har været beskæftiget med at reducere omkostninger, budgetter og personale siden digital journalistik kollapsede to århundreders tradition i en uafvendelig proces, der begyndte i starten af 2000’erne.

I virkeligheden var terrænet allerede modtageligt, da medierne var blevet vant til at reducere job gennem ‘innovation’ siden mindst introduktionen af digital typesætning i 1980’erne, samt tidligere udfordringer fra radiens og tv.

AI’s ubønhørlige vej ind i redaktioner og mediehus har ikke været uden tilbageslag; i en kontekst, hvor 55% af virksomheder nu fortryder at erstatte mennesker med AI, og hvor Gartner forudser, at organisationer vil skære kraftigt tilbage på deres AI-tilpasningsplaner inden for to år, har en række mediehus genansat journalister, der var blevet erstattet af AI, da maskinlæringsalternativerne ofte viste sig at være utilstrækkelige og pinlige.

Fejl er ikke kun menneskeligt

Selvom hallucinationer har vist sig at være et stort problem i fag, hvor præcis citering er afgørende (med bemærkelsesværdig offentlig opmærksomhed på AI-fejl i retten, forskning og journalistik), viser en ny amerikansk undersøgelse, at maskinlæring i journalistik står over for bredere udfordringer, end forventet.

Undersøgelsens forfattere evaluerede ChatGPT, Google Gemini og den mere citeringsfokuserede NotebookLM på en rapporteringsopgave: ved at bruge en 300-dokument korpus fokuseret på TikTok-litigation og politik i USA.

Forskerne varierede prompt-specifikation og antallet af dokumenter, der blev givet, og derefter analyserede resultaterne ved hjælp af en taksonomi designet til at fange typen og sværhedsgraden af hallucinationer.

Over alle outputs, indeholdt 30% mindst en hallucination, mens ChatGPT og Gemini hver viste en 40% hallucinationsrate – lidt over tre gange højere end NotebookLM’s 13% fejlrate.

I stedet for at opfinde kendsgerninger eller enheder, observerede forskerne, at modellerne ofte viste fortolkningsmæssig overconfidence, ved at tilføje ubesatte karakteriseringer og omdanne tilskrevne meninger til generelle udsagn:

‘Kvalitativt set indeholdt de fleste fejl ikke opfundne enheder eller tal; i stedet observerede vi fortolkningsmæssig overconfidence – modeller tilføjede ubesatte karakteriseringer af kilder og omdannede tilskrevne meninger til generelle udsagn.

‘Disse mønstre afslører en grundlæggende epistemologisk mismatch: Mens journalistik kræver eksplicit kildeangivelse for hver påstand, genererer LLM’er autoritativt lydende tekst uanset bevisstøtte.

‘Vi foreslår journalistiske udvidelser af eksisterende hallucinations-taxonomier og argumenterer for, at effektive redaktionstools behøver arkitekturer, der tvinger præcis tilskrivning i stedet for at optimere for flydende tekst.’

Den nye undersøgelse, en fascinerende, men kort læsning på fem sider, har titlen Ikke forkert, men usandt: LLM-overconfidence i dokumentbaserede spørgsmål og kommer fra tre forskere på Northwestern University og University of Minnesota.

Teori og metode

Den præcise årsag til hallucinationer* er omdiskuteret på forskellige tidspunkter; selvom næsten alle teorier er enige om, at datakvalitet og/eller distributionsforhold er en bidragende faktor på træningstidspunktet, er det endda forslagt, at 100% af LLM-outputs i virkeligheden er hallucinationer (bortset fra, at nogle af disse hallucinationer tilfældigvis sammentræffer med virkeligheden).

Forfatterne observerer^†:

‘Fra et teknisk synspunkt opstår hallucinationer fra LLM’ers evne til at generere tekst, der følger almindelige mønstre uden at have en forståelse af, hvad der er sandt. Dette resulterer i plausibelt lydende svar, der ikke reflekterer virkeligheden – for eksempel LLM-fabrikeret retssag, der finder vej ind i retssager.

‘Og selvom LLM-kapaciteterne er øget dramatisk over de seneste fem år, forbliver hallucinationer et problem, i nogle tilfælde endda øger, efterhånden som modellerne bliver mere kraftfulde.’

Forskningssektoren, bemærker artiklen, har udforsket en række måder at reducere eller bedre forstå LLM-hallucinationer på, som tendere til at falde i tre hovedområder: først og fremmest, kan modellerne grundlægges i eksterne kilder som databaser, dokumentsamlinger eller webindhold for at understøtte deres påstande.

Dette fungerer godt, når materialet er pålideligt og komplet, men huller, forældet information eller dårlig kvalitet på data kan stadig forårsage fejl; og modellerne har også en tendens til at lave selvbevidste udsagn, der går ud over, hvad kilderne faktisk siger.

Anden, prompting og decoding henviser til brugen af omhyggelige instruktioner for at guide modellerne. Dette kan indebære at bede modellerne om at kontrollere deres beviser, bryde opgaver ned i mindre trin eller følge strengere formater. Nogle gange dirigeres modellerne til at gennemgå deres eget arbejde eller sammenligne multiple svar.

Disse teknikker kan fange fejl, men de øger også omkostningerne, og de fejler ofte i at opdage subtile fejl; derfor falder en stor del af verificeringsbyrden stadig på brugeren.

Tredje, modeller og værktøjer henviser til at give LLM’erne adgang til ressourcer, der kan understøtte verificering, såsom søgemaskiner eller regnemaskiner – selvom nøjagtigheden også kan forbedres, når modellerne trænes på velunderbyggede data eller når citeringsfunktioner er indbygget.

Men disse foranstaltninger er ikke fuldstændigt sikre, og afhænger stadig af kildekvaliteten, vejledningens klarethed og menneskelig oversigt for at forhindre, at forkert information spreder sig.

Tik Tok

For at finde ud af, hvilke tilgange, der kan være nyttige for journalister, udførte studiet evalueringer, der var designet til at reflektere virkelige redaktionsarbejdsfløde og standarder, med hallucination undersøgt i konteksten af typiske rapporteringsopgaver.

Forskerne testede frontmodeller ved hjælp af almindelige promptstrategier og dokumentgrundlæggende opsætninger, så både hyppigheden og typen af hallucinationsfejl kunne måles – sammen med, hvad disse fejl faktisk betyder for integrationen af AI i redaktioner.

Analysen fokuserede på den type dokumentbaseret forespørgsel, der er typisk i forskningsbaseret og undersøgende journalistik. Forfatterne søgte at kuratere en korpus, der var designet til at reflektere en typisk lille til mellemstor redaktionsprojekt, men som stadig ville være stor nok til at fange kompleksiteten af virkelige rapporteringsopgaver; til dette formål valgte de den pågældende lovgivningsindsats for at forbyde TikTok i USA.

Dokumenter blev samlet fra Washington Post, New York Times, ProQuest og Westlaw, hvilket resulterede i en 300-dokumentsamling bestående af fem akademiske artikler, 150 nyhedsartikler og 145 retslige dokumenter (med den fulde samling tilgængelig for akademiske forskere på anmodning via projektets repository).

Da LLM-responser afhænger kraftigt af, hvordan en prompt er formuleret, og hvor meget kontekst der gives, designede forfatterne fem forespørgsler, der varierede fra meget brede til meget specifikke – fra generelle spørgsmål om TikTok-forbud til detaljerede prompter, der anmodede om vidnesbyrd fra bestemte retssager.

Antallet af dokumenter, der blev givet til hver model, varierede mellem 10, 100 – eller alle 300, fra den fulde korpus, med to nøgle-dokumenter inkluderet i hver prøve, for at sikre konsistens. Femten responser blev produceret for hver model, bortset fra ChatGPT, der var begrænset til ti responser.

Medkæmpere

Tre værktøjer blev testet, hver repræsenterende en anden tilgang til dokumentbaseret forespørgsel: ChatGPT-5 blev evaluereet ved hjælp af Projects-funktionen, der begrænsede uploads til 100 dokumenter; Google Gemini 2.5 Pro kunne behandle den fulde 300-dokument korpus i kontekst (ved hjælp af sin en million token kontekstvindue til at indtage alle 923.000 token direkte); Google NotebookLM, der tilbyder indbygget citeringshenting, blev testet ved hjælp af dedikerede noter til hver prøve.

Mens disse dokumentbehandlingsmetoder forskellige, repræsenterer alle tre virkelige værktøjer, der i øjeblikket er tilgængelige for journalister; og i hvert fald er tilstanden for nuværende mere eksperimenterende end homogen, med funktionssammenligning og omfang, der uundgåeligt forskellige blandt nuværende tilbud.

For at fange omfanget af mulige hallucinationsadfærd, blev en taksonomi fra en tidligere undersøgelse fra 2023 brugt, med hallucinationer kodet efter orientering (forvrængning vs. udvidelse); kategori (fejltype); og grad (sværhedsgrad vurderet som mild, moderat eller alarmerende).

Alle modeloutputs blev annoteret af en menneskelig forfatter, der gennemgik hver sætning og anvendte disse koder. Fejl, der ikke var dækket af taksonomien, blev markeret som diverse og senere analyseret for at udvikle journalistiske kategorier.

Data og tests

I den første test for hallucinationshyppighed blev det fundet, at 12 af 40 modelresponser indeholdt mindst en hallucination, med bemærkelsesværdig variation mellem værktøjer. ChatGPT og Gemini producerede hver hallucinationer i 40% af deres outputs, mens NotebookLM producerede hallucinationer i kun 13% af tilfælde:

Samlet hallucinationsrate for hvert værktøj, med Gemini og ChatGPT, der producerer den højeste proportion af responser med fejl. Kilde: https://arxiv.org/pdf/2509.25498

Af disse resultater kommenterer forfatterne:

‘Dette indikerer, at selvom de fleste responser over alle værktøjer ikke indeholder hallucinationer, så gør valget af værktøj alligevel en forskel for det samme dokumentkorpus og spørgsmålsæt.’

Hallucinationer sker sjældent i isolation, bemærker artiklen; Gemini gennemsnitligt fire per fejlbesvarelse, NotebookLM tre, og ChatGPT 1,5. De fleste var moderate i sværhedsgrad, men 14% blev klassificeret som alarmerende. I ét tilfælde opfandt ChatGPT en gensidig motiv bag en TikTok-forbud, der ikke fandtes i kilden:

‘[I] ét spørgsmål fremstillede ChatGPT et muligt TikTok-forbud som en gensidig måling fra amerikanske lovgivere som svar på kinesisk politik, en påstand, der helt mangler i den citerede kilde.’

I alt indeholdt 64% af hallucinerende responser faktuelle unøjagtigheder eller tangenter, hvilket potentielt kunne rejse spørgsmål om, hvorvidt brug af LLM’er i virkeligheden sparer tid i denne type informationsbaseret arbejdsproces, i hvert fald på nuværende tidspunkt.

I denne første test indeholdt de fleste hallucinationer ikke eksisterende taksonomi-kategorier, ofte involverede de fabrikerede citater eller forkerte akronym-udvidelser, hvilket tyder på, at nuværende rammer måske er for snævre til journalistiske anvendelser.

NotebookLM’s lavere hallucinationsrate, observerer forfatterne, tyder på, at dets citeringsbaserede RAG-system giver en mere pålidelig grundlæggelse end ChatGPT’s Projects-funktion eller Gemini’s kontekstbehandling, især når bestemte dokumenter skal henvises til.

I forhold til studiet af kvalitative egenskaber hos observerede hallucinationer i testresultaterne, observerer forskerne, at hallucinationer stammede ikke primært fra opfundne kendsgerninger, men fra fortolkningsmæssig overreach:

‘Modellerne tilføjede selvbevidste karakteriseringer om dokumentformål, målgrupper og talemænds intentioner, der så autoritative ud, men manglede enhver grundlag i den faktiske tekst. De omdannede betænkelige eller tilskrevne udsagn til definitive påstande.’

Overconfidence tog to former: først og fremmest tilføjede modellerne ubesatte påstande om et documents målgruppe eller formål, såsom at betegne en artikel som ‘skrevet for offentligheden’ eller en retssag som ‘rettet mod advokater’.

Anden, omdannede de tilskrevne meninger til faktiske udsagn, og skjulte den oprindelige kilde og undergravede kildevurdering.

Disse adfærdsmønstre optrådte over alle værktøjer og var ikke begrænset til en enkelt arkitektur – og de fleste fejl var ikke opfundne kendsgerninger, men snarere overfortolkninger.

De fleste hallucinationer blev klassificeret som diverse, da de ikke passede ind i eksisterende kategorier, og udviskede væsentlige forskelle mellem fejltyper. Hyppige problemer som manglende tilskrivning og vagt kildebeskrivelse antyder, at nuværende taksonomier mangler de fejltyper, der er vigtigst i journalistik, hvor klar kildeangivelse er afgørende.

Forfatterne bemærker, at ‘Modeller tilføjer selvbevidst analyse, som dokumenterne ikke understøtter, og fjerner afgørende tilskrivning.’

Konklusion

Enhver, der har eksperimenteret med de tre modeller, der er undersøgt i den nye artikel, ved, at hver af dem har sine svagheder og styrker. Selvom NotebookLM klarer sig bedre med citering end både ChatGPT og Gemini, kunne man måske mene, at det skyldes, at det er bygget specifikt til denne funktion, og alligevel leverer en fejlrate, der ville få de fleste journalister, forskere eller advokater fyret, med gentagne tilfælde.

Desuden mangler NotebookLM, der positionerer sig som et forskningsrammeværk, mange af de brugerflade-forbedringer, der gør de to andre platforme til en lettere skriveoplevelse.

Men i hvert fald synes NotebookLM at læse oploadede dokumenter i stedet for at falde i ChatGPT’s ødelæggende vane med at slutte, hvad et oploadet dokument måske siger, baseret på, hvad det ved om den generelle distribution af lignende dokumenter. Det kan være en opadgående kamp at få nogen version af ChatGPT til at gennemlæse oploadede materialer fuldt ud, i stedet for at stole på metadata eller på sine egne antagelser/hallucinationer.

I fag, hvor herkomst og citeringsstandarder er kritiske, såsom jura, journalistik og videnskabelig forskning, synes der at være zero nativt trænede faciliteter i nuværende markedsmæssige LLM’er, der kan forbedre deres begrænsede evne til at nøjagtigt udtrække og håndtere information, som brugeren retter modellen.

Som det er nu, og indtil ankomsten af hjælpeværktøjer, der kan tilbyde en bedre grænseflade til LLM’er end en enkelt systemprompt eller MCP-indstilling, skal alt, disse systemer producerer til disse mission-kritiske sektorer, stadig kontrolleres af de dyre, besværlige og generelt irriterende mennesker.

* Google Cloud tilbyder en rimeligt interessant og grundig gennemgang af emnet her.

^†Min konvertering af forfatternes inline-citationer til hyperlinks.

Offentliggjort onsdag, 1. oktober 2025. Ændret torsdag, 2. oktober, for at korrigere en fejl i TL;DR og rette en stilistisk fejl i den første paragraf.