Andersonův úhel

ChatGPT-5 a Gemini 2.5 halucinují ve 40% testovaných dotazů redakce

mm
A robot journalist in a retro newsroom. SDXL, Flux Kontext Pro, Firefly 3, et al.

Nová studie zjistila, že ChatGPT-5 a Google Gemini produkují halucinace ve 40 % dotazů ve stylu redakce, často vynalézají sebevědomě znějící tvrzení, která nejsou podložena ověřitelnými fakty. Googleův NotebookLM si vede lépe s pouze 13 % – mírou, která by vẫn mohla dostat každého novináře na světě do problémů. Studie zjistila, že modely často zkreslovaly zdroje tím, že měnily názory na fakta a odstraňovaly atributy, což je činí rizikovými nástroji pro žurnalistiku. Autoři volají po lepších, specializovaných nástrojích pro tyto úkoly.

 

Velké jazykové modely se rychle rozšířily do žurnalistiky v nedávné době, v pracovním prostředí, které již dlouho snižuje náklady, rozpočet a personál od doby, kdy digitální žurnalistika zničila dvě století tradice v nepřetržitelném procesu, který začal na počátku roku 2000.

Ve skutečnosti byl terén již připraven, protože média se již dlouho zvykla na snižování počtu pracovních míst prostřednictvím “inovací” od turbulentního zavedení digitálního sazby v 80. letech, stejně jako dřívější výzvy ze strany rozhlasu a televize.

Cesta umělé inteligence do redakcí a médií nebyla bez potíží; v kontextu, kde 55 % společností nyní lituje nahrazení lidí umělou inteligencí a kde Gartner předpovídá, že organizace budou výrazně zpomalovat své plány na přijetí umělé inteligence do dvou let, několik novinových organizací znovu najalo novináře, kteří byli nahrazeni umělou inteligencí, protože se ukázaly závažné a často embarrassing nedostatky alternativ založených na strojovém učení.

Chybovat není jen lidské

Although halucinace se ukázaly jako obrovský problém pro oblasti, kde je přesná citace nezbytná (s významnou veřejnou pozorností pro případy selhání umělé inteligence v právu, výzkumu a žurnalistice), nová americká studie zjistila, že strojové učení v žurnalistice čelí širším výzvám, než se očekávalo.

Autorům se podařilo ChatGPT, Google Gemini a NotebookLM na úkolu reportážního stylu: pomocí 300dokumentového korpusu zaměřeného na právní a politické spory související s TikTokem ve Spojených státech.

Výzkumníci měnili specifičnost podnětů a počet dokumentů, které byly modelům poskytnuty, a poté analyzovali výsledky pomocí taxonomie navržené pro zachycení typu a závažnosti halucinací.

Ve všech výstupech obsahovalo 30 % alespoň jednu halucinaci, zatímco ChatGPT a Gemini každý vykázaly 40% míru halucinace – což je o něco více než trojnásobek vyšší než 13% chybové míry NotebookLM.

Autoři studie komentují, že:

‘Kvalitativně většina chyb nezahrnovala vynalezené entity nebo čísla; místo toho jsme pozorovali interpretativní nadměrnou sebevědomost – modely přidávaly nepodporované charakteristiky zdrojů a měnily připsané názory na obecné výroky.’

‘Tyto vzorce odhalují fundamentální epistemologickou nesrovnalost: zatímco žurnalistika vyžaduje explicitní zdroje pro každé tvrzení, LLM generuje autoritativně znějící text bez ohledu na důkazní podporu.’

‘Navrhujeme žurnalisticky specifické rozšíření stávajících taxonomií halucinací a argumentujeme, že efektivní nástroje pro redakce potřebují architektury, které vynucují přesnou atribuci spíše než optimalizují pro plynulost.’

Teorie a metoda

Přesná příčina halucinací* je sporná; ačkoli téměř všechny teorie souhlasí s tím, že kvalita dat a/nebo rozložení jsou přispívajícím faktorem během tréninku, bylo dokonce navrženo, že 100 % výstupu LLM je vlastně halucinace (kromě toho, že některé z těchto halucinací se shodují s realitou).

Autoři pozorují:

‘Z technického hlediska halucinace vznikají z LLM schopnosti generovat text, který následuje běžné vzorce bez pochopení toho, co je pravdivé. Tato charakteristika vede k pravděpodobně znějícím odpovědím, které neodrážejí realitu – například LLM vynalezené právní precedenty, které pronikají do argumentů.

‘A zatímco schopnosti LLM se dramaticky zvýšily za posledních pět let, halucinace zůstávají problémem, v některých případech se dokonce zvyšují, jak modely se stávají schopnějšími.’

Tik Tok

Autoři provedli hodnocení, aby zjistili, které přístupy by mohly být skutečně užitečné pro novináře, a provedli hodnocení, která měla odrážet reálné pracovní postupy a standardy redakce, přičemž se zkoumala halucinace v kontextu typických reportážních úkolů.

Modely na hranici možností byly testovány pomocí běžných strategií pro podněty a nastavení založených na dokumentech, aby se mohly měřit jak frekvence, tak typ chyb halucinací – spolu s tím, co tyto chyby vlastně znamenají pro integraci umělé inteligence do redakcí.

Analýza se zaměřila na typ dotazů založených na dokumentech, typických pro výzkum a investigativní žurnalistiku. Autoři se snažili vybrat sbírku dokumentů, která by odrážela typický malý až středně velký projekt redakce, který by byl stále dostatečně velký na to, aby zachytil složitost reálné reportáže; k tomuto účelu vybrali průběžné právní úsilí o zákaz TikToku ve Spojených státech.

Dokumenty byly shromážděny z Washington Post, New York Times, ProQuest a Westlaw, což vedlo k 300dokumentové sbírce, která zahrnovala pět akademických článků, 150 novinových článků a 145 právních podání (s kompletní kompilací dostupnou akademickým výzkumníkům na vyžádání prostřednictvím repozitáře projektu).

Pokud závisí odpovědi modelů LLM silně na tom, jak je podnět formulován, a jak много kontextu je poskytnuto, autoři navrhli pět dotazů, které se pohybovaly od velmi širokých po velmi specifické – od obecných otázek o zákazu TikToku až po podrobné podněty, které žádaly o svědectví z konkrétních soudních případů.

Soupeři

Tři nástroje byly testovány, každý reprezentující jiný přístup k dotazům založených na dokumentech: ChatGPT-5 byl hodnocen pomocí funkce Projekty, která omezovala nahrávání na 100 dokumentů; Google Gemini 2.5 Pro byl schopen zpracovat plnou 300dokumentovou sbírku v kontextu (pomocí svého kontextového okna o velikosti jednoho milionu tokenů pro přímé načtení všech 923 000 tokenů); Google NotebookLM, který nabízí vestavěnou funkci načítání citací, byl testován pomocí speciálních notebooků pro každou vzorku.

Data a testy

V počátečním testu pro prevalenci halucinací bylo zjištěno, že 12 z 40 odpovědí modelů obsahovalo alespoň jednu halucinaci, s pozoruhodnou variací mezi nástroji. ChatGPT a Gemini každý vyprodukovaly halucinace ve 40 % svých výstupů, zatímco NotebookLM produkovaly halucinace pouze ve 13 % případů:

Autoři komentují:

‘To naznačuje, že zatímco většina odpovědí napříč všemi nástroji neobsahuje halucinace, volba nástroje skutečně dělá rozdíl pro stejnou sbírku dokumentů a sadu dotazů.’

Závěr

Kdokoli, kdo experimentoval s třemi modely studovanými v nové práci, ví, že každý z nich má své slabiny a silné stránky. Ačkoli NotebookLM funguje mnohem lépe při citacích než ChatGPT nebo Gemini, lze uvěřit, že byl postaven speciálně pro tuto funkčnost a stále dodává chybovou míru, která by mohla dostat většinu novinářů, výzkumníků nebo právníků do problémů, s opakujícími se případy.

<p Navíc NotebookLM, který se позиcionuje jako výzkumný rámec, postrádá mnoho uživatelsky přívětivých vylepšení, která dělají z ostatních dvou platforem snazší zážitek z psaní.

Ještě více, alespoň NotebookLM vypadá, že skutečně čte nahrávané dokumenty, místo aby padl do ChatGPTho neuvěřitelně destruktivního zvyku odhadování, co by mohl nahrávaný dokument říkat, na základě toho, co ví o obecném rozložení podobných dokumentů. Může to být obtížné dostat kterýkoli verze ChatGPT, aby provedl plný textový čtení nahrávaného materiálu, místo aby se spoléhal na metadata nebo na své vlastní předpoklady/halucinace.

Pro oblasti, kde jsou kritické prověření a standardy citací, jako je právo, žurnalistika a vědecký výzkum, zdá se, že neexistují žádné nativně trénované zařízení na trhu, která by mohla zlepšit jejich omezenou kapacitu pro přesnou extrakci a manipulaci s informacemi, které uživatelé směrují.

Jak tomu je, a v očekávání příjezdu pomocných systémů, které mohou nabídnout lepší rozhraní pro LLM než pouhý systémový podnět nebo MCP nastavení, vše, co tyto systémy vydávají pro tyto kritické sektory, stále vyžaduje kontrolu těmi drahými, neohrabanými a obecně otravnými lidmi.

* Google Cloud nabízí docela zajímavý a komplexní přehled této problematiky zde.

Moje konverze inline citací autorů na hypertextové odkazy.

Poprvé zveřejněno ve středu 1. října 2025. Opraveno ve čtvrtek 2. října, aby se opravila chyba v TL: DR a stylistická chyba v prvním odstavci.

Spisovatel o strojovém učení, doménový specialista na syntézu lidského obrazu. Bývalý vedoucí výzkumného obsahu ve společnosti Metaphysic.ai.
Osobní stránky: martinanderson.ai