Andersons Blickwinkel

ChatGPT-5 und Gemini 2.5 hallucinieren in 40% der getesteten Nachrichten-Abfragen

mm
A robot journalist in a retro newsroom. SDXL, Flux Kontext Pro, Firefly 3, et al.

Eine neue Studie zeigt, dass ChatGPT-5 und Google Gemini in 40% der Nachrichten-Abfragen Halluzinationen erzeugen, oft selbstsichere Behauptungen erfinden, die durch verifizierbare Fakten nicht gestützt werden. Google’s NotebookLM schnitt mit 13% besser ab – einem Wert, der jeden Journalisten auf der ganzen Welt feuern würde. Die Studie fand heraus, dass die Modelle häufig Quellen verfälschten, indem sie Meinungen in Fakten umwandelten und die Attribution entfernten, was sie zu riskanten Werkzeugen für den Journalismus macht. Die Autoren fordern bessere, spezielle Werkzeuge für diese Aufgaben.

 

Large Language Modelle haben in letzter Zeit eine schnelle Adoption im Journalismus erlebt, in Arbeitsumgebungen, die ohnehin Kosten, Budgets und Personal seit der digitalen Revolution des Journalismus zurückgefahren haben, in einem unerbittlichen Prozess, der in den frühen 2000er Jahren begann.

Tatsächlich war das Terrain bereits bereitet, da die Medien sich bereits an Jobabbau durch “Innovation” seit mindestens der turbulenten Einführung der digitalen Satztechnik in den 1980er Jahren sowie früheren Herausforderungen durch den Rundfunk und Fernsehen gewöhnt hatten.

Der unerbittliche Weg der KI in die Redaktionen und Medienunternehmen war jedoch nicht ohne Rückschläge; in einem Kontext, in dem 55% der Unternehmen nun bereuen, Menschen durch KI ersetzt zu haben, und in dem Gartner vorhersagt, dass Organisationen ihre KI-Adoption innerhalb von zwei Jahren stark zurückfahren werden, haben einige Nachrichtenorganisationen Journalisten wieder eingestellt, die durch KI ersetzt worden waren, da die schwerwiegenden und oft peinlichen Mängel der maschinellen Lernalternativen offensichtlich wurden.

Irren ist nicht nur menschlich

Obwohl Halluzinationen in Bereichen, in denen genaue Zitationen essentiell sind, ein großes Problem darstellen (mit bemerkenswerter öffentlicher Aufmerksamkeit für KI-Fehlerfälle in den Rechts, Forschung und Journalismus), zeigt eine neue US-Studie, dass die maschinelle Lernfähigkeit im Journalismus breitere Herausforderungen als erwartet gegenübersteht.

Die Autoren haben ChatGPT, Google Gemini und das zitationsorientierte NotebookLM auf eine Berichtsaufgabe getestet: mit einem 300-Dokument-Korpus, das auf TikTok-Rechtsstreitigkeiten und -politik in den Vereinigten Staaten fokussiert war.

Die Forscher variierten die Prompt-Spezifität und die Anzahl der bereitgestellten Dokumente und analysierten die Ergebnisse mithilfe einer Taxonomie, die darauf ausgelegt war, den Typ und die Schwere der Halluzinationen zu erfassen.

Über alle Ausgaben hinweg enthielten 30% mindestens eine Halluzination, während ChatGPT und Gemini jeweils eine Halluzinationsrate von 40% aufwiesen – ein wenig über drei Mal höher als die 13%-Fehlerquote von NotebookLM.

Die Forscher bemerken, dass die Modelle oft interpretive Überzeugung zeigten, indem sie nicht unterstützte Charakterisierungen hinzufügten und zitierte Meinungen in allgemeine Aussagen umwandelten:

‘Qualitativ gesehen, betraf die Mehrheit der Fehler nicht erfundene Entitäten oder Zahlen; stattdessen beobachteten wir interpretive Überzeugung – die Modelle fügten nicht unterstützte Charakterisierungen von Quellen hinzu und wandelten zitierte Meinungen in allgemeine Aussagen um.’

‘Diese Muster zeigen eine fundamentale epistemologische Diskrepanz: Während Journalismus explizite Quellenangaben für jeden Anspruch erfordert, generieren LLMs autoritativ klingenden Text unabhängig von der Beweisunterstützung.’

‘Wir schlagen journalistische Erweiterungen bestehender Halluzinationstaxonomien vor und argumentieren, dass effektive Redaktionswerkzeuge Architekturen benötigen, die genaue Attribution erzwingen, anstatt Fluency zu optimieren.’

Die neue Studie, ein faszinierender, aber kurzer Lesestoff von fünf Seiten, trägt den Titel Nicht falsch, aber unwahr: LLM-Überzeugung bei dokumentbasierten Abfragen und stammt von drei Forschern der Northwestern University und der University of Minnesota.

Theorie und Methode

Die genaue Ursache von Halluzinationen ist umstritten; obwohl fast alle Theorien übereinstimmen, dass die Datenqualität und/oder -verteilung ein beitragender Faktor während der Trainingszeit sind, wurde sogar vorgeschlagen, dass 100% der LLM-Ausgaben im Wesentlichen Halluzinationen sind (außer dass einige dieser Halluzinationen zufällig mit der Realität übereinstimmen).

Die Autoren bemerken:

‘Aus technischer Sicht entstehen Halluzinationen aus der Fähigkeit von LLMs, Text zu generieren, der gemeinsame Muster folgt, ohne ein Verständnis davon, was wahr ist. Diese Eigenschaft resultiert in plausiblen Antworten, die nicht die Realität widerspiegeln – beispielsweise LLM-erfundene Rechtsprechung, die in Argumente gelangt.’

‘Und während die Fähigkeiten von LLMs in den letzten fünf Jahren dramatisch zugenommen haben, bleiben Halluzinationen ein Problem, in einigen Fällen sogar zunehmend, wenn Modelle leistungsfähiger werden.’

Der Forschungsbereich, so bemerkt die Studie, hat eine Vielzahl von Ansätzen erforscht, um LLM-Halluzinationen zu reduzieren oder besser zu verstehen, die tendenziell in drei Hauptbereiche fallen: Erstens können Modelle in Kontext durch externe Quellen wie Datenbanken, Dokumentensammlungen oder Webinhalte gestützt werden, um ihre Behauptungen zu untermauern.

Das funktioniert gut, wenn das Material zuverlässig und vollständig ist, aber Lücken, veraltete Informationen oder schlechte Datenqualität führen immer noch zu Fehlern; und Modelle haben auch die Angewohnheit, selbstsichere Aussagen zu treffen, die über das hinausgehen, was die Quellen tatsächlich sagen.

Zweitens bezieht sich Prompting und Decoding auf die Verwendung sorgfältiger Anweisungen, um Modelle zu führen. Dies kann das Überprüfen von Beweisen, das Aufteilen von Aufgaben in kleinere Schritte oder das Befolgen strengerer Formate umfassen. Manchmal werden Modelle sogar angewiesen, ihre eigene Arbeit zu überprüfen oder mehrere Antworten zu vergleichen.

Diese Techniken können Fehler auffangen, aber sie erhöhen auch die Kosten, und sie versagen oft, subtile Fehler zu erkennen; daher fällt ohne zuverlässige Beweisüberprüfung ein großer Teil der Verifizierungsarbeit immer noch auf den Benutzer.

Drittens bezieht sich Modelle und Werkzeuge auf die Bereitstellung von Ressourcen, die die Verifizierung unterstützen können, wie Suchmaschinen oder Rechner – obwohl die Genauigkeit auch verbessert werden kann, wenn Modelle auf gut belegten Daten trainiert werden oder wenn Zitationsfunktionen integriert sind.

Es ist jedoch zu beachten, dass diese Maßnahmen nicht narrensicher sind und immer noch auf die Qualität der Quellen, die Klarheit der Richtlinien und die menschliche Überwachung angewiesen sind, um falsche Informationen zu verhindern.

TikTok

Um herauszufinden, welche Ansätze tatsächlich für Journalisten nützlich sein könnten, führte die Studie Evaluierungen durch, die realen Redaktions-Workflows und -Standards widerspiegelten, wobei Halluzinationen im Kontext typischer Berichtsaufgaben untersucht wurden.

Frontier-Modelle wurden mit gemeinsamen Prompt-Strategien und Dokument-Grundierungsszenarien getestet, so dass sowohl die Häufigkeit als auch die Art der Halluzinationsfehler gemessen werden konnten – zusammen mit dem, was diese Fehler für die Integration von KI in Redaktionen bedeuten.

Die Analyse konzentrierte sich auf die Art der dokumentbasierten Abfrage, die typisch für Forschungs- und investigativen Journalismus ist. Die Autoren suchten nach einer Dokumentensammlung, die ein typisches kleines bis mittleres Redaktionsprojekt widerspiegeln sollte, aber dennoch groß genug war, um die Komplexität realer Berichterstattung zu erfassen; zu diesem Zweck wählten sie den laufenden Rechtsstreit, TikTok in den Vereinigten Staaten zu verbieten.

Dokumente wurden aus der Washington Post, der New York Times, ProQuest und Westlaw gesammelt, was zu einer 300-Dokument-Sammlung führte, die fünf akademische Arbeiten, 150 Nachrichtenartikel und 145 Rechtsdokumente umfasste (mit der vollständigen Kompilation, die auf Anfrage über das Repository des Projekts verfügbar ist).

Da LLM-Antworten stark von der Formulierung der Prompt und der Menge der bereitgestellten Kontext abhängen, entwarfen die Autoren fünf Abfragen, die von sehr allgemein bis sehr spezifisch reichten – von allgemeinen Fragen zu TikTok-Verboten bis hin zu detaillierten Prompts, die Aussagen aus bestimmten Gerichtsverfahren anforderten.

Die Anzahl der Dokumente, die jedem Modell zur Verfügung gestellt wurden, variierte zwischen 10, 100 und 300 aus dem vollständigen Korpus, wobei zwei Schlüsseldokumente in jeder Stichprobe enthalten waren, um Konsistenz zu gewährleisten. Für jedes Modell wurden 15 Antworten erzeugt, außer für ChatGPT, das auf 10 Antworten beschränkt war.

Konkurrenten

Drei Werkzeuge wurden getestet, jedes repräsentierte einen anderen Ansatz für dokumentbasierte Abfragen: ChatGPT-5 wurde mit der Projects-Funktion ausgewertet, die Uploads auf 100 Dokumente beschränkte; Google Gemini 2.5 Pro konnte den vollständigen 300-Dokument-Korpus im Kontext verarbeiten (mit seinem ein-Million-Token-Kontextfenster, um alle 923.000 Token direkt zu verarbeiten); Google NotebookLM, das eine integrierte Zitationsrückgewinnung bietet, wurde mit dedizierten Notebooks für jede Stichprobe getestet.

Obwohl diese Dokument-Verarbeitungsmethoden unterschiedlich sind, repräsentieren alle drei tatsächliche Werkzeuge, die derzeit für Journalisten verfügbar sind; und in jedem Fall ist der aktuelle Stand der Technik eher experimentell als homogen, mit Funktionen und Umfang, die unter den aktuellen Angeboten variieren.

Um den Bereich möglicher Halluzinationsverhaltens zu erfassen, wurde eine Taxonomie aus einer früheren Arbeit verwendet, wobei Halluzinationen nach Orientierung (Verzerrung vs. Ausgestaltung), Kategorie (Fehlertyp) und Grad (Schwere, die als mild, moderat oder alarmierend bewertet wird) kodiert wurden.

Alle Modell-Ausgaben wurden von einem menschlichen Autor annotiert, der jeden Satz überprüfte und diese Codes anwendete. Fehler, die nicht von der Taxonomie abgedeckt wurden, wurden als verschieden markiert und später analysiert, um journalistische Kategorien zu entwickeln.

Daten und Tests

Im ersten Test für Halluzinationshäufigkeit wurden 12 von 40 Modell-Antworten gefunden, die mindestens eine Halluzination enthielten, mit bemerkenswerter Variation zwischen den Werkzeugen. ChatGPT und Gemini produzierten jeweils Halluzinationen in 40% ihrer Ausgaben, während NotebookLM Halluzinationen in nur 13% der Fälle produzierte:

Gesamthalluzinationsraten für jedes Werkzeug, wobei Gemini und ChatGPT den höchsten Anteil an Fehlern produzierten. Quelle: https://arxiv.org/pdf/2509.25498

Gesamthalluzinationsraten für jedes Werkzeug, wobei Gemini und ChatGPT den höchsten Anteil an Fehlern produzierten. Quelle: https://arxiv.org/pdf/2509.25498

Die Autoren bemerken dazu:

‘Dies zeigt, dass, obwohl die Mehrheit der Antworten über alle Werkzeuge hinweg keine Halluzinationen enthält, die Wahl des Werkzeugs einen Unterschied für den gleichen Dokumenten-Korpus und die gleiche Abfrage macht.’

Halluzinationen treten selten isoliert auf, bemerkt die Studie; Gemini hatte im Durchschnitt vier Halluzinationen pro fehlerhafter Antwort, NotebookLM drei und ChatGPT 1,5. Die meisten waren moderat in der Schwere, aber 14% wurden als alarmierend eingestuft. In einem Fall erfand ChatGPT eine Vergeltungsmotivation hinter einem TikTok-Verbot, die nicht im Quelldokument erschien:

‘[In] einer Abfrage stellte ChatGPT ein mögliches TikTok-Verbot als eine Vergeltungsmaßnahme von US-Gesetzgebern gegenüber chinesischer Politik dar, ein Anspruch, der völlig aus dem zitierten Quelldokument fehlt.’

Insgesamt führten 64% der halluzinierenden Antworten zu faktischen Ungenauigkeiten oder Abschweifungen, was Fragen aufwirft, ob die Verwendung von LLMs in diesem Art von informationsbasierter Arbeitsabfolge tatsächlich Zeit spart, zumindest im aktuellen Stand der Technik.

Im ersten Test trafen die meisten Halluzinationen nicht auf bestehende Taxonomiekategorien zu, oft wurden erfundene Zitate oder falsche Akronym-Erweiterungen verwendet, was darauf hindeutet, dass die aktuellen Rahmenbedingungen möglicherweise zu eng für den Journalismus sind.

Die geringere Halluzinationsrate von NotebookLM, so bemerken die Autoren, legt nahe, dass sein zitationsbasiertes RAG-System eine zuverlässigere Grundlage bietet als ChatGPTs Projects-Funktion oder Geminis Kontext-Verarbeitung, insbesondere wenn spezifische Dokumente referenziert werden müssen.

Was die qualitative Analyse der beobachteten Halluzinationen in den Testergebnissen betrifft, bemerken die Forscher, dass Halluzinationen nicht in erster Linie durch erfundene Fakten verursacht wurden, sondern durch interpretive Übergriffe:

‘Modelle fügten selbstsichere Charakterisierungen über Dokumentzwecke, -zielgruppen und -sprecherabsichten hinzu, die autoritativ klangen, aber keine Grundlage im tatsächlichen Text hatten. Sie wandelten zitierte Meinungen in definitive Aussagen um.’

Überzeugung zeigte sich in zwei Formen: Erstens fügten Modelle nicht unterstützte Behauptungen über den Zweck oder die Zielgruppe eines Dokuments hinzu, wie z.B. das Etikettieren eines Artikels als “für die Öffentlichkeit geschrieben” oder einer Einreichung als “für Anwälte bestimmt”.

Zweitens wandelten sie zitierte Meinungen in faktenähnliche Aussagen um, wodurch die ursprüngliche Quelle verschleiert und die Quellenbewertung untergraben wurde.

Diese Verhaltensweisen traten bei allen Werkzeugen auf und waren nicht auf eine Architektur beschränkt – und die meisten Fehler waren keine Erfindungen, sondern Überinterpretationen.

Die meisten Halluzinationen wurden als verschieden markiert, da sie nicht in bestehende Kategorien passten, wodurch wichtige Unterschiede zwischen Fehlertypen verwischt wurden. Häufige Probleme wie fehlende Attribution und vage Quellenbeschreibungen deuten darauf hin, dass die aktuellen Taxonomien die Arten von Fehlern verpassen, die im Journalismus am wichtigsten sind, wo klare Quellenangaben essentiell sind.

Die Autoren bemerken, dass ‘Modelle selbstsichere Analysen hinzufügen, die die Dokumente nicht unterstützen, und entscheidende Attributionen entfernen.’

Schlussfolgerung

Wer auch immer mit den drei in der neuen Studie untersuchten Modellen experimentiert hat, wird wissen, dass jedes seine Schwächen und Stärken hat. Obwohl NotebookLM bei der Zitation weit besser abschneidet als ChatGPT oder Gemini, könnte man argumentieren, dass es speziell für diese Funktionalität entwickelt wurde und dennoch eine Fehlerrate aufweist, die die meisten Journalisten, Forscher oder Anwälte feuern würde, mit wiederholten Vorfällen.

Darüber hinaus verfügt NotebookLM, das sich als Forschungsframework positioniert, nicht über die Benutzeroberflächen-Verfeinerungen, die die anderen beiden Plattformen zu einer einfacheren Schreiberfahrung machen.

Dennoch scheint NotebookLM tatsächlich die hochgeladenen Dokumente zu lesen, anstatt in ChatGPTs destruktive Angewohnheit zu verfallen, zu erraten, was ein hochgeladenes Dokument sagen könnte, basierend auf dem, was es über die allgemeine Verteilung ähnlicher Dokumente weiß. Es kann ein steiler Aufstieg sein, ChatGPT dazu zu bringen, eine vollständige Lektüre des hochgeladenen Materials durchzuführen, anstatt auf Metadaten oder seine eigenen Annahmen/Halluzinationen zu vertrauen.

Für Bereiche, in denen Herkunft und Zitationsstandards kritisch sind, wie Recht, Journalismus und wissenschaftliche Forschung, scheint es, dass es derzeit keine nativ trainierten Einrichtungen in den aktuellen marktführenden LLMs gibt, die ihre begrenzte Fähigkeit, Informationen genau zu extrahieren und zu verarbeiten, verbessern können, die der Benutzer ihnen zuweist.

Wie es derzeit steht und bis zum Erscheinen von Hilfssystemen, die eine bessere Schnittstelle zu LLMs bieten als einen einfachen System-Prompt oder MCP-Einstellung, benötigt alles, was diese Systeme für diese kritischen Sektoren ausgeben, immer noch die Überprüfung durch diese teuren, umständlichen und im Allgemeinen lästigen Menschen.

 

* Google Cloud bietet eine interessante und umfassende Darstellung des Themas hier.

Meine Umwandlung der Inline-Zitate der Autoren in Hyperlinks.

Erstveröffentlicht am Mittwoch, dem 1. Oktober 2025. Geändert am Donnerstag, dem 2. Oktober, um einen Fehler im TL;DR zu korrigieren und einen stilistischen Fehler im ersten Absatz zu ändern.

Autor über maschinelles Lernen, Domänen-Spezialist in der menschlichen Bildsynthese. Ehemaliger Leiter der Forschungsinhalte bei Metaphysic.ai.