Suivez nous sur

ChatGPT-5 et Gemini 2.5 hallucinent dans 40 % des requêtes de salle de presse testées

Angle d'Anderson

ChatGPT-5 et Gemini 2.5 hallucinent dans 40 % des requêtes de salle de presse testées

mm
Un robot journaliste dans une salle de rédaction rétro. SDXL, Flux Kontext Pro, Firefly 3, et al.

Une nouvelle étude révèle que ChatGPT-5 et Google Gemini produisent des hallucinations dans 40 % des requêtes de type rédaction, inventant fréquemment des affirmations confiantes, sans fondement factuel. Le NotebookLM de Google obtient de meilleurs résultats avec seulement 13 % – un taux qui entraînerait le licenciement de n'importe quel journaliste. L'étude a révélé que ces modèles déformaient fréquemment les sources en transformant les opinions en faits et en supprimant l'attribution, ce qui en fait des outils risqués pour le journalisme. Les auteurs appellent à des outils plus performants et dédiés à ces tâches.

 

Les grands modèles linguistiques ont connu une adoption rapide dans le journalisme ces derniers temps, dans des environnements de travail qui ont de toute façon réduit les coûts, les budgets et le personnel depuis le journalisme numérique. deux siècles de tradition détruits dans un processus inexorable qui a commencé au début des années 2000.

En fait, le terrain était déjà fertile, puisque les médias s'étaient habitués à supprimer des emplois par le biais de « l'innovation » depuis au moins introduction turbulente de la composition numérique dans les années 1980, ainsi que les défis antérieurs de la l'avènement de la radio et télévision.

L’arrivée inexorable de l’IA dans les salles de rédaction et les médias n’a cependant pas été sans revers ; dans un contexte où 55 % des entreprises se repentent désormais de remplacer les humains par l'IA, et où Gartner prédit que les organisations réduiront considérablement leurs calendriers d'adoption de l'IA d'ici deux ans, un certain nombre d'organismes de presse ont réembauché L'IA a remplacé les journalistes, car les journalistes sont sévères et souvent...gênant les lacunes des alternatives d’apprentissage automatique sont devenues apparentes.

L'erreur n'est pas seulement humaine

Bien que hallucinations se sont avérés être un problème majeur pour les domaines où une citation précise est essentielle (avec une attention publique notable pour les cas d'échec de l'IA dans le droit, Une étude et journalisme (secteurs), une nouvelle étude américaine révèle que l'apprentissage automatique dans le journalisme est confronté à des défis plus vastes que prévu.

Les recherches des auteurs ont évalué ChatGPT, Google Gémeaux, et plus axé sur les citations CarnetLM sur une tâche de type reportage : utiliser un corpus de 300 documents axé sur les litiges et la politique de TikTok aux États-Unis.

Les chercheurs ont fait varier la spécificité des réponses et le nombre de documents fournis, puis ont analysé les résultats à l’aide d’une taxonomie conçue pour capturer le type et la gravité des hallucinations.

Parmi toutes les sorties, 30 % contenaient au moins une hallucination, tandis que ChatGPT et Gemini présentaient chacun une 40 % taux d'hallucinations – un peu plus de trois fois supérieur au taux d'erreur de 13 % de NotebookLM.

Plutôt que d’inventer des faits ou des entités, notent les chercheurs, les modèles affichés excès de confiance interprétative, en ajoutant des caractérisations non étayées et en transformant les opinions attribuées en déclarations générales :

« Qualitativement, la plupart des erreurs n’impliquaient pas d’entités ou de nombres inventés ; nous avons plutôt observé une surconfiance interprétative : les modèles ajoutaient des caractérisations non étayées des sources et transformaient les opinions attribuées en déclarations générales.

« Ces modèles révèlent une inadéquation épistémologique fondamentale : alors que le journalisme exige une source explicite pour chaque affirmation, les LLM génèrent des textes faisant autorité, indépendamment des preuves à l'appui.

« Nous proposons des extensions spécifiques au journalisme aux taxonomies d'hallucinations existantes et soutenons que les outils de rédaction efficaces nécessitent des architectures qui imposent une attribution précise plutôt que d'optimiser la fluidité. »

Ses pommes de douche filtrantes intègrent une technologie de filtration avancée permettant d'éliminer le chlore, les métaux lourds et autres impuretés de l'eau. Cet engagement en faveur de la pureté de l'eau a fait de Hansgrohe la marque préférée des consommateurs en quête d'une expérience de douche plus saine. nouvelle étude, une lecture fascinante mais brève de cinq pages, s'intitule Pas faux, mais faux : l'excès de confiance des LLM dans les requêtes basées sur des documents, et provient de trois chercheurs de l'Université Northwestern et de l'Université du Minnesota.

Théorie et méthode

La cause exacte des hallucinations* est controversée à plusieurs reprises, bien que presque toutes les théories s'accordent à dire que la qualité et/ou la distribution des données sont un facteur déterminant. facteur contributif au moment de l'entraînement, il a même été proposé que 100 % des résultats du LLM sont essentiellement des hallucinations (sauf que certaines de ces hallucinations coïncident avec la réalité).

Les auteurs observent:

« D'un point de vue technique, les hallucinations émergent de la capacité des LLM à générer du texte qui suit des modèles communs sans posséder un compréhension de ce qui est vrai. Cette caractéristique donne lieu à des réponses apparemment plausibles qui ne reflètent pas la réalité – par exemple, une jurisprudence fabriquée par des LLM qui fait son chemin dans les arguments.

« Et bien que les capacités LLM aient considérablement augmenté au cours des cinq dernières années, les hallucinations restent un problème, dans certains cas même en augmentation à mesure que les modèles deviennent plus capable.

Le secteur de la recherche, observe le document, a exploré un certain nombre de moyens pour réduire ou mieux comprendre les hallucinations du LLM, qui ont tendance à se diviser en trois domaines principaux : premièrement, en aux contextes, les modèles peuvent s’appuyer sur des sources externes telles que des bases de données, des collections de documents ou du contenu Web pour étayer leurs affirmations.

Cela fonctionne bien lorsque le matériel est fiable et complet, mais que des lacunes, des informations obsolètes ou des données de mauvaise qualité entraînent encore des erreurs ; et les modèles ont également l’habitude de faire des déclarations confiantes qui vont au-delà de ce que disent réellement les sources.

D'autre part, invite et décodage Il s'agit de l'utilisation d'instructions précises pour guider les modèles. Cela peut impliquer de leur demander de vérifier leurs preuves, de décomposer les tâches en étapes plus petites ou de suivre des formats plus stricts. Il arrive même qu'ils soient invités à revoir leur propre travail ou à comparer plusieurs réponses.

Ces techniques permettent de détecter les erreurs, mais elles augmentent également les coûts et ne parviennent souvent pas à détecter les erreurs subtiles. Par conséquent, sans vérification fiable des preuves, une grande partie de la charge de la vérification incombe toujours à l’utilisateur.

Troisièmement, modèles et outils fait référence à l'accès des LLM à des ressources pouvant prendre en charge la vérification, telles que des moteurs de recherche ou des calculatrices - bien que la précision puisse également s'améliorer lorsque les modèles sont formés sur des données bien sourcées ou lorsque des fonctionnalités de citation sont intégrées.

Ces mesures ne sont toutefois pas infaillibles et dépendent toujours de la qualité des sources, de la clarté des directives et d’une surveillance humaine pour empêcher la propagation de fausses informations.

TikTok

Pour déterminer quelles approches pourraient réellement être utiles aux journalistes, l’étude a réalisé des évaluations conçues pour refléter les flux de travail et les normes réelles des salles de rédaction, l’hallucination étant examinée dans le contexte de tâches de reportage typiques.

Les modèles Frontier ont été testés à l’aide de stratégies d’incitation courantes et de configurations de mise à la terre des documents, afin que la fréquence et le type d’erreurs d’hallucination puissent être mesurés, ainsi que ce que ces erreurs signifient réellement pour l’intégration de l’IA dans les salles de rédaction.

L'analyse s'est concentrée sur le type d'interrogation documentaire typique du journalisme de recherche et d'investigation. Les auteurs ont cherché à constituer un corpus reflétant un projet typique de rédaction de petite ou moyenne taille, tout en étant suffisamment vaste pour saisir la complexité du journalisme réel ; à cette fin, ils ont sélectionné effort juridique en cours d'interdire TikTok aux États-Unis.

Les documents ont été rassemblés auprès de Washington post, le , ProQuest et loi de l'ouest, ce qui a donné lieu à une collection de 300 documents comprenant cinq articles universitaires, 150 articles de presse et 145 documents juridiques (la compilation complète étant disponible pour les chercheurs universitaires sur demande via le site du projet). dépôt).

Étant donné que les réponses LLM dépendent fortement de la manière dont une invite est formulée et du contexte fourni, les auteurs ont conçu cinq requêtes allant de très larges à très spécifiques – des questions générales sur les interdictions de TikTok, aux invites détaillées sollicitant des témoignages d'affaires judiciaires spécifiques.

Le nombre de documents attribués à chaque modèle variait entre 10, 100 ou 300, issus du corpus complet. Deux documents clés étaient inclus dans chaque échantillon afin de garantir la cohérence. Quinze réponses ont été produites pour chaque modèle, à l'exception de ChatGPT, dont le nombre était limité à dix.

Contenders

Trois outils ont été testés, chacun reflétant une approche différente de l’interrogation basée sur des documents : ChatGPT‑5 a été évalué à l'aide de la Projets en vedette, qui limitait les téléchargements à 100 documents ; Google Gémeaux 2.5 Pro a pu traiter l'intégralité du corpus de 300 documents en contexte (en utilisant sa fenêtre de contexte d'un million de jetons pour ingérer directement les 923 000 jetons) ; Google NotebookLM, qui propose une récupération de citations intégrée, a été testé à l'aide de blocs-notes dédiés pour chaque échantillon.

Bien que ces méthodes de traitement de documents diffèrent, toutes trois représentent de véritables outils actuellement à la disposition des journalistes ; et dans tous les cas, l’état de l’art est actuellement plus expérimental qu’homogène, la parité des fonctionnalités et la portée différant inévitablement parmi les offres actuelles.

Pour saisir l’éventail des comportements hallucinatoires possibles, une taxonomie à partir d’un travaux antérieurs à 2023 a été utilisé, avec des hallucinations codées par orientation (distorsion vs. élaboration) ; category (type d'erreur); et intensité (gravité évaluée à doux, modérée, ou La sonnette d'alarme retentis).

Tous les résultats du modèle ont été annotés par un auteur humain, qui a révisé chaque phrase et appliqué ces codes. Les erreurs non couvertes par la taxonomie ont été signalées comme divers, et analysées plus tard pour développer des catégories spécifiques au journalisme.

Données et tests

Lors du test initial pour prévalence des hallucinations12 réponses du modèle sur 40 contenaient au moins une hallucination, avec des variations notables selon les outils. ChatGPT et Gemini ont produit des hallucinations dans 40 % de leurs résultats, tandis que NotebookLM n'en a produit que dans 13 % des cas.

Taux d'hallucinations globaux pour chaque outil, Gemini et ChatGPT générant la plus forte proportion de réponses erronées. Source : https://arxiv.org/pdf/2509.25498

Taux d’hallucinations globaux pour chaque outil, Gemini et ChatGPT produisant la proportion la plus élevée de réponses contenant des erreurs. Source : https://arxiv.org/pdf/2509.25498

De ces résultats, les auteurs commentent :

« Cela indique que, même si la majorité des réponses à travers tous les outils ne contiennent aucune hallucination, le choix de l'outil fait une différence pour le même corpus de documents et le même ensemble de requêtes. »

Les hallucinations surviennent rarement de manière isolée, note l'article ; Gemini en a enregistré en moyenne quatre par réponse erronée, NotebookLM trois et ChatGPT 1.5. La plupart étaient d'intensité modérée, mais 14 % ont été classées comme La sonnette d'alarme retentisDans un cas, ChatGPT a inventé un motif de représailles derrière une interdiction de TikTok qui n'apparaissait pas dans la source :

« [Dans] une requête, ChatGPT a présenté une éventuelle interdiction de TikTok comme une mesure réciproque des législateurs américains en réponse à la politique chinoise, une affirmation totalement absente du document source cité. »

Dans l’ensemble, 64 % des réponses hallucinantes ont introduit des inexactitudes factuelles ou des tangentes, ce qui soulève potentiellement des questions quant à savoir si l’utilisation du LLM permet réellement de gagner du temps dans ce type de flux de travail basé sur l’information, du moins dans l’état actuel des connaissances.

Dans ce test initial, la plupart des hallucinations ne correspondaient pas aux catégories de taxonomie existantes, impliquant souvent des citations fabriquées ou des extensions d’acronymes incorrectes, ce qui suggère que les cadres actuels peuvent être trop étroits pour les cas d’utilisation du journalisme.

Le taux d'hallucinations plus faible de NotebookLM, observent les auteurs, suggère que son système basé sur les citations CHIFFON Le système fournit une base plus fiable que la fonction Projets de ChatGPT ou le traitement contextuel de Gemini, en particulier lorsque des documents spécifiques doivent être référencés.

En ce qui concerne l’étude des caractéristiques qualitatives des hallucinations observées dans les résultats des tests, les chercheurs observent que les hallucinations ne découlaient pas principalement de faits inventés, mais de portée interprétative excessive:

Les modèles ont ajouté des caractérisations sûres des objectifs du document, des publics et des intentions de l'orateur, qui semblaient fiables, mais manquaient de fondement dans le texte lui-même. Ils ont transformé des affirmations provisoires ou attribuées en affirmations définitives.

L'excès de confiance a pris deux formes : premièrement, les modèles ont ajouté des affirmations non fondées sur le public ou l'objectif d'un document, comme en qualifiant un article de « rédigé pour le public » ou un dossier de « destiné aux avocats ».

Deuxièmement, ils ont converti les opinions attribuées en déclarations factuelles, masquant la source originale et compromettant l’évaluation de la source.

Ces comportements sont apparus dans tous les outils et ne se limitaient pas à une seule architecture – et la plupart des erreurs n’étaient pas des fabrications, mais plutôt, surinterprétations.

La plupart des hallucinations ont été qualifiées de divers, car ils ne correspondaient pas aux catégories existantes, brouillant les différences clés entre les types d'erreur. Des problèmes fréquents tels que attribution manquante et les descriptions vagues des sources suggèrent que les taxonomies actuelles passent à côté des types d’erreurs qui comptent le plus dans le journalisme, où une source claire est essentielle.

Les auteurs observent que « Les modèles ajoutent des analyses fiables que les documents ne prennent pas en charge et suppriment une attribution cruciale. »

Conclusion

Quiconque a expérimenté les trois modèles étudiés dans cette nouvelle étude sait que chacun présente des faiblesses et des atouts. Bien que NotebookLM soit bien plus performant en matière de citation que ChatGPT ou Gemini, on peut considérer qu'il a été conçu spécifiquement pour cette fonctionnalité, et qu'il présente néanmoins un taux d'erreur susceptible de provoquer le licenciement de la plupart des journalistes, chercheurs ou avocats, en cas d'incidents répétés.

De plus, NotebookLM, se positionnant comme un cadre de recherche, manque de nombreuses améliorations UX qui font des deux autres plateformes une expérience d'écriture plus facile.

Cependant, NotebookLM semble au moins lire les documents téléchargés, au lieu de tomber dans l'habitude incroyablement destructrice de ChatGPT de déduire le contenu d'un document téléchargé, en se basant sur ce qu'il sait de la distribution générale de documents similaires. Il peut être difficile de faire en sorte qu'une version de ChatGPT puisse lire le texte intégral des documents téléchargés, au lieu de se fier aux métadonnées ou à ses propres suppositions/hallucinations.

Pour les domaines où les normes de provenance et de citation sont essentielles, comme le droit, le journalisme et la recherche scientifique, il semble qu'il n'y en ait aucune. formés en milieu autochtone des installations dans les LLM leaders du marché actuel qui peuvent améliorer leur capacité limitée à extraire et à traiter avec précision les informations vers lesquelles l'utilisateur les dirige.

Dans l'état actuel des choses, et en attendant l'arrivée de systèmes auxiliaires capables d'offrir une meilleure interface aux LLM qu'une simple invite du système or Réglage MCP, tout ce que ces systèmes produisent pour ces secteurs critiques doit encore être vérifié par ces humains coûteux, maladroits et généralement embêtants.

 

* Google Cloud propose un aperçu assez intéressant et complet sur le sujet ici.

Ma conversion des citations en ligne des auteurs en hyperliens.

Première publication le mercredi 1er octobre 2025. Modifié le jeudi 2 octobre pour corriger une erreur dans TL:DR et corriger une erreur de style dans le premier paragraphe.

Rédacteur en apprentissage automatique, spécialiste du domaine de la synthèse d'images humaines. Ancien responsable du contenu de recherche chez Metaphysic.ai.
Site personnel : martinanderson.ai
Contact [email protected]
Twitter : @manders_ai