Intelligence artificielle
Une approche NLP pour la détection de l’exagération dans le journalisme scientifique

Les chercheurs du Danemark ont développé un système de « détection de l’exagération » conçu pour atténuer les effets de la surestimation par les journalistes des implications des nouvelles recherches scientifiques lors de la résumé et de la publication de ces dernières. Ce travail a été motivé par l’ampleur à laquelle les nouvelles recherches publiées sur la COVID-19 ont été déformées dans les canaux de reportage, même si les auteurs reconnaissent qu’il est applicable à un large éventail du secteur de la science en général.
Le document, intitulé Détection semi-supervisée de l’exagération des communiqués de presse sur les sciences de la santé, provient de l’Université de Copenhague, et note que le problème est exacerbé par la tendance des publications à ne pas inclure de liens vers les recherches originales – une pratique journalistique de plus en plus courante qui tente de supplanter le document original et de substituer le résumé réédité comme « connaissance source » – même lorsque le document est accessible au public.

À partir du document, une manifestation typique de l’exagération des documents scientifiques. Source : https://arxiv.org/pdf/2108.13493.pdf
Le problème ne se limite pas à la réaction journalistique externe aux nouvelles publications, mais peut s’étendre à d’autres types de résumé, notamment les efforts de relations publiques internes des universités et des institutions de recherche ; les documents promotionnels destinés à solliciter l’attention des médias ; et les liens de référence utiles (et potentiellement des munitions pour les cycles de financement) qui en découlent lorsque les journalistes « mordent ».
Le travail utilise le traitement automatique du langage (NLP) contre un nouveau jeu de données de communiqués de presse et de résumés appariés, les chercheurs affirmant avoir développé « une nouvelle formulation de tâche plus réaliste » pour la détection de l’exagération scientifique. Les auteurs ont promis de publier le code et les données pour le travail sur GitHub bientôt.
Lutte contre le sensationnalisme
Un certain nombre d’études ont abordé le problème du sensationnalisme scientifique au cours des trente dernières années, et ont attiré l’attention sur les fausses informations qui en découlent. Le sociologue scientifique américain Dorothy Nelkin a abordé ce problème de manière notable dans le livre de 1987 Selling Science: How the Press Covers Science and Technology ; le rapport Embo de 2006 Bad science in the headlines a souligné la nécessité de journalistes plus formés scientifiquement, juste au moment où Internet apportait des pressions budgétaires critiques sur les médias traditionnels.
De plus, en 2014, le British Medical Journal a mis en évidence le problème dans un rapport ; et une étude de 2019 de Wellcome Open Research a même établi que l’exagération des documents scientifiques n’apporte aucun avantage (en termes de portée ou de trafic) aux médias et autres systèmes de reportage qui perpétuent cette pratique.
Cependant, l’avènement de la pandémie a mis en évidence les effets négatifs de cet hyperbole, avec une gamme de plateformes d’information, notamment la page de résultats de recherche de Google et l’index de documents scientifiques d’Arxiv de l’Université Cornell, ajoutant désormais automatiquement des avertissements à tout contenu qui semble traiter de la COVID.

Interfaces modifiées pour les recherches et le contenu liés à la COVID, de la page de résultats de recherche de Google et de l’influenceux référentiel de documents scientifiques Arxiv de l’Université Cornell.
Les projets antérieurs ont tenté de créer des systèmes de détection de l’exagération pour les documents scientifiques en utilisant le NLP, notamment une collaboration de 2019 entre des chercheurs de Hong Kong et de Chine, et un autre document (sans rapport) du Danemark en 2017.
Les chercheurs de la nouvelle étude notent que ces efforts antérieurs ont développé des ensembles de données d’allégations à partir de résumés et de communiqués de presse de PubMed et EurekAlert, étiquetés pour la « force », et les ont utilisés pour former des modèles d’apprentissage automatique pour prédire la force de l’allégation dans les données non vues.
MT-PET
La nouvelle recherche combine plutôt un communiqué de presse et un résumé en une entité de données combinée, et exploite l’ensemble de données résultant dans MT-PET, une version capable de plusieurs tâches de la formation d’exploitation de modèles, présentée pour la première fois en 2020 sous la forme d’un effort de recherche combiné de deux institutions de recherche allemandes.
Aucun ensemble de données existant n’a été trouvé pour être adapté à la tâche, et l’équipe a donc créé un nouvel ensemble de données de phrases appariées à partir de résumés et de communiqués de presse liés, évaluées par des « experts » en termes de tendance à exagérer.
Les chercheurs ont utilisé le cadre de classification de texte à few-shot PETAL dans le cadre d’un pipeline pour générer automatiquement des paires de modèles-verbaliseurs, réitérant ensuite à travers les données jusqu’à ce que des tuplets approximativement équivalents soient trouvés pour deux qualités : détection de l’exagération et force de l’allégation.
Les « données d’or » pour les tests ont été réutilisées des projets de recherche antérieurs, consistant en 823 paires de résumés et de communiqués de presse. Les chercheurs ont rejeté la possibilité d’utiliser les données de 2014 du BMJ, car elles sont paraphrasées.
Ce processus a obtenu un ensemble de données de 663 paires de résumés et de communiqués de presse étiquetés pour l’exagération et la force de l’allégation. Les chercheurs ont échantillonné aléatoirement 100 d’entre eux comme données de formation à few-shot, avec 553 exemples mis de côté pour les tests. De plus, un petit ensemble de formation a été créé, consistant en 1 138 phrases, classées pour savoir si elles représentent ou non la principale conclusion du résumé ou du communiqué de presse. Ceux-ci ont été utilisés pour identifier les « phrases de conclusion » dans les paires non étiquetées.
Tests
Les chercheurs ont testé l’approche dans trois configurations : un environnement supervisé avec des données étiquetées exclusivement ; un scénario PET à tâche unique ; et sur le nouveau MT-PET, qui ajoute un fil de formulation secondaire comme tâche auxiliaire (dans la mesure où l’objectif du projet est d’examiner deux qualités distinctes à partir d’un ensemble de données avec des constructions de données appariées).
Les chercheurs ont constaté que MT-PET améliore les résultats de base de PET dans tous les environnements de test, et ont constaté que l’identification de la force de l’allégation aide à produire des données de formation étiquetées pour la détection de l’exagération. Cependant, le document note que dans certaines configurations parmi un ensemble complexe de tests, en particulier liés à la force de l’allégation, la présence de données étiquetées professionnellement peut être un facteur dans l’amélioration des résultats (par rapport aux projets de recherche antérieurs qui abordent ce problème). Cela pourrait avoir des implications pour la mesure dans laquelle le pipeline peut être automatisé, en fonction de l’accent mis sur les données de la tâche.
Néanmoins, les chercheurs concluent que MT-PET « aide dans les cas plus difficiles pour identifier et différencier les allégations de cause directe des allégations plus faibles, et que l’approche la plus performante implique de classer et de comparer la force individuelle de l’allégation des énoncés des documents source et cible ».
En conclusion, le travail spécule que MT-PET pourrait non seulement être appliqué à un plus large éventail de documents scientifiques (en dehors du secteur de la santé), mais pourrait également former la base d’outils pour aider les journalistes à produire de meilleures synthèses de documents scientifiques (bien que cela suppose peut-être naïvement que les journalistes exagèrent la force de l’allégation par ignorance), ainsi qu’aider la communauté de recherche à formuler un langage plus clair pour expliquer des idées complexes. De plus, le document observe :
« il devrait être noté que les résultats de performance prédictive rapportés dans ce document sont pour les communiqués de presse rédigés par des journalistes scientifiques – on pourrait s’attendre à de moins bons résultats pour les communiqués de presse qui simplifient fortement les articles scientifiques »












