Intelligence Artificielle
Une approche PNL pour la détection d'exagération dans le journalisme scientifique

Des chercheurs danois ont développé un système de « détection des exagérations » destiné à atténuer les effets des journalistes qui exagèrent les implications des nouvelles recherches scientifiques lorsqu'ils les résument et les rapportent. Ce travail a été motivé par l'ampleur des distorsions que les nouvelles recherches publiées sur la COVID-19 ont subies dans les médias, même si les auteurs reconnaissent que ce système est applicable à un large éventail de la presse scientifique générale.
papier, intitulé Détection d'exagération semi-supervisée des communiqués de presse en sciences de la santé, vient de l'Université de Copenhague, et note que le problème est exacerbé par la tendance des publications à ne pas inclure de liens sources vers la recherche originale - une pratique journalistique de plus en plus courante qui tente de supplanter l'article original et de substituer le résumé rapporté comme « connaissance source » - même lorsque l'article est accessible au public.

Du papier, une manifestation typique de l'exagération des articles scientifiques. Source : https://arxiv.org/pdf/2108.13493.pdf
Le problème ne se limite pas à la réaction journalistique externe aux nouveaux articles, mais peut s'étendre à d'autres types de résumés, y compris les efforts de relations publiques internes des universités et des institutions de recherche ; le matériel promotionnel visant à solliciter l'attention des médias ; et les liens de référence utiles (et les munitions potentielles pour les cycles de financement) qui impliquent lorsque les journalistes « mordent ».
Ce travail s'appuie sur le traitement automatique du langage naturel (TALN) et sur un ensemble de données inédit de communiqués de presse et de résumés appariés. Les chercheurs affirment avoir développé une nouvelle formulation de tâche plus réaliste pour la détection des exagérations scientifiques. Les auteurs ont promis de publier le code et les données de ce travail. sur GitHub bientôt.
Lutter contre le sensationnalisme
Plusieurs études se sont penchées sur le problème du sensationnalisme scientifique depuis une trentaine d'années et ont attiré l'attention sur la désinformation que cela peut entraîner. La regrettée sociologue scientifique américaine Dorothy Nelkin a abordé la question notamment dans le livre Vendre la science : comment la presse couvre la science et la technologie; le rapport Embo de 2006 La mauvaise science dans les gros titres a souligné la nécessité d'avoir davantage de journalistes formés scientifiquement, alors même qu'Internet exerce des pressions budgétaires critiques sur les médias traditionnels.
De plus, en 2014, le British Medical Journal a mis l'accent sur le problème dans un rapport; et une étude de 2019 de Wellcome Open Research a même établi que l'exagération des articles scientifiques ne confère aucun avantage (en termes de portée ou de trafic) aux organes de presse et autres systèmes de signalement qui perpétuent cette pratique.
Cependant, l'avènement de la pandémie a mis en lumière les effets négatifs de cette hyperbole, avec une série de plateformes d'information, notamment la page de résultats du moteur de recherche Google et celle de l'Université Cornell. Arxiv index des articles scientifiques ajoutant désormais automatiquement des clauses de non-responsabilité à tout contenu qui semble traiter de COVID.

Interfaces modifiées pour les recherches et le contenu liés au COVID, à partir de la page de résultats de recherche Google et du référentiel influent d'articles scientifiques Arxiv de l'Université Cornell.
Des projets antérieurs ont tenté de créer des systèmes de détection d'exagération pour les articles scientifiques en tirant parti de la PNL, y compris un 2019 collaboration entre des chercheurs de Hong Kong et de Chine, et un autre article danois (non lié) en 2017..
Les chercheurs du nouvel article notent que ces efforts antérieurs ont développé des ensembles de données de revendications à partir de résumés et de synthèses de PubMed et EurekAlert, étiquetés pour « force », et les ont utilisés pour former des modèles d'apprentissage automatique afin de prédire revendiquer la force dans des données invisibles.
MT-PET
La nouvelle recherche combine à la place un communiqué de presse et un résumé en tant qu'entité de données combinées, et exploite d'abord l'ensemble de données résultant dans MT-PET, une version multitâche de la recherche Pattern Exploiting Training. présenté en 2020 comme Exploitation des questions Cloze pour la classification de texte en quelques prises de vue et l'inférence en langage naturel, un effort de recherche combiné de deux instituts de recherche allemands.
Aucun ensemble de données existant n'a été jugé adapté à la tâche, et l'équipe a donc organisé un nouvel ensemble de données de phrases appariées provenant de résumés et de communiqués de presse associés, évalués par des « experts » en fonction de leur tendance à exagérer.
Les chercheurs ont utilisé le cadre de classification de texte à quelques coups PETAL dans le cadre d'un pipeline pour générer automatiquement des paires modèle-verbaliseur, réitérant ensuite les données jusqu'à ce que des tuplets à peu près équivalents soient trouvés pour deux qualités : la détection d'exagération et la force de l'affirmation.
Les données « or » utilisées pour les tests ont été réutilisées à partir des projets de recherche antérieurs mentionnés précédemment, soit 823 paires de résumés et de communiqués de presse. Les chercheurs ont rejeté l'utilisation possible des données du BMJ de 2014, car elles sont paraphrasées.
Ce processus a obtenu un ensemble de données de 663 paires résumé/publication étiquetées pour l'exagération et la force des revendications. Les chercheurs ont échantillonné au hasard 100 d'entre eux comme apprentissage en quelques étapes Données d'entraînement, avec 553 exemples réservés aux tests. De plus, un petit ensemble d'entraînement a été créé, composé de 1,138 XNUMX phrases, classées selon qu'elles représentent ou non la conclusion principale du résumé ou du communiqué de presse. Ces phrases ont été utilisées pour identifier les « phrases de conclusion » par paires non étiquetées.
Tests
Les chercheurs ont testé l'approche dans trois configurations : un cadre entièrement supervisé avec des données exclusivement étiquetées ; un scénario TEP à tâche unique ; et sur le nouveau MT-PET, qui ajoute un fil de formulation secondaire en tant que tâche auxiliaire (puisque le but du projet est d'examiner deux qualités distinctes à partir d'un ensemble de données avec des constructions de données appariées).
Les chercheurs ont découvert que la MT-PET améliorait les résultats de la TEP de base dans tous les environnements de test et ont constaté que l'identification de la force de l'allégation aidait à produire des données d'entraînement à étiquetage souple pour la détection d'exagération. Cependant, le document note que dans certaines configurations parmi un éventail complexe de tests, en particulier liés à la force des revendications, la présence de données étiquetées par des professionnels peut être un facteur d'amélioration des résultats (par rapport aux projets de recherche antérieurs qui traitent de ce problème). Cela pourrait avoir des implications sur la mesure dans laquelle le pipeline peut être automatisé, en fonction de l'accent mis sur les données de la tâche.
Néanmoins, les chercheurs concluent que MT-PET « aide dans les cas les plus difficiles d'identification et de différenciation des revendications causales directes des revendications plus faibles, et que l'approche la plus performante consiste à classer et à comparer la force des revendications individuelles des déclarations des documents source et cible ».
En conclusion, le travail suppose que MT-PET pourrait non seulement être appliqué à un plus large éventail d'articles scientifiques (en dehors du secteur de la santé), mais pourrait également constituer la base de nouveaux outils pour aider les journalistes à produire de meilleurs aperçus des articles scientifiques (bien que ceci, peut-être naïvement, suppose que les journalistes exagèrent la force des revendications par ignorance), tout en aidant la communauté des chercheurs à formuler une utilisation plus claire du langage pour expliquer des idées complexes. En outre, le document observe :
« [il] convient de noter que les résultats de performance prédictive rapportés dans cet article concernent des communiqués de presse rédigés par des journalistes scientifiques – on pourrait s’attendre à des résultats pires pour les communiqués de presse qui simplifient davantage les articles scientifiques. »












