Suivez nous sur

Une approche PNL pour la détection d'exagération dans le journalisme scientifique

Intelligence Artificielle

Une approche PNL pour la détection d'exagération dans le journalisme scientifique

mm

Des chercheurs danois ont mis au point un système de « dĂ©tection d'exagĂ©ration Â» conçu pour attĂ©nuer les effets des journalistes exagĂ©rant les implications de nouveaux articles de recherche scientifique lorsqu'ils les rĂ©sument et les rapportent. Le travail a Ă©tĂ© motivĂ© par la mesure dans laquelle les nouvelles recherches publiĂ©es sur le COVID-19 ont Ă©tĂ© dĂ©formĂ©es dans les canaux de signalement, bien que les auteurs admettent qu'il est applicable Ă  une large tranche du secteur gĂ©nĂ©ral des rapports scientifiques.

Les papier, intitulé Détection d'exagération semi-supervisée des communiqués de presse en sciences de la santé, vient de l'Université de Copenhague, et note que le problème est exacerbé par la tendance des publications à ne pas inclure de liens sources vers la recherche originale - une pratique journalistique de plus en plus courante qui tente de supplanter l'article original et de remplacer le résumé re-rapporté comme 'source de connaissances' – même lorsque le document est accessible au public.

Du papier, une manifestation typique de l'exagération des articles scientifiques. Source : https://arxiv.org/pdf/2108.13493.pdf

Du papier, une manifestation typique de l'exagération des articles scientifiques. Source : https://arxiv.org/pdf/2108.13493.pdf

Le problème ne se limite pas à la réaction journalistique externe aux nouveaux articles, mais peut s'étendre à d'autres types de résumés, y compris les efforts de relations publiques internes des universités et des instituts de recherche ; matériel promotionnel visant à attirer l'attention des médias; et les liens de référence utiles (et les munitions potentielles pour les cycles de financement) qui impliquent lorsque les journalistes « mordent ».

Le travail exploite le traitement du langage naturel (NLP) sur un nouvel ensemble de données de communiqués de presse et de résumés, les chercheurs affirmant avoir développé «[une] nouvelle formulation de tâches plus réaliste» pour la détection de l'exagération scientifique. Les auteurs ont promis de publier le code et les données du travail sur GitHub bientôt.

Lutter contre le sensationnalisme

Plusieurs Ă©tudes se sont penchĂ©es sur le problème du sensationnalisme scientifique depuis une trentaine d'annĂ©es et ont attirĂ© l'attention sur la dĂ©sinformation que cela peut entraĂ®ner. La regrettĂ©e sociologue scientifique amĂ©ricaine Dorothy Nelkin a abordĂ© la question notamment dans le livre Vendre la science : comment la presse couvre la science et la technologie; le rapport Embo de 2006 La mauvaise science dans les gros titres a soulignĂ© la nĂ©cessitĂ© d'avoir davantage de journalistes formĂ©s scientifiquement, alors mĂŞme qu'Internet exerce des pressions budgĂ©taires critiques sur les mĂ©dias traditionnels.

De plus, en 2014, le British Medical Journal a mis l'accent sur le problème dans un Ecojustice; et une étude de 2019 de Wellcome Open Research a même établi que l'exagération des articles scientifiques ne confère aucun avantage (en termes de portée ou de trafic) aux organes de presse et autres systèmes de signalement qui perpétuent cette pratique.

Cependant, l'avènement de la pandémie a mis en évidence les effets négatifs de cette hyperbole, avec une gamme de plateformes d'information, y compris la page de résultats du moteur de recherche Google et le site Web de l'Université Cornell Arxiv index des articles scientifiques ajoutant désormais automatiquement des clauses de non-responsabilité à tout contenu qui semble traiter de COVID.

Interfaces modifiées pour les recherches et le contenu liés à COVID, à partir de la page de résultats de recherche Google et du référentiel d'articles scientifiques influents Arxiv de l'Université Cornell.

Interfaces modifiées pour les recherches et le contenu liés à COVID, à partir de la page de résultats de recherche Google et du référentiel d'articles scientifiques influents Arxiv de l'Université Cornell.

Des projets antérieurs ont tenté de créer des systèmes de détection d'exagération pour les articles scientifiques en tirant parti de la PNL, y compris un 2019 collaboration entre des chercheurs de Hong Kong et de Chine, et un autre article danois (non lié) en 2017..

Les chercheurs du nouvel article notent que ces efforts antérieurs ont développé des ensembles de données d'affirmations à partir de résumés de PubMed et d'EurekAlert, étiquetés pour leur « force », et les ont utilisés pour former des modèles d'apprentissage automatique afin de prédire revendiquer la force dans des données invisibles.

MT-PET

La nouvelle recherche combine à la place un communiqué de presse et un résumé en tant qu'entité de données combinées, et exploite d'abord l'ensemble de données résultant dans MT-PET, une version multitâche de la recherche Pattern Exploiting Training. présenté en 2020 comme Exploitation des questions Cloze pour la classification de texte en quelques prises de vue et l'inférence en langage naturel, un effort de recherche combiné de deux instituts de recherche allemands.

Aucun ensemble de données existant ne s'est avéré adapté à la tâche, et l'équipe a donc organisé un nouvel ensemble de données de phrases appariées à partir de résumés et de communiqués de presse connexes, évalués par des «experts» en fonction de leur tendance à exagérer.

Les chercheurs ont utilisĂ© le cadre de classification de texte Ă  quelques coups PETAL dans le cadre d'un pipeline pour gĂ©nĂ©rer automatiquement des paires modèle-verbaliseur, rĂ©itĂ©rant ensuite les donnĂ©es jusqu'Ă  ce que des tuplets Ă  peu près Ă©quivalents soient trouvĂ©s pour deux qualitĂ©s : la dĂ©tection d'exagĂ©ration et la force de l'affirmation.

Les donnĂ©es « or Â» pour les tests ont Ă©tĂ© rĂ©utilisĂ©es Ă  partir des projets de recherche antĂ©rieurs susmentionnĂ©s, consistant en 823 paires de rĂ©sumĂ©s et de communiquĂ©s de presse. Les chercheurs ont rejetĂ© l'utilisation possible des donnĂ©es du BMJ de 2014, car elles sont paraphrasĂ©es.

Ce processus a obtenu un ensemble de donnĂ©es de 663 paires rĂ©sumĂ©/publication Ă©tiquetĂ©es pour l'exagĂ©ration et la force des revendications. Les chercheurs ont Ă©chantillonnĂ© au hasard 100 d'entre eux comme apprentissage en quelques Ă©tapes donnĂ©es de formation, avec 553 exemples mis de cĂ´tĂ© pour les tests. De plus, un petit ensemble d'entraĂ®nement a Ă©tĂ© créé, composĂ© de 1,138 XNUMX phrases, classĂ©es selon qu'elles reprĂ©sentent ou non la conclusion principale du rĂ©sumĂ© ou du communiquĂ© de presse. Celles-ci ont Ă©tĂ© utilisĂ©es pour identifier les « phrases de conclusion Â» dans les paires non Ă©tiquetĂ©es.

USP,EP, BP

Les chercheurs ont testĂ© l'approche dans trois configurations : un cadre entièrement supervisĂ© avec des donnĂ©es exclusivement Ă©tiquetĂ©es ; un scĂ©nario TEP Ă  tâche unique ; et sur le nouveau MT-PET, qui ajoute un fil de formulation secondaire en tant que tâche auxiliaire (puisque le but du projet est d'examiner deux qualitĂ©s distinctes Ă  partir d'un ensemble de donnĂ©es avec des constructions de donnĂ©es appariĂ©es).

Les chercheurs ont découvert que la MT-PET améliorait les résultats de la TEP de base dans tous les environnements de test et ont constaté que l'identification de la force de l'allégation aidait à produire des données d'entraînement à étiquetage souple pour la détection d'exagération. Cependant, le document note que dans certaines configurations parmi un éventail complexe de tests, en particulier liés à la force des revendications, la présence de données étiquetées par des professionnels peut être un facteur d'amélioration des résultats (par rapport aux projets de recherche antérieurs qui traitent de ce problème). Cela pourrait avoir des implications sur la mesure dans laquelle le pipeline peut être automatisé, en fonction de l'accent mis sur les données de la tâche.

Néanmoins, les chercheurs concluent que MT-PET "aide dans les cas les plus difficiles d'identification et de différenciation des revendications causales directes des revendications plus faibles, et que l'approche la plus performante consiste à classer et à comparer la force des revendications individuelles des déclarations des documents source et cible".

En conclusion, le travail suppose que MT-PET pourrait non seulement être appliqué à un plus large éventail d'articles scientifiques (en dehors du secteur de la santé), mais pourrait également constituer la base de nouveaux outils pour aider les journalistes à produire de meilleurs aperçus des articles scientifiques (bien que ceci, peut-être naïvement, suppose que les journalistes exagèrent la force des revendications par ignorance), tout en aidant la communauté des chercheurs à formuler une utilisation plus claire du langage pour expliquer des idées complexes. En outre, le document observe :

"[il] convient de noter que les résultats de performance prédictive rapportés dans cet article concernent les communiqués de presse rédigés par des journalistes scientifiques - on pourrait s'attendre à de moins bons résultats pour les communiqués de presse qui simplifient davantage les articles scientifiques."