Suivez nous sur

Une approche PNL pour la détection d'exagération dans le journalisme scientifique

Intelligence Artificielle

Une approche PNL pour la détection d'exagération dans le journalisme scientifique

mm

Des chercheurs danois ont dĂ©veloppĂ© un système de « dĂ©tection des exagĂ©rations Â» destinĂ© Ă  attĂ©nuer les effets des journalistes qui exagèrent les implications des nouvelles recherches scientifiques lorsqu'ils les rĂ©sument et les rapportent. Ce travail a Ă©tĂ© motivĂ© par l'ampleur des distorsions que les nouvelles recherches publiĂ©es sur la COVID-19 ont subies dans les mĂ©dias, mĂŞme si les auteurs reconnaissent que ce système est applicable Ă  un large Ă©ventail de la presse scientifique gĂ©nĂ©rale.

papier, intitulé Détection d'exagération semi-supervisée des communiqués de presse en sciences de la santé, vient de l'Université de Copenhague, et note que le problème est exacerbé par la tendance des publications à ne pas inclure de liens sources vers la recherche originale - une pratique journalistique de plus en plus courante qui tente de supplanter l'article original et de substituer le résumé rapporté comme « connaissance source » - même lorsque l'article est accessible au public.

Du papier, une manifestation typique de l'exagération des articles scientifiques. Source : https://arxiv.org/pdf/2108.13493.pdf

Du papier, une manifestation typique de l'exagération des articles scientifiques. Source : https://arxiv.org/pdf/2108.13493.pdf

Le problème ne se limite pas à la réaction journalistique externe aux nouveaux articles, mais peut s'étendre à d'autres types de résumés, y compris les efforts de relations publiques internes des universités et des institutions de recherche ; le matériel promotionnel visant à solliciter l'attention des médias ; et les liens de référence utiles (et les munitions potentielles pour les cycles de financement) qui impliquent lorsque les journalistes « mordent ».

Ce travail s'appuie sur le traitement automatique du langage naturel (TALN) et sur un ensemble de données inédit de communiqués de presse et de résumés appariés. Les chercheurs affirment avoir développé une nouvelle formulation de tâche plus réaliste pour la détection des exagérations scientifiques. Les auteurs ont promis de publier le code et les données de ce travail. sur GitHub bientôt.

Lutter contre le sensationnalisme

Plusieurs Ă©tudes se sont penchĂ©es sur le problème du sensationnalisme scientifique depuis une trentaine d'annĂ©es et ont attirĂ© l'attention sur la dĂ©sinformation que cela peut entraĂ®ner. La regrettĂ©e sociologue scientifique amĂ©ricaine Dorothy Nelkin a abordĂ© la question notamment dans le livre Vendre la science : comment la presse couvre la science et la technologie; le rapport Embo de 2006 La mauvaise science dans les gros titres a soulignĂ© la nĂ©cessitĂ© d'avoir davantage de journalistes formĂ©s scientifiquement, alors mĂŞme qu'Internet exerce des pressions budgĂ©taires critiques sur les mĂ©dias traditionnels.

De plus, en 2014, le British Medical Journal a mis l'accent sur le problème dans un rapport; et une étude de 2019 de Wellcome Open Research a même établi que l'exagération des articles scientifiques ne confère aucun avantage (en termes de portée ou de trafic) aux organes de presse et autres systèmes de signalement qui perpétuent cette pratique.

Cependant, l'avènement de la pandémie a mis en lumière les effets négatifs de cette hyperbole, avec une série de plateformes d'information, notamment la page de résultats du moteur de recherche Google et celle de l'Université Cornell. Arxiv index des articles scientifiques ajoutant désormais automatiquement des clauses de non-responsabilité à tout contenu qui semble traiter de COVID.

Interfaces modifiées pour les recherches et le contenu liés à COVID, à partir de la page de résultats de recherche Google et du référentiel d'articles scientifiques influents Arxiv de l'Université Cornell.

Interfaces modifiées pour les recherches et le contenu liés au COVID, à partir de la page de résultats de recherche Google et du référentiel influent d'articles scientifiques Arxiv de l'Université Cornell.

Des projets antérieurs ont tenté de créer des systèmes de détection d'exagération pour les articles scientifiques en tirant parti de la PNL, y compris un 2019 collaboration entre des chercheurs de Hong Kong et de Chine, et un autre article danois (non lié) en 2017..

Les chercheurs du nouvel article notent que ces efforts antérieurs ont développé des ensembles de données de revendications à partir de résumés et de synthèses de PubMed et EurekAlert, étiquetés pour « force », et les ont utilisés pour former des modèles d'apprentissage automatique afin de prédire revendiquer la force dans des données invisibles.

MT-PET

La nouvelle recherche combine à la place un communiqué de presse et un résumé en tant qu'entité de données combinées, et exploite d'abord l'ensemble de données résultant dans MT-PET, une version multitâche de la recherche Pattern Exploiting Training. présenté en 2020 comme Exploitation des questions Cloze pour la classification de texte en quelques prises de vue et l'inférence en langage naturel, un effort de recherche combiné de deux instituts de recherche allemands.

Aucun ensemble de données existant n'a été jugé adapté à la tâche, et l'équipe a donc organisé un nouvel ensemble de données de phrases appariées provenant de résumés et de communiqués de presse associés, évalués par des « experts » en fonction de leur tendance à exagérer.

Les chercheurs ont utilisĂ© le cadre de classification de texte Ă  quelques coups PETAL dans le cadre d'un pipeline pour gĂ©nĂ©rer automatiquement des paires modèle-verbaliseur, rĂ©itĂ©rant ensuite les donnĂ©es jusqu'Ă  ce que des tuplets Ă  peu près Ă©quivalents soient trouvĂ©s pour deux qualitĂ©s : la dĂ©tection d'exagĂ©ration et la force de l'affirmation.

Les donnĂ©es « or Â» utilisĂ©es pour les tests ont Ă©tĂ© rĂ©utilisĂ©es Ă  partir des projets de recherche antĂ©rieurs mentionnĂ©s prĂ©cĂ©demment, soit 823 paires de rĂ©sumĂ©s et de communiquĂ©s de presse. Les chercheurs ont rejetĂ© l'utilisation possible des donnĂ©es du BMJ de 2014, car elles sont paraphrasĂ©es.

Ce processus a obtenu un ensemble de donnĂ©es de 663 paires rĂ©sumĂ©/publication Ă©tiquetĂ©es pour l'exagĂ©ration et la force des revendications. Les chercheurs ont Ă©chantillonnĂ© au hasard 100 d'entre eux comme apprentissage en quelques Ă©tapes DonnĂ©es d'entraĂ®nement, avec 553 exemples rĂ©servĂ©s aux tests. De plus, un petit ensemble d'entraĂ®nement a Ă©tĂ© créé, composĂ© de 1,138 XNUMX phrases, classĂ©es selon qu'elles reprĂ©sentent ou non la conclusion principale du rĂ©sumĂ© ou du communiquĂ© de presse. Ces phrases ont Ă©tĂ© utilisĂ©es pour identifier les « phrases de conclusion Â» par paires non Ă©tiquetĂ©es.

Tests

Les chercheurs ont testĂ© l'approche dans trois configurations : un cadre entièrement supervisĂ© avec des donnĂ©es exclusivement Ă©tiquetĂ©es ; un scĂ©nario TEP Ă  tâche unique ; et sur le nouveau MT-PET, qui ajoute un fil de formulation secondaire en tant que tâche auxiliaire (puisque le but du projet est d'examiner deux qualitĂ©s distinctes Ă  partir d'un ensemble de donnĂ©es avec des constructions de donnĂ©es appariĂ©es).

Les chercheurs ont découvert que la MT-PET améliorait les résultats de la TEP de base dans tous les environnements de test et ont constaté que l'identification de la force de l'allégation aidait à produire des données d'entraînement à étiquetage souple pour la détection d'exagération. Cependant, le document note que dans certaines configurations parmi un éventail complexe de tests, en particulier liés à la force des revendications, la présence de données étiquetées par des professionnels peut être un facteur d'amélioration des résultats (par rapport aux projets de recherche antérieurs qui traitent de ce problème). Cela pourrait avoir des implications sur la mesure dans laquelle le pipeline peut être automatisé, en fonction de l'accent mis sur les données de la tâche.

NĂ©anmoins, les chercheurs concluent que MT-PET « aide dans les cas les plus difficiles d'identification et de diffĂ©renciation des revendications causales directes des revendications plus faibles, et que l'approche la plus performante consiste Ă  classer et Ă  comparer la force des revendications individuelles des dĂ©clarations des documents source et cible Â».

En conclusion, le travail suppose que MT-PET pourrait non seulement être appliqué à un plus large éventail d'articles scientifiques (en dehors du secteur de la santé), mais pourrait également constituer la base de nouveaux outils pour aider les journalistes à produire de meilleurs aperçus des articles scientifiques (bien que ceci, peut-être naïvement, suppose que les journalistes exagèrent la force des revendications par ignorance), tout en aidant la communauté des chercheurs à formuler une utilisation plus claire du langage pour expliquer des idées complexes. En outre, le document observe :

« [il] convient de noter que les résultats de performance prédictive rapportés dans cet article concernent des communiqués de presse rédigés par des journalistes scientifiques – on pourrait s’attendre à des résultats pires pour les communiqués de presse qui simplifient davantage les articles scientifiques. »

 

Rédacteur en apprentissage automatique, spécialiste du domaine de la synthèse d'images humaines. Ancien responsable du contenu de recherche chez Metaphysic.ai.
Site personnel : martinanderson.ai
Contact [email protected]
Twitter : @manders_ai