Anderson 视角

一种用于科学新闻中的夸大检测的NLP方法

发布于 2021年9月15日

更新于 2026年5月24日

作者

Martin Anderson

丹麦的研究人员开发了一种“夸大检测”系统，旨在减轻科学研究论文被记者夸大报道的影响。该工作是由记者对新发布的COVID-19研究论文的报道被歪曲的程度所激发的，尽管作者承认它适用于更广泛的科学报道领域。

该论文《半监督健康科学新闻稿夸大检测》来自哥本哈根大学，指出该问题因出版物不包括原始研究的源链接而加剧，这是一种日益常见的记者做法，试图取代原始论文并将重述的摘要作为“源知识”，即使该论文是公开可用的。

来自论文的科学论文夸大典型表现。 来源：https://arxiv.org/pdf/2108.13493.pdf

该问题不仅限于对新论文的外部记者反应，还可以扩展到其他类型的摘要，包括大学和研究机构的内部公关工作；针对新闻媒体的宣传材料；以及当记者“咬住”时伴随的有用引用链接（以及潜在的资金轮次）。

该工作利用自然语言处理（NLP）技术处理了一组新的配对新闻稿和摘要数据集，研究人员声称已经开发出“一种新的、更现实的任务公式”来检测科学夸大。作者承诺将在GitHub上发布该工作的代码和数据。

解决耸人听闻的问题

过去三十年中，许多研究都解决了科学耸人听闻的问题，并引起了人们对由此产生的错误信息的关注。已故的美国科学社会学家Dorothy Nelkin在1987年的书《出售科学：媒体如何报道科学和技术》中特别解决了这个问题；2006年的Embo报告《头条新闻中的坏科学》强调了需要更多科学训练的记者，就像互联网给传统媒体带来关键的预算压力一样。

此外，2014年，英国医学杂志在一份报告中强调了这个问题；2019年，Wellcome Open Research的一项研究甚至发现，科学论文的夸大不会带来任何好处（在范围或流量方面）给新闻媒体和其他从事此类行为的报道系统。

然而，疫情的爆发使得这种夸张的负面影响进入了关键焦点，包括谷歌搜索结果页面和康奈尔大学的Arxiv科学论文索引现在自动为任何似乎与COVID相关的内容添加免责声明。

来自谷歌搜索结果页面和康奈尔大学有影响力的Arxiv科学论文存储库的COVID搜索和内容的修改接口。

以前的项目已经尝试使用NLP创建科学论文的夸大检测系统，包括2019年香港和中国研究人员的合作，以及2017年丹麦的一篇论文。

该论文的研究人员指出，这些早期的努力开发了来自PubMed和EurekAlert的摘要和摘要的数据集，标记为“强度”，并使用它们来训练机器学习模型以预测未见数据中的“主张强度”。

MT-PET

新研究将新闻稿和摘要作为一个组合数据实体，并利用MT-PET（一种多任务版本的模式利用训练研究）利用该数据集，MT-PET最先在2020年作为《利用Cloze问题进行少样本文本分类和自然语言推理》的联合研究成果被提出。

没有找到合适的现有数据集，因此该团队策划了一个新数据集，包含来自摘要和相关新闻稿的配对句子，由“专家”根据其夸大倾向进行评估。

研究人员使用少样本文本分类框架PETAL作为一个管道来自动生成模式-口语化器对，并重复遍历数据，直到找到两个质量的近似等效元组：夸大检测和主张强度。

“金标准”测试数据来自前面提到的早期研究项目，包括823对摘要和新闻稿。研究人员拒绝使用2014年的BMJ数据，因为它是重述的。

该过程获得了一个包含663对摘要/发布对的数据集，标记为夸大和主张强度。研究人员随机抽取了100个作为少样本学习训练数据，553个样本用于测试。此外，创建了一个小型训练集，包含1138个句子，分类为是否代表摘要或新闻稿的主要结论。这些用于识别未标记对中的“结论句子”。

测试

研究人员以三种配置测试了该方法：完全监督设置，仅使用标记数据；单任务PET场景；以及新的MT-PET，它将辅助任务线程作为二级公式（因为该项目的目标是检查具有配对数据构造的数据集的两个独立质量）。

研究人员发现，MT-PET在测试环境中改进了基本PET结果，并发现，识别主张强度有助于生成软标记训练数据以进行夸大检测。然而，该论文指出，在某些配置中，特别是与主张强度相关的配置中，专业标记数据的存在可能是改进结果的因素（与早期研究项目相比，这些项目解决了这个问题）。这可能会影响管道可以被自动化的程度，具体取决于任务的数据强调。

尽管如此，研究人员得出结论，MT-PET“有助于识别和区分直接因果主张和较弱主张，并且最有效的方法是分类和比较源文档和目标文档中的个别主张强度”。

最后，工作推测，MT-PET不仅可以应用于更广泛的科学论文（不仅仅是健康领域），还可以成为帮助记者制作更好科学论文概述的新工具的基础（尽管这可能天真地假设记者是由于无知而夸大主张强度），以及帮助研究社区制定更清晰的语言来解释复杂的想法。另外，该论文指出：

“应该注意到本文报告的预测性能结果是针对科学记者撰写的新闻稿——可以预期，对于更强烈简化科学文章的新闻稿，结果会更差。”

Martin Anderson

机器学习作家，人类图像合成领域专家。曾任 Metaphysic.ai 研究内容负责人。
个人网站： martinanderson.ai
联系： [email protected]
Twitter：@manders_ai

Unite.AI

一种用于科学新闻中的夸大检测的NLP方法

解决耸人听闻的问题

MT-PET

测试

发现更多