人工智能
一种用于科学新闻中的夸大检测的 NLP 方法

丹麦的研究人员开发了一种“夸大检测”系统,旨在减轻科学新闻记者在总结和报道新科学研究论文时夸大其词的影响。该工作是由新发表的COVID-19研究论文在报道渠道中被歪曲的程度所引发的,尽管作者承认它可以应用于整个科学新闻领域。
论文,题为《半监督健康科学新闻稿中的夸大检测》来自哥本哈根大学,指出该问题因出版物不包含原始研究的源链接而加剧,这是一种日益普遍的新闻实践,试图取代原始论文并将重新报道的摘要作为“源知识”——即使该论文是公开可用的。

来自论文的科学论文夸大的典型表现。 来源:https://arxiv.org/pdf/2108.13493.pdf
该问题不仅限于外部新闻对新论文的反应,还可以扩展到其他类型的摘要,包括大学和研究机构的内部公关工作;旨在吸引新闻媒体注意力的宣传材料;以及当记者“咬住”时可能产生的有用推荐链接(和潜在的资金支持)。
该工作利用自然语言处理(NLP)技术对一组新的新闻稿和摘要数据集进行处理,研究人员声称已经开发出“一种新的、更现实的任务公式”来检测科学上的夸大。作者承诺将在GitHub上发布该工作的代码和数据。
解决耸人听闻的问题
过去三十年中,许多研究都解决了科学耸人听闻的问题,并指出这可能导致的错误信息。已故的美国科学社会学家多萝西·内尔金(Dorothy Nelkin)在1987年的书《出售科学:新闻媒体如何报道科学和技术》中特别提到了这个问题;2006年的Embo报告《标题中的坏科学》强调了需要更多接受科学训练的记者,就像互联网给传统媒体带来了重大的预算压力一样。
此外,2014年,英国医学杂志在一份报告中强调了这个问题;2019年,Wellcome Open Research的一项研究甚至发现,科学论文的夸大并没有给新闻媒体和其他报道系统带来任何好处(在范围或流量方面)。
然而,疫情的爆发使得这种夸张的负面影响进入了焦点,包括Google搜索结果页面和康奈尔大学的Arxiv科学论文索引现在自动为似乎与COVID相关的内容添加免责声明。

来自Google搜索结果页面和康奈尔大学有影响力的Arxiv科学论文仓库的COVID相关搜索和内容的修订界面。
以前的项目曾尝试使用NLP创建科学论文的夸大检测系统,包括2019年香港和中国研究人员之间的合作,以及2017年丹麦的一篇论文。
该论文的研究人员指出,这些早期的努力开发了来自PubMed和EurekAlert的摘要和新闻稿的数据集,并使用这些数据集训练机器学习模型来预测未见数据中的“声明强度”。
MT-PET
新的研究结合了新闻稿和摘要作为一个组合数据实体,并利用所得到的数据集在MT-PET中,这是一种多任务版本的模式利用训练,最初在2020年作为《利用Cloze问题进行少样本文本分类和自然语言推理》的联合研究努力中提出。
没有找到合适的现有数据集,因此该团队策划了一个新的摘要和相关新闻稿的配对句子数据集,由“专家”根据其夸大的倾向进行评估。
研究人员使用少样本文本分类框架PETAL作为管道的一部分,自动生成模式-口语化对,随后重新迭代数据,直到找到两个质量的近似元组:夸大检测和声明强度。
“金”数据用于测试来自前述早期研究项目的数据,包括823对摘要和新闻稿。研究人员拒绝使用2014年BMJ数据,因为它是改述的。
该过程获得了一个包含663对摘要/发布配对的数据集,标记为夸大和声明强度。研究人员随机抽取了100个作为少样本学习训练数据,553个样本用于测试。此外,创建了一个小型训练集,包含1138个句子,根据它们是否代表摘要或新闻稿的主要结论进行分类。这些用于识别未标记的配对中的“结论句子”。
测试
研究人员以三种配置测试了该方法:完全监督设置,仅使用标记数据;单任务PET场景;以及新的MT-PET,它将辅助任务作为第二个线程(因为该项目的目标是检查成对数据构造中的两个独立质量)。
研究人员发现,MT-PET在测试环境中改进了基础PET的结果,并发现识别声明强度有助于为夸大检测产生软标记训练数据。然而,该论文指出,在某些测试配置中,特别是与声明强度相关的配置中,专业标记数据的存在可能是改进结果的因素(与早期解决该问题的研究项目相比)。这可能会影响管道的自动化程度,取决于任务的数据强调。
尽管如此,研究人员得出结论,MT-PET“有助于识别和区分直接因果声明和较弱的声明,而且最有效的方法是分类和比较源文档和目标文档中个别声明的强度”。
在结束时,该工作推测,MT-PET不仅可以应用于更广泛的科学论文(不仅仅是健康领域),还可以成为帮助记者更好地概述科学论文的新工具的基础(尽管这可能过于天真地假设记者是通过无知来夸大声明强度的),以及帮助研究社区以更清晰的语言表达复杂的想法。另外,该论文指出:
“应该注意到本文中报告的预测性能结果是针对由科学记者撰写的新闻稿——可以预期更强烈地简化科学文章的新闻稿会产生更差的结果。”












