Anderson 视角
淘汰过时的“真相”:使用机器学习

有时候,真相会过期。当一个有时限的说法(例如“公共交通工具上必须佩戴口罩”)出现在搜索引擎排名中,其看似“权威”的解决方案可能会在很多年后仍然存在,甚至超过后来更准确的内容。
这是一种搜索引擎算法的副产品,这种算法试图找出并推广“长期”的确定性解决方案,并优先考虑那些在时间上保持流量的内容——以及在虚假新闻时代对新内容采取越来越谨慎的态度。
另一方面,仅仅因为内容的时间戳已经过了一个任意的“有效窗口”,就贬低有价值的网络内容,这可能会导致一代真正有用的内容被自动降级,以便为可能质量较低的后续内容让路。
为了解决这个问题,意大利、比利时和丹麦的研究人员发表了一篇新论文,使用各种机器学习技术开发了一种时间感知证据排名的方法。
超越过时的答案
该论文由欧盟委员会的伊斯普拉联合研究中心(JRC)、鲁汶大学和哥本哈根大学的研究人员共同撰写。
这项工作考虑了四种时间排名方法,应用于三个事实核查方法,每种方法都有不同的证据排名方法,并提出了一种使用证据时间戳作为“黄金标准”的新排名方法。该研究表明,时间感知证据排名可以提高结果的准确性,并改善时间敏感事实和说法的权威性和真实性预测。
这项研究被提出为可能的辅助系统或现有系统,并旨在协助研究,并可能成为开发新搜索引擎算法的附加因素。
这项工作模拟了内容基于事实核查的证据的时间动态,并优于采用语义相似性方法的典型搜索引擎排名算法。研究人员训练的模型使用了优化的学习排名函数,可以轻松地叠加到现有的事实核查架构中。研究人员认为,该系统是自动事实核查的一个新贡献。
修改多个事实核查架构
研究人员将他们的时间约束因素强加于三个现有的事实核查架构。第一个是2019年发布的MultiFC数据集中提出的双向长短期记忆(BiLSTM)模型。
第二个是第一个模型的修改版本,用一个单向循环神经网络(RNN)替换了LSTM组件。
研究人员使用的第三个模型是来自Hugging Faces库的DistilBERT变换器,它是Google的BERT NLP模型的蒸馏版本。
在所有三个架构中,研究人员都应用了由微软领导的研究开发的ListMLE损失函数,这项研究在过去二十年中一直为新的事实核查研究做出贡献。
时间戳值从训练元数据中提取,并作为每个模型中的排名因素。
测试
系统的实验评估涉及使用MultiFC数据集,因为它目前是唯一可用于此特定研究兴趣的高容量开源数据集。MultiFC包含来自26个不同的事实核查域的34,924个真实说法,包括Snopes和华盛顿邮报。
每个说法的真实性预测由Google搜索API提供的十个证据片段增强,并通过结合多个元素(包括说话者、标签和类别)获得的预测。
通常相关的时间戳不一定是包含在元数据中的时间戳;一篇文章可能引用之前的事件,在这种情况下,研究人员的系统必须小心地从文本中提取和转换这些数据。没有这个过程,旧新闻的“重放”往往会给它一个新的光泽,特别是在高权威网站的情况下,传播过时的数据。
日期是使用Python例程提取的,并测试了官方元数据日期的格式一致性(因为,例如,美国和英国的日期戳格式不同)。当手动验证时,时间戳元数据中没有发现任何错误。
结果
与手动检查的自动结果相比,研究人员发现时间感知证据排名在基于纯语义相似性或搜索引擎排名的相关性假设上有了显著的改进。他们还确定,他们的方法可以改善时间敏感性说法的真实性预测(即新闻情况可能迅速变化的情况,并且需要优先考虑最新信息,而不仅仅是强制优先考虑最新结果)。
研究人员指出,这种方法将在改进排名模型方面具有很高的价值,尤其是在政治和娱乐等易变话题中,信息变化迅速,高排名的发展需要一个自动降级框架,以便在发布时从排名的顶部位置降级。研究人员注意到,这种方法将在改进排名模型方面具有很高的价值,尤其是在政治和娱乐等易变话题中,信息变化迅速,高排名的发展需要一个自动降级框架,以便在发布时从排名的顶部位置降级。













