Connect with us

Anderson 视角

人工智能能否培养出新闻敏感性?

mm
AI-generated image (GPT-1.5) featuring a dog journalist in a photorealistic newsroom, who has spotted a lead, and attracted the attention of his co-workers.

人工智能在撰写新闻故事方面变得越来越好,但是在识别新闻故事方面并没有取得太大的进步。

 

观点 自从我五年前最后一次审视人工智能识别热门新闻故事的能力以来,整个格局已经发生了显著的变化,人工智能驱动的自动化水平有所提高,但也伴随着不可避免的成长痛和争议

最近,一篇WSJ报告介绍了一位多产的、由人工智能辅助的《财富》杂志撰稿人,展示了未来的新闻记者形象,他们从诸如转录新闻稿等苦差事中解放出来,拥有了撰写特稿和进行调查报道的时间和空间,这些报道通常只有大型出版物才有预算去做。

但我们听到的要少得多的是人工智能识别新闻故事的能力。

噪音减少

在2021年的文章中,我集中讨论了研究报道,因为这是我花费大部分时间的地方;也许人工智能革命对这一领域产生的最大影响是,它创造了一个无法控制的人工智能研究论文提交风暴,这提高了信号与噪音的比例,使得即使是全面报道Arxiv人工智能相关领域的内容,也已经超出了单个人的能力。

当然,这正是人工智能的优势所在——它可以在人类无法解决的庞大数据中快速迭代,以秒为单位找到人类需要花费数天甚至数周才能发现的“异常值”。

那么,为什么人工智能仍然那么糟糕地识别热门新闻故事,从成千上万的候选者中找出一个?

向后看的AI

这种人工智能生成内容的大量涌现已经远远超出了我之前讨论的学术领域。去年年底,据估计,网络上一半的新写作都是由人工智能完成的,且这种趋势预计将进一步加速。

因此,噪音无处不在,不仅仅是在学术界。

尽管过去几年中,人工智能/算法识别“热门”故事有一些进展,但这些系统往往专注于分层和可预测的组织化数据源,这意味着它们只能在相当脆弱的背景下运行。

在这方面,斯坦福大学博士后研究员和前《纽约时报》记者亚历山大·斯潘格已经对“新鲜度”进行了多次尝试,以便将其应用于机器学习过程和统计分析,并且他已经在诸如法院文件、州法案和市议会会议等领域,以及一般公共文件中提供了自动化线索生成的证据——这些都是《财富》杂志多产的、由人工智能驱动的撰稿人可以将其转化为每天6-7篇新闻报道的模式驱动输出:

从公共文件语料库中提取的词分布“热度”。在这种情况下,我们可以看到“授权”具有高分数,可能是因为它代表了决策、变化和新颖性。来源 - https://arxiv.org/pdf/2311.09734

从公共文件语料库中提取的词分布“热度”。在这种情况下,我们可以看到“授权”具有高分数,可能是因为它代表了决策、变化和新颖性。 来源

然而,像斯潘格领导的2023年研究《跟踪公共文件的新鲜度》等方法的问题在于,它们以数据中的观察到的趋势为中心。换句话说,它们观察到之前是什么让新闻变得好,然后继续寻找更多类似的东西。

在现实世界中,意外的来源几乎总是“一击即中”的;而且尽管偶尔会尝试利用短暂的名声或声誉,但它们通常会再也不会产生任何有用的事情

时代的征兆

因此,监测这种“一次性”新闻来源通常只会在总体暴风雪中添加更多噪音,人工智能难道不能识别出可能在某一天变得有价值的来源的标志吗?如果可以找出什么类型的来源可能最终会产生新闻,那么可以专注于其特征而不是其背景或方法。

按照这种逻辑,可以从2010年代的爱德华·斯诺登事件中推断出,最近离开中央情报局(或类似组织)的人可能是未来新闻来源的潜在候选人。

然而,可能没有RSS订阅源或API能够自动化这种持续监测,因为LinkedIn和其他曾经开放的数据来源正在收缩,以应对贪婪和违法的网络爬虫。即使有这样的订阅源或API,频率也会是一个问题,因为您不能每五秒钟轮询一次API或网站;除了资源成本外,平台的IP禁令也会使这种活动不可持续。

此外,显然存在一个“人类维度”,使得这种披露很难自动化。

带有个人触感的新闻采集:1976年艾伦·帕库拉电影《所有总统的男人》的光盘发行截图,特征是线人从阴影中走出。来源 - https://blueprintreview.co.uk/2016/11/all-the-presidents-men/

带有个人触感的新闻采集:1976年艾伦·J·帕库拉电影《所有总统的男人》的光盘发行截图,特征是线人从阴影中走出。 来源

另外,在现实世界中,识别未来新闻来源的定义特征是非常困难的。它可能不是“最近离开中央情报局的人”,也绝对不是由某种协议定义的;像X或GitHub这样的平台输出的信号太多,即使缩小到搜索词或帖子类别,也没有太大区别——只有当您参与问题并与社区(或仓库等)互动时,才能真正识别出发展的重要性。

甚至像“安全警报”这样的术语也不能为事件的真正严重性或新鲜度提供背景,因为在这些社区中,这样的引用每天被抛出成千上万次——但它们没有广泛的新闻价值;即使将这种监测限制在英语中,成语的变化以及晦涩语言的使用也会使得将“野外”的帖子解析为真正的新闻警报变得非常困难。

狭窄的道路

当前的AI驱动的新鲜度检测系统依赖于正式化的数据结构(如来自API的JSON输出),或AI开发的算法有机会解析为结构化模式的非正式数据结构(如来自特定组织的新闻稿):

解析的RSS/XML订阅源,显示数据容器的严格层次结构。来源 - https://www.xml.com/articles/2023/03/06/visualising-xml-schemas/

解析的RSS/XML订阅源,显示数据容器的严格层次结构。 来源

显然,这种方法非常适合程序化输出,例如前面提到的《财富》记者声称人工智能已经让他摆脱了的平凡工作,包括天气、股票和体育比分报道,以及市政和其他政府机构的常规新闻稿。

虽然可以将“人工警报”触发器附加到天气(突然的风暴)、股票(突然的暴跌)和体育(意外的胜利/失败,需要一些准备工作)等统计数据上,但同样,人类的关注仍然是必要的,即使对于非常分层的政府发布,也需要人类来评估新鲜度。

“死亡”、“意外疾病”、“泄密”和“事故”等术语都可以帮助缩小到新鲜的事件,但它们只能解决“常规”事件,并且无法解释替代语言(或语言)。

精英作家的回归?

近年来,数据驱动的新闻报道已经成为新闻报道中一个日益重要的方面,编辑部不再局限于与主要出版商签订的独家“新闻爆料”协议;相反,他们可以自己分析数据。

然而,这并不是免费的午餐;随着使用人工智能解析公共数据的明显价值的增长,数据饥渴的主要人工智能玩家已经做出了收费/阻止人工智能的回应——甚至在需求之前就预测到了这种需求,驱使他们采用隐蔽策略

新收缩的额外摩擦可能会将某些权力从“公民记者”转移回传统媒体——或者至少,拥有足够预算来吸收收集、提炼和评估数据所需的额外手动工作的新闻组织,在一个出版商和域名越来越多地限制随意访问的时代。

因此,按照时代精神,新闻界中人工智能的实际体现可能实际上是在把我们带回过去:去民主化新闻生产的手段,并为有意义的数据驱动的新鲜度评估系统添加障碍。

共同的直觉

这些限制明显地将我们带回“直觉”作为评估新闻故事新鲜度的不可避免的组成部分。

当然,这对专业从事这一方面的人来说是令人安慰的;但自满将是一个错误,因为这种直觉可以在一定程度上被提炼和操作化,以一种不依赖于研究任何个人或组织的痴迷或爱好而变得一般化:在2022年的一项研究中,北西大学的研究人员使用了对潜在新鲜新闻故事的众包评估来训练一个预测模型,特别关注新发布的Arxiv研究论文的新鲜度:

研究参与者收到的调查问题,以获取用于“新鲜度预测”AI模型的训练数据。来源 - https://nishalsach.github.io/pdfs/2022-newsworthiness.pdf

研究参与者收到的调查问题,以获取用于“新鲜度预测”AI模型的训练数据。 来源

该系统对候选者进行了相当好的排名,大约80%的前十名候选者也被专家评为新鲜。然而,与专家的协议仅为适度,结果忽略了诸如框架或受众适合度等因素。

该系统基于2020年论文《计算新闻发现:面向新闻编辑方向算法的设计考虑》中概述的原则。与大多数类似项目一样,这项工作专注于科学新闻报道,而不是抽象的新闻采集——也许是因为科学文献往往趋向于模板化输出,这些输出可以潜在地被解析为可训练和可解释的数据点。

好吧,就像我在2021年观察到的那样,这将是正确的,除了研究科学家经常滥用研究论文提交的惯例来隐藏或淡化不令人印象深刻的结果,甚至直接失败。

即使对于人工智能系统来说,解释科学论文中的图表和表格也是一个巨大的挑战,以至于这个追求最近已经成为活跃的研究方向

来自论文“SciFigDetect:用于AI生成的科学图检测的基准”的图,展示了真实的科学图,生成提示和Nano Banana和GPT在三个类别(插图、概述和实验图)中生成的合成对应图。来源 - https://arxiv.org/pdf/2604.08211v1

来自论文“SciFigDetect:用于AI生成的科学图检测的基准”的图,展示了真实的科学图,生成提示和Nano Banana和GPT在三个类别(插图、概述和实验图)中生成的合成对应图。 来源

通常,图表或表格中会包含研究论文主体中未报告或被忽略的结果。因此,在人工智能驱动的科学新闻报道中,这是一个不小的障碍。

独自再次

上述众包方法表明,潜在新闻故事的共同共识和专业评估之间可能存在一些协议。

但是,没有背景,似乎只能确定新鲜度的最广泛的笔画。

人工智能的优势在于其能够根据配置,分离异常值——要么是为了丢弃它们,因为它们是数据趋势中的曲线吹风者和无意义的异常,要么(更相关的是新闻采集)识别有意义和有价值的不寻常实例和事件:

散点图中的异常值(红色)。来源 - https://stackoverflow.com/questions/73079324/python-removing-outliers-from-plotly-scatter-plot

散点图中的异常值(红色)。 来源

按照“闪电不会两次击中同一地方”的原则,几乎所有热门新闻故事都是异常值。在来自活跃和动荡的领域(如正在进行的战争)等情况下,可以对该领域进行密切监视,以很高的概率发现有价值的新闻故事——但代价是巨大的竞争,因为人们的共同关注也可能集中在该领域。

许多有价值的科学线索本质上不是语言分布的中心。它们是方法的罕见组合,令人惊讶的负面结果或异常的复制。如果模型的能力在这些低频组上明显下降,那么模型就不太可靠的区域正是编辑“鼻子”需要敏锐的区域。

信任问题

在寻找新故事时,记者需要平衡多个约束,包括时间、访问权限、可信度、受众和组织优先级),这会导致不明显的选择。 2022年丹麦的一篇文献综述将记者描述为平衡多个问题,意识到来源可能有议程或被误导;并且经常在压力下偏爱间接的信任线索而不是直接核实。

这些相同的“信任问题”将是任何决定性的AI驱动的新鲜度识别系统的发展障碍,因为与这样的平台交互需要用户信任算法丢弃的文章确实不值得写作者的时间。

广泛的测试和重新训练或微调,在人工监督下拾取遗漏的文章和滞后者,可能最终会提高这种方法的可靠性;但国家或全球文化的转变——例如政治格局的意外变化,或者战争的爆发——不可避免地会颠覆这种精心校准的系统的所有基本优先级,将AI依赖的写作者置于几乎从头开始重建他们必要的“内部领域模型”的境地。

 

首次发布于星期一,2026年4月20日。
2026年4月23日14:13:25修改,以在“狭窄的道路”中用“财富”代替“WSJ”(感谢mathison.ai的Mark Riley指出这一点)。

机器学习作家,人类图像合成领域专家。曾任 Metaphysic.ai 研究内容负责人。
个人网站: martinanderson.ai
联系: [email protected]
Twitter:@manders_ai