Anderson 视角

人工智能能否培养出新闻感?

mm
AI-generated image (GPT-1.5) featuring a dog journalist in a photorealistic newsroom, who has spotted a lead, and attracted the attention of his co-workers.

人工智能在撰写新闻故事方面变得越来越好,但是在识别新闻故事方面却没有太大的进步。

 

观点 自从我 最后一次审视 人工智能识别热门新闻故事的能力以来,已经过去了五年,人工智能驱动的自动化水平有了显著的提高,伴随着不可避免的成长痛苦和 争议

最近,一份 WSJ 报道 关于一位多产的、人工智能辅助的 Fortune 贡献者,将未来记者描绘成从诸如转录新闻稿等苦力劳动中解放出来,拥有了撰写特稿和进行调查的自由,这些工作通常只有大型出版物才有预算承担。

但我们听到的要少得多的是人工智能识别新闻故事的能力。

噪音减少

在 2021 年的文章中,我关注的是研究领域的撰稿人,因为那是我大部分时间的工作;也许人工智能革命对该领域产生的最大影响是,它创造了一个 不可控制的 AI 研究论文提交风暴,提高了信号与噪音的比例,使得甚至覆盖 Arxiv 相关领域的工作也已超出了单个人的能力范围。

毫无疑问,这是人工智能的强项——在人类无法解决的庞大数据中迭代,以找到异常值(我们稍后会讨论),在几秒钟内完成,而人类需要几天时间,甚至根本无法完成。

那么,为什么人工智能仍然很难从成千上万的日常竞争者中识别出热门新闻故事?

后视镜人工智能

这种人工智能生成内容的巨大泛滥不仅发生在学术领域。我之前讨论过。去年晚些时候,据估计,网络上 一半的新写作 都是由人工智能完成的,预计这种趋势将进一步加剧。因此,噪音非常大 到处都有,不仅仅是在学术界。

尽管过去几年在人工智能/算法识别“热门”故事方面取得了一些进展,但这些系统往往专注于分层和可预测的组织数据源,这意味着它们只能在相当脆弱的上下文中运行。

斯坦福大学博士后研究员和前纽约时报记者 Alexander Spangher 已经对可应用于机器学习过程和统计分析的“新sworthiness”进行了多次研究,并在诸如 法院文件、州法案和市议会会议等领域,以及 一般公共文件 中的自动化线索生成提供了证据——这类模式驱动的输出可以让《财富》杂志的多产人工智能撰稿人每天写出 6-7 篇新闻报道:

从公共文件语料库中获得的单词分布的“热度”。在这种情况下,我们可以看到“授权”具有高分数,可能是因为它代表了决策、变化和新颖性。来源 - https://arxiv.org/pdf/2311.09734

从公共文件语料库中获得的单词分布的“热度”。在这种情况下,我们可以看到“授权”具有高分数,可能是因为它代表了决策、变化和新颖性。 来源

然而,像 Spangher 领导的 2023 年 研究 跟踪公共文件的新sworthiness 这样的方法的问题在于,它们集中在 数据中的观察趋势 上。换句话说,它们观察到以前什么样的东西会成为好新闻,然后继续寻找更多的同类内容。

在现实世界中,意外的来源几乎总是会成为“一击即中”的奇迹;然后,在偶尔试图利用短暂的名声或声誉之后,它们通常会 再也不会产生任何有用的东西

时代的征兆

因此,既然监测这种“一击即中”的新闻来源通常只会为一般的风暴添加更多噪音,那么人工智能是否可以识别出将来可能会有成果的来源的 标志?如果可以找出什么样的来源可能会产生新闻,那么可以关注其 特征 而不是其背景或方法。

按照这种逻辑,可以从 2010 年代的爱德华·斯诺登事件中推断出,任何最近离开中央情报局(或 类似组织)的人都值得作为潜在新闻来源来关注。

然而,没有 RSS 源或 API 可以实现这种持续监测,因为 LinkedIn 和其他曾经开放的数据源正在 收缩,面对贪婪和 违法 的人工智能网络爬虫。即使有这样的 API 或网站,也会有频率问题,因为您不能每五秒钟轮询一次 API 或网站;除了资源成本外,平台的 IP 封禁响应也会使这种活动不可持续。

此外,存在一个“人性化”方面,这很难自动化。

新闻采集的个人化:1976 年阿兰·帕库拉电影《所有总统的男人》中,线人从阴影中走出来的截图。来源 - https://blueprintreview.co.uk/2016/11/all-the-presidents-men/

新闻采集的个人化:1976 年阿兰·帕库拉电影《所有总统的男人》中,线人从阴影中走出来的截图。 来源

在现实世界中,识别出未来的新闻来源的 定义特征 非常困难。它可能不是“最近离开中央情报局的人”,也绝对不是由某种协议定义的:像 X 或 GitHub 这样的平台本身输出太多信号,即使缩小到搜索词或帖子类别也没有太大区别——只有当您参与问题并与社区(或仓库等)互动时,才能真正识别出发展的重要性。

即使像“安全警报”这样的术语也不能为事件的真实严重性或可报道性提供上下文,因为这类引用每天都会被以千计地使用,但对广泛的新闻价值却没有任何影响;即使仅限制在英语中,成语的潜在变化和晦涩语言的使用也会使得将“野外”的帖子解析为真正的新闻警报非常困难。

狭窄的道路

当前的人工智能驱动的新sworthiness 检测系统依赖于正式的数据结构(如 API 的 JSON 输出),或人工智能开发的算法 有机会解析 成为结构化模式(如某个组织的新闻稿)的非正式数据结构:

解析的 RSS/XML 源,显示数据容器的严格层次结构。来源 - https://www.xml.com/articles/2023/03/06/visualising-xml-schemas/

解析的 RSS/XML 源,显示数据容器的严格层次结构。 来源

显然,这种方法适合程序化输出,例如前面提到的《财富》记者宣称人工智能已经让他摆脱的平凡工作,包括天气、股票和体育比分报道,以及市政和其他政府组织的常规新闻稿。

虽然可以将“人工警报”触发器附加到统计源,如天气(突然的风暴)、股票(突然的暴跌)和体育(意外的胜利/失败),但即使对于政府发布的常规新闻稿,也需要人工关注来评估其可报道性。

诸如“死亡”、“意外疾病”、“泄密”和“事故”等术语都可以帮助缩小到可报道的事件,但它们只能解决“常规”事件,并且不能解释替代语言(或语言)。

精英作家的回归?

近年来,数据驱动的新闻报道 已成为新闻报道中的一个重要方面,编辑部门不再局限于甜蜜的“独家”协议,授予他们早期发布特别报告和白皮书的权利;相反,他们可以自己分析数据。

然而,这并不是免费的午餐;随着人工智能解析公共数据的价值的增长,数据饥渴的主要人工智能玩家 进入了隐秘战术

新退缩的附加摩擦可能会将某些权力从“公民记者”转移到传统媒体,或者至少转移到有足够资源吸收手动收集、提炼和评估数据的新闻组织,在一个数据获取日益受到限制的时代。

因此,在某种意义上,人工智能在新闻业中的实际体现,考虑到主要玩家和市场对人工智能创新和采用的回应,可能实际上是在把我们带回过去:去民主化新闻生产的手段,并为有意义的数据驱动的新sworthiness 评估系统添加障碍。

共同的本能

这些限制显然将我们带回到了“直觉”作为评估新闻故事可报道性的一个不可避免的组成部分。

自然,这对专业从事这一方面的人来说是令人安慰的;但是,自满将是一个错误,因为这种直觉可以在某种程度上被概括和操作化,以一种不依赖于任何个人或组织的执念或爱好的方式:在 2022 年的一项 研究 中,来自西北大学的研究人员使用众包评估潜在可报道的故事来训练一个预测模型,特别关注新发布的 Arxiv 研究论文的可报道性:

研究参与者提供的调查问题,以获取“新sworthiness 预测”人工智能模型的训练数据。来源 - https://nishalsach.github.io/pdfs/2022-newsworthiness.pdf

研究参与者提供的调查问题,以获取“新sworthiness 预测”人工智能模型的训练数据。 来源

该系统对候选项进行了相当好的排名,约 80% 的前十名选择也被专家评为可报道的。然而,专家之间的协议仅为中等,结果缺少诸如框架或受众适应等因素。

该系统基于 2020 年的论文 计算新闻发现:面向新闻编辑方向算法的设计考虑。与大多数类似项目一样,这项工作专注于科学新闻报道,而不是抽象的新闻采集——可能是因为科学文献往往趋向于模板化的输出,可以潜在地解析为可训练和可解释的数据点。

好吧,就像我在 2021 年观察到的那样,这 是这种情况,除了研究科学家经常滥用研究论文提交的惯例来隐藏或淡化不令人印象深刻的结果,甚至直接失败。

即使解释科学论文中的图表和表格对人工智能系统来说也是一个 巨大的挑战,以至于这个问题最近已经成为 活跃的研究方向,并且 正在进行中

来自论文“SciFigDetect:用于检测人工智能生成的科学图像的基准”的图像,显示真实的科学图像、生成提示和 Nano Banana 和 GPT 在三个类别中生成的合成图像:插图、概述和实验图像。来源 - https://arxiv.org/pdf/2604.08211v1

来自论文“SciFigDetect:用于检测人工智能生成的科学图像的基准”的图像,显示真实的科学图像、生成提示和 Nano Banana 和 GPT 在三个类别中生成的合成图像:插图、概述和实验图像。 来源

通常,图表或表格中会包含论文主体中要么有选择性偏见,要么完全忽略的结果。因此,在人工智能驱动的科学新闻报道中,这是一个不小的障碍。

更值得注意的是,论文是衍生作品,或者只是对现有水平的微小进步(如果有的话),通常被埋没在几乎无法穿透的引用中(即,您需要搜索该术语,找到可读的 PDF 副本,并了解先前作品的程度,然后才能理解新作品的缺乏原创性或新颖性)。

独自再次,自然

上述的众包方法表明,可能存在对潜在新闻故事的共同共识和专业评估之间的一些协议。

人工智能的优势在于其能够根据配置,隔离 异常值 ——要么是为了 丢弃它们,因为它们是数据集中的曲线外异常和无意义的例外,要么(更相关的是新闻采集)识别有意义和有价值的不常见实例和事件:

散点图中的异常值(红色)。来源 - https://stackoverflow.com/questions/73079324/python-removing-outliers-from-plotly-scatter-plot

散点图中的异常值(红色)。 来源

按照“闪电不会两次击中同一地方”的原则,几乎所有热门新闻故事都是异常值。在来自活跃和动荡的领域的案例中,例如正在进行的战争,可以对该领域进行密切监视,可能会出现可报道的故事——但代价是巨大的竞争,因为共同的关注也可能集中在该领域。

许多可报道的科学线索本质上 不是语言分布的中心。它们是罕见的方法、令人惊讶的负面结果或异常复制的组合。如果模型的能力在这些低频组合上恶化,那么编辑“鼻子”需要敏锐的区域将成为模型最不可靠的区域。

信任问题

在寻找新故事时,记者需要平衡多个约束,包括时间、获取、可信度、受众和组织优先级,这导致了不明显的选择。 2022 年丹麦的一项 文献综述 将记者描述为平衡多个问题,意识到来源可能有议程或被误导;并且经常在时间压力下,为了间接信任线索而绕过直接核实。

这些“信任问题”将成为任何决定性的人工智能驱动的新sworthiness 识别系统的发展障碍,因为与这样的平台的参与需要用户信任算法丢弃的文章确实不值得写作的时间。

广泛的测试和重新训练或 微调,在人工智能的监督下,拾取遗漏的内容,可能最终会提高这种方法的可靠性;但是,国家或全球文化的变化,例如政治格局的意外变化或战争的爆发,可能会破坏这种精心校准的系统的所有基础优先级,迫使人工智能依赖的作家从头开始重建他们必要的“内部领域模型”。

 

首次发布于 2026 年 4 月 20 日。
2026 年 4 月 23 日 14:13:25 修订,以在“狭窄的道路”第 2 段中将“WSJ”替换为“Fortune”(感谢 mathison.ai 的 Mark Riley 指出此事)。

机器学习作家,人类图像合成领域专家。曾任 Metaphysic.ai 研究内容负责人。
个人网站: martinanderson.ai
联系: [email protected]
Twitter:@manders_ai