Anderson 视角

向自动化科学写作迈进

mm

今天早晨,我像往常一样浏览了Arxiv的计算机科学部分,偶然发现了一篇来自巴西塞阿拉联邦大学的最新论文,提出了一种新的自然语言处理框架,用于自动化科学论文的摘要和核心数据的提取。

由于这是我每天的工作,所以这篇论文让我想起了今年早些时候Reddit上一个作家讨论组中的一个评论,预测科学写作将是最早被机器学习取代的新闻工作之一。

让我明确一点 – 我绝对相信自动化科学作家即将到来,我在这篇文章中提出的所有挑战要么现在可以解决,要么最终会被解决。在可能的情况下,我会提供例子。另外,我并不是在讨论当前或近期的科学写作AI是否能够流利地写作;基于该领域当前的兴趣水平,我假设这个挑战最终会被解决。

相反,我想问的是,科学写作AI是否能够根据出版商的期望结果识别相关的科学故事,无论这些期望结果多么不同。

我并不认为这件事即将发生;根据我每周浏览大约2000篇新机器学习论文的标题和正文,我对学术提交可以被算法性地分解的程度持更为怀疑的态度,无论是用于学术索引还是科学新闻。通常,问题出在那些“讨厌的人”身上。

自动化科学作家的要求

让我们考虑一下自动化科学报道的最新学术研究的挑战。为了公平起见,我们将主要限制在Cornell大学的非常流行的非付费Arxiv域的CS类别上,它至少有一些系统化的、模板化的特征,可以插入数据提取管道中。

让我们假设任务是像巴西的新论文一样,遍历新科学论文的标题、摘要、元数据和(如果有理由)正文内容,以寻找常数、可靠的参数、令牌和可操作的、可还原的域信息。

这是高度成功的新框架在诸如地震报道、体育写作、金融新闻和健康报道等领域取得进展的原则。

巴西新论文的工作流程。PDF科学论文被转换为UTF-8纯文本(尽管这将删除可能具有语义意义的斜体强调),并在传递给文本过滤器之前标记和提取文章部分。解构的文本被分解为句子作为数据帧,并在标记识别和两个文档标记矩阵生成之前合并。来源:https://arxiv.org/ftp/arxiv/papers/2107/2107.14638.pdf

巴西新论文的工作流程。PDF科学论文被转换为UTF-8纯文本(尽管这将删除可能具有语义意义的斜体强调),并在传递给文本过滤器之前标记和提取文章部分。解构的文本被分解为句子作为数据帧,并在标记识别和两个文档标记矩阵生成之前合并。来源:https://arxiv.org/ftp/arxiv/papers/2107/2107.14638.pdf

复杂的模板

一个令人鼓舞的符合性和规范化层是Arxiv对提交施加了相当一致的模板,并为提交作者提供了详细的指南。因此,论文通常符合协议的哪些部分适用于所描述的工作。

因此,AI预处理系统可以将这些部分视为子域:摘要、介绍、相关/先前工作、方法/数据、结果/发现、消融研究、讨论、结论。

然而,在实践中,其中一些部分可能缺失、重命名或包含严格来说属于其他部分的内容。另外,作者自然会包含不符合模板的标题和子标题。因此,NLP/NLU需要从上下文中识别相关的部分相关内容。

标题带来麻烦

标题层次结构是NLP系统最初对内容块进行分类的简单方法。许多Arxiv提交都是从Microsoft Word导出的(如在标题中留下“Microsoft Word”的Arxiv PDF中所见)。如果您在Word中使用适当的节标题,导出到PDF将重新创建它们作为对机器报告的数据提取过程有用的层次标题。

然而,这假设作者实际上在Word或其他文档创建框架(如TeX和其衍生品)中使用了此类功能,后者在Arxiv提交中很少作为本地替代格式提供,主要提供PDF和偶尔的PostScript。

根据我多年阅读Arxiv论文的经验,我注意到绝大多数论文没有可解释的结构元数据,标题在阅读器(即网页浏览器或PDF阅读器)中报告为文档本身的完整标题(包括扩展名)。

在这种情况下,论文的语义可解释性有限,AI科学写作系统需要以编程方式将其重新链接到Arxiv域中的关联元数据。Arxiv惯例规定,基本元数据也以大灰色字体插入提交的第1页(见下图)。不幸的是,这通常被排除在外。

许多作者要么不使用任何样式,要么只使用H1(最高标题)样式,留给NLU从上下文中提取标题(可能并不那么困难),或者通过解析标题中的引用编号(即https://arxiv.org/pdf/2110.00168.pdf)并利用基于网络的(而不是本地的)元数据来识别提交的部分内容。

虽然后者无法解决缺失的标题,但至少可以确定提交所适用的计算机科学部分,并提供日期和版本信息。

段落返回的粘合文本

由于PDF和PostScript是作者提交的最常见格式,NLP系统需要一个例程来分离行尾单词和行首单词,这些单词在PDF格式的不幸默认优化方法下会“附着”在一起。

可以通过Perl和许多其他简单的递归例程来分离(和去连字符)单词,尽管Python方法可能更不耗时,更加适合机器学习框架。PDF格式的起源Adobe已经开发了一种名为Liquid Mode的AI启用的转换系统,能够“重新流式化”PDF中的静态文本,尽管其在移动设备以外的推广进展缓慢。

糟糕的英语

英语仍然是提交科学论文的全球标准,尽管这存在争议。因此,来自非英语研究人员的有趣和值得报道的论文有时包含令人惊讶的糟糕英语。如果AI系统将熟练使用英语作为价值的衡量标准来评估工作,那么不仅会丢失好的故事,而且会因为说得很好但内容很少而将琐碎的低价值输出评为更高。

选择:确定受众需求

我们将回到分解奇怪的科学论文以获取离散数据点的问题。现在,让我们考虑一下我们的受众和目标,因为这些对于帮助科学写作AI筛选每周成千上万的论文至关重要。预测潜在新闻故事的成功已经成为机器学习中的一个活跃领域。

例如,如果高容量的“科学流量”是网站的唯一目标,科学写作只是更广泛的新闻产品的一部分(如英国的每日邮报科学版),那么AI可能需要确定流量最高的主题,并优化其选择以实现这一目标。这可能会优先考虑相对容易的主题,例如机器人、无人机、深度伪造、隐私和安全漏洞。

根据当前推荐系统的状态,这种高层次的收获可能会导致我们的科学写作AI出现“过滤气泡”问题,因为算法会给予那些具有“理想”高频关键词和短语的科学论文更多关注(因为这些话题可以带来流量和资金),同时忽略许多Arxiv角落中可以找到的更有价值的“复活节彩蛋”。

一次就完成

好的科学新闻素材可以来自意想不到的地方和以前没有成果的领域和主题。为了进一步使我们的AI科学作家感到困惑,这个原本希望创建一个“有价值”新闻来源索引的系统,会发现一个离奇的“热门”新闻的来源(例如Discord服务器、学术研究部门或科技初创公司)往往只会产生一次有价值的材料,而继续输出大量低价值的噪音信息流。

什么样的迭代机器学习架构可以从中推断出什么?那些它曾经确定并排除的成千上万个以前的“异常”新闻来源现在应该被优先考虑(尽管这样做会在考虑到每年发布的论文数量时创建一个不可管理的信噪比)?这个话题本身比它来自的新闻来源更值得激活一个层(在流行话题的情况下,这是一个多余的操作)?

更有用的是,系统可能会学习,它需要在数据维度上移动以寻找模式——如果真的存在的话——这些模式构成了我已故记者祖父所说的“新闻感”,并将“值得报道”特征定义为一个流浪和抽象的质量,不能准确地根据来源预测,并且可以预计每天都会发生变化。

识别假设失败

由于配额压力,学术部门有时会发表作品,其中中心假设在测试中完全(或几乎完全)失败,即使项目的方法和发现在其自身权利下仍值得一些兴趣。

这些失望通常不会在摘要中表明;在最坏的情况下,驳斥的假设只能通过阅读结果图来确定。这不仅需要从论文中提供的有限信息中推断出对方法的详细理解,还需要能够在上下文中有意义地解释从饼图到散点图等一切内容的图表解释算法。

一个仅相信摘要但无法解释图表和表格的NLP系统可能一开始会对一篇新论文感到非常兴奋。不幸的是,学术论文中“隐藏的失败”先前的例子对于训练目的来说很难概括,因为这种“学术犯罪”主要是遗漏或低调的,并且难以捉摸。

在极端情况下,我们的AI作家可能需要找到并测试存储库数据(即GitHub),或解析任何可用的补充材料,以了解结果在作者目标方面的含义。因此,机器学习系统需要遍历涉及此过程的多个未绘制的源和格式,使自动化验证过程成为一个架构挑战。

白盒情景

一些围绕AI的安全论文中提出的最离谱的说法需要对源代码或源基础设施具有非同寻常的和非常不可能的访问水平——“白盒”攻击。虽然这对于推断AI系统的架构中以前未知的怪癖很有用,但它几乎从来不是一个可以利用的攻击面。因此,AI科学作家需要一个相当好的欺骗检测器来将安全方面的说法分解为有效部署的概率。

自动化科学作家需要一个能够将“白盒”提及置于有意义的上下文中的NLU例程(即区分提及和论文的核心含义),并且能够在“白盒”短语未出现在论文中的情况下推断出“白盒”方法论的能力。

其他陷阱

其他可能深埋的不可行性和假设失败的地方是消融研究,它们系统地剥夺新公式或方法的关键元素,以查看结果是否受到负面影响,或者“核心”发现是否具有韧性。通常,包含消融研究的论文通常对其发现充满信心,尽管仔细阅读可以经常揭示一个“虚张声势”。在AI研究中,这种“虚张声势”经常等同于过拟合,即机器学习系统在原始研究数据上表现出色,但无法推广到新数据,或者在其他不可复制的约束下运行。

另一个潜在的系统提取部分是限制。这是任何科学作家(AI或人类)应该跳过的第一个部分,因为它可能包含否定论文整个假设的信息,并且跳转到这里可以节省数小时的工作(至少对于人类来说是这样)。这里的最坏情况是,论文实际上有一个限制部分,但“妥协”的事实包含在作品的其他地方,而不是这里(或在这里被低估)。

接下来是先前工作。这通常出现在Arxiv模板的早期,并经常表明当前论文只是对过去12-18个月更具创新性的项目的轻微改进。在这一阶段,AI作家需要确定先前工作是否获得了牵引力;这里是否仍然有一个故事?先前的工作是否当时未被公众注意到?或者新论文只是对以前项目的例行后续?

评估重复和新鲜度

除了更正早期版本中的错误外,论文的V.2版本通常代表的只是作者们在V.1版本发布时没有得到足够关注而又在寻求关注。

一篇论文实际上值得再次关注,媒体关注可能会转移到其他地方,或者工作会被秋季和深冬等会议和研讨会期间提交量大的“研讨会”和会议期间的高流量所掩盖。

Arxiv提供了一个有用的功能来区分重新提交的论文,即在提交标题中追加的[UPDATED]标签。我们的AI作家的内部“推荐系统”需要仔细考虑[UPDATED]是否等同于“过时”,特别是因为它可以(假设)比人工科学黑客更快地评估重新加热的论文。在这一点上,它比人类具有显著的优势,得益于Arxiv可能会持续的命名惯例。

确定扩散

像大多数记者一样,我们的预测AI科学作家正在寻找未被报道或报道不足的新闻,以便为其支持的内容流添加价值。在大多数情况下,重新报道在TechCrunch、The Verge和EurekaAlert等大型平台上首次出现的科学突破是没有意义的,因为这些平台支持其内容的宣传机器几乎可以保证媒体的饱和度。

因此,我们的AI作家必须确定这个故事是否足够新鲜,值得追求。

理论上,最简单的方法是识别最近的入站链接到核心研究页面(摘要、PDF、学术部门网站新闻部分等)。一般来说,能够提供最新入站链接信息的框架并不是开源或低成本的,但大型出版商可以在新sworthiness评估框架中承担SaaS费用作为成本的一部分。

假设有这样的访问权限,我们的科学作家AI面临着许多科学报道媒体不引用他们正在撰写的论文的问题,即使这些信息是免费可用的。毕竟,媒体希望二次报道链接到他们,而不是来源。由于在许多情况下他们实际上已经获得了对研究论文的特权或半特权访问(见下面的“社交”科学作家),他们有一个不诚实的借口来做这件事。

因此,我们的AI作家需要从论文中提取可操作的关键词,并执行时间限制搜索,以确定故事是否已经在其他地方被报道过——然后评估任何先前的扩散是否可以被忽略,或者这个故事是否已经过时。

有时,论文在YouTube上提供补充视频材料,其中“观看次数”可以作为扩散的索引。另外,我们的AI可以从论文中提取图像,并执行基于图像的系统搜索,以确定这些图像是否以及何时被重新发布。

复活节彩蛋

有时,一篇“枯燥”的论文会揭示具有深远和值得报道的含义的发现,但这些发现被作者低估(或忽略或忽视),并且只会通过阅读整个论文并进行数学运算才能揭示出来。

我相信,在某些情况下,这是因为作者更关心在学术界的接受度,而不是公众,可能是因为他们觉得(并非总是错误地)所涉及的核心概念无法被简化到足以被大众所接受,尽管他们的机构公关部门可能做出了夸张的努力。

但就像往常一样,作者可能会忽视或忽略他们工作的含义,正式地以“科学的距离”运作。有时,这些“复活节彩蛋”并不是工作的积极指标,如前面提到的,并且可能被复杂的发现表格中隐藏。

超越Arxiv

应该考虑到,将计算机科学论文参数化为离散的令牌和实体在Arxiv等领域将会更容易,因为Arxiv提供了一致的模板化“钩子”来分析,并且不需要登录即可访问大多数功能。

并非所有科学出版物都是开放源的,尚不清楚我们的AI科学作家是否可以或将使用Sci-Hub等方式规避付墙,使用存档网站来绕过付墙,或者是否可以为其他许多科学出版平台构建类似的域挖掘架构,这些平台在结构上抵制系统化的探索。

应该考虑到,即使Arxiv也对其API使用有速率限制,这可能会将AI作家的新闻评估例程减慢到更“人类”的速度。

社交AI科学作家

超越Arxiv和其他“开放”科学出版平台的开放和可访问领域,即使是获得对一篇有趣的新论文的访问权限也可能是一个挑战,需要找到作者的联系渠道并要求阅读该作品,甚至获取报价(在时间压力不是一个决定性因素的情况下——这是人类科学记者罕见的情况)。

这可能需要自动遍历科学领域并创建帐户(您需要登录Arxiv才能显示论文作者的电子邮件地址)。大多数时候,LinkedIn是最快的方式来获得回应。但是,AI系统目前被禁止联系LinkedIn成员。

至于研究人员如何对来自AI科学作家的人工电子邮件请求做出反应——好吧,就像肉类科学写作世界一样,这可能取决于媒体的影响力。如果来自Wired等知名媒体的AI作家联系了一位渴望传播其工作的作者,那么它可能不会遇到敌对的反应。

在大多数情况下,可以想象作者希望这些半自动化的交流最终会召唤一个人类进入循环,但也不能排除在某些情况下,AI可能会促进VOIP采访,特别是当文章的可行性预计低于某个阈值,并且出版物有足够的牵引力来吸引人类参与对话时。

使用AI识别新闻

本文中概述的许多原则和挑战也适用于自动化新闻业的其他领域,识别潜在的故事是核心挑战。大多数人类记者会承认,实际撰写故事只是工作的最后10%,而在键盘敲击时,工作已经基本完成。

因此,主要的挑战是开发能够发现、调查和验证故事的AI系统,基于新闻游戏的许多神秘变化,并且要穿越许多已经加固以防止探索和渗透(无论是人类还是其他形式)的平台。

在科学报道的例子中,新论文的作者与任何其他潜在新闻故事来源一样具有深刻的自私动机。因此,一个假定的自动化科学作家需要比还原性NLP例程更多的东西来确定今天新闻的来源,除非新闻领域特别分层,例如股票、流行病数据、体育结果、地震活动和其他纯粹统计的新闻来源。

机器学习作家,人类图像合成领域专家。曾任 Metaphysic.ai 研究内容负责人。
个人网站: martinanderson.ai
联系: [email protected]
Twitter:@manders_ai