人工智能
向自动化科学写作迈进

这个早晨,我像往常一样浏览了Arxiv的计算机科学部分,偶然发现了一篇来自巴西塞阿拉联邦大学的新论文,提出了一种新的自然语言处理框架,用于自动化科学论文的摘要和核心数据的提取。
由于这基本上是我每天做的事情,这篇论文让我想起了今年早些时候Reddit作家线程上的一个评论,预测科学写作将是最早被机器学习取代的新闻工作之一。
让我明确一点 – 我绝对相信自动化科学作家即将到来,而且我在这篇文章中提出的所有挑战要么现在就可以解决,要么最终会被解决。在可能的情况下,我会提供例子。另外,我并不是在讨论当前或近期的科学写作AI是否能够连贯地写作;基于对这一自然语言处理领域的当前兴趣水平,我假设这个挑战最终会被解决。
相反,我正在询问一个科学作家AI是否能够根据出版商的期望结果(差异很大)识别相关的科学故事。
我不认为这是迫在眉睫的;基于每周浏览大约2000篇新的机器学习科学论文的标题和/或正文,我对学术提交可以被算法分解的程度持更为怀疑的态度,无论是用于学术索引还是科学新闻。通常,正是那些讨厌的东西阻碍了进展。
自动科学作家的要求
让我们考虑一下自动化最新学术研究的科学报道的挑战。为了公平起见,我们将主要限制在康奈尔大学的非常流行的非付费Arxiv域的CS类别中,这至少有一些系统化的、模板化的功能,可以插入数据提取管道中。
假设任务与巴西的新论文一样,是迭代新科学论文的标题、摘要、元数据和(如果合理)正文内容,以寻找常数、可靠的参数、令牌和可操作的、可还原的域信息。
毕竟,这是像新框架这样的成功原则,它们在地球物理学、体育写作、金融新闻和健康报道等领域获得了关注,这是一个合理的出发点,用于AI驱动的科学记者。
[…](https://arxiv.org/ftp/arxiv/papers/2107/2107.14638.pdf)
复杂的模板
一个令人鼓舞的层次是,Arxiv对提交强制执行了相当好的模板,并为提交作者提供了详细的指南。因此,论文通常符合协议的某些部分,这些部分适用于所描述的工作。
因此,AI预处理系统可以将这些部分视为子域:摘要、介绍、相关/先前工作、方法/数据、结果/发现、消融研究、讨论、结论。
然而,在实践中,一些部分可能缺失、重命名或包含严格来说属于其他部分的内容。此外,作者会自然地包含不符合模板的标题和子标题。因此,自然语言处理/自然语言理解(NLP/NLU)需要根据上下文识别与部分相关的内容。
标题带来麻烦
标题层次结构是NLP系统最初对内容块进行分类的简单方法。许多Arxiv提交都是从Microsoft Word导出的(如Arxiv PDF中遗留的“Microsoft Word”标题所示)。如果您在Word中使用适当的节标题,则导出到PDF将重新创建它们为层次标题,对机器记者的数据提取过程有用。
然而,这假设作者实际上正在使用Word或其他文档创建框架(如TeX及其衍生品)中的此类功能,尽管这些功能很少作为Arxiv提交的本地替代格式提供,大多数提交仅限于PDF和偶尔的PostScript。
根据我多年阅读Arxiv论文的经验,我注意到其中绝大多数没有任何可解释的结构元数据,标题在阅读器(即Web浏览器或PDF阅读器)中报告为文档本身的完整标题(包括扩展名)。
在这种情况下,论文的语义可解释性有限,AI科学作家系统需要程序化地将其与Arxiv域中的关联元数据重新链接。Arxiv惯例规定,基本元数据也以大灰色字体插入PDF的第1页(见下图)。遗憾的是,这通常被排除在外。

许多作者要么不使用任何样式,要么只使用H1(最高标题/标题)样式,留下NLU再次从上下文中提取标题(可能并不困难),或者通过解析标题中的引用编号(即https://arxiv.org/pdf/2110.00168.pdf)并利用基于网络的(而不是本地的)元数据来完成提交。
虽然后者无法解决缺失的标题问题,但至少可以确定提交适用的计算机科学部分,并提供日期和版本信息。

粘连文本在段落返回
由于PDF和PostScript是作者提交的最常见格式,NLP系统需要一个例程来分离行尾单词和下一行单词,它们在PDF格式的默认优化方法下会“附着”在一起。

可以通过Perl和许多其他简单的递归例程来完成解除连接(和去连字符化)单词,尽管Python方法可能更不耗时、更适合机器学习框架。PDF格式的起源者Adobe还开发了一种名为Liquid Mode的AI启用的转换系统,能够“重新流式化”PDF中的文本,尽管其在移动设备以外的推广进展缓慢。
拙劣的英语
英语仍然是科学论文提交的全球标准,即使这很有争议。因此,引人入胜且有新闻价值的论文有时包含来自非英语研究人员的拙劣英语,如果科学作家AI系统将英语使用的娴熟程度作为评估工作价值的指标,那么不仅会错过很多好故事,而且还会因为说得很好但内容很少而将低价值的输出评为更高。
在此类科学领域中不灵活的NLP系统可能会遇到额外的障碍,除了在参数化科学领域(如化学和理论物理学)中,图表更为统一地在全球科学界中共享。
选择:确定受众需求
我们将回到分解古怪的科学论文为离散数据点的许多问题。现在,让我们考虑我们的受众和目标,因为这些对于帮助AI科学作家筛选每周成千上万的论文至关重要。预测潜在新闻故事的成功已经成为机器学习中的一个活跃领域。
例如,如果高容量的“科学流量”是唯一目标(如英国《每日邮报》科学板块),则AI可能需要确定流量最高的主题,并优化其选择以实现这一目标。这一过程可能会优先考虑(相对)低垂果实,例如机器人、无人机、深度伪造、隐私和安全漏洞。
在当前推荐系统的状态下,这种高层次的收获可能会导致“过滤气泡”问题,因为算法会给予更多关注一系列具有“理想”高频关键词和短语的科学论文(因为它们有利可图,无论是新闻机构的流量还是学术部门的资金),同时忽略许多Arxiv角落中可以找到的更可写的“复活节彩蛋”。
一次完成!
良好的科学新闻素材可以来自奇怪和意想不到的地方,以及以前没有成果的领域和主题。为了进一步使我们的AI科学作家感到困惑,它曾经希望为新闻来源创建一个富有成效的索引,现在发现“离beat”来源(例如Discord服务器、学术研究部门或科技初创公司)的来源可能永远不会再产生可行的材料,而继续输出大量低价值的信息流。
什么样的迭代机器学习架构可以从中推断出来?这些以前的“异常值”新闻来源,它曾经识别并排除,现在突然需要优先考虑(尽管这样做会在考虑到每年发布的论文数量时创建不可管理的信噪比)?主题本身比它来自的新闻来源更值得激活层(在流行话题的情况下,这是一个多余的操作)?
更有用的是,系统可能会学习到,它需要在数据维度层次结构中上下移动以寻找模式——如果真的存在这样的模式——这将构成我已故的祖父曾经称之为“新闻感”的特征,并将“值得报道”作为一个游移的、抽象的品质,它不能仅凭来源来准确预测,并且可以预计每天都会发生变化。
识别假设失败
由于配额压力,学术部门有时会发表作品,其中中心假设在测试中完全(或几乎完全)失败,即使该项目的方法和发现在自己的权利下仍然值得一些兴趣。
此类失望通常在摘要中没有信号传递;在最坏的情况下,驳斥的假设只能通过阅读结果图表来确定。这不仅需要从论文可能提供的有限信息中推断出对方法的详细理解,还需要能够在上下文中有意义地解释从饼图到散点图等一切内容。
一个仅相信摘要但无法解释图表和表格的NLP系统可能最初会对一篇新论文感到非常兴奋。不幸的是,学术论文中“隐藏失败”的先前例子对于训练目的来说很难概括,因为这种“学术犯罪”主要是遗漏或低调的,并且难以捉摸。
在极端情况下,我们的AI作家可能需要定位和测试存储库数据(即从GitHub),或解析任何可用的补充材料,以了解结果在作者目标方面意味着什么。因此,机器学习系统需要遍历此过程中涉及的多个未映射的源和格式,使自动化验证过程成为一个有点具有挑战性的架构。
“白盒”场景
一些以人工智能为中心的安全论文中提出的最离谱的说法最终需要对源代码或源基础设施具有非同寻常的和非常不可能的访问水平——“白盒”攻击。虽然这对于推断人工智能系统的架构中以前未知的怪癖很有用,但几乎从来没有代表了一个可以利用的攻击面。因此,AI科学作家需要一个相当好的欺骗检测器来将安全方面的说法分解为有效部署的概率。
自动化科学作家将需要一个能够将“白盒”提及放入有意义的上下文(即区分提及和论文的核心含义)并在未明确提及短语的情况下推断“白盒”方法的NLU例程。
其他“陷阱”
其他地方,实际性和假设失败可能会被埋葬,包括消融研究,这些研究系统地剥夺新公式或方法的关键元素,以查看结果是否受到负面影响,或者“核心”发现是否具有弹性。在实践中,包含消融研究的论文通常对其发现相当自信,尽管仔细阅读可以经常揭示一个“虚张声势”。在人工智能研究中,这种虚张声势经常相当于过拟合,其中机器学习系统在原始研究数据上表现出色,但无法推广到新数据,或者在其他不可复制的约束下运行。
另一个有用的部分标题是局限性。这是任何科学作家(无论是人工智能还是人类)应该跳过的第一部分,因为它可以包含否定论文整个假设的信息,并且跳转到它可以节省失去的时间(至少对于人类来说)。
更糟糕的情况是,一篇论文实际上有一个局限性部分,但“妥协”的事实包含在作品的其他地方,而不是这里(或在这里低调处理)。接下来是先前工作。这通常出现在Arxiv模板的早期,并经常揭示当前论文仅代表对前12-18个月更具创新性的项目的轻微改进。
在这一阶段,AI作家需要建立先前工作是否获得了关注;是否仍然有一个故事在这里?先前的工作是否在出版时未被公众注意到?或者新的论文只是对以前的项目的例行后记?
评估重复和“新鲜度”
除了更正早期版本中的错误之外,论文的V.2版本通常代表的不多于作者们在V.1版本发布时没有得到的关注。然而,经常有一篇论文实际上值得再次关注,因为媒体的注意力可能在原始出版时被转移到其他地方,或者工作被秋季和深冬期间拥挤的“研讨会”和会议期间提交的高流量所掩盖。
一个有用的功能来区分Arxiv的重跑是提交标题中附加的[UPDATED]标签。我们的AI作家内部的“推荐系统”需要仔细考虑是否[UPDATED]等同于“过时”,特别是因为它可以(假设)比人力科学黑客更快地评估重温的论文。在这方面,它比人类有显著的优势,多亏了Arxiv可能会一直存在的命名约定。
Arxiv还提供了有关论文是否被识别为与另一篇论文(通常由同一作者)有显著的文本重叠的信息,这也可以在没有[UPDATED]标签的情况下由AI作家系统解析为“重复/重温”状态。
确定扩散
像大多数记者一样,我们预期的AI科学作家正在寻找未报道或报道不足的新闻,以便为其支持的内容流添加价值。在大多数情况下,重新报道首先在TechCrunch、The Verge和EurekaAlert等主要媒体上出现的科学突破是没有意义的,因为这些大平台支持其内容的宣传机器,几乎可以保证媒体的饱和度。
因此,我们的AI作家必须确定这个故事是否足够新鲜,值得追求。
理论上最简单的方法是识别最近的指向核心研究页面(摘要、PDF、学术部门网站新闻部分等)的入站链接。一般来说,能够提供最新入站链接信息的框架并不是开源或低成本的,但大型出版商可能会将SaaS费用作为新sworthiness-evaluation框架的一部分来承担。
假设有这样的访问权限,我们的科学作家AI面临着许多科学报道媒体不引用他们正在撰写的论文的问题,即使信息是免费可用的。毕竟,一个媒体渠道希望二次报道链接到他们,而不是来源。由于他们实际上已经获得了对研究论文的特权或半特权访问(请参见下面的“社交”科学作家),他们有一个不诚实的借口。
因此,我们的AI作家需要从论文中提取可操作的关键词,并执行时间受限的搜索,以确定故事是否已经在其他地方被报道——然后评估是否可以忽略任何先前的扩散,或者故事已经过时。
有时,论文会在YouTube上提供补充视频材料,其中“观看次数”可以作为扩散的索引。另外,我们的AI可以从论文中提取图像,并执行系统的基于图像的搜索,以确定是否以及何时任何图像已被重新发布。
复活节彩蛋
有时一篇“枯燥”的论文会揭示具有深远和有价值的含义的发现,但这些发现被作者低调处理(或甚至忽略或低估),并且只会通过阅读整个论文并进行数学运算来揭示。
在罕见的情况下,我相信这是因为作者比一般公众更关心在学术界的接受,可能是因为他们觉得(并不总是错误地)所涉及的核心概念根本无法简化到足以被大众消化,尽管他们的机构公关部门可能做出了夸张的努力。
但大约同样频繁,作者可能会忽视或未能看到他们工作的含义,或者在“科学隔离”下运作。有时这些“复活节彩蛋”不是工作的积极指标,如前面提到的,并且可能被复杂的发现表格所掩盖。
超越Arxiv
应该考虑到,将计算机科学论文参数化为Arxiv等域中的离散令牌和实体将会容易得多,因为它提供了一些一致且模板化的“钩子”来分析,并且不需要登录即可访问大部分功能。
并非所有科学出版物都是开源的,仍然需要考虑我们的AI科学作家是否可以或将通过Sci-Hub规避付墙;使用存档网站来规避付墙;以及是否可以为其他各种科学出版平台构建类似的域挖掘架构,这些平台在结构上抵制系统化探测。
还应考虑到,即使Arxiv也有可能减慢AI作家新闻评估例程的速率的速率限制。
“社交”AI科学作家
超越Arxiv和类似的“开放”科学出版平台的开放和可访问领域,即使是获得对一篇有趣的新论文的访问也可能是一个挑战,涉及定位作者的联系渠道并接近他们以请求阅读该作品,甚至获取报价(在时间压力不是压倒性的情况下——这是人类科学记者今天罕见的情况)。
这可能涉及自动遍历科学领域并创建帐户(您需要登录才能在Arxiv甚至显示作者的电子邮件地址)。大多数时候,LinkedIn是获得回复的最快方式,但目前AI系统被禁止联系成员。
至于研究人员如何看待来自AI科学作家电子邮件的请求——好吧,就像肉类科学写作世界一样,这可能取决于媒体的影响力。如果一个来自《连线》杂志的假设AI作家联系了一位渴望传播其工作的作者,那么可以合理地假设它可能不会遇到敌对的回应。
在大多数情况下,可以想象作者希望这些半自动交换最终会召唤一个人类进入循环,但可以想象,后续的VOIP采访可以由AI促成,至少在文章的可行性被预测低于某个阈值,并且出版物有足够的牵引力来吸引人类参与与“AI研究人员”的对话时。

