机器学习系统可在您阅读文章时重写文章

发布时间 2021 年 5 月 11 日

更新 2022 年 12 月 9 日

马丁安德森

加拿大的一项新研究提出了一种在阅读文章时自动重写文章的方法，该方法基于 Tinder 式的“滑动”，或者被动观察读者与文章中包含的各种内容的互动。

该系统名为 Hone As You Read (HARE)，以纸来自加拿大安大略省西部大学，并附有相应的Python代码在GitHub.

该项目的中心思想是一篇文章可能包含各种内容，从标题到进一步的细节（很像这篇文章）。文章的后面部分可能包含不同类型的支持材料、用例或有关新闻后果的假设或猜想。

在 HARE 下，如果您不喜欢这种材料，您可以逐段投票否决它，同时系统会了解您的偏好，这样当您向下滚动时，就会看到与您想要的材料类似的内容。 “downvoted”已被删除或重写。如果你不想主动参与系统的训练，HARE 可以通过观察你与文档的被动交互来推断你的选择。

在下图中，我们根据用户的显式或隐式行为看到 HARE 的三种可能的推断分类类型。在第一种情况（左）中，用户主动“向左滑动”（或向右滑动），以 Tinder 风格的投票手势表达对段落或句子的内容或其风格、复杂性或语气的认可或不满。

资料来源：https://arxiv.org/pdf/2105.02923.pdf

在第二种情况（中心）中，系统根据滚动暂停的位置和持续时间，使用停留时间作为用户兴趣的度量。

在第三种情况（右）中，HARE 使用智能手机摄像头来估计观看者注视位置在可见文档段落中的路径和停留时间。

研究人员认为，在任何一个段落上停留时间的增加都可以表明用户兴趣的增加，尽管从逻辑上讲，当观众试图理解可能复杂或写得不好的文本时，情况可能并非如此。

用户反馈可以有效地编辑、重写或完全删除文章中尚未看到的部分。

该论文以每篇文章为基础讨论了 HARE 的用户体验，但显然，用户与文档的历史交互允许通过一致地识别内容类型并将模板化的用户偏好应用于新文章来定制未来的阅读体验，以便随着用户看到的“不需要的”内容越来越少，交互的需求也会减少。

HARE 的特点是摘要算法，允许在用户到达页面之前根据风格或简洁性重写页面下方看不见的内容；但该论文明确表示，它还可以根据用户反馈预先删除内容。

出于测试目的，该系统使用了文集共 11,222 篇来自英国的文章 每日邮件 报纸，并通过 Telegram 聊天应用程序上的测试部署进行了评估。少于十段的文章被丢弃用于审判目的。

Telegram HARE 应用程序正处于用户测试阶段。

研究人员使用的方法 K均值聚类 on 斯伯特文章中的句子嵌入，最初对所处理的概念进行随机权重。

在众多算法和方法中，HARE 具有三个比较模型，其中第一个模型 (ORACLEGREEDY) 可以访问先前的用户偏好，表明该算法可以在加载时而不是交互地预处理文章。

其他模型 ORACLESORTED 和 ORACLEUNIFORM 分别根据兴趣水平或在整篇文章中随机选择句子。

令人惊讶的是，ORACLEUNIFORM 的性能优于控制集，尽管它无法访问先前的用户兴趣。研究人员认为，这是因为它一次性处理整篇文章，“只选择最有趣的句子”。研究人员承认，这可能会将可用内容限制为仅涉及最重要概念的句子，从逻辑上删除可能涉及概念的后果或评估的其他文本。

HARE 中使用的提取摘要器是 LexRank，基本求和及文本排名.

HARE 在 13 次试验和不同的算法方法中对 70 名志愿者进行了测试，并且能够在消费级笔记本电脑上以 1.3 毫秒到 100 毫秒的时间更新摘要（重写/删除的文本），具体取决于所试验的型号。结果发现，删除大部分文本的模型表现不佳，主要是因为这会影响剩余文本的连贯性。

研究人员承认对这种性质的技术的伦理担忧：

“HARE 任务旨在设计未来面向用户的应用程序。根据设计，这些应用程序能够控制用户从给定文章中阅读的内容。如果部署时没有足够谨慎，这些工具可能会加剧自动新闻源、搜索结果和在线社区已经产生的“回音室”效应。

然而，他们还指出，这样的系统可以在未来的应用中使用，通过注入提出文章最初可能未出现的替代观点的文本来减轻回声室效应。他们观察到：“可以调整这个因素的权重，以提供引人入胜的阅读体验和接触多样化想法的机会。”

研究人员表示，那些可能从这种系统中受益的人是那些希望节省获取信息时间的读者和内容出版商。

神经渲染：输入量能降低到多低？

谷歌设想一个类似 GPT-3 的查询系统，没有搜索结果

马丁安德森

机器学习作家，人体图像合成领域专家。曾任 Metaphysic.ai 研究内容主管。
个人网站：马丁南德森.ai
联系我们 [电子邮件保护]
推特：@manders_ai

联合人工智能