人工智能

AI 初创公司 Diffbot 读取整个公共互联网以实现基于事实的文本生成

更新 on 2022 年 12 月 9 日

OpenAI 通过 GPT-2 和 GPT-XNUMX 在自然语言处理和文本生成方面取得了最新进展 GPT-3 语言模型令人印象深刻，能够生成看起来像是真正由人类编写的文本。不幸的是，尽管这些模型擅长编写听起来自然的文本，但它们不具备编写真实文本的能力。高级语言模型将上下文中最有意义的单词拼凑成句子，而不关注生成文本中声明的准确性。据麻省理工学院技术评论报道，一家名为 Diffbot 旨在通过让人工智能从互联网上提取尽可能多的事实来解决这个问题。

Diffbot 是一家初创公司，希望让人工智能在自动填充电子表格和自动完成句子或代码等实际文本生成任务中更加有用。为了使人工智能生成的文本可靠，人工智能本身需要值得信赖，并且它必须具有一些事实与虚构陈述的概念。 Diffbot 的方法是通过从几乎整个公共网络收集大量文本来赋予文本生成程序生成事实陈述的能力。 Diffbot 解析多种语言的文本，并将文本分割成基于事实的三元组，其中给定事实的主语、宾语和动词用于将一个概念与另一个概念联系起来。例如，它可能代表有关比尔·盖茨和微软的事实，如下所示：

比尔·盖茨是微软的创始人。微软是一家计算机技术公司。

Diffbot 获取所有这些简短的事实并将它们连接在一起以创建知识图。知识图创建概念之间的关系网，通常还配有推理器，帮助根据这些关系创建新结论。换句话说，知识图谱使用数据互连，它们可以帮助机器学习算法对知识领域进行建模。知识图实际上已经存在了几十年，许多早期的人工智能研究人员认为它们是让人工智能理解人类世界的重要工具。然而，知识图通常是手工创建的，这是一个困难且痛苦的过程。自动创建知识图可以让人工智能对概念获得更广泛的上下文理解，并生成基于事实的文本。

谷歌几年前开始使用知识图来帮助在搜索热门主题时提供信息摘要。知识图用于提取最相关的事实并将其表示为摘要。 Diffbot 希望对每个主题都做同样的事情，而不仅仅是最受欢迎的主题。这需要构建一个绝对庞大的知识图谱，通过爬行整个公共网络来编译，只有谷歌和微软才能做到这一点。 Diffbot 会扫描整个网络，并每四五天用新信息更新知识图，在一个月内它会添加 100 亿到 150 亿个条目。

Diffbot 不像普通的网络爬虫那样读取网站的文本，而是使用计算机视觉算法提取网页的原始像素，并从页面中提取视频、图像、文章和讨论数据。它识别网页的关键元素，然后按照由三部分组成的事实陈述模式提取各种语言的事实。

目前，Diffbot 提供对其知识图谱的付费和免费访问。虽然研究人员可以免费访问该图表，但 DuckDuckGo 和 Snapchat 等公司使用它来总结文本并提取热门新闻片段。与此同时，耐克和阿迪达斯利用该平台查找销售假冒产品的网站，这是可能的，因为 Diffbot 能够确定哪些网站实际上在销售鞋子，而不仅仅是讨论它们。

未来，Diffbot 计划扩展其功能，并向该平台添加自然语言界面，能够回答您提出的几乎任何问题，并用来源支持这些答案。理想情况下，Diffbot 的功能应与 GPT-3 等强大的语言合成模型相结合。