存根 谷歌设想一个类似 GPT-3 的查询系统,没有搜索结果 - Unite.AI
关注我们.

人工智能

谷歌设想一个类似 GPT-3 的查询系统,没有搜索结果

mm
更新 on

四位 Google 研究人员的一篇新论文提出了一种“专家”系统,能够权威地回答用户的问题,而无需提供可能的搜索结果列表,类似于过去因 GPT-3 的出现而引起公众关注的问答范式年。

,有权 重新思考搜索:从业余爱好者中培养专家,表明当前向用户呈现搜索结果列表以响应查询的标准是一种“认知负担”,并提出改进自然语言处理系统(NLP)提供权威和明确响应的能力。

在提出的“专家”跨域预言机模型下,数千种可能的搜索结果源将被烘焙到语言模型中,而不是明确地作为探索性资源供用户自行评估和导航。 资料来源:https://arxiv.org/pdf/2105.02274.pdf

在提出的“专家”跨域预言机模型下,数千种可能的搜索结果源将被烘焙到语言模型中,而不是明确地作为探索性资源供用户自行评估和导航。 资料来源:https://arxiv.org/pdf/2105.02274.pdf

这篇由 Google Research 的 Donald Metzler 领导的论文提出了对目前可以从 GPT-3 等深度学习自回归语言模型获得的多域预言响应类型的改进。 设想的主要改进是 a) 该模型将能够准确引用告知响应的来源,以及 b) 该模型将能够防止“幻觉的' 的响应或发明不存在的源材料,这是目前此类架构的一个问题。

多领域培训和能力

此外,所提出的语言模型在论文中被描述为“适用于所有信息检索任务的单一模型”,将在包括图像和文本在内的各种领域进行训练。 它还需要了解知识的来源,这是 GPT-3 风格架构所缺乏的。

“为了用单一、统一的模型取代索引,模型本身必须能够像传统索引一样了解整个文档标识符。 实现这一目标的一种方法是放弃传统的语言模型,转向联合建模术语术语、术语文档以及文档文档关系的语料库模型。

在上图中,论文中给出了三种响应用户查询的方法:左图,谷歌算法搜索结果中隐含的语言模型选择并优先考虑了“最佳答案”,但将其作为许多结果中的首要结果。 Center,一种 GPT-3 风格的对话式响应,具有权威性,但没有证明其主张或引用来源。 正确的是,所提出的专家系统将排名搜索结果中的“最佳响应”直接合并到教学答案中,并以学术风格的脚注引文(原始图像中未描绘)指示响应的来源。

消除有毒和不准确的结果

研究人员指出,搜索索引的动态和不断更新的性质对于在这种性质的机器学习模型中完全复制是一个挑战。例如,当一个曾经可信的来源被直接训练成模型对世界的理解时,消除它的影响(例如,在它被怀疑之后)可能比仅仅从 SERP 中删除一个 URL 更困难,因为数据概念可能会变得抽象并在训练同化过程中广泛代表。

此外,这样的模型需要不断地进行训练,以便对新文章和出版物提供与目前由谷歌不断抓取资源所提供的相同水平的响应能力。 实际上,这意味着连续和自动的推出,与当前的制度形成鲜明对比,当前的制度对自由形式搜索算法的权重和设置进行了微小的修改,但算法本身通常很少更新。

集中式专家预言机的攻击面

不断吸收和概括新数据的集中模型可以改变搜索查询的攻击面。

目前,攻击者可以通过为包含错误信息或恶意代码的域或页面获得高排名来获取利益。 在更加不透明的“专家”预言机的支持下,将用户重定向到攻击域的机会大大减少,但注入有毒数据攻击的可能性大大增加。

这是因为所提出的系统并没有消除搜索排名算法,而是对用户隐藏了它,有效地自动化了顶部结果的优先级,并将其(或它们)烘焙成教学语句。 恶意用户长期以来一直能够策划针对 Google 搜索算法的攻击,以 出售假冒产品, 直接用户 恶意软件传播域,或出于以下目的 政治操纵,以及许多其他用例。

不是通用人工智能

研究人员强调,这样的系统不太可能符合通用人工智能(AGI)的要求,并将通用专家响应者的前景置于自然语言处理的背景下,以应对此类模型目前面临的所有挑战。

该文件概述了“高质量”响应的五个要求:

1:权威
与当前的排名算法一样,“权威”似乎源自对本身被认为具有权威性的高质量领域的引用。 研究人员观察到:

“响应应该通过从高度权威的来源获取内容来生成内容。 这是在术语序列和文档元数据之间建立更明确的联系如此重要的另一个原因。 如果语料库中的所有文档都标有权威性分数,则在训练模型、生成响应或两者时都应考虑该分数。

尽管研究人员并不认为如果发现这种类型的专家预言机具有高性能且受欢迎,那么传统的 SERP 结果将变得不可用,但整篇论文确实根据“数十年”的情况介绍了传统的排名系统和搜索结果列表。旧的和过时的信息检索系统。

“排名是这种范式的关键组成部分,这一事实本身就是检索系统为用户提供潜在答案选择的一个症状,这给用户带来了相当大的认知负担。 返回答案而不是结果排名列表的愿望是开发问答系统的激励因素之一。 '

2:透明度
研究人员评论道:

“只要有可能,就应该向用户提供所提供信息的出处。 这是信息的主要来源吗? 如果不是,主要来源是什么?

3:处理偏见
该论文指出,预先训练的语言模型并不是为了评估经验真理而设计的,而是为了概括和优先考虑数据中的主导趋势。 它承认该指令打开了攻击模型(就像微软的 无意中的种族主义聊天机器人 2016 年),并且需要辅助系统来防止这种有偏见的系统响应。

4:支持不同的观点
该文件还提出了确保观点多元化的机制:

“生成的回复应该代表一系列不同的观点,但不应两极分化。 例如,对于有争议的话题的查询,应该以公平、平衡的方式涵盖话题的双方。 这显然与模型偏差密切相关。

5:无障碍语言
除了在被视为权威的回复采用不同语言的情况下提供准确的翻译外,该论文还建议封装的回复应“以尽可能简单的术语编写”。