存根 类比和后退提示:深入了解 Google DeepMind 的最新进展 - Unite.AI
关注我们.

即时工程

类比提示和后退提示:深入了解 Google DeepMind 的最新进展

mm

发布时间

 on

谷歌 DeepMind 提示工程新研究

介绍

提示工程侧重于设计有效的提示来指导大型语言模型 (LLM)(例如 GPT-4)生成所需的响应。 精心设计的提示可能是模糊或不准确的答案与精确、富有洞察力的答案之间的区别。

在更广泛的人工智能生态系统中,即时工程是用于从语言模型中提取更准确和上下文相关信息的几种方法之一。 其他技术包括少样本学习(为模型提供一些示例以帮助其理解任务)和微调(在较小的数据集上进一步训练模型以专门化其响应)等技术。

谷歌深度思维 最近发表了两篇论文,深入探讨了即时工程及其增强多种情况响应的潜力。

这些论文是人工智能社区不断探索的一部分,旨在完善和优化我们与语言模型的通信方式,它们为构建更好的查询处理和数据库交互的提示提供了新的见解。

本文深入研究了这些研究论文的细节,阐明了所提出技术的概念、方法和含义,甚至使人工智能和自然语言处理知识有限的读者也能理解。

论文 1:作为类比推理机的大型语言模型

第一篇论文题为“作为类比推理者的大型语言模型”,介绍了一种名为类比提示的新提示方法。 作者 Michihiro Yasunaga、Xinyun Chen 等人从类比推理中汲取灵感,类比推理是人类利用过去的经验来解决新问题的认知过程。

关键概念和方法

类比提示鼓励法学硕士在继续解决给定问题之前在上下文中自行生成相关范例或知识。 这种方法消除了对标记样本的需要,提供了通用性和便利性,并使生成的样本适应每个特定问题,确保了适应性。

左图:提示 LLM 的传统方法依赖于通用输入(0-shot CoT)或需要标记示例(few-shot CoT)。 右图:这种新颖的方法促使法学硕士在解决问题之前自行创建相关示例,从而消除了标记的需要,同时为每个独特的问题定制示例

左图:提示 LLM 的传统方法依赖于通用输入(0-shot CoT)或需要标记示例(few-shot CoT)。 右图:这种新颖的方法促使法学硕士在解决问题之前自行创建相关示例,从而消除了标记的需要,同时为每个问题定制示例

自创范例

本文提出的第一种技术是自我生成的示例。 这个想法是利用法学硕士在培训期间获得的广泛知识来帮助他们解决新问题。 该过程涉及使用提示模型回忆或生成相关问题和解决方案的指令来增强目标问题。

例如,给定一个问题,模型被指示回忆三个不同且相关的问题,描述它们并解释它们的解决方案。 该过程被设计为一次性执行,允许法学硕士生成相关示例并无缝解决初始问题。 在提示中使用“#”符号有助于构建响应,使其更有条理且更易于模型遵循。

本文强调的关键技术决策包括强调生成相关且多样化的示例、采用单遍方法以提高便利性,以及发现生成三到五个示例可以产生最佳结果。

自生知识+范例

第二种技术是自生成知识+示例,旨在解决更复杂任务(例如代码生成)中的挑战。 在这些情况下,法学硕士可能会过度依赖低级范例,并且在解决目标问题时难以泛化。 为了缓解这种情况,作者建议通过额外的指令来增强提示,鼓励模型识别问题中的核心概念并提供教程或高级要点。

一个关键的考虑因素是知识和范例的生成顺序。 作者发现,在范例之前生成知识会带来更好的结果,因为它有助于法学硕士专注于解决问题的基本方法,而不仅仅是表面的相似性。

优点及应用

类比提示方法有几个优点。 它提供了详细的推理示例,无需手动标记,解决了与 0 样本和少样本思维链 (CoT) 方法相关的挑战。 此外,生成的样本是针对个别问题量身定制的,与使用固定样本的传统​​少样本 CoT 相比,提供了更相关的指导。

该论文展示了这种方法在各种推理任务中的有效性,包括数学问题解决、代码生成和 BIG-Bench 中的其他推理任务。

下表列出了不同模型架构中各种提示方法的性能指标。 值得注意的是,“自生成样本”方法在准确性方面始终优于其他方法。 在 GSM8K 精度中,该方法在 PaLM2 模型上实现了最高性能,为 81.7%。 同样,对于数学准确性,它以 3.5% 的成绩在 GPT37.3-turbo 上名列前茅。

数学任务、GSM8K 和 MATH 的表现

数学任务、GSM8K 和 MATH 的表现

在第二个表中,对于模型 GPT3.5-turbo-16k 和 GPT4,“自生成知识 + 范例”显示出最佳性能。

Codeforces 代码生成任务的性能

Codeforces 代码生成任务的性能

论文 2:退一步:通过大型语言模型中的抽象引发推理

概述

第二篇论文“退一步:通过大型语言模型中的抽象引发推理”介绍了“后退提示”,这是一种鼓励法学硕士从详细实例中抽象出高级概念和首要原则的技术。 作者 Huaxiu Steven Cheng、Swaroop Mishra 等人旨在通过指导法学硕士遵循正确的推理路径来解决问题,从而提高他们的推理能力。

在关键概念和原则的指导下,通过抽象和推理的两个阶段描述后退提示。

在关键概念和原则的指导下,通过抽象和推理的两个阶段描述后退提示。

让我们使用基本数学问题创建一个更简单的示例来演示“后退问题”技术:

Original Question: If a train travels at a speed of 60 km/h and covers a distance of 120 km, how long will it take?

Options:

3 hours
2 hours
1 hour
4 hours
Original Answer [Incorrect]: The correct answer is 1).

Stepback Question: What is the basic formula to calculate time given speed and distance?

Principles:
To calculate time, we use the formula:
Time = Distance / Speed

Final Answer:
Using the formula, Time = 120 km / 60 km/h = 2 hours.
The correct answer is 2) 2 hours.

虽然现在的法学硕士可以轻松回答上述问题,但这个例子只是为了演示后退技术是如何工作的。 对于更具挑战性的场景,可以应用相同的技术来系统地剖析和解决问题。 下面是论文中演示的一个更复杂的案例:

MMLU-Chemistry 数据集上的后退提示

MMLU-Chemistry 数据集上的后退提示

关键概念和方法

后退提示的本质在于它能够让法学硕士后退一步,鼓励他们着眼于大局,而不是迷失在细节中。 这是通过一系列精心设计的提示来实现的,这些提示引导法学硕士抽象信息、推导高级概念并应用这些概念来解决给定的问题。

该过程首先提示法学硕士从给定实例中提取细节,鼓励其关注基本概念和原则。 这一步至关重要,因为它为法学硕士从更明智和原则性的角度解决问题奠定了基础。

一旦得出高级概念,它们将用于指导法学硕士完成解决方案的推理步骤。 该指南确保法学硕士保持在正确的轨道上,遵循基于抽象概念和原则的逻辑和连贯的路径。

作者使用 PaLM-2L 模型在一系列具有挑战性的推理密集型任务中进行了一系列实验,以验证后退提示的有效性。 这些任务包括 STEM 问题、知识 QA 和多跳推理,为评估该技术提供了全面的测试平台。

跨任务的实质性改进

结果令人印象深刻,后退提示可显着提高所有任务的性能。 例如,该技术将 PaLM-2L 在 MMLU 物理和化学方面的性能分别提高了 7% 和 11%。 同样,它在 TimeQA 上的性能提高了 27%,在 MuSiQue 上的性能提高了 7%。

后退提示的表现

后退提示与 CoT 的性能对比

这些结果强调了后退提示显着增强法学硕士推理能力的潜力。

结论

Google DeepMind 的两篇论文都提出了促进工程的创新方法,旨在增强大型语言模型的推理能力。 类比提示利用类比推理的概念,鼓励模型生成自己的示例和知识,从而提高适应性和效率。 另一方面,后退提示侧重于抽象,引导模型推导出高级概念和原理,从而提高其推理能力。

这些研究论文提供了有价值的见解和方法,可以应用于各个领域,从而产生更智能、更强大的语言模型。 随着我们不断探索和理解即时工程的复杂性,这些方法将成为实现更先进、更复杂的人工智能系统的关键垫脚石。

在过去的五年里,我一直沉浸在机器学习和深度学习的迷人世界中。 我的热情和专业知识使我为 50 多个不同的软件工程项目做出了贡献,特别关注人工智能/机器学习。 我持续的好奇心也吸引了我对自然语言处理的兴趣,这是我渴望进一步探索的领域。