类比提示和后退提示：深入了解 Google DeepMind 的最新进展

发布时间

6个月前

2023 年 11 月 3 日

介绍

提示工程侧重于设计有效的提示来指导大型语言模型 (LLM)（例如 GPT-4）生成所需的响应。精心设计的提示可能是模糊或不准确的答案与精确、富有洞察力的答案之间的区别。

在更广泛的人工智能生态系统中，即时工程是用于从语言模型中提取更准确和上下文相关信息的几种方法之一。其他技术包括少样本学习（为模型提供一些示例以帮助其理解任务）和微调（在较小的数据集上进一步训练模型以专门化其响应）等技术。

谷歌深度思维最近发表了两篇论文，深入探讨了即时工程及其增强多种情况响应的潜力。

这些论文是人工智能社区不断探索的一部分，旨在完善和优化我们与语言模型的通信方式，它们为构建更好的查询处理和数据库交互的提示提供了新的见解。

本文深入研究了这些研究论文的细节，阐明了所提出技术的概念、方法和含义，甚至使人工智能和自然语言处理知识有限的读者也能理解。

第一篇论文题为“作为类比推理者的大型语言模型”，介绍了一种名为类比提示的新提示方法。作者 Michihiro Yasunaga、Xinyun Chen 等人从类比推理中汲取灵感，类比推理是人类利用过去的经验来解决新问题的认知过程。

类比提示鼓励法学硕士在继续解决给定问题之前在上下文中自行生成相关范例或知识。这种方法消除了对标记样本的需要，提供了通用性和便利性，并使生成的样本适应每个特定问题，确保了适应性。

左图：提示 LLM 的传统方法依赖于通用输入（0-shot CoT）或需要标记示例（few-shot CoT）。右图：这种新颖的方法促使法学硕士在解决问题之前自行创建相关示例，从而消除了标记的需要，同时为每个问题定制示例

本文提出的第一种技术是自我生成的示例。这个想法是利用法学硕士在培训期间获得的广泛知识来帮助他们解决新问题。该过程涉及使用提示模型回忆或生成相关问题和解决方案的指令来增强目标问题。

例如，给定一个问题，模型被指示回忆三个不同且相关的问题，描述它们并解释它们的解决方案。该过程被设计为一次性执行，允许法学硕士生成相关示例并无缝解决初始问题。在提示中使用“#”符号有助于构建响应，使其更有条理且更易于模型遵循。

本文强调的关键技术决策包括强调生成相关且多样化的示例、采用单遍方法以提高便利性，以及发现生成三到五个示例可以产生最佳结果。

第二种技术是自生成知识+示例，旨在解决更复杂任务（例如代码生成）中的挑战。在这些情况下，法学硕士可能会过度依赖低级范例，并且在解决目标问题时难以泛化。为了缓解这种情况，作者建议通过额外的指令来增强提示，鼓励模型识别问题中的核心概念并提供教程或高级要点。

一个关键的考虑因素是知识和范例的生成顺序。作者发现，在范例之前生成知识会带来更好的结果，因为它有助于法学硕士专注于解决问题的基本方法，而不仅仅是表面的相似性。

类比提示方法有几个优点。它提供了详细的推理示例，无需手动标记，解决了与 0 样本和少样本思维链 (CoT) 方法相关的挑战。此外，生成的样本是针对个别问题量身定制的，与使用固定样本的传统少样本 CoT 相比，提供了更相关的指导。

该论文展示了这种方法在各种推理任务中的有效性，包括数学问题解决、代码生成和 BIG-Bench 中的其他推理任务。

下表列出了不同模型架构中各种提示方法的性能指标。值得注意的是，“自生成样本”方法在准确性方面始终优于其他方法。在 GSM8K 精度中，该方法在 PaLM2 模型上实现了最高性能，为 81.7%。同样，对于数学准确性，它以 3.5% 的成绩在 GPT37.3-turbo 上名列前茅。

数学任务、GSM8K 和 MATH 的表现

在第二个表中，对于模型 GPT3.5-turbo-16k 和 GPT4，“自生成知识 + 范例”显示出最佳性能。

Codeforces 代码生成任务的性能

第二篇论文“退一步：通过大型语言模型中的抽象引发推理”介绍了“后退提示”，这是一种鼓励法学硕士从详细实例中抽象出高级概念和首要原则的技术。作者 Huaxiu Steven Cheng、Swaroop Mishra 等人旨在通过指导法学硕士遵循正确的推理路径来解决问题，从而提高他们的推理能力。

在关键概念和原则的指导下，通过抽象和推理的两个阶段描述后退提示。

让我们使用基本数学问题创建一个更简单的示例来演示“后退问题”技术：

Original Question: If a train travels at a speed of 60 km/h and covers a distance of 120 km, how long will it take?

Options:

3 hours
2 hours
1 hour
4 hours
Original Answer [Incorrect]: The correct answer is 1).

Stepback Question: What is the basic formula to calculate time given speed and distance?

Principles:
To calculate time, we use the formula:
Time = Distance / Speed

Final Answer:
Using the formula, Time = 120 km / 60 km/h = 2 hours.
The correct answer is 2) 2 hours.

虽然现在的法学硕士可以轻松回答上述问题，但这个例子只是为了演示后退技术是如何工作的。对于更具挑战性的场景，可以应用相同的技术来系统地剖析和解决问题。下面是论文中演示的一个更复杂的案例：

MMLU-Chemistry 数据集上的后退提示