プロンプトエンジニアリング

類推とステップバックプロンプト: Google DeepMind による最近の進歩の詳細

公開済み

6ヶ月前

2023 年 11 月 3 日

概要

プロンプトエンジニアリングは、GPT-4 などの大規模言語モデル (LLM) が目的の応答を生成できるよう、効果的なプロンプトを考案することに重点を置いています。適切に作成されたプロンプトは、曖昧または不正確な回答と、正確で洞察力に富んだ回答の違いを生みます。

AI の広範なエコシステムにおいて、プロンプトエンジニアリングは、言語モデルからより正確で文脈に関連した情報を抽出するために使用されるいくつかの方法のうちの XNUMX つです。その他には、タスクの理解を助けるためにモデルにいくつかの例が与えられる少数ショット学習や、応答を特化するためにモデルがより小さなデータセットでさらにトレーニングされる微調整などの手法が含まれます。

Google DeepMind は最近、プロンプトエンジニアリングと、複数の状況での対応を強化するその可能性を詳しく調査した XNUMX つの論文を発表しました。

これらの論文は、言語モデルとの通信方法を改良および最適化するために AI コミュニティで進行中の調査の一部であり、クエリ処理とデータベースインタラクションを改善するためのプロンプトの構造化に関する新たな洞察を提供します。

この記事では、これらの研究論文の詳細を掘り下げて、提案された手法の概念、方法論、および意味を解明し、AI と NLP に関する知識が限られている読者でもアクセスできるようにしています。

論文 1: 類推推論としての大規模言語モデル

最初の論文は「類推推論としての大規模言語モデル」と題され、類推という名前の新しいプロンプトアプローチを紹介しています。著者の安永道弘氏や陳信雲氏らは、人間が過去の経験を活用して新しい問題に取り組む認知プロセスである類推論からインスピレーションを得ている。

主要な概念と方法論

類推プロンプトは、特定の問題の解決に進む前に、LLM がコンテキスト内で関連する見本や知識を自己生成することを奨励します。このアプローチにより、ラベル付きのサンプルの必要性がなくなり、汎用性と利便性が提供され、生成されたサンプルがそれぞれの特定の問題に適応して適応性が確保されます。

左: LLM をプロンプトする従来の方法は、汎用入力 (0 ショット CoT) に依存するか、ラベル付きサンプル (少数ショット CoT) を必要とします。右: 新しいアプローチにより、問題解決の前に LLM が関連するサンプルを自己作成するよう促され、ラベル付けの必要性がなくなり、サンプルをそれぞれにカスタマイズすることができます。

自己生成されたサンプル

この論文で紹介されている最初のテクニックは、自己生成されたサンプルです。その考えは、LLM がトレーニング中に獲得した広範な知識を活用して、新しい問題を解決できるようにすることです。このプロセスには、モデルに関連する問題と解決策の呼び出しまたは生成を促す命令を使用して、ターゲットの問題を強化することが含まれます。

たとえば、問題が与えられた場合、モデルは XNUMX つの異なる関連する問題を思い出し、それらを説明し、その解決策を説明するように指示されます。このプロセスはシングルパスで実行されるように設計されており、LLM が関連するサンプルを生成し、最初の問題をシームレスに解決できるようにします。プロンプトで「#」記号を使用すると、応答の構造化が容易になり、応答がより体系化され、モデルが追跡しやすくなります。

この論文で強調されている主要な技術的決定には、適切で多様なサンプルの生成に重点を置くこと、利便性を高めるためにシングルパスアプローチを採用すること、および XNUMX ～ XNUMX 個のサンプルを生成することで最良の結果が得られるという発見が含まれます。

自ら生成した知識 + 模範

XNUMX 番目の手法である自己生成ナレッジ + サンプルは、コード生成などのより複雑なタスクの課題に対処するために導入されています。これらのシナリオでは、LLM は低レベルのサンプルに過度に依存し、ターゲットの問題を解決するときに一般化するのに苦労する可能性があります。これを軽減するために、著者らは、モデルが問題の中核となる概念を特定し、チュートリアルや概要を提供することを促す追加の指示でプロンプトを強化することを提案しています。

重要な考慮事項の XNUMX つは、知識と模範が生成される順序です。著者らは、見本の前に知識を生成すると、LLM が単なる表面レベルの類似点ではなく、根本的な問題解決アプローチに焦点を当てるのに役立つため、より良い結果につながることを発見しました。

利点とアプリケーション

アナログ的なプロンプトのアプローチには、いくつかの利点があります。手動のラベル付けを必要とせずに推論の詳細な例を提供し、ゼロショットおよび少数ショットの思考連鎖 (CoT) メソッドに関連する課題に対処します。さらに、生成されたイグザンプラは個々の問題に合わせて調整されており、固定イグザンプラを使用する従来の少数ショット CoT よりも関連性の高いガイダンスを提供します。

この論文では、BIG-Bench での数学の問題解決、コード生成、その他の推論タスクを含むさまざまな推論タスクにわたって、このアプローチの有効性を実証しています。

以下の表は、さまざまなモデルアーキテクチャにわたるさまざまなプロンプト方法のパフォーマンスメトリックを示しています。注目すべき点は、「自己生成されたサンプル」手法は、精度の点で他の手法を常に上回っていることです。 GSM8K 精度では、この方法は PaLM2 モデルで 81.7% という最高のパフォーマンスを達成します。同様に、MATH 精度に関しては、GPT3.5 ターボの 37.3% でトップとなっています。

数学的タスク、GSM8K および MATH のパフォーマンス

3.5 番目の表では、モデル GPT16-turbo-4k および GPTXNUMX の場合、「自己生成された知識 + 模範」が最高のパフォーマンスを示しています。

Codeforces コード生成タスクのパフォーマンス

論文 2: 一歩下がってください: 大規模な言語モデルでの抽象化による推論の喚起

概要

XNUMX番目の論文は、「一歩下がってみましょう: 大規模な言語モデルでの抽象化による推論の喚起」では、LLM が詳細なインスタンスから高レベルの概念と第一原則を抽象化することを奨励するテクニックであるステップバックプロンプティングを紹介します。著者の Huaixiu Steven Zheng 氏、Swaroop Mishra 氏らは、LLM が解決策に向けて正しい推論パスをたどるように導くことで、LLM の推論能力を向上させることを目指しています。

主要な概念と原則に基づいて、抽象化と推論の XNUMX つのフェーズを通じて後戻りを促す様子を描いています。

「ステップバック質問」テクニックを示すために、基本的な数学の質問を使用した簡単な例を作成してみましょう。

Original Question: If a train travels at a speed of 60 km/h and covers a distance of 120 km, how long will it take?

Options:

3 hours
2 hours
1 hour
4 hours
Original Answer [Incorrect]: The correct answer is 1).

Stepback Question: What is the basic formula to calculate time given speed and distance?

Principles:
To calculate time, we use the formula:
Time = Distance / Speed

Final Answer:
Using the formula, Time = 120 km / 60 km/h = 2 hours.
The correct answer is 2) 2 hours.

現在の LLM は上記の質問に簡単に答えることができますが、この例はステップバック手法がどのように機能するかを示すだけです。より困難なシナリオの場合は、同じ手法を適用して、問題を体系的に分析して対処できます。以下は、論文で実証されているより複雑なケースです。

MMLU-Chemistry データセットでのステップバックプロンプト

主要な概念と方法論

ステップバックプロンプトの本質は、LLM に比喩的に一歩下がって、細部に惑わされるのではなく全体像を見るよう促す機能にあります。これは、LLM を抽象的な情報に導き、高レベルの概念を導き出し、これらの概念を適用して特定の問題を解決する、注意深く作成された一連のプロンプトによって実現されます。

このプロセスは、LLM が指定されたインスタンスから詳細を抽象化し、基礎となる概念と原則に焦点を当てるように促されることから始まります。このステップは、LLM がより情報に基づいた原則に基づいた観点から問題にアプローチするための準備を整えるため、非常に重要です。

高レベルの概念が導き出されると、それらは、LLM が解決策に向けた推論ステップをガイドするために使用されます。このガイダンスにより、LLM が正しい軌道に留まり、抽象化された概念と原則に基づいた論理的で一貫した道をたどることが保証されます。

著者らは、さまざまな困難な推論集中型タスクにわたって PaLM-2L モデルを使用して、ステップバックプロンプティングの有効性を検証する一連の実験を実施しています。これらのタスクには、STEM 問題、ナレッジ QA、およびマルチホップ推論が含まれており、技術を評価するための包括的なテストベッドを提供します。

タスク全体の大幅な改善

結果は目覚ましいもので、ステップバックプロンプトによりすべてのタスクにわたって大幅なパフォーマンスの向上がもたらされました。たとえば、この技術により、MMLU 物理学と化学における PaLM-2L のパフォーマンスがそれぞれ 7% と 11% 向上します。同様に、TimeQA のパフォーマンスが 27%、MuSiQue のパフォーマンスが 7% 向上します。

ステップバックプロンプトと CoT のパフォーマンス

これらの結果は、LLM の推論能力を大幅に強化するステップバックプロンプトの可能性を強調しています。

まとめ

Google DeepMind の両方の論文は、大規模な言語モデルの推論機能を強化することを目的とした、プロンプトエンジニアリングのための革新的なアプローチを示しています。類推プロンプティングは類推推論の概念を活用し、モデルが独自の例と知識を生成することを促し、より適応性が高く効率的な問題解決につながります。一方、ステップバックプロンプティングは抽象化に焦点を当て、モデルをガイドして高レベルの概念と原則を導き出し、それによってモデルの推論能力が向上します。

これらの研究論文は、さまざまなドメインに適用できる貴重な洞察と方法論を提供し、よりインテリジェントで有能な言語モデルにつながります。私たちがプロンプトエンジニアリングの複雑さを探求し、理解し続ける中で、これらのアプローチは、より高度で洗練された AI システムの実現に向けた重要な足がかりとして機能します。

次に

人事担当者向けの ChatGPT プロンプト 10 選

お見逃しなく

OpenAI の DALL-E 3 を詳しく見る

アーユシュ・ミタル

私は過去 50 年間、機械学習と深層学習の魅力的な世界に没頭してきました。私の情熱と専門知識により、特に AI/ML に重点を置いた XNUMX を超える多様なソフトウェアエンジニアリングプロジェクトに貢献してきました。私の継続的な好奇心は、私がさらに探求したいと思っている分野である自然言語処理にも引き寄せられました。