プロンプトエンジニアリング
大規模言語モデルにおけるホールユーションの対処: 最新のテクニックの調査

大規模言語モデル(LLM)であるGPT-4、PaLM、Llamaは、自然言語生成能力において注目すべき進歩を達成しました。しかし、それらの信頼性と安全な展開を制限する持続的な課題は、それらのホールユーションの傾向です。ホールユーションとは、文脈に基づいて事実的に正確でない、または無根拠なコンテンツを生成することを指します。
LLMがより強力で、現実世界のアプリケーションで普及するにつれて、ホールユーションに対処することは不可欠です。この記事では、LLMにおけるホールユーションを検出、量化、軽減するための最新のテクニックの包括的な概要を提供します。
LLMにおけるホールユーションの理解
ホールユーションとは、現実または提供されたコンテキストに基づいていない、事実的に不正確または捏造された情報を指します。例として以下のようなものがあります:
- ソース資料に証拠がないにもかかわらず、人物についてのテキストを生成する際に、伝記的な詳細や出来事を捏造する。
- 薬の副作用や治療手順について捏造することで、誤った医療アドバイスを提供する。
- 主張を裏付けるために、存在しないデータ、研究、またはソースを捏造する。
この現象は、LLMが大量のオンラインテキストデータでトレーニングされるため発生します。これにより、LLMは強力な言語モデリング能力を獲得しますが、情報を外挿し、論理的な飛躍を行い、ギャップを埋めることができますが、誤解を招いたり、誤った情報を生成したりする可能性があります。
ホールユーションの主な要因には以下のようなものがあります:
- パターン一般化 – LLMはトレーニングデータのパターンを特定し、拡張しますが、これは一般化できません。
- 古い知識 – 静的な事前トレーニングでは、新しい情報を統合することができません。
- あいまいさ – あいまいなプロンプトは、誤った仮定の余地を残します。
- 偏見 – モデルは歪んだ視点を永続させ、増幅させます。
- 不足している根拠 – モデルは、完全に理解していないコンテンツを生成します。
ホールユーションに対処することは、誤った情報を生成することで害を及ぼす可能性のある医療、法律、金融、教育などの分野で信頼性の高い展開を可能にするために不可欠です。
ホールユーション軽減テクニックの分類
研究者は、LLMにおけるホールユーションに対処するためのさまざまなテクニックを導入しました。これらは、以下のように分類できます:
1. プロンプトエンジニアリング
これには、コンテキストを提供し、LLMを事実に基づいた、根拠のある応答に向けてガイドするプロンプトを慎重に作成することが含まれます。
- リトリーバーエージェント – コンテンツを根拠付けるために外部証拠をリトリーブする。
- フィードバックループ – 応答を精製するために反復的にフィードバックを提供する。
- プロンプトチューニング – 期待される動作に対してプロンプトをファインチューニング中に調整する。
2. モデル開発
ホールユーションにあまりなりそうにないモデルを、構造的な変更を通じて作成することです。
- デコーディング戦略 – 忠実性を高めるためにテキストを生成する方法。
- 知識の根拠付け – 外部知識ベースを統合する。
- 新しい損失関数 – トレーニング中に忠実性を最適化する。
- 教師ありファインチューニング – 人間がラベル付けしたデータを使用して事実性を向上させる。
次に、各アプローチの下で著名なテクニックを調査します。
著名なホールユーション軽減テクニック
リトリーバーエージェント生成
リトリーバーエージェント生成は、LLMを外部証拠ドキュメントをリトリーブし、条件付テキスト生成を強化します。つまり、モデルは暗黙の知識のみに頼るのではなく、最新の検証可能な情報に基づいてコンテンツを生成します。これにより、ホールユーションが軽減されます。
著名なテクニックには以下のようなものがあります:
- RAG – リトリーバーモジュールを使用して、シーケンスツーシーケンスモデルが生成するための関連パスを提供します。両方のコンポーネントはエンドツーエンドでトレーニングされます。
- RARR – LLMを使用して、生成されたテキスト内の帰属されていない主張を調査し、リトリーブされた証拠と一致するように修正します。
- 知識リトリーバル – 生成が不確実な場合に、リトリーブされた知識を使用して検証します。
- LLM-Augmenter – リトリーブされた知識を使用して、LLMプロンプトの証拠チェーンを構築します。
フィードバックと推論
反復的な自然言語フィードバックまたは自己推論を使用することで、LLMは初期の出力を改良し、ホールユーションを軽減できます。
CoVeは、検証チェーンテクニックを使用します。LLMは最初にユーザーのクエリに応じて応答を下書きします。次に、自分の応答のさまざまなステートメントに対する自信度に基づいて、事実確認のための潜在的な質問を生成します。たとえば、新しい医療治療についての応答の場合、CoVeは「治療の有効性は何ですか?」、「規制承認を受けましたか?」、「潜在的な副作用は何ですか?」などの質問を生成します。重要的是、LLMは次に、これらの検証質問に独立して答えますが、初期の応答によってバイアスされません。検証質問の答えが初期の応答のステートメントと矛盾したり、裏付けることができない場合、システムはそれらをホールユーションの可能性として識別し、ユーザーに提示する前に応答を改良します。
DRESSは、自然言語フィードバックを通じて、LLMを人間の好みに合わせて調整することに焦点を当てています。このアプローチでは、非専門家のユーザーが、モデル生成に対して自由形式の批判や、改良の指示(「副作用は誇張されているようです」または「費用対効果についても議論してください」など)を提供できます。DRESSは、強化学習を使用して、人間の好みに合わせて調整された応答を生成するようにモデルをトレーニングします。これにより、インタラクティブ性が向上し、非現実的または裏付けのないステートメントが軽減されます。
MixAlignは、ユーザーがシステムによってリトリーブされた情報パスに直接対応しない質問を提出した場合に対処します。たとえば、ユーザーは「中国での汚染は悪化しますか?」と質問しますが、リトリーブされたパスは世界的な汚染の傾向について議論します。十分なコンテキストがない場合にホールユーションを避けるために、MixAlignは、ユーザーに質問を情報パスに関連付ける方法が不明な場合に明示的に照会します。このヒューマンインザループメカニズムにより、コンテキストを適切に根拠付け、コンテキスト化するためにフィードバックを取得し、根拠のない応答を防ぐことができます。
The 自己反省テクニックでは、LLMを自身の応答を評価し、フィードバックを提供し、反復的に改良するようにトレーニングします。たとえば、医療関連のクエリに対して生成された応答の場合、モデルは事実的正確性をスコア付けし、矛盾したり裏付けのないステートメントを特定し、リトリーブされた知識を使用してそれらを編集することを学習します。LLMにこの自己チェック、自己批判、自己改良のフィードバックループを教えることで、盲目的ホールユーションが軽減されます。
プロンプトチューニング
プロンプトチューニングでは、LLMに提供される指示プロンプトを、望ましい動作に対してファインチューニング中に調整できます。
The SynTra方法では、ホールユーションを最小限に抑えるために、シンセティックサマリーテクニックを使用します。シンセティックタスクでは、モデルに抽出のみでパスを要約するように求め、要約中に抽象化を行うことはありません。これにより、モデルは、要約中に新しい情報を捏造するのではなく、ソースコンテンツに完全に頼ることを学習します。SynTraは、モデルをファインチューニングしたときにターゲットタスクでホールユーションの問題を軽減することが示されています。
UPRISEは、未見のダウンストリームタスクのための最適なソフトプロンプトを提供する、ユニバーサルプロンプトリトリーバをトレーニングします。さまざまなタスクでチューニングされたプロンプトをリトリーブすることで、モデルは新しいタスクに一般化し、トレーニング例が不足しているタスクに適応することを学習します。これにより、タスクごとのチューニングを必要とせずにパフォーマンスが向上します。
新しいモデルアーキテクチャ
FLEEKは、人間のファクトチェッカーとバリデーターを支援するシステムです。チェック可能な事実的主張を自動的に識別し、与えられたテキスト内でそれらをクエリに変換します。FLEEKは、コンテキスト情報を人間のバリデーターに提供することで、文書の正確性と修正の必要性を効果的に検証します。
The CADデコーディングアプローチは、コンテキスト認識デコーディングを通じて言語生成におけるホールユーションを軽減します。具体的には、CADは、コンテキストに基づいて条件付されたLLMの出力分布と、無条件に出力された分布の差を増幅します。これにより、コンテキスト証拠と矛盾することを抑制し、モデルを根拠のある生成に向けて導きます。
DoLAは、トランスフォーマーネットワークのさまざまな層からのロジットを対比することで、事実的ホールユーションを軽減します。事実的知識は、特定の中間層に局在化することが多いため、DoLAのロジット対比を通じてこれらの層からの信号を増幅することで、誤った事実的生成が軽減されます。
The THAMフレームワークは、トレーニング中に、入力とホールユーション出力の間の相互情報量を最小化するために、正則化項を導入します。これにより、モデルは、無拘無束な想像力ではなく、与えられた入力コンテキストに依存することが増加し、盲目的ホールユーションが軽減されます。
知識の根拠付け
LLMの生成を構造化された知識に根拠付けることで、無制限の推測や捏造を防ぐことができます。
The RHOモデルは、会話のコンテキスト内のエンティティを識別し、それらを知識グラフ(KG)にリンクします。エンティティに関する関連事実や関係は、KGからリトリーブされ、LLMに提供されるコンテキスト表現に統合されます。これにより、会話の応答が根拠のある事実に結び付けられ、ホールユーションが軽減されます。
HARは、モデルが生成したホールユーションを含むカウンターファクタルトレーニングデータセットを作成します。事実のパスが与えられた場合、モデルはそれを改変してホールユーションまたは歪みを導入するように促され、改変されたバージョンを生成します。 このデータでファインチューニングすることで、モデルはコンテンツを元の事実のソースに根拠付けることを学び、即興演奏が減ります。
教師ありファインチューニング
- コーチ – ユーザーのクエリに答えるインタラクティブフレームワークですが、改善するために修正も求めます。
- R-チューニング – トレーニングデータの知識ギャップによって識別されたサポートされていない質問を拒否することを認識したチューニング。
- TWEAK – 入力事実を裏付ける仮説に基づいて生成をランク付けするデコーディング方法。
課題と制限
約束の進歩にもかかわらず、ホールユーションを軽減する上でいくつかの重要な課題が残っています:
- テクニックは、真実性を妥協することなく、品質、連貫性、創造性のトレードオフを伴うことが多い。
- 限られたドメインを超えた厳格な評価が困難です。メトリックはすべてのニュアンスを捉えていません。
- 多くの方法は計算コストが高く、広範なリトリーブまたは自己推論を必要とします。
- トレーニングデータの品質と外部知識ソースに大きく依存しています。
- ドメインやモダリティ間の汎用性を保証するのが難しい。
- ホールユーションの根本的な根底にあるもの、たとえば過剰な外挿は未解決のままです。
これらの課題に対処するには、トレーニングデータの強化、モデルアーキテクチャの改善、忠実性を高める損失、推論時テクニックの組み合わせによる多層アプローチが必要です。
今後の道
LLMのホールユーション軽減は、進行中の研究課題です。いくつかの有望な将来の方向性は以下のとおりです:
- ハイブリッドテクニック: リトリーブ、知識の根拠付け、フィードバックなどの補足的なアプローチを組み合わせる。
- 因果モデル: 理解と推論を向上させる。
- オンライン知識統合: 世界の知識を最新の状態に保つ。
- 形式的検証: モデルの動作について数学的な保証を提供する。
- 解釈可能性:軽減テクニックに透明性を構築する。
LLMが高リスクのドメインでさらに普及するにつれて、ホールユーションを抑制するための堅牢な解決策を開発することは、安全で、倫理的で、信頼性の高い展開を確保するために不可欠です。この記事で調査されたテクニックは、提案されたテクニックの概要を提供しますが、さらに多くのオープンな研究課題が残っています。全体として、モデル的事実性を向上させるための肯定的な傾向がありますが、限界に対処し、新しい方向性、たとえば因果性、検証、ハイブリッド方法を探求する進歩が必要です。分野を超えた研究者の尽力により、強力で信頼性の高いLLMの夢は現実になる可能性があります。










