人工知能

EUREKA: 人間レベルの報酬設計を実現するための大規模言語モデルによるコーディング

Published November 21, 2023

Updated April 4, 2026

Kunal Kejriwal

大規模言語モデル（LLM）は近年大きな進歩を遂げており、これらのLLMフレームワークが順序付きの高レベルな決定タスクの意味的プランナーとして優れていることは驚くことではありません。しかし、開発者はまだLLMフレームワークの全潜在能力を利用して、複雑な低レベルな操作タスクを学習することに挑戦しています。効率は高いものの、今日のLLMは、ドメインと主題の専門知識が不足しているため、簡単なスキルを学習したり、テキストプロンプトを構築したりすることが困難です。これにより、人間レベルの器用さとの間に大きなギャップが生じています。

このギャップを埋めるために、Nvidia、CalTech、UPennなどの開発者は、EUREKAというLLM駆動の人間レベルの設計アルゴリズムを導入しました。EUREKAは、コードの書き込み、コンテキストの改善、ゼロショットのコンテンツ生成などのLLMフレームワークのさまざまな機能を利用して、報酬コードの最適化を実現します。これらの報酬コードは、強化学習と組み合わせて、複雑なスキルを学習したり、操作タスクを実行したりすることができます。

この記事では、開発者の視点からEUREKAフレームワークを調査し、その構造、動作、生成された報酬関数の結果を探ります。これらの関数は、開発者によると、人間によって生成されたものを上回るものです。また、EUREKAフレームワークが、グラディエントフリーのコンテキスト学習を可能にすることで、RLHF（人間のフィードバックを使用した強化学習）への新しいアプローチを開拓する方法を探ります。始めましょう。

EUREKA：紹介

現在、最先端のLLMフレームワークであるGPT-3やGPT-4は、順序付きの高レベルな決定タスクで優れた結果をもたらしますが、開発者はまだ低レベルな操作タスクの学習を向上させる方法を探しています。さらに、開発者は、強化学習を使用して、持続可能な結果を実現できることを観察しています。ただし、報酬関数が人間のデザイナーによって慎重に構築され、学習信号を提供することが必要です。実際の強化学習タスクでは、報酬が希薄であるため、モデルがパターンを学習することが困難です。したがって、報酬を形成することは、必要な増分学習信号を提供します。さらに、報酬関数は非常に重要ですが、設計が難しいことがあり、サブオプティマルな設計は予期しない動作につながることがあります。

これらの課題に対処し、報酬トークンの効率を最大化するために、EUREKAまたはEvolution-driven Universal REward Kit for Agentは、以下の貢献をします。

報酬関数の設計で人間レベルのパフォーマンスを達成する。
手動での報酬エンジニアリングを使用せずに操作タスクを効果的に解決する。
新しいグラディエントフリーのコンテキスト学習アプローチを導入することで、より人間に近い、よりパフォーマントの高い報酬関数を生成する。

EUREKAのアルゴリズム設計には、3つの重要な選択肢があります。進化的探索、環境としてのコンテキスト、報酬の反射です。まず、EUREKAフレームワークは、環境のソースコードをコンテキストとして使用して、ゼロショット設定で実行可能な報酬を生成します。その後、フレームワークは、進化的探索を実行して、報酬の質を大幅に改善し、各イテレーションで報酬候補を提案し、最も約束のあるものを改良します。最後に、フレームワークは、報酬の反射アプローチを使用して、コンテキスト内の報酬の改善をより効果的に行います。これにより、フレームワークは、ポリシーのトレーニング統計に基づいて、報酬の質のテキスト要約を使用して、ターゲットを絞った自動化された報酬編集を可能にします。以下の図は、EUREKAフレームワークの概要を示しています。

EUREKA：モデルアーキテクチャと問題設定

報酬形成の主な目的は、真の報酬関数に対して形成された報酬関数を返すことです。これは、直接最適化するのが困難な場合、特に希薄な報酬の場合に困難になる可能性があります。さらに、デザイナーは、真の報酬関数にアクセスするために、クエリのみを使用できます。これが、EUREKAフレームワークが報酬生成を選択した理由です。これは、RDP（報酬設計問題）に基づくプログラム合成設定です。

報酬設計問題（RDP）は、状態空間、報酬関数の空間、遷移関数、行動空間を持つ世界モデルで構成されるタプルです。学習アルゴリズムは、報酬を生成して、MDP（マルコフ決定プロセス）を生成するポリシーを最適化します。MDPは、ポリシーのスカラー進化を生成し、ポリシークエリのみを使用してアクセスできます。RDPの主な目的は、ポリシーが最大のフィットネススコアを達成できるように、報酬関数を出力することです。EUREKAの問題設定では、開発者は、RDPのすべてのコンポーネントをコードで指定しました。さらに、タスクの詳細を指定する文字列が与えられた場合、報酬生成問題の主な目的は、フィットネススコアを最大化する報酬関数コードを生成することです。

進むと、EUREKAフレームワークの核心には、3つの基本的なアルゴリズムコンポーネントがあります。進化的探索（候補の提案と改良）、環境としてのコンテキスト（ゼロショット設定での実行可能な報酬の生成）、報酬の反射（報酬の改善を可能にする）。アルゴリズムの疑似コードは、以下の図に示されています。

環境としてのコンテキスト

現在、LLMフレームワークは、報酬を設計するために環境の仕様を入力として必要としますが、EUREKAフレームワークは、生の環境コードを直接コンテキストとして使用して、ゼロショット設定で実行可能な報酬を生成します。このアプローチには、2つの大きな利点があります。まず、LLMフレームワークは、コード出力の生成に優れています。なぜなら、ネイティブコードセットで訓練されているからです。さらに、環境のソースコードを使用すると、環境が含まれるセマンティクスと、タスクに応じて報酬関数を出力するために使用するのに適した変数が明らかになることがあります。これらの洞察に基づいて、EUREKAフレームワークは、LLMに、フォーマットのヒントと汎用的な報酬設計のみを使用して、より実行可能なPythonコードを直接返すように指示します。

進化的探索

EUREKAフレームワークにおける進化的探索の導入は、サブオプティマルな課題と、実行時のエラーに対する自然な解決策を提供します。各イテレーションで、フレームワークは、LLMから独立した出力を生成し、生成物がすべて独立して識別可能である場合、イテレーションごとにサンプル数が増加するため、バグのある報酬関数の確率が指数関数的に減少します。

次のステップでは、EUREKAフレームワークは、前のイテレーションの実行可能な報酬関数を使用して、コンテキスト内の報酬の変異を実行し、テキストフィードバックに基づいて新しい改良された報酬関数を提案します。EUREKAフレームワークは、コンテキストの改善と、LLMの指示の実行能力と組み合わせて、変異演算子をテキストプロンプトとして指定し、ポリシーのトレーニングのテキスト要約を使用して既存の報酬コードを変更する方法を示します。

報酬の反射

コンテキスト内の報酬の変異を根拠付けるために、生成された報酬の質を評価し、特にそれらを言葉で表現することが不可欠です。EUREKAフレームワークは、単純な戦略である、報酬評価のための数値スコアの提供を使用してこれに取り組みます。タスクのフィットネス関数が、真の報酬としての全体的なメトリックとして機能する場合、信用の割り当てが欠けているため、報酬関数がどのように機能するか、またはどのように機能しないかの理由については、有益な情報を提供できません。したがって、よりターゲットを絞った、繊細な報酬診断を提供するために、フレームワークは、ポリシーのトレーニングのダイナミクスをテキストで要約する自動化されたフィードバックを使用することを提案します。さらに、報酬プログラムでは、EUREKAフレームワークの報酬関数は、個々のコンポーネントを公開するように求められます。これにより、フレームワークは、トレーニングの全期間中、ポリシーのチェックポイントでの各一意の報酬コンポーネントのスカラー値を追跡できます。

EUREKAフレームワークの報酬関数手順は、構築が簡単であるにもかかわらず、報酬の最適化のアルゴリズム依存の性質により、不可欠です。つまり、報酬関数の有効性は、強化学習アルゴリズムの選択に直接影響され、ハイパーパラメータの変更により、同じ最適化器を使用していても、報酬が異なるパフォーマンスを示す可能性があります。したがって、EUREKAフレームワークは、強化学習アルゴリズムと強化された共生関係にある報酬関数を合成することで、レコードをより効果的に、選択的に編集できます。

トレーニングとベースライン

EUREKAフレームワークのトレーニングには、2つの主要なコンポーネントがあります。ポリシーの学習と報酬評価メトリックです。

ポリシーの学習

各タスクの最終的な報酬関数は、同じ強化学習アルゴリズムを使用し、同じハイパーパラメータを使用して最適化されます。これらのハイパーパラメータは、人間が設計した報酬関数がうまく機能するように微調整されています。

報酬評価メトリック

タスクメトリックは、各タスクごとにスケールとセマンティックの意味が異なるため、EUREKAフレームワークは、人間の正規化スコアを報告します。これは、フレームワークが、人間によって生成された報酬と比較して、真のメトリックに基づいてどのように機能するかを比較するための包括的な尺度を提供します。

さらに、3つの主要なベースラインがあります。L2R、人間、およびスパースです。

L2R

L2Rは、デュアルステージのLLMプロンプティングソリューションです。これは、テンプレート化された報酬を生成するのに役立ちます。まず、LLMフレームワークは、環境とタスクを自然言語で指定したテンプレートを埋め込み、次に、2番目のLLMフレームワークは、これらの「動作の説明」を、報酬APIプリミティブのセットを呼び出すことによって、報酬関数を書くコードに変換します。

人間

人間のベースラインは、強化学習の研究者によって書かれた元の報酬関数であり、人間の報酬エンジニアリングの結果を前例のないレベルで表しています。

スパース

スパースベースラインは、フィットネス関数に似ており、生成された報酬の品質を評価するために使用されます。

結果と成果

EUREKAフレームワークのパフォーマンスを分析するために、さまざまなパラメータを評価します。包括して、人間の報酬に対するパフォーマンス、時間の経過とともに結果の改善、新しい報酬の生成、ターゲットを絞った改善の有効化、および人間のフィードバックとの連携です。

EUREKAは人間の報酬を上回る

以下の図は、さまざまなベンチマークの集約された結果を示しています。明らかに、EUREKAフレームワークは、DexterityとIssacタスクの両方で、人間レベルの報酬と同等か、それを上回るパフォーマンスを示しています。一方、L2Rベースラインは、低次元のタスクでは類似のパフォーマンスを示しますが、高次元のタスクでは、パフォーマンスのギャップはかなり大きくなります。

時間の経過とともに一貫して改善

EUREKAフレームワークの主なハイライトの1つは、各イテレーションで一貫して改善し、強化する能力です。結果は、以下の図に示されています。

明らかに、フレームワークは、各イテレーションで、より優れた報酬を生成し、人間の報酬のパフォーマンスを改善し、最終的に上回ります。これは、コンテキスト内の進化的報酬探索アプローチを使用することによるものです。

新しい報酬の生成

EUREKAフレームワークの報酬の新規性は、Issacタスク全体で人間とEUREKAの報酬の間の相関を計算することで評価できます。これらの相関は、人間の正規化スコアに対して、散布図またはマップにプロットされ、プロットの各点は、各タスクのEUREKA報酬を表します。明らかに、EUREKAフレームワークは、人間の報酬関数を上回る、弱い相関のある報酬関数を主に生成します。

ターゲットを絞った改善の有効化

報酬の反射の重要性を評価するために、開発者は、報酬の反射がなく、フィードバックプロンプトがスナップショット値のみで構成されるEUREKAフレームワークの削除版を評価しました。Issacタスクを実行すると、開発者は、報酬の反射なしでは、EUREKAフレームワークが平均正規化スコアで約29%の低下を経験したことを観察しました。

人間のフィードバックとの連携

幅広い入力から人間に近い、よりパフォーマントの高い報酬関数を生成するために、EUREKAフレームワークは、自動化された報酬設計に加えて、強化学習から人間のフィードバックへの新しいグラディエントフリーのコンテキスト学習アプローチを導入します。2つの重要な観察があります。

EUREKAは人間の報酬関数から利益を得て改善できます。
報酬の反射に人間のフィードバックを使用すると、整列した動作が誘発されます。

上の図は、EUREKAフレームワークが人間の報酬初期化を使用して、パフォーマンスと効率性が大幅に向上していることを示しています。人間の報酬の品質は、フレームワークのコンテキスト内での報酬改善能力に大きな影響を与えません。

上の図は、EUREKAフレームワークが、人間に近いポリシーを誘発するだけでなく、人間のフィードバックを組み込むことで報酬を変更できることを示しています。

最終的な考え

この記事では、EUREKAについて説明しました。これは、LLM駆動の人間レベルの設計アルゴリズムで、LLMフレームワークのさまざまな機能を利用して、報酬コードの最適化を実現します。報酬コードは、強化学習と組み合わせて、複雑なスキルを学習したり、操作タスクを実行したりすることができます。人間の介入やタスク固有のプロンプトエンジニアリングなしで、幅広いタスクで人間レベルの報酬生成能力を提供します。カリキュラム学習アプローチを使用して複雑なタスクを学習する能力が、その主な強みです。

全体として、EUREKAフレームワークの顕著なパフォーマンスと汎用性は、進化アルゴリズムと大規模言語モデルを組み合わせることで、報酬を設計するためのスケーラブルで一般的なアプローチが可能になる可能性を示唆しています。この洞察は、他のオープンエンドの探索問題にも適用できる可能性があります。