人工知能
EUREKA:ハイスコアの報酬設計を実現するためのコーディングによる大規模言語モデル

大規模言語モデル(LLM)が最近行った進歩は、シーケンシャルな高レベルの意思決定タスクにおけるセマンティックプランナーとしての優れた性能を示しています。しかし、開発者は依然として、LLMフレームワークの全ポテンシャルを低レベルの操作タスクの学習に活用することが難しいと感じています。LLMフレームワークは、シンプルなスキルを学習したり、テキストプロンプトを構築したりするために、多大なドメインとサブジェクトの専門知識を必要とします。これにより、LLMフレームワークの性能と人間レベルの器用さの間には大きなギャップが生じます。
このギャップを埋めるために、Nvidia、CalTech、UPennなどの開発者は、EUREKAと呼ばれるLLM駆動の人間レベルの設計アルゴリズムを導入しました。EUREKAは、コードライティング、インコンテキスト改善、ゼロショットコンテンツ生成などのLLMフレームワークの機能を活用して、報酬コードの最適化を実現します。これらの報酬コードは、強化学習と組み合わせて使用することで、LLMフレームワークが複雑なスキルを学習したり、操作タスクを実行したりすることができます。
この記事では、EUREKAフレームワークを開発者の視点から調査し、そのアーキテクチャ、動作、結果を分析します。さらに、EUREKAフレームワークが人間によって生成された報酬関数を上回る性能を示す方法についても説明します。最後に、EUREKAフレームワークがRLHF(強化学習による人間のフィードバック)への新しいアプローチを可能にする方法についても説明します。
EUREKA:紹介
現在、最先端のLLMフレームワークは、高レベルの意思決定タスクにおけるセマンティックプランナーとして優れた結果をもたらしますが、開発者は依然として、低レベルの操作タスクの学習を向上させる方法を探しています。さらに、開発者は、強化学習を使用して、デクサスな条件や他のドメインで持続的な結果を達成することができることを観察しています。ただし、これらの報酬関数は、人間の設計者によって慎重に構築される必要があり、学習可能な信号を提供するために必要です。

EUREKAフレームワークは、次の3つの主要な貢献を目的としています。
- 人間レベルの報酬設計の実現
- 手動による報酬エンジニアリングを必要としない操作タスクの解決
- 新しいグラデーション無料のインコンテキスト学習アプローチを介した、より人間に近い報酬関数の生成
EUREKAフレームワークには、3つの主要なアルゴリズミックな設計選択肢があります。環境ソースコードをコンテキストとして使用して、ゼロショット設定で実行可能な報酬関数を生成します。次に、進化的検索を実行して、報酬の品質を大幅に改善します。最後に、報酬反射アプローチを使用して、インコンテキストでの報酬改善をより効果的に行います。
EUREKA:モデルアーキテクチャと問題設定
EUREKAフレームワークの主な目的は、グラウンドトゥルース報酬関数に対して、形成された報酬関数を返すことです。ただし、グラウンドトゥルース報酬関数は、直接最適化するのが難しい場合があります。設計者は、グラウンドトゥルース報酬関数にアクセスするために、クエリのみを使用できます。
EUREKAフレームワークは、報酬生成問題を解決するために、プログラムシンセシスの設定を使用します。報酬設計問題(RDP)は、世界モデル、報酬関数の空間、遷移関数、行動空間で構成されるタプルです。学習アルゴリズムは、報酬を生成して、MDP(マルコフ決定プロセス)を最適化します。
環境としてのコンテキスト
EUREKAフレームワークは、環境ソースコードをコンテキストとして使用して、ゼロショット設定で実行可能な報酬関数を生成します。LLMフレームワークは、ネイティブコードセットでトレーニングされており、コードを生成するときに、元のトレーニングスタイルと構文でコードを生成することができます。
進化的検索
EUREKAフレームワークは、進化的検索を実行して、報酬の品質を大幅に改善します。各イテレーションまたはエポックで、LLMフレームワークは、独立した出力と、前のイテレーションの実行可能な報酬関数を使用して、新しい報酬関数を提案します。
報酬反射
EUREKAフレームワークは、報酬反射アプローチを使用して、インコンテキストでの報酬改善をより効果的に行います。報酬関数の品質を評価するために、数値スコアを使用します。さらに、ポリシートレーニングのダイナミクスをテキストで要約することで、よりターゲット化された報酬診断を提供します。
トレーニングとベースライン
EUREKAフレームワークには、2つの主要なトレーニングコンポーネントがあります。ポリシーレーニングと報酬評価メトリクスです。
ポリシーレーニング
EUREKAフレームワークは、同じ強化学習アルゴリズムと同じハイパーパラメータを使用して、各タスクの最終的な報酬関数を最適化します。
報酬評価メトリクス
EUREKAフレームワークは、人間の正規化スコアを報告します。これは、EUREKAフレームワークの性能を、グラウンドトゥルースメトリクスに対する専門家の人間によって生成された報酬と比較するための包括的な尺度です。
結果と成果
EUREKAフレームワークの性能を分析するために、次のパラメータを評価します。人間の報酬に対する性能、時間の経過による改善、新しい報酬の生成、ターゲット化された改善の有効化、人間のフィードバックとの協力です。
EUREKAが人間の報酬を上回る
EUREKAフレームワークは、ベンチマークの集約結果で、人間のレベルの報酬と同等かそれ以上の性能を示します。
時間の経過による改善
EUREKAフレームワークは、各イテレーションでより良い報酬を生成し、人間の報酬の性能を上回ります。
新しい報酬の生成
EUREKAフレームワークは、人間の報酬と相関関係が低い報酬関数を生成します。
ターゲット化された改善の有効化
EUREKAフレームワークは、報酬反射を使用して、報酬の品質を評価し、改善を有効化します。
人間のフィードバックとの協力
EUREKAフレームワークは、人間のフィードバックを使用して、報酬を改善し、人間に近い行動を誘発します。
最終的な考え
EUREKAフレームワークは、コードライティング、インコンテキスト改善、ゼロショットコンテンツ生成などのLLMフレームワークの機能を活用して、報酬コードの最適化を実現します。EUREKAフレームワークは、人間の介入やタスク固有のプロンプトエンジニアリングを必要とせずに、人間レベルの報酬生成能力を提供します。
EUREKAフレームワークの性能と汎用性は、進化アルゴリズムと大規模言語モデルの組み合わせが、報酬設計へのスケーラブルで汎用的なアプローチにつながる可能性があることを示唆しています。












