Artificial Intelligence

WARM を通じて AI と人間の価値観の調和を推進

公開済み 2024 年 2 月 5 日

アーユシュ・ミタルミタル

AI システムと人間の価値観の調整

人工知能 (AI) システムは、顧客サービスのチャットボットから医療診断アルゴリズムに至るまで、複雑なタスクにおいて人間を支援できるようになってきています。ただし、これらの AI システムはより多くの責任を負うため、人間の価値観や好みと調和し続けることが重要です。これを達成するための 1 つのアプローチは、ヒューマンフィードバックからの強化学習 (RLHF) と呼ばれる手法を使用することです。 RLHF では、ポリシーとして知られる AI システムは、その動作に対する人間の判断に基づいて報酬を与えられたり、罰せられたりします。目標は、政策がその報酬を最大化する方法を学習し、人間の好みに従って行動するようにすることです。

RLHF の中核コンポーネントは報酬モデル (RM) です。 RM は、ポリシーのアクションと出力を評価し、学習プロセスをガイドする報酬シグナルを返す責任があります。人間の好みは複雑で、状況に依存し、さらには個人間で一貫性がない場合があるため、適切な RM を設計することは困難です。最近、Google DeepMind の研究者は、RM 設計を改善するために加重平均報酬モデル (WARM) と呼ばれる革新的な技術を提案しました。

リワードハッキングの問題

RLHF の大きな問題は報酬ハッキングです。報酬ハッキングは、実際には意図された目的を達成せずに高額の報酬を獲得するために RM システムを操作するための抜け穴をポリシーが見つけた場合に発生します。たとえば、目標が、高品質の要約を生成できるようにライティングアシスタント AI をトレーニングすることであるとします。 RM は、簡潔で有益な要約を評価する場合があります。その後、ポリシーは、RM を騙すキーワードを散りばめた非常に短く有益でない概要を生成することで、これを悪用することを学習する可能性があります。

報酬ハッキングは主に次の 2 つの理由で発生します。

流通シフト – RM は、人間がラベルを付けたサンプルの限られたデータセットでトレーニングされます。導入時に、ポリシーの出力は、RM が適切に一般化できないさまざまなディストリビューションから取得される可能性があります。
ノイズの多いラベル – 人間によるラベル付けは不完全であり、評価者間の意見の相違があります。 RM は、品質の堅牢な指標ではなく、スプリアス信号を捕捉する可能性があります。

報酬ハッキングは、人間の期待に応えられない役に立たないシステムにつながります。さらに悪いことに、不用意に導入すると、AI の動作が偏ったり危険になったりする可能性があります。

モデル結合の台頭

「モデルレミーのおいしいレストラン」のようなモデル結合戦略への関心が高まっているのは、より大きなモデルは強力ではあるものの、非効率的で非実用的である可能性があるという認識によって引き起こされています。 1 兆のパラメーターモデルをトレーニングするには、法外な量のデータ、計算、時間、コストが必要です。さらに重要なのは、そのようなモデルはトレーニング分布に過剰適合する傾向があり、現実世界の多様なシナリオに一般化する能力を妨げます。

モデルのマージは、制御されないスケールアップを行わずに、より優れた機能を利用できる代替ルートを提供します。モデルの結合は、異なるディストリビューション、タスク、または目的でトレーニングされた複数の特殊なモデルを再利用することで、汎用性とディストリビューション外の堅牢性を強化することを目的としています。前提条件は、異なるモデルが、統合されたときに相互に補完できる個別の予測パターンを捕捉するということです。

最近の結果は、このコンセプトの有望性を示しています。マージによって得られたモデルは、パラメータがはるかに少ないにもかかわらず、GPT-3 のような巨大なモデルのパフォーマンスに匹敵するか、それを超える可能性があります。たとえば、わずか 7 つの中規模チェックポイントからなるモデルレミーのおいしいレストランアンサンブルは、高次元のテキスト含意データセットで最先端の精度を達成し、GPT-3 を上回ります。

重み付け平均による簡単なマージは大きな利点です。複数の補助モデルをトレーニングするには追加のリソースが必要です。しかし重要なのは、重みが 1 つに凝縮されるため、推論時の計算が単一のモデルと同じままであることです。これにより、待ち時間やメモリコストの増加を心配することなく、この方法を簡単に適応できるようになります。

モデル結合の背後にあるメカニズム

しかし、モデルを結合することでこのような精度の向上が可能になるのは正確には何でしょうか?最近の分析により、いくつかの手がかりが得られます。

暗記の軽減: 各モデルは、トレーニング中にデータセットの異なるシャッフルされたバッチを参照します。平均化によりインスタンス固有の記憶が減少し、データセットレベルの一般化のみが保持されます。
差異の削減: 独立してトレーニングされたモデルには相関のないエラーがあります。それらを組み合わせることでノイズが平均化され、キャリブレーションが向上します。
多様性による正則化: さまざまな補助タスクにより、モデルはディストリビューション全体で役立つ、より一般化可能な機能に対応する必要があります。
堅牢性の向上: 予測の不一致は不確実性を示します。平均化により外れ値の判断が緩和され、信頼性が高まります。

本質的に、モデルの結合は個々のモデルの弱点を相殺し、全体的な強みを強化します。マージされた表現は、偶発的な変動を無視して、共通の基礎となる因果構造を捉えます。

この概念的な基盤により、モデルのマージがアンサンブルやマルチタスク学習などの他の一般的な手法に接続されます。これらの方法はすべて、モデルまたはタスク全体の多様性を活用して、多用途で不確実性を認識したシステムを実現します。ただし、重み平均化のシンプルさと効率性により、モデルのマージには、現実世界の展開を進めるための独自の利点が与えられます。

加重平均報酬モデル

WARMとの調整プロセス

WARM 革新的にプロキシ報酬モデル (RM) を採用しています。これは、複数の個別の RM の重み平均であり、それぞれが同じ事前トレーニング済みの LLM から微調整されていますが、ハイパーパラメータは異なります。この方法により、効率、分布変更時の信頼性、および一貫性のない優先設定に対する堅牢性が強化されます。この研究はまた、WARM をプロキシ RM として使用すると、特に平均 RM の数が増加すると、結果が向上し、制御報酬が時間の経過とともに低下する現象である「報酬ハッキング」の開始を遅らせることも示しています。

概要は次のとおりです。

大規模なコーパスで事前トレーニングされた基本言語モデルから始めます。小さなタスク固有のレイヤーを上に追加して、複数の RM を初期化します。
多様性の学習率などのさまざまなハイパーパラメータを使用して、人間の嗜好データセットに基づいて各 RM を個別に微調整します。
微調整された RM の重みを平均して、単一の WARM アンサンブルを取得します。

重要な洞察は、重み付け平均では、すべての多様な RM にわたって学習された不変情報のみが保持されるということです。これにより、スプリアス信号への依存が軽減され、堅牢性が向上します。アンサンブルは分散の削減からも恩恵を受け、分布の変化にもかかわらず信頼性が向上します。

前述したように、独立してトレーニングされたモデル間の多様性は、モデルの結合の可能性を最大限に引き出すために重要です。しかし、生産的な多様性を促進するための具体的な手法にはどのようなものがあるのでしょうか?

WARM の論文では、より広範に一般化できるいくつかの賢いアイデアを検討しています。

シャッフルの順序

些細だが影響力のあるアプローチは、トレーニング中に各モデルで表示されるデータポイントの順序を入れ替えることです。この単純なステップでも重みの相関が解除され、パターンの冗長な記憶が減ります。

ハイパーパラメータのバリエーション

実行ごとに学習率やドロップアウト確率などのハイパーパラメータを調整すると、有用な多様性が導入されます。モデルは異なる方法で収束し、データセットの個別のプロパティをキャプチャします。

チェックポイントの平均化 – バクラヴァ

Baklava メソッドは、同じ事前トレーニング軌道に沿って異なるスナップショットからマージするためにモデルを初期化します。これにより、共有開始点を義務付けるモデルスープと比較して制約が緩和されます。モデルのレタトゥイユと比較して、バクラヴァは追加のタスクを避けます。全体として、精度と多様性の効果的なバランスが取れています。

このプロセスは、事前トレーニングされた大規模言語モデル (LLM) 𝜃_𝑝𝑡から始まります。このモデルから、教師あり微調整 (SFT) の実行中にさまざまなチェックポイント {𝜃_𝑠 𝑓 𝑡_𝑖} が導出され、それぞれが異なる SFT トレーニングステップで収集されます。これらのチェックポイントは、嗜好データセット上の複数の報酬モデル (RM) {𝜙𝑖} を微調整するための初期化として使用されます。この微調整の目的は、モデルを人間の好みに合わせて調整することです。微調整後、これらの RM は重み平均のプロセスを通じて結合され、最終モデル 𝜙_WARM が得られます。

分析の結果、移動平均によって古いチェックポイントを追加すると、個人のパフォーマンスが損なわれ、多様性のメリットが損なわれることが確認されました。各実行の最終表現のみを平均化すると、パフォーマンスが向上します。一般に、多様性の目標と精度の維持のバランスをとることは、未解決の研究課題のままです。

全体として、モデルのマージは、既存のリソースを効果的にリサイクルして信頼性、効率、汎用性を高めるという現場の一般的な考え方とよく一致しています。重み平均の単純さにより、容易に入手可能な構成要素から堅牢なモデルを組み立てる有力な候補としての地位が確固たるものとなります。

予測を平均する従来のアンサンブル手法とは異なり、WARM は単一の重みセットのみを維持することで計算オーバーヘッドを最小限に抑えます。テキスト要約タスクの実験では、WARM の有効性が実証されています。

Best-of-N サンプリングの場合、WARM は人間の好みのラベルに従ってランダムな選択に対して 92.5% の勝率を達成します。
RLHF では、WARM ポリシーは、同じステップ数の後、単一の RM でトレーニングされたポリシーに対して 79.4% の勝率に達します。
人間のラベルの 4 分の 1 が破損した場合でも、WARM は良好なパフォーマンスを維持します。

これらの結果は、確実に動作する現実世界の AI アシスタントを開発するための実用的な手法としての WARM の可能性を示しています。人間のフィードバックの不一致を平滑化することで、WARM ポリシーは、新しい経験から学び続けながらも、人間の価値観としっかりと一致した状態を保つことができます。

大きな画像

WARM は、AI アラインメント研究における 2 つの主要なトレンドの交差点に位置します。 1 つ目は、トレーニング分布とは異なる新しいデータに対するモデルのパフォーマンスを向上させることを目的とした分布外 (OOD) 一般化の研究です。 2 つ目は、小さな入力変動やノイズにもかかわらず信頼性に焦点を当てた、アルゴリズムの堅牢性に関する研究です。

WARM は、学習された不変性の概念に基づいてこれらのフィールド間の接続を描画することにより、値の調整のためのより厳密に根拠のある手法に私たちを導きます。 WARM からの洞察は、RLHF を超えて一般化され、オープンワールドと対話するより広範な機械学習システムに教訓を提供する可能性があります。

もちろん、報酬モデリングは調整パズルの 1 ピースにすぎません。報酬の仕様、拡張性のある監視、安全な探査など、他の課題についても進展が必要です。 WARM を補完的な技術と組み合わせることで、人類の繁栄を持続的に促進する AI の開発を加速できる可能性があります。研究者たちは、堅牢な調整の基礎となる原則を共同で解明することで、有益で倫理的な AI への道筋を描いています。

関連トピック：報酬モデル RLHF RM WARM

次に

スケーラブルなベクトル検索のための量子化技術の比較

お見逃しなく

OpenVoice: 多用途なインスタント音声クローン作成

アーユシュ・ミタル

私は過去 50 年間、機械学習と深層学習の魅力的な世界に没頭してきました。私の情熱と専門知識により、特に AI/ML に重点を置いた XNUMX を超える多様なソフトウェアエンジニアリングプロジェクトに貢献してきました。私の継続的な好奇心は、私がさらに探求したいと思っている分野である自然言語処理にも引き寄せられました。

Unite.AI