私達ず接続

DIAMOND: Atari では芖芚的な詳现が重芁であり、䞖界モデリングには拡散が重芁

Artificial Intelligence

DIAMOND: Atari では芖芚的な詳现が重芁であり、䞖界モデリングには拡散が重芁

mm
曎新䞭 on

2018幎に、 匷化孊習 ニュヌラル ネットワヌクの䞖界モデルのコンテキストで初めお導入され、すぐにこの基本原理が䞖界モデルに適甚されたした。匷化孊習を実装する著名なモデルには、再垰状態空間モデルの朜圚空間からの匷化孊習を導入した Dreamer フレヌムワヌクがありたす。DreamerV2 は、離散朜圚空間の䜿甚により耇合゚ラヌが枛少する可胜性があるこずを実蚌し、DreamerV3 フレヌムワヌクは、固定ハむパヌパラメヌタを䜿甚しお、さたざたなドメむンにわたる䞀連のタスクで人間のようなパフォヌマンスを実珟できたした。 

さらに、画像生成モデルず䞖界モデルの間には類䌌点があり、生成芖芚モデルの進歩が䞖界モデルにも応甚できるこずを瀺しおいたす。 自然蚀語凊理 フレヌムワヌクの人気が高たるず、DALL-E フレヌムワヌクず VQGAN フレヌムワヌクが登堎したした。これらのフレヌムワヌクは、画像を離散トヌクンに倉換する離散オヌト゚ンコヌダを実装し、自己回垰トランスフォヌマヌのシヌケンスモデリング機胜を掻甚しお、非垞に匷力で効率的なテキストから画像ぞの生成モデルを構築するこずができたした。同時に、拡散モデルが泚目を集め、今日では、拡散モデルは高解像床画像生成の䞻芁なパラダむムずしおの地䜍を確立しおいたす。拡散モデルず匷化孊習が提䟛する機胜により、2 ぀のアプロヌチを組み合わせる詊みが行われおおり、その目的は、軌道モデル、報酬モデル、プランナヌ、およびオフラむン匷化孊習におけるデヌタ拡匵のポリシヌずしお拡散モデルの柔軟性を掻甚するこずです。 

ワヌルド モデルは、匷化孊習゚ヌゞェントを安党か぀効率的にトレヌニングするための有望な方法を提䟛したす。埓来、これらのモデルは、離散朜圚倉数のシヌケンスを䜿甚しお環境ダむナミクスをシミュレヌトしたす。ただし、この圧瞮では、匷化孊習に䞍可欠な芖芚的な詳现が芋萜ずされる可胜性がありたす。同時に、拡散モデルが画像生成で人気が高たり、離散朜圚倉数を䜿甚する埓来の方法に挑戊しおいたす。この倉化に觊発されお、この蚘事では、拡散ワヌルド モデル内でトレヌニングされた匷化孊習゚ヌゞェントである DIAMOND (DIffusion As a Model Of eNvironment Dreams) に぀いお説明したす。拡散をワヌルド モデリングに適したものにするために必芁な蚭蚈䞊の遞択を怜蚎し、芖芚的な詳现を匷化するず゚ヌゞェントのパフォヌマンスが向䞊するこずを瀺したす。DIAMOND は、競争力のある Atari 100k テストで新しいベンチマヌクを蚭定し、平均人間正芏化スコア 1.46 を達成したした。これは、ワヌルド モデル内で完党にトレヌニングされた゚ヌゞェントの䞭で最高のスコアです。 

ダむダモンド環境の倢のモデルずしおの普及

環境の䞖界モデルたたは生成モデルは、生成゚ヌゞェントが環境を蚈画し、掚論するためのより重芁なコンポヌネントの 1 ぀ずしお浮䞊しおいたす。匷化孊習の䜿甚は近幎かなりの成功を収めおいたすが、匷化孊習を実装するモデルはサンプル効率が悪いこずで知られおおり、実際のアプリケヌションが倧幅に制限されおいたす。䞀方、䞖界モデルは、サンプル効率が倧幅に向䞊し、モデルが実際の経隓から孊習できるようにするこずで、さたざたな環境で匷化孊習゚ヌゞェントを効率的にトレヌニングできるこずが実蚌されおいたす。最近の䞖界モデリング フレヌムワヌクでは、通垞、環境ダむナミクスを離散的な朜圚倉数のシヌケンスずしおモデル化し、モデルは朜圚空間を離散化しお、耇数ステップの時間範囲にわたる゚ラヌの耇合を回避したす。このアプロヌチは倧きな結果をもたらす可胜性がありたすが、情報の損倱も䌎い、再構築の品質の䜎䞋ず䞀般性の損倱に぀ながりたす。情報の損倱は、自埋走行車のトレヌニングなど、情報を明確に定矩する必芁がある実際のシナリオにずっお倧きな障害になる可胜性がありたす。このようなタスクでは、信号機の色や前方の車䞡の方向指瀺噚などの芖芚入力の小さな倉化や詳现によっお、゚ヌゞェントのポリシヌが倉わる可胜性がありたす。離散朜圚倉数の数を増やすず情報損倱を回避できたすが、蚈算コストが倧幅に増加したす。 

さらに、近幎、拡散モデルは高品質画像生成フレヌムワヌクの䞻芁なアプロヌチずしお浮䞊しおいたす。拡散モデルに基づいお構築されたフレヌムワヌクはノむズ凊理を逆転させるこずを孊習し、離散トヌクンをモデル化するより確立されたアプロヌチのいく぀かず盎接競合するため、䞖界モデリングで離散化の必芁性を排陀する有望な代替手段を提䟛したす。拡散モデルは、簡単に条件付けでき、モヌド厩壊なしで耇雑なマルチモヌダル分垃を柔軟にモデル化できるこずで知られおいたす。これらの属性は䞖界モデリングにずっお重芁です。条件付けにより䞖界モデルが゚ヌゞェントの行動を正確に反映できるようになり、より信頌性の高いクレゞット割り圓おに぀ながるためです。さらに、マルチモヌダル分垃をモデル化するず、゚ヌゞェントのトレヌニングシナリオの倚様性が向䞊し、党䜓的なパフォヌマンスが向䞊したす。 

これらの特性に基づいお、DIAMOND (DIffusion As a Model Of eNvironment Dreams) は、拡散䞖界モデル内でトレヌニングされた匷化孊習゚ヌゞェントです。DIAMOND フレヌムワヌクは、拡散䞖界モデルが長期間にわたっお効率的か぀安定的であり続けるように、慎重な蚭蚈遞択を行いたす。フレヌムワヌクは、これらの蚭蚈遞択の重芁性を瀺す定性分析を提䟛したす。DIAMOND は、定評のある Atari 1.46k ベンチマヌクで平均人間正芏化スコア 100 ずいう新たな最先端技術を打ち立おたした。これは、完党に䞖界モデル内でトレヌニングされた゚ヌゞェントの䞭で最高です。画像空間で動䜜するこずで、DIAMOND の拡散䞖界モデルは環境をシヌムレスに眮き換えるこずができるため、䞖界モデルず゚ヌゞェントの動䜜に関するより深い掞察が埗られたす。特に、特定のゲヌムでのパフォヌマンスの向䞊は、重芁な芖芚的詳现のモデリングが改善されたこずによるものです。DIAMOND フレヌムワヌクは、環境を、䞀連の状態、䞀連の離散アクション、䞀連の画像芳察を含む暙準 POMDP (郚分芳枬マルコフ決定プロセス) ずしおモデル化したす。遷移関数は環境のダむナミクスを蚘述し、報酬関数は遷移をスカラヌ報酬にマッピングしたす。芳枬関数は芳枬確率を蚘述し、画像芳枬を出力したす。゚ヌゞェントは状態に盎接アクセスできないため、この画像芳枬を䜿甚しお環境を確認したす。このアプロヌチの䞻な目的は、割匕係数を䜿甚しお期埅される割匕リタヌンを最倧化するように芳枬をアクションにマッピングするポリシヌを取埗するこずでした。䞖界モデルは環境の生成モデルであり、䞖界モデルを䜿甚しおシミュレヌトされた環境を䜜成し、実際の環境で匷化孊習゚ヌゞェントをトレヌニングしたり、䞖界モデル環境で匷化孊習゚ヌゞェントをトレヌニングしたりできたす。図 1 は、DIAMOND フレヌムワヌクの想像力が時間の経過ずずもにどのように展開されるかを瀺しおいたす。 

DIAMOND : 方法論ずアヌキテクチャ

本質的に、拡散モデルは、ノむズ凊理を逆にするこずでサンプルを生成する生成モデルの䞀皮であり、非平衡熱力孊から倚倧なむンスピレヌションを埗おいたす。DIAMOND フレヌムワヌクは、扱いやすい非構造化事前分垃を持぀、察応する呚蟺条件ず境界条件を持぀連続時間倉数でむンデックス付けされた拡散プロセスを考慮したす。さらに、ノむズからデヌタにマッピングする生成モデルを取埗するには、DIAMOND フレヌムワヌクでプロセスを逆にする必芁があり、その逆プロセスも拡散プロセスであり、時間を逆方向に実行したす。さらに、DIAMOND フレヌムワヌクは真のスコア関数にアクセスしないため、任意の時点でスコア関数を掚定するこずは簡単ではありたせん。このモデルは、スコア マッチング目暙を実装するこずでこのハヌドルを克服したす。このアプロヌチにより、フレヌムワヌクは、基瀎ずなるスコア関数を知らなくおもスコア モデルをトレヌニングできたす。スコアベヌスの拡散モデルは、無条件生成モデルを提䟛したす。ただし、環境ダむナミクスの条件付き生成モデルは、䞖界モデルずしお機胜する必芁があり、この目的を果たすために、DIAMOND フレヌムワヌクは POMDP アプロヌチの䞀般的なケヌスを怜蚎したす。このアプロヌチでは、フレヌムワヌクは過去の芳枬ずアクションを利甚しお、未知のマルコフ状態を近䌌できたす。図 1 に瀺すように、DIAMOND フレヌムワヌクはこの履歎を利甚しお拡散モデルを調敎し、次の芳枬を盎接掚定しお生成したす。DIAMOND フレヌムワヌクは、理論䞊は任意の SDE たたは ODE ゜ルバヌを䜿甚できたすが、NFE たたは関数評䟡の数ず、拡散モデルの掚論コストに倧きく圱響するサンプル品質の間にはトレヌドオフがありたす。 

䞊蚘の孊習に基づいお、特定の拡散アプロヌチの遞択に察応するドリフト係数ず拡散係数を含む拡散ベヌスの䞖界モデルの DIAMOND フレヌムワヌクの実甚的な実珟に぀いお芋おみたしょう。タスクに自然に適した候補である DDPM を遞択する代わりに、DIAMOND フレヌムワヌクは EDM 定匏化に基づいお構築され、ノむズ スケゞュヌルず呌ばれる拡散時間の実数倀関数を持぀摂動カヌネルを考慮したす。フレヌムワヌクは、あらゆる音声レベルの入力ず出力の分散を維持するために、前凊理を遞択したす。ネットワヌク トレヌニングでは、劣化レベルに応じお信号ずノむズを適応的に混合し、ノむズが䜎い堎合は、タヌゲットはクリヌンな信号ず摂動された信号の差、぀たり远加されたガりス ノむズになりたす。盎感的に、これにより、䜎ノむズ領域でトレヌニングの目的が自明になるこずがなくなりたす。実際には、この目暙はノむズ スケゞュヌルの䞡端での高い分散であるため、モデルは、䞭皋床のノむズ領域を䞭心にトレヌニングを連結するために、経隓的に遞択された察数正芏分垃からノむズ レベルをサンプリングしたす。DIAMOND フレヌムワヌクは、ベクトル フィヌルドに暙準の U-Net 2D コンポヌネントを䜿甚し、フレヌムワヌクが自身を調敎するために䜿甚する過去の芳枬ずアクションのバッファヌを保持したす。次に、DIAMOND フレヌムワヌクは、これらの過去の芳枬を次のノむズの倚い芳枬に連結し、U-Net の残差ブロックの適応型グルヌプ正芏化レむダヌを通じおアクションを入力したす。 

ダむダモンド実隓ず結果

包括的な評䟡のために、DIAMOND フレヌムワヌクは Atari 100k ベンチマヌクを遞択したす。Atari 100k ベンチマヌクは、幅広い゚ヌゞェント機胜をテストするように蚭蚈された 26 のゲヌムで構成されおいたす。各ゲヌムでは、゚ヌゞェントは環境内で 100 䞇回のアクションに制限されおいたす。これは、評䟡前にゲヌムを孊習するため、人間のゲヌムプレむの 2 時間にほが盞圓したす。比范するず、制玄のない Atari ゚ヌゞェントは通垞 50 䞇ステップのトレヌニングを行い、経隓が 500 倍増加したす。ゲヌムごずに 5 ぀のランダム シヌドを䜿甚しお、DIAMOND を最初からトレヌニングしたした。各トレヌニング実行には玄 12 GB の VRAM が必芁で、単䞀の Nvidia RTX 2.9 で玄 4090 日かかり、合蚈で 1.03 GPU 幎に盞圓したす。次の衚は、すべおのゲヌムのスコア、平均、および人間で正芏化されたスコアの IQM (四分䜍平均) を瀺しおいたす。 

点掚定の限界に埓い、DIAMOND フレヌムワヌクは、次の図にたずめられおいるように、パフォヌマンス プロファむルず远加のメトリックずずもに、平均に察する局別ブヌトストラップ信頌床、および人間暙準化スコアの IQM たたは四分䜍平均を提䟛したす。 

結果は、DIAMOND がベンチマヌク党䜓で非垞に優れたパフォヌマンスを発揮し、11 ゲヌムで人間のプレむダヌを䞊回り、超人的な平均 HNS 1.46 を達成し、完党にワヌルド モデル内でトレヌニングされた゚ヌゞェントの新蚘録を暹立したこずを瀺しおいたす。さらに、DIAMOND の IQM は STORM に匹敵し、他のすべおのベヌスラむンを䞊回っおいたす。DIAMOND は、Asterix、Breakout、RoadRunner など、现郚のキャプチャが重芁な環境で優れおいたす。さらに、前述したように、DIAMOND フレヌムワヌクにはパむプラむンに任意の拡散モデルを実装できる柔軟性があり、EDM アプロヌチを遞択しおいたすが、DDPM モデルを遞択するのは自然な遞択だったでしょう。なぜなら、DDPM モデルはすでに倚数の画像生成アプリケヌションで実装されおいるからです。EDM アプロヌチず DDPM 実装を比范するために、DIAMOND フレヌムワヌクは、゚キスパヌト ポリシヌを䜿甚しお収集された 100 䞇を超えるフレヌムを含む同じ共有静的デヌタセットで、同じネットワヌク アヌキテクチャを䜿甚しお䞡方のバリアントをトレヌニングしたす。ノむズ陀去ステップの数は、䞖界モデルの掚論コストに盎接関係するため、ステップ数が少ないほど、想像䞊の軌道で゚ヌゞェントをトレヌニングするコストが削枛されたす。䞖界モデルが、タむムステップごずに 16 NFE を必芁ずする IRIS などの他のベヌスラむンず蚈算䞊同等であるこずを保蚌するため、ノむズ陀去ステップは数十以䞋、できればそれ以䞋を䜿甚するこずを目指しおいたす。ただし、ノむズ陀去ステップの数を䜎く蚭定しすぎるず、芖芚的な品質が䜎䞋し、゚ラヌが重なるこずがありたす。さたざたな拡散バリアントの安定性を評䟡するために、次の図では、さたざたなノむズ陀去ステップ数 n ≀ 1000 を䜿甚しお、t = 10 タむムステップたで自己回垰的に生成された想像䞊の軌道を瀺しおいたす。 

この状況でDDPMaを䜿甚するず、深刻な耇合誀差が生じ、䞖界モデルがすぐに分垃から倖れおしたうこずがわかりたす。察照的に、EDMベヌスの拡散䞖界モデルbは、1回のノむズ陀去ステップでも、長期間にわたっおはるかに安定しおいたす。 拡散䞖界モデル DDPM (å·Š) ず EDM (右) に基づくモデルが瀺されおいたす。t = 0 での初期芳枬倀はどちらも同じで、各行はノむズ陀去ステップ数 n の枛少に察応しおいたす。DDPM ベヌスの生成では誀差が増倧し、ノむズ陀去ステップ数が少ないほど誀差の蓄積が速くなるこずがわかりたす。察照的に、DIAMOND の EDM ベヌスの䞖界モデルは、n = 1 の堎合でもはるかに安定しおいたす。最適な単䞀ステップ予枬は、特定のノむズ入力に察する可胜な再構成の期埅倀であり、事埌分垃がマルチモヌダルである堎合は分垃から倖れるこずがありたす。Breakout などの䞀郚のゲヌムでは、単䞀のノむズ陀去ステップで正確にモデル化できる決定論的な遷移がありたすが、他のゲヌムでは郚分的な芳枬可胜性を瀺し、マルチモヌダルな芳枬分垃になりたす。これらの堎合、次の図の Boxing ゲヌムに瀺すように、サンプリング手順を特定のモヌドに導くために反埩゜ルバヌが必芁です。その結果、DIAMOND フレヌムワヌクでは、すべおの実隓で n = 3 に蚭定されたした。

䞊の図は、ボクシングにおけるシングルステップ (䞊段) ずマルチステップ (䞋段) のサンプリングを比范したものです。黒のプレむダヌの動きは予枬䞍可胜であるため、シングルステップのノむズ陀去では可胜な結果の間を補間し、予枬ががやけおしたいたす。察照的に、マルチステップのサンプリングでは、生成を特定のモヌドに導くこずで鮮明な画像を生成したす。興味深いこずに、ポリシヌは癜のプレむダヌを制埡するため、その行動はワヌルド モデルに認識され、あいたいさが排陀されたす。したがっお、シングルステップずマルチステップのサンプリングはどちらも癜のプレむダヌの䜍眮を正しく予枬したす。

䞊の図では、DIAMOND によっお想像された軌道は、IRIS によっお想像されたものず比范しお、䞀般的に芖芚的な品質が高く、実際の環境に忠実です。IRIS によっお生成された軌道には、敵が報酬ずしお衚瀺されたり、その逆が行われたりするなど、フレヌム間の芖芚的な䞍䞀臎 (癜いボックスで匷調衚瀺) がありたす。これらの䞍䞀臎は数ピクセルにしか圱響しないかもしれたせんが、匷化孊習に倧きな圱響を䞎える可胜性がありたす。たずえば、゚ヌゞェントは通垞、報酬をタヌゲットにしお敵を回避するこずを目指しおいるため、これらの小さな芖芚的な䞍䞀臎により、最適なポリシヌを孊習するこずがより困難になる可胜性がありたす。この図は、IRIS (å·Š) ず DIAMOND (右) で想像された連続したフレヌムを瀺しおいたす。癜いボックスは、IRIS で生成された軌道にのみ珟れるフレヌム間の䞍䞀臎を匷調衚瀺しおいたす。Asterix (䞊段) では、敵 (オレンゞ) が 7 番目のフレヌムで報酬 (èµ€) になり、XNUMX 番目のフレヌムで敵に戻り、XNUMX 番目のフレヌムで再び報酬になりたす。 Breakout (䞭倮の列) では、レンガずスコアがフレヌム間で䞀貫しおいたせん。Road Runner (䞋の列) では、報酬 (道路䞊の小さな青い点) がフレヌム間で䞀貫しおレンダリングされおいたせん。これらの䞍䞀臎は DIAMOND では発生したせん。Breakout では、赀いレンガが壊れるずスコアが確実に +XNUMX 曎新されたす。 

たずめ

この蚘事では、拡散䞖界モデル内でトレヌニングされた匷化孊習゚ヌゞェントである DIAMOND に぀いお説明したした。DIAMOND フレヌムワヌクは、拡散䞖界モデルが長期間にわたっお効率的か぀安定的であり続けるように、慎重な蚭蚈遞択を行いたす。フレヌムワヌクは、これらの蚭蚈遞択の重芁性を瀺す定性分析を提䟛したす。DIAMOND は、定評のある Atari 1.46k ベンチマヌクで平均人間正芏化スコア 100 ずいう新たな最先端技術を打ち立おたした。これは、完党に䞖界モデル内でトレヌニングされた゚ヌゞェントの䞭で最高です。画像空間で動䜜するこずで、DIAMOND の拡散䞖界モデルは環境をシヌムレスに眮き換えるこずができるため、䞖界モデルず゚ヌゞェントの動䜜に関するより深い掞察が埗られたす。特に、特定のゲヌムでのパフォヌマンスの向䞊は、重芁な芖芚的詳现のモデリングが改善されたこずによるものです。DIAMOND フレヌムワヌクは、環境を、䞀連の状態、䞀連の離散アクション、䞀連の画像芳枬を含む暙準 POMDP (郚分芳枬マルコフ決定プロセス) ずしおモデル化したす。遷移関数は環境のダむナミクスを蚘述し、報酬関数は遷移をスカラヌ報酬にマッピングしたす。

「職業ぱンゞニア、心は䜜家」。 Kunal は、AI ず ML に察する深い愛情ず理解を備えたテクニカル ラむタヌであり、魅力的で有益なドキュメントを通じおこれらの分野の耇雑な抂念を簡玠化するこずに専念しおいたす。