Connect with us

Unite.AI

Kunal Kejriwal Kunal Kejriwal

職業はエンジニア、心は作家。クナルは、AIとMLを深く愛し理解しているテクニカルライターで、これらの分野の複雑な概念を魅力的で情報の多いドキュメンテーションを通じて簡素化することに尽力しています。

人工知能 January 19, 2026

Vertex AIの紹介

人工知能の急速に進化する環境において、テクノロジー企業が直面する最大の課題の1つは、実験的なものから企業向けのものへの移行です。消費者向けのチャットボットやインタラクティブなプラットフォームは、公共のイメージに役立ちますが、企業はチャットインターフェイスだけでは成功できないため、競争が以前より激化している時代に、企業は堅牢でスケーラブルでセキュアなエコシステムが必要です。これは、GoogleがVertex AI、Google Cloudの統一された人工知能および機械学習プラットフォームで提供しようとしているものです。Vertex AIは、モダンなクラウドインフラストラクチャとのジェネレーティブAI統合のためのバックボーンとしての地位を固めようとしています。生の基礎モデルとプロダクショングレードアプリケーションの間のギャップを埋めるための包括的な機能セットを提供しています。Vertex AIは、大規模な言語モデル（LLM）をラップするものではなく、ジェネレーティブAIをモダンなクラウドインフラストラクチャの第一級市民として扱う統一された機械学習および人工知能（ML/AI）エコシステムです。Vertex AIの中心には、モデルガーデンがあります。これは、200以上のカーソルされた基礎モデルへのアクセスを提供する中央マーケットプレイスです。Gemini 2.5 Proを含み、2百万トークンのコンテキストウィンドウを特徴としています。この記事では、Vertex AIのアーキテクチャを分析し、モデルガーデンがインテリジェンスの「App Store」としてどのように機能するかを見て、次の世代のエンタープライズソフトウェアのバックボーンとなるこのプラットフォームの技術的柱を調べます。コアアーキテクチャ：統一されたプラットフォームVertex AIは、ツールの緩い結合ではなく、データとAIの統一されたエコシステムであり、機械学習が今までに抱えていたデータ、ツール、チームの断片化を橋渡しするように設計されています。従来、AIの開発は分離された環境で行われ、時にはデータが複数のリポジトリに分散され、トラップされます。たとえば、組織は顧客データをSQLウェアハウスに保存し、構造化されていないドキュメントをデータレイクにダンプする場合があります。データがシロ化されると、AIは「部分的な真実」しか見えず、エンタープライズの完全なコンテキストが欠如しているため、偏った結果や高いホールユーション率につながる可能性があります。Vertex AIは、生データの取り込みからBigQueryとCloud Storageへのプロダクション監視まで、ライフサイクル全体を統合しようとしています。つまり、シロ間の「つなぎ目の組織」として機能します。Vertex AIは、Cloud StorageとBigQueryとネイティブに統合されており、AIモデルがExtraction、Transformation、Loadパイプラインを使用せずにデータを取得できるようにします。基盤：GoogleのAIハイパーコンピューターVertex AIのGenAIレイヤーは、GoogleのAIハイパーコンピューター・アーキテクチャの上に構築されています。これは、TPU v5p & v5e (Tensor Processing Units)GoogleのTensor Processing Unitsは、ディープラーニングを定義する行列乗算用に特別に設計されたASIC（Application-Specific Integrated Circuit）です。...
人工知能 October 11, 2024

SHOW-O: 単一のトランスフォーマーによるマルチモーダル理解と生成の統合

大規模言語モデル（LLM）の著しい進歩は、マルチモーダル大規模言語モデル（MLLM）の開発を刺激しました。LLaVA、MiniGPT-4、InstructBLIPなどの初期のMLLMの努力は、視覚質問回答（VQA）などの視覚言語タスクで著しいマルチモーダル理解能力を示しています。LLMをマルチモーダルドメインに統合するために、これらの研究は、事前トレーニングされたモダリティ固有のエンコーダー（CLIPなど）から特徴をLLMの入力空間へ投影し、トランスフォーマーのバックボーン内でマルチモーダル理解と推論を可能にしました。MLLMには、ビジョンエンコーダー、特徴整列アダプター、データセットなどのさまざまな設計選択肢がありますが、ほとんどのモデルのトレーニングは、LLMでテキスト生成に効果的であることが証明された自己回帰生成パラダイムに従います。強力なマルチモーダル理解能力を持っているにもかかわらず、これらのモデルは主に視覚認識に焦点を当てており、テキスト以外のマルチモーダル出力を生成する能力がありません。トランスフォーマーモデルは、自然言語処理における自己回帰モデリングで大きな成功を収めてきました。そうした進歩に触発された以前の研究は、画像とビデオ生成のために、画像ピクセルの依存性を学習するために、同じ自己回帰モデリングを直接適用しました。たとえば、VideoPoetは、デコーダー専用のトランスフォーマーアーキテクチャを使用して、マルチモーダル入力から高品質のビデオを合成します。最近では、LlamaGenは、大規模言語モデルアーキテクチャであるLlamaが自己回帰的に画像トークンをモデル化し、クラス条件付き画像生成で妥当な性能を達成できることを示しています。この記事では、Show-Oについて議論します。Show-Oは、マルチモーダル理解と生成を統合する統一トランスフォーマーです。完全に自己回帰モデルのように、Show-Oは自己回帰と離散拡散モデリングを統合して、さまざまなモダリティの入力と出力を適応的に処理します。統一モデルの柔軟性により、視覚質問回答、テキストから画像生成、テキストガイドの塗りつぶし/外挿、混合モダリティ生成などの幅広い視覚言語タスクをサポートします。さまざまなベンチマークで、Show-Oは、同等またはより大きな数のパラメータを持つ既存の個別モデルと比較して、同等または優れた性能を示しています。これは、Show-Oが次世代の基礎モデルとしての潜在性を強調しています。このフレームワークでは、モデルは連続ラテント表現に追加されたガウシアンノイズを予測するように設計されています。他のモデル（D3PM、Mask-predict、ARDM、MaskGITなど）とは異なり、ガウシアンノイズではなく離散ノイズを使用します。具体的には、画像は画像トークナイザーを使用して離散トークンのシーケンスとして表現され、各トークンはカテゴリラベルに関連付けられます。トークンごとの分布は、確率サンプリングプロセスを介して一様分布に変換されます。トレーニング中、トークンの一部はランダムにマスクされ、モデルはマスクされたトークンの元の値を予測するようにトレーニングされます。この作業では、Show-Oは視覚生成のために離散拡散モデリングを採用しています。… (以下、同じ構造とルールに従って翻訳を続ける)
人工知能 September 10, 2024

イーグル：エンコーダーの混合を使用したマルチモーダル大規模言語モデル設計空間の探索

マルチモーダル大規模言語モデル（MLLMs）では、複雑な視覚情報を正確に解釈する能力が重要な焦点となっています。最近の研究では、視覚的認識の強化がホールユーションを大幅に減らし、光学文字認識や文書分析などの解像度感受性タスクのパフォーマンスを向上させることが示されています。いくつかの最近のMLLMsは、ビジョンエンコーダーの混合を使用してこれを実現しています。にもかかわらず、専門家の選択や複数のビジョンエクスパートの統合などの重要な側面に関する体系的な比較や詳細な削減研究が不足しています。この記事では、ビジョンエンコーダーの混合と解像度を使用したMLLMsの設計空間の包括的な探索、イーグルフレームワークについて説明します。イーグルは、ビジョンエンコーダーの簡単な連結が、より複雑な混合アーキテクチャーや戦略と同等の有効性があることを発見しました。さらに、イーグルは、ビジョンエンコーダーと言語トークン之间のギャップを埋めるために、事前同期を導入しました。イーグルの研究は、MLLMsの一般的なアーキテクチャ設計に関連しています。以前の代表的なオープンソース研究に加えて、他の著名なMLLMsファミリーには、MiniGPT-4、Lynx、Otter、QwenVL、CogVLM、VILA、GPT-4V、Gemini、Llama 3.1などがあります。視覚シグナルが言語モデルに統合される方法に応じて、MLLMsは「クロスモーダル注意」モデルと「プレフィックスチューニング」モデルに大別できます。前者は、クロスモーダル注意を使用して視覚情報をLLMsのさまざまなレイヤーに注入します。後者は、視覚トークンを言語トークンシーケンスの一部として扱い、テキスト埋め込みと直接結合します。イーグルのモデルは、LLaVAスタイルのマルチモーダルアーキテクチャーに従って、プレフィックスチューニングファミリーに属します。イーグルの研究は、MLLMsのためのビジョンエンコーダー設計の改善に焦点を当てた研究に密接に関連しています。初期の研究では、CLIPやEVA-CLIPなどの視覚言語同期タスクで事前トレーニングされたビジョンエンコーダーを採用していました。より強力なビジョンエンコーダー、たとえばSigLIPやInternVLは、より優れた設計、より大きなモデルサイズ、より効果的なトレーニングレシピを使用して視覚言語タスクを強化するために提案されています。モデルは低解像度の画像で事前トレーニングされることが多く、細かい詳細をエンコードする能力が不足している可能性があるため、高解像度への適応が頻繁に実行され、MLLMの入力解像度が増加します。高解像度への適応に加えて、LLaVA-NeXT、LLaVA-UHD、Monkey、InternLM-XComposer、InternVLなどのモデルは、画像を低解像度のパッチに分割して個別に処理するタイル化または適応タイル化を使用して、高解像度の入力を処理します。ビジョンエンコーダーを追加することで高解像度の処理が可能になるというアプローチは、タイル化技術とは少し異なりますが、両者は互換性があり、組み合わせることができます。イーグル：エンコーダーの混合を使用したマルチモーダルLLMsの設計空間大規模言語モデル（LLMs）の成功は、視覚的認識能力を有することを可能にすることへの大きな関心を引き起こしています。マルチモーダル大規模言語モデル（MLLMs）の核心には、画像を視覚トークンに変換し、テキスト埋め込みと結合するという典型的な設計があります。CLIPは、視覚的表現がテキスト空間と同期するため、ビジョンエンコーダーとしてよく選択されます。アーキテクチャー、トレーニングレシピ、ビジョントークンが言語モデルに注入される方法に応じて、MLLMsの著名なファミリーには、Flamingo、BLIP、PaLI、PaLM-E、LLaVAなどがあります。イーグルの研究は、高解像度の視覚特徴を低解像度の視覚トークンに統合することを提案するMini-GeminiやLLaVA-HRなどのモデルと密接に関連しています。解像度の問題を超えて、これらの事前トレーニングされたビジョンエンコーダーは、テキストの読み取りやオブジェクトのローカライズなどの特定の機能が不足している可能性があります。これに対処するために、さまざまなモデルは、ビジョンエンコーダーを統合します。ビジョンエンコーダーは、さまざまなビジョンタスクで事前トレーニングされており、ビジョンエンコーダーの機能を強化するために使用されます。たとえば、MousiやBraveなどのモデルは、チャネルまたはトークン方向に沿って視覚トークンを結合して、さまざまなビジョンエンコーダーからの視覚トークンを結合します。RADIOは、さまざまなビジョンエンコーダーの能力を単一のモデルに統一するために、マルチティーチャー蒸留方法を導入します。MoAI、IVE、Prismerは、ビジョンエクスパートの出力、たとえばOCR、検出、または深度推定を使用して、MLLMsが回答を生成するための追加情報を提供します。MoVAは、画像と指示に基づいて最適なビジョンモデルを割り当てるために、ルーティングネットワークを設計します。最近の研究では、強力なビジョンエンコーダー設計が、MLLMのホールユーションを減らし、光学文字認識などの解像度感受性タスクのパフォーマンスを向上させるために重要であることを示しています。いくつかの研究では、ビジョンエンコーダーの能力を強化するために、事前トレーニングデータやパラメータをスケールアップしたり、画像を低解像度のパッチに分割したりします。ただし、これらのアプローチは、多大なトレーニングリソースを必要とします。効率的で強力な戦略は、さまざまなタスクや入力解像度で事前トレーニングされたビジョンエンコーダーを混合することです。たとえば、CLIPエンコーダーと高解像度エンコーダーを融合したり、さまざまなエンコーダーからの特徴を順番に追加したりします。この「ビジョンエクスパートの混合」アプローチは、有効であることが証明されていますが、詳細な設計空間の研究と厳格な削減がまだ不足しています。これは、イーグルがこの分野を再検討する動機となります。重要な質問は、どのビジョンエンコーダーの組み合わせを選択するか、どのようにしてさまざまなエクスパートを融合するか、そしてトレーニング戦略をどのように調整するかです。これらの質問に答えるために、イーグルは、ビジョンエンコーダーの混合設計空間を体系的に調査します。設計空間の探索には、次のステップが含まれます。1）さまざまなビジョンエンコーダーをベンチマークし、高解像度への適応を検索すること。2）ビジョンエンコーダーの融合戦略を「リンゴとリンゴ」の比較で行うこと。3）複数のビジョンエンコーダーの最適な組み合わせを逐次的に特定すること。4）ビジョンエクスパートの事前同期とデータの混合を改善すること。探索ステップは、以下の図に示すように、イーグルがビジョンエンコーダーの混合設計空間を探索するための包括的なアプローチを提供します。イーグルの研究では、さまざまなタスクや解像度で事前トレーニングされたビジョンエンコーダーのパフォーマンスを調べます。ラウンドロビンアプローチを使用して、イーグルは基本的なCLIPエンコーダーから始めて、各ラウンドで最も改善をもたらすエクスパートを追加します。イーグルの研究は、MLLMsのホールユーションを減らし、解像度感受性タスクのパフォーマンスを向上させるために、強力なビジョンエンコーダー設計の重要性を強調しています。イーグルは、ビジョンエンコーダーの混合設計空間を体系的に調査し、ビジョンエンコーダーの最適な組み合わせを特定し、ビジョンエクスパートの事前同期とデータの混合を改善することで、MLLMsのパフォーマンスを向上させることができます。イーグル：方法論とアーキテクチャーイーグルの目標は、ビジョンエンコーダーを融合するための最小限の設計を見つけることです。これは、詳細な削減と不要なコンポーネントの削除を伴います。イーグルは、基本的なCLIPエンコーダーを、さまざまなアーキテクチャー、事前トレーニングタスク、解像度を持つビジョンエクスパートのセットに拡張します。イーグルは、さまざまなビジョンエンコーダーの融合アーキテクチャーと方法を比較し、複数のエンコーダーを持つトレーニング戦略を最適化します。イーグルは、LLaVA-1.5と同じ事前トレーニングデータを使用して、ビジョンエンコーダーを融合します。イーグルは、事前トレーニングデータでモデルを事前トレーニングし、次に、LLaVA-1.5、Laion-GPT4V、ShareGPT-4V、DocVQA、synDog-EN、ChartQA、DVQA、AI2Dなどのタスクから収集されたデータでモデルを微調整します。イーグルは、Vicuna-7Bを言語モデルとして使用し、学習率を1e-3と2e-5に設定します。イーグルは、ビジョンエンコーダーを融合するための最適な方法を探索し、ビジョンエンコーダーの混合設計空間を体系的に調査します。強力なCLIPエンコーダーイーグルは、CLIPモデルから探索を開始します。CLIPモデルは、多くのMLLMsの主な選択肢となっています。CLIPモデルは、マルチモーダルタスクを強化することが知られていますが、その限界もよく知られています。たとえば、多くのMLLMsは、CLIPの事前トレーニング解像度（たとえば224 × 224または336 × 336）を入力解像度として使用します。この場合、エンコーダーは、OCRや文書理解などの解像度感受性タスクに重要な細かい詳細を捉えるのに苦労することがあります。イーグルは、ビジョンエンコーダーの混合設計空間を体系的に調査し、ビジョンエンコーダーの最適な組み合わせを特定し、ビジョンエクスパートの事前同期とデータの混合を改善することで、MLLMsのパフォーマンスを向上させることができます。イーグルは、ビジョンエンコーダーの混合設計空間の包括的な探索を提供し、MLLMsのパフォーマンスを向上させるための新しいアプローチを示します。イーグル：実験と結果イーグルは、ビジョンエンコーダーの混合設計空間を体系的に調査し、ビジョンエンコーダーの最適な組み合わせを特定し、ビジョンエクスパートの事前同期とデータの混合を改善することで、MLLMsのパフォーマンスを向上させることができます。イーグルは、Vicuna-v1.5-7B、Llama3-8B、Vicuna-v1.5-13Bを言語モデルとして使用し、CLIP、ConvNeXt、Pix2Struct、EVA-02、SAMなどのビジョンエンコーダーを使用します。視覚質問回答タスクイーグルは、GQA、VQAv2、VizWizなどの視覚質問回答ベンチマークでモデルを比較します。イーグル-X5は、GQAとVQAv2で最先端のパフォーマンスを達成し、追加のビジョンエクスパートを統合することの利点を強調しています。OCRとチャート理解タスクイーグルは、OCRBench、TextVQA、ChartQAなどのベンチマークで、OCR、文書、チャート理解の能力を評価します。イーグルは、TextVQAで競合他社を大幅に上回り、高解像度アーキテクチャーとさまざまなビジョンエンコーダーの統合による利点を示しています。以下の図は、OCRと文書理解の例を示しています。高解像度適応とビジョンエクスパートの統合により、イーグルは画像内の小さなテキストを識別し、ユーザーの指示に基づいて情報を正確に抽出できます。マルチモーダルベンチマーク評価イーグルは、MME、MMBench、SEED、MathVista、MMMU、ScienceQA、POPEなどのベンチマークで評価され、さまざまな視点からMLLMsの能力を示します。イーグルは、パフォーマンススコア、認識スコア、知識スコアなどのさまざまなメトリックを使用して、MLLMsのパフォーマンスを評価します。最終的な考えこの記事では、イーグルについて説明しました。イーグルは、ビジョンエンコーダーの混合を使用したマルチモーダル大規模言語モデルの設計空間の包括的な探索です。イーグルは、ビジョンエンコーダーの最適な組み合わせを特定し、ビジョンエクスパートの事前同期とデータの混合を改善することで、MLLMsのパフォーマンスを向上させることができます。イーグルの結果は、基本的な設計空間の考慮の重要性を強調しています。
人工知能 September 9, 2024

Sapiens: ヒューマンビジョンモデルにおけるブレークスルー

大規模な事前学習とタスク固有のファインチューニングのアプローチは、言語モデリングにおいて標準的な実践として確立されています。同様に、コンピュータビジョンの方法も、事前学習のための大量のデータを使用することを進めています。LAION5B、Instagram-3.5B、JFT-300M、LVD142M、Visual Genome、YFCC100Mなどの大規模なデータセットの出現により、従来のベンチマークの範囲を超えたデータコーパスの探索が可能になりました。この分野における著名な研究には、DINOv2、MAWS、AIMがあります。DINOv2は、LDV-142Mデータセットでコントラストive iBot方法をスケーリングすることで、自己教師あり特徴を生成するための最先端のパフォーマンスを達成しています。MAWSは、100万枚の画像でマスク付きオートエンコーダー（MAE）をスケーリングすることを研究しています。AIMは、BERTと同様の視覚トランスフォーマーの自己教師あり事前学習のスケーラビリティを探究しています。これらの方法とは対照的に、Sapiensは、ヒューマンセントリックなアプローチを採用しています。Sapiensのモデルは、ヒューマン画像の膨大なコレクションを使用して事前学習を行い、後にヒューマン関連タスクのためのファインチューニングを行います。コンピュータビジョンにおける3Dヒューマンディジタイゼーションの大規模な目標は、制御された環境やスタジオ環境においては大きな進歩を遂げてきましたが、未制約環境への拡張は依然として挑戦的な課題です。これらの課題に対処するために、キーポイント推定、ボディパーツセグメンテーション、深度推定、表面法線予測などの基本的なタスクを実行できる多機能モデルを開発することが重要です。Sapiensは、これらのヒューマンビジョンタスクのモデルを開発し、野外環境に一般化できることを目的としています。現在、最大の公開言語モデルには100Bパラメータ以上が含まれていますが、より一般的に使用される言語モデルには約7Bパラメータが含まれています。一方、Vision Transformers（ViT）は、同様のアーキテクチャを共有していますが、同様のスケールまで成功的に拡張されていません。Sapiensは、ヒューマンセントリックなビジョンモデルを開発することを目的としています。これらのモデルは、一般化、広範な適用可能性、ハイフィデリティの3つの基準を満たす必要があります。一般化は、モデルがさまざまな環境で一貫してパフォーマンスを発揮することを保証します。広範な適用可能性は、モデルがさまざまなタスクに最小限の変更で適応できることを示します。ハイフィデリティは、モデルが高精度で高解像度の出力を生成できることを示します。この論文では、これらの属性を備えたモデルの開発について説明します。Sapiensは、大規模なデータセットとスケーラブルなモデルアーキテクチャを利用して、一般化を実現します。より広範な適用可能性を実現するために、Sapiensは事前学習からファインチューニングへのアプローチを採用しています。このアプローチは、事前学習データの分布がダウンストリームタスクに与える影響について重要な質問を提起します。Sapiensは、300万枚のヒューマン画像を特集したHumans-300Mデータセットを収集します。これらのラベル付けされていない画像は、300Mから2Bまでのパラメータ数の範囲で、スクラッチから事前学習するためのビジョントランスフォーマーのファミリーを训練するために使用されます。Sapiensは、自己教師あり事前学習のためのマスク付きオートエンコーダー（MAE）アプローチを採用しています。MAEは、コントラストiveまたはマルチ推論戦略と比較して、シンプルで効率的な事前学習手法です。Sapiensは、事前学習のネイティブ入力解像度を1024ピクセルに増やし、約4倍のFLOPSを実現します。各モデルは、1.2兆トークンで事前学習されます。ヒューマンセントリックタスクのファインチューニングのために、Sapiensは一貫したエンコーダーとデコーダーのアーキテクチャを使用します。Sapiensは、2Dポーズ推定、ボディパーツセグメンテーション、深度推定、表面法線予測などのタスクにファインチューニングされ、評価されます。Sapiensは、既存のベースラインを超えるパフォーマンスを達成し、ヒューマンセントリックなベンチマークで重要な改善を実現します。Sapiens: ヒューマンビジョンモデルにおけるブレークスルー近年、2Dおよび3Dのフォトリアリスティックヒューマンの生成において大きな進歩が見られました。これらの方法の成功は、2Dキーポイント、ボディパーツセグメンテーション、深度、表面法線などのアセットのロバストな推定に大きく帰因しています。しかし、これらのアセットのロバストで正確な推定は、依然として活発な研究分野であり、個々のタスクのパフォーマンスを向上させるために複雑なシステムが必要です。さらに、野外環境での正確なグラウンドトゥルース注釈を取得することは、スケーラビリティの面で非常に難しいとされています。Sapiensの目標は、野外環境でこれらのアセットを推論するための統一されたフレームワークとモデルを提供することです。Sapiensは、ヒューマンセントリックなモデルが3つの基準を満たすべきであると主張しています。一般化、広範な適用可能性、ハイフィデリティです。一般化は、モデルが未知の条件に対してロバストであることを保証します。広範な適用可能性は、モデルが最小限の変更でさまざまなタスクに適応できることを示します。ハイフィデリティは、モデルが高精度で高解像度の出力を生成できることを示します。Sapiensは、大規模なデータセットとスケーラブルなモデルアーキテクチャを利用して、一般化を実現します。より広範な適用可能性を実現するために、Sapiensは事前学習からファインチューニングへのアプローチを採用しています。このアプローチは、事前学習データの分布がダウンストリームタスクに与える影響について重要な質問を提起します。Sapiensは、300万枚のヒューマン画像を特集したHumans-300Mデータセットを収集します。これらのラベル付けされていない画像は、300Mから2Bまでのパラメータ数の範囲で、スクラッチから事前学習するためのビジョントランスフォーマーのファミリーを训練するために使用されます。Sapiens: 方法とアーキテクチャSapiensは、マスク付きオートエンコーダー（MAE）アプローチを採用しています。モデルは、部分的な観察から元のヒューマン画像を再構築するように訓練されます。すべてのオートエンコーダーと同様に、Sapiensのモデルには、可視画像を潜在的な表現にマッピングするエンコーダーと、この潜在的な表現から元の画像を再構築するデコーダーがあります。事前学習データセットには、単一のヒューマン画像と複数のヒューマン画像の両方が含まれています。各画像は、固定サイズで固定のアスペクト比にリサイズされます。ViTと同様に、画像は、固定のパッチサイズを持つ正方形のパッチに分割されます。パッチのサブセットはランダムに選択され、マスクされ、残りは可視化されます。マスクされたパッチと可視化されたパッチの比率は、マスキング比と呼ばれ、訓練中は固定されます。Sapiensのモデルは、画像の特徴、スケール、クロップ、被写体の年齢や民族、被写体の数など、さまざまな画像特性に対して一般化を示しています。各パッチトークンは、画像の面積の0.02%を占め、標準的なViTの0.4%と比較して16倍の低減率を実現し、モデルの間で微妙な推論を提供します。マスキング比が95%の場合でも、Sapiensのモデルは、保持されたサンプル上でヒューマンの解剖学の妥当な再構築を達成します。Sapiensの事前学習済みモデルの、未見のヒューマン画像上の再構築は、以下の画像に示されています。さらに、Sapiensは、約10億枚のヒューマン画像を特集した大規模な独自データセットを事前学習に使用します。事前処理では、ウォーターマーク、テキスト、芸術的な表現、または非自然な要素を含む画像が破棄されます。Sapiensは、事前学習に使用するために、オフザシェルフの人物バウンディングボックス検出器を使用して、画像をフィルタリングし、検出スコアが0.9以上でバウンディングボックスの寸法が300ピクセルを超える画像のみを保持します。データセットの248百万枚の画像には複数の被写体が含まれています。2Dポーズ推定Sapiensフレームワークは、エンコーダーとデコーダーを、K = 17 [67]、K = 133 [55]、および新しい詳細なスケルトン、K = 308でファインチューニングします。以下の図に示すように、Sapiensのアノテーションは、顔、手、足、表面、顔の表現点を含む308個のキーポイントで構成されています。Sapiensは、2Dポーズ推定、ボディパーツセグメンテーション、深度推定、表面法線予測などのタスクにファインチューニングされ、評価されます。Sapiensは、既存のベースラインを超えるパフォーマンスを達成し、ヒューマンセントリックなベンチマークで重要な改善を実現します。Sapien: 実験と結果Sapiens-2Bは、1024 A100 GPUで18日間、PyTorchを使用して事前学習されます。Sapiensは、すべての実験でAdamWオプティマイザを使用します。学習スケジュールには、短い線形ウォームアップの後、事前学習のためのコサインアニーリングとファインチューニングのための線形減衰が含まれます。すべてのモデルは、1024 × 1024の解像度でスクラッチから事前学習され、16のパッチサイズでファインチューニングされます。Sapiensは、標準的なオーグメンテーション、such as クロッピング、スケーリング、フリッピング、光学的歪みを適用します。セグメンテーション、深度、法線予測タスクのために、非ヒューマンのCOCO画像からランダムな背景が追加されます。重要な点は、Sapiensが、初期層の学習率を低くし、後の層の学習率を高くすることで、一般化を維持するために差別的な学習率を使用していることです。エンコーダーの層ごとの学習率減衰は0.85に設定され、重み減衰は0.1に設定されます。Sapiensの設計仕様は、以下の表に示されています。Sapiensは、モデルを幅でスケーリングすることを優先します。特に、Sapiens-0.3Bモデルは、従来のViT-Largeとアーキテクチャが似ているものの、解像度が高いため、20倍以上のFLOPSを実現しています。Sapiensは、顔、体、足、手（K = 308）のポーズ推定にファインチューニングされます。訓練には、100万枚の画像が使用され、評価には、Humans5Kと呼ばれる5,000枚の画像が使用されます。評価は、トップダウンアプローチで行われ、Sapiensはバウンディングボックスの検出にオフザシェルフの検出器を使用し、単一のヒューマンのポーズ推定を実行します。以下の表は、Sapiensモデルと既存の方法の比較を示しています。すべての方法は、Sapiensの308キーポイントのボキャブラリーとCOCO-WholeBodyの133キーポイントのボキャブラリーの間の114個の共通キーポイントで評価されます。Sapiens-0.6Bは、現在の最先端であるDWPose-lを+2.8 AP上回ります。Sapiens-2Bは、新しい最先端の61.1 APを達成し、以前の最先端を+7.6 AP上回ります。Sapiensは、実験室スタジオのアノテーションでファインチューニングされたにもかかわらず、リアルワールドシナリオにロバストに一般化します。結論Sapiensは、ヒューマンセントリックなビジョンモデルをファウンデーションモデルへの重要なステップを表しています。Sapiensモデルは、さまざまなヒューマンセントリックなタスクに対して強力な一般化能力を示しています。最先端のパフォーマンスは、(i)...
人工知能 August 21, 2024

LongWriter: 10,000語以上の文章生成フレームワーク

現在の長文脈の大規模言語モデル（LLM）は、最大100,000トークンの入力処理が可能ですが、2,000語を超える長さの出力生成に苦労しています。制御された実験により、モデルが出力長に制限を設ける根本的な要因は、教師ありファインチューニング（SFT）中に見られる例の長さであることが明らかになりました。言い換えると、この出力制限は、既存のSFTデータセットに長出力例が不足していることから生じています。長文脈LLMの最近の進歩により、記憶容量が大幅に拡張されたモデルが開発され、最大100,000トークンの長さの履歴を処理できるようになりました。ただし、長い入力を処理できる能力を持っているにもかかわらず、現在の長文脈LLMは同等の長さの出力を生成するのに苦労しています。この制限を調査するために、LongWriterは、さまざまな長さの応答を必要とするクエリで、最先端の長文脈モデルの最大出力長を調べます。たとえば、「ローマ帝国の歴史について10,000語の記事を書いてください。」というクエリです。結果は、すべてのモデルが2,000語を超える出力を生成するのに失敗していることを示しています。さらに、ユーザーインタラクションログの分析により、1％以上のユーザープロンプトがこの制限を超える出力を明示的に要求していることが明らかになり、現在の研究でこの問題を解決する必要性が強調されました。この制限を解決するために、LongWriterは、AgentWriteと呼ばれるエージェントベースのパイプラインを導入します。AgentWriteは、オフザシェルフLLMを使用して、自動的に長出力SFTデータを構築します。AgentWriteは、2つのステージで動作します。まず、ユーザーの入力に基づいて、各段落の構造とターゲット語数を含む詳細な執筆計画を策定します。次に、モデルを順番に呼び出して、計画に従って各段落のコンテンツを生成します。LongWriterの実験は、AgentWriteが高品質で一貫性のある出力を最大20,000語まで生成できることを検証しています。LongWriterは、LongBench-Writeと呼ばれる、超長出力生成のための包括的なベンチマークも開発しています。LongBench-Writeには、さまざまなユーザーの書き込み指示が含まれており、出力長の指定は0〜500語、500〜2,000語、2,000〜4,000語、4,000語以上と変化しています。LongBench-Writeでの評価は、LongWriterの9Bパラメータモデルが、最先端のパフォーマンスを達成し、より大きな独自モデルを上回っていることを示しています。この記事では、LongWriterフレームワークについて説明し、そのアーキテクチャを探り、最先端の長文脈LLMとのパフォーマンスを比較します。では、始めましょう。LongWriter: 10,000語以上の文章生成フレームワーク長文脈LLMの最近の進歩により、記憶容量が大幅に拡張されたモデルが開発され、最大100,000トークンの長さの履歴を処理できるようになりました。ただし、長い入力を処理できる能力を持っているにもかかわらず、現在の長文脈LLMは同等の長さの出力を生成するのに苦労しています。LongWriterは、最先端の長文脈モデルの最大出力長を、さまざまな長さの応答を必要とするクエリで調べます。結果は、すべてのモデルが2,000語を超える出力を生成するのに失敗していることを示しています。さらに、ユーザーインタラクションログの分析により、1％以上のユーザープロンプトがこの制限を超える出力を明示的に要求していることが明らかになり、現在の研究でこの問題を解決する必要性が強調されました。LongWriterの研究は、次の新しい貢献をもたらします。生成長制限の分析: LongWriterは、現在の長文脈LLMの出力長を制限する主な要因を特定しました。これは、SFTデータの出力長の制限です。 AgentWrite: この制限を克服するために、LongWriterはAgentWriteを提案します。AgentWriteは、オフザシェルフLLMを使用して、自動的に長出力SFTデータを構築します。AgentWriteを使用して、LongWriterはLongWriter-6kと呼ばれる6,000個の長出力SFTデータを構築します。出力ウィンドウサイズの拡大: LongWriterは、LongWriter-6kをSFTデータに組み込むことで、既存のモデルの出力ウィンドウサイズを10,000語以上に拡大します。LongWriterは、DPOがさらにモデルが出力長の要件を満たす能力を向上させることも示しています。 AgentWrite: 自動データ構築LongWriterは、オフザシェルフLLMを使用して、自動的に長出力SFTデータを構築するために、AgentWriteと呼ばれるエージェントベースのパイプラインを設計しました。AgentWriteは、2つのステージで動作します。まず、ユーザーの入力に基づいて、各段落の構造とターゲット語数を含む詳細な執筆計画を策定します。次に、モデルを順番に呼び出して、計画に従って各段落のコンテンツを生成します。ステップI: 計画LongWriterは、人間のライターが長文を書く際に最初に全体的な計画を立てるように、LLMの計画能力を使用して、書き込み指示に基づいて執筆計画を出力します。この計画には、各段落の主な内容と語数要件が含まれます。ステップII: 書き込みステップIで生成された執筆計画に基づいて、LongWriterはモデルを順番に呼び出して、各段落のコンテンツを生成します。各段落のコンテンツを生成する際には、既に生成された段落のテキストも入力として使用します。検証LongWriterは、2つの長文書き込みデータセットで、提案されたAgentWrite方法の生成長と品質をテストします。結果は、AgentWriteが20,000語までの長出力を生成できることを示しています。教師ありファインチューニングLongWriterは、GLM-4-9BとLlama-3.1-8Bの2つの最新のオープンソースモデルに基づいて、教師ありファインチューニングを実施します。両方のモデルは、最大128kトークンのコンテキストウィンドウをサポートし、長出力のトレーニングに適しています。トレーニングの効率を向上させるために、LongWriterはパッキングトレーニングと損失重み付けを採用します。LongWriter: 実験と結果LongWriterは、LongBench-Writeで4つの独自モデルと5つのオープンソースモデルを評価します。結果は、LongWriterの9Bモデルが最先端のパフォーマンスを達成し、より大きな独自モデルを上回っていることを示しています。以前のモデルは2,000語を超える出力長の要件を満たすことができないのに対し、LongWriterモデルは一貫して長く豊かな応答を提供します。LongWriterは、LongBench-Writeでの評価結果を示しています。結果は、LongWriterの9Bモデルが、2,000語を超える出力長の要件を満たすことができ、より大きな独自モデルを上回っていることを示しています。DPOは、モデルの出力品質と長出力生成における出力長の要件を満たす能力を向上させます。LongWriterは、DPOがモデルの出力品質と長出力生成における出力長の要件を満たす能力を向上させることを示しています。LongWriterモデルの出力長制限は10,000語から20,000語に拡大されますが、さらに長い出力をサポートするには、より多くの長出力データが必要です。LongWriterは、LongWrite-Rulerテストの結果を示しています。結果は、LongWriterモデルの出力長制限が10,000語から20,000語に拡大されていることを示しています。最終的な考えこの研究では、LongWriterと呼ばれるエージェントベースのパイプラインを提案し、2,000語の生成長制限を克服するために、長出力SFTデータを構築します。LongWriterは、LongBench-Writeと呼ばれる包括的なベンチマークを開発し、最先端の長文脈LLMとのパフォーマンスを比較します。LongWriterは、長出力生成における出力長の要件を満たす能力を向上させるために、DPOを使用します。将来的には、LongWriterは、さらに長い出力をサポートするために、より多くの長出力データを構築することを提案します。
人工知能 August 6, 2024

SGLang：構造化言語モデルプログラムの効率的な実行

大規模言語モデル（LLM）は、複数の生成呼び出し、先進的なプロンプティング技術、制御フロー、構造化された入出力が必要な複雑なタスクにますます利用されています。しかし、これらのアプリケーションをプログラミングし、実行するための効率的なシステムは不足しています。SGLangは、この問題に対処するために、構造化言語モデルプログラムの効率的な実行を提供することを目的とした新しいシステムです。SGLangは、フロントエンド言語とランタイムで構成されています。フロントエンドは、生成と並列性制御のプリミティブを提供してプログラミングを簡素化し、ランタイムは、RadixAttentionによるKVキャッシュの再利用や圧縮された有限状態マシンによる構造化出力の高速化などの新しい最適化によって実行を高速化します。実験では、SGLangは、さまざまな大規模言語モデルと多モーダルモデルで、最先端の推論システムと比較して、最大6.4倍のスループットを達成することが示されています。これらのモデルは、エージェント制御、論理的推論、少샷ラーニングベンチマーク、JSONデコーディング、リトリーバ増強生成パイプライン、多ターンチャットなどのタスクを処理します。最近のLLMの能力の向上により、そのユーティリティが拡大し、より広範な一般タスクを処理し、自律エージェントとして機能できるようになりました。これらのアプリケーションでは、LLMは、ツールの使用、複数の入力モダリティ、さまざまなプロンプティング技術（例：少샷ラーニング、自己一貫性、スケルトンオブソシエーション、ツリーオブソシエーション）を介して、複数ラウンドの計画、推論、外部環境との相互作用に従事します。これらの新しいユースケースでは、複雑なタスクを完了するために、多くの場合、依存関係のあるLLM生成呼び出しが必要になります。これは、単純なチャットから、LLMのプログラム的な使用に移行することを示しています。ここで、プログラムはLLMの生成プロセスをスケジュールして制御します。これらのプログラムは「言語モデルプログラム」（LMプログラム）と呼ばれます。先進的なプロンプティング技術とエージェントワークフローは、LMプログラムの範囲内にあります。LMプログラムには、2つの共通の特性があります。（1）LMプログラムは、通常、複雑なタスクを完了し、全体の品質を向上させるために、制御フローを伴う複数のLLM呼び出しを含みます。（2）LMプログラムは、構造化された入力を受け取り、構造化された出力を生成します。これにより、LMプログラムを組み合わせて既存のソフトウェアシステムに統合することができます。この記事では、SGLangフレームワークについて深く掘り下げ、其のアーキテクチャを探り、其のパフォーマンスを分析し、最先端のフレームワークと比較します。では、始めましょう。SGLangの紹介LMプログラムの広範な使用にもかかわらず、現在のシステムは、それらを効率的に表現し、実行することができません。SGLangは、LMプログラムの効率的な使用に関連する2つの主要な課題を特定しています。プログラミングの複雑さ：LLMの非決定的な性質により、LMプログラムの開発は面倒で難しいです。これには、広範な文字列操作、プロンプトの実験的な調整、脆い出力の解析、複数の入力モダリティの処理、並列性メカニズムの実装が含まれます。これらの複雑さは、さらにもう一つのプログラムの読みやすさを大幅に低下させます。実行の非効率性：LMプログラムの実行は、冗長な計算とメモリ使用により非効率的です。最先端の推論エンジンは、待ち時間を低減し、スループットを向上させるために最適化されていますが、ワークロードに関する直接の知識が欠けているため、重大な非効率性が生じます。KVキャッシュの再利用は、生成推論に不可欠な再利用可能な中間テンソルで構成されており、LLM呼び出しの共通プレフィックスを共有するLLM呼び出しの間でKVキャッシュを再利用するための効果的なメカニズムが不足しています。また、構造化出力（例：JSONモード）の制約付きデコーディングは、既存のシステムが1回の呼び出しから1トークンのみをデコーディングするため、非最適化されています。これらの課題に対処するために、SGLangは、LLMの構造化言語を導入します。基本的な考え方は、LMプログラムのマルチコール構造を効率的な実行のために体系的に利用することです。次の図に示すように、SGLangは2つの部分で構成されています。フロントエンド言語とバックエンドランタイムです。フロントエンドは、LMプログラムのプログラミングを簡素化し、ランタイムは、実行を高速化します。これらの部分は、パフォーマンスを向上させるために共同で動作するか、独立して機能することができます。SGLangは、Pythonに埋め込まれたドメイン固有言語であり、生成（例：extend、gen、select）と並列性制御（例：fork、join）に対するプリミティブを提供します。Pythonの制御フローとライブラリと互換性があり、ユーザーがネイティブのPython構文で高度なプロンプティングワークフローを簡単に開発できるようにします。SGLangには、インタープリターとコンパイラーが含まれています。インタープリターは、プロンプト状態をストリームとして管理し、プリミティブ操作をストリームに非同期的に実行することで、同期とプログラム内並列性の適切な制御を保証します。さらに、SGLangプログラムはトレースされ、コンパイルされてさらに最適化できます。SGLangのランタイムは、LMプログラムの実行を高速化するためのいくつかの新しい最適化を提案します。 RadixAttention：この技術は、複数の生成呼び出しの間でKVキャッシュを自動的に再利用することを可能にします。既存の推論エンジンでは、リクエストごとにKVキャッシュが破棄され、複数の呼び出しの間で再利用できず、実行を遅くします。SGLangは、KVキャッシュをラディックス木内にLRUキャッシュとして保持し、ラディックス木を使用して効率的なマッチング、挿入、追い出しを実行します。これにより、ランタイムはさまざまな再利用パターンを効率的に処理できます。圧縮された有限状態マシン：この技術は、構造化出力の制約付きデコーディングを高速化します。既存のシステムは、次のトークンのみに従って制約を適用し、1回の呼び出しから1トークンのみをデコーディングできます。代わりに、SGLangは、制約を分析し、それらを表すために圧縮された有限状態マシンを構築し、可能な場合はマルチトークンパスを1ステップのパスに圧縮し、複数のトークンを一度にデコーディングして高速化します。 API推測的実行：APIのみのモデル（例：OpenAIのGPT-4）に対して、SGLangは、API推測的実行を導入して、マルチコールプログラムを最適化します。 SGLangを使用して、エージェント制御、論理的推論、少샷ラーニングベンチマーク、JSONデコーディング、リトリーバ増強生成パイプライン、多ターンチャット、多モーダリティ処理などのさまざまなLLMアプリケーションが実装されました。パフォーマンスは、Llama-7B/70B、Mistral-8x7B、LLaVA-v1.5-7B（画像）、LLaVA-NeXT-34B（ビデオ）などのモデルで、NVIDIA A10GおよびA100 GPUでテストされました。実験結果は、SGLangが、さまざまなワークロード、モデル、ハードウェア設定で、Guidance、vLLM、LMQLを含む既存のプログラミングおよび推論システムと比較して、最大6.4倍のスループットを達成することを示しています。SGLang：プログラミングモデルと方法論SGLangのプログラミングモデルは、ランニングエクサンプルを介して導入され、言語プリミティブと実行モードを説明し、ランタイム最適化の機会を概説します。このモデルは、マルチコールワークフロー（例：文字列操作、API呼び出し、制約指定、並列性）における面倒な操作を、柔軟で組み合わせ可能なプリミティブを提供することで簡素化します。SGLangは、Pythonに埋め込まれたドメイン固有言語です。次の図は、ブランチソルブマージプロンプティング方法を使用して画像についてのエッセイを評価するプログラムを示しています。関数multi_dimensional_judgeは3つの引数を取ります：`s`、`path`、`essay`。sはプロンプト状態を管理し、pathは画像ファイルパス、essayはエッセイのテキストです。新しい文字列とSGLangプリミティブは、+=演算子を使用して状態sに追加され、実行されます。まず、関数は画像とエッセイをプロンプトに追加します。次に、エッセイが画像に関連しているかどうかをselectを使用して確認し、結果をs[“related”]に保存します。関連している場合、プロンプトは3つのコピーに分岐され、genを使用して結果をf[“judgment”]に保存します。次に、判断を結合し、要約を生成し、レター評価を割り当てます。最後に、結果をJSON形式で返します。JSON形式は、正規表現制約regexによって定義されます。SGLangは、このプログラムを大幅に簡素化します。OpenAI APIのようなインターフェイスを使用する場合、同等のプログラムは2.1倍のコード行数が必要になります。これは、手動の文字列操作と並列性制御のためです。SGLangは、プロンプト状態、生成、並列性制御に対するプリミティブを提供します。これらは、Python構文とライブラリと共に使用できます。以下はプリミティブの一覧です。gen:モデルを呼び出して生成し、結果を指定された名前の変数に保存します。結果を特定のグラマーに従うように制約するために、正規表現を指定できます（例：JSONスキーマ）。 select：モデルを呼び出して、リストからの最も可能性の高いオプションを選択します。 += または extend：文字列をプロンプトに追加します。 [変数名]：生成の結果を取得します。 fork：プロンプト状態の並列フォークを作成します。 join：プロンプト状態の並列フォークを再結合します。 imageとvideo：画像とビデオ入力を取り込みます。 SGLangプログラムを実行する最も簡単な方法は、インタープリターを介して行うことです。ここで、プロンプトは非同期ストリームとして扱われ、プリミティブ操作（extend、gen、selectなど）はストリームに非同期的に提出されます。これらの非ブロッキング呼び出しにより、Pythonコードは生成が完了するのを待たずに実行を続行できます。各プロンプトは、バックグラウンドスレッドのストリームエクスキューターによって管理され、プログラム内並列性が可能になります。生成結果の取得は、結果が準備できたときにブロックします。正しい同期を保証するために。代わりに、SGLangプログラムは計算グラフとしてコンパイルされ、グラフエクスキューターで実行できます。これにより、さらに最適化が可能になります。この論文では、デフォルトでインタープリターモードを使用し、コンパイラモードの結果については付録Dで説明します。SGLangは、独自のSGLangランタイム（SRT）を使用してオープンウェイトモデルをサポートし、OpenAIやAnthropicなどのAPIモデルもサポートします。LLM用のプログラミングシステムは、高レベル（例：LangChain、DSPy）と低レベル（例：LMQL、Guidance、SGLang）に分類できます。高レベルシステムは、事前定義されたまたは自動生成されたプロンプト（例：DSPyのプロンプトオプティマイザー）を提供します。低レベルシステムは、通常、プロンプトを変更せずに、プロンプトとプリミティブの直接操作を許可します。SGLangは、LMQLやGuidanceと同様の低レベルシステムです。次の表は、これらのシステムの機能を比較しています。SGLangは、ランタイム効率に重点を置いており、独自の共同設計ランタイムを備えています。これにより、新しい最適化が可能になります。高レベル言語（例：DSPy）は、低レベル言語（例：SGLang）にコンパイルできます。DSPyのバックエンドとしてSGLangを統合して、ランタイム効率を向上させることが示されています。上記の例は、9つの時間点におけるRadixAttention操作とLRU追い出しポリシーを示しています。ここでは、さまざまなリクエスト（チャットセッション、少샷ラーニングの質問、自己一貫性サンプリング）に対するラディックスツリーの動的割り当てと追い出しの動作を示しています。各ツリーのエッジは、サブ文字列またはトークンのシーケンスを表すラベルを持ち、ノードは、追加された新しいノード（緑）、キャッシュされたノード（青）、追い出されたノード（赤）を示すために色分けされています。ステップ1:ラディックスツリーは最初から空です。ステップ2:サーバーは、ユーザーからの「Hello」というメッセージを受け取り、「Hi」というLLM出力を返します。システムプロンプト「You are a helpful assistant」、ユーザーメッセージ「Hello!」、LLMの応答「Hi!」は、ツリー内の新しいノードに接続された単一のエッジとして統合されます。ステップ3:新しいプロンプトが到着し、サーバーはツリー内でプロンプトのプレフィックス（会話の最初のターン）を見つけ、KVキャッシュを再利用します。新しいターンはツリーに新しいノードとして追加されます。ステップ4:新しいチャットセッションが開始されます。ステップ3のノードは、2つのチャットセッションがシステムプロンプトを共有できるように2つのノードに分割されます。ステップ5:2番目のチャットセッションが続きます。しかし、メモリ制限のため、ステップ4のノードが追い出される必要があります。新しいターンは、ステップ4の残りのノードの後に追加されます。ステップ6:サーバーは、少샷ラーニングのクエリを受け取り、処理し、ツリーに挿入します。ルートノードは、新しいクエリが既存のノードとプレフィックスを共有しないため、分割されます。ステップ7:サーバーは、さらに少샷ラーニングのクエリのバッチを受け取ります。これらのクエリは、同じセットの少샷例を共有するため、ステップ6のノードが分割されて共有が可能になります。ステップ8:サーバーは、最初のチャットセッションからの新しいメッセージを受け取り、2番目のチャットセッションのすべてのノードを最も最近使用されていないノードとして追い出します。ステップ9:サーバーは、ステップ8のノードの質問に対してさらに回答をサンプリングするリクエストを受け取り、スペースを確保するために複数のノードを追い出します。可能な場合は、ラディックスツリーのエッジは、サブ文字列またはトークンのシーケンスを表すラベルを持ち、ノードは、追加された新しいノード（緑）、キャッシュされたノード（青）、追い出されたノード（赤）を示すために色分けされています。この例は、RadixAttentionがさまざまなリクエストに応じてノードの動的割り当てと追い出しの動作をどのように処理するかを示しています。KVキャッシュの再利用とメモリ管理を効率的に行う方法を示しています。SGLang：評価と結果オープンウェイトモデルでの結果待ち時間とスループットの結果は、次の図に示されています。SGLangは、最大6.4倍のスループットを向上させ、最大3.7倍の待ち時間の短縮を実現します。これらの改善は、KVキャッシュの再利用、プログラム内並列性の活用、制約付きデコーディングの高速化によるものです。これらのベンチマークでは、キャッシュヒット率は50％から99％の範囲でした。付録13に、すべてのベンチマークの達成されたキャッシュヒット率と最適なキャッシュヒット率がリストされています。SGLangのキャッシュを意識したスケジューリングアプローチは、平均で96％の最適なヒット率に近づいています。テンソル並列性を持つ大規模モデルでの結果テンソル並列性を使用した大規模モデル（Mixtral-8x7B、Llama-70B）も、同じベンチマークでテストされ、結果は次の図に示されています。大規模モデルのスピードアップは、小規模モデルで観察されたのと同様の傾向を示しています。これは、SGLangの最適化が大規模モデルにも一般化できることを示しています。GuidanceとLMQLは、テンソル並列性の効率的な実装が不足しているため、省略されました。多モーダルモデルでの結果SGLangには、画像とビデオのプリミティブを使用した多モーダルモデルのネイティブサポートがあります。この論文の最適化は、多モーダルモデルと互換性があります。RadixAttentionの場合、入力画像のハッシュが計算され、ラディックスツリーのキーとして使用され、同じ画像からの画像トークンのKVキャッシュの再利用が可能になります。LLaVA-v1.5-7B（画像）がllava-bench-in-the-wildで、LLaVA-NeXT-34B（ビデオ）がActivityNetで実行されました。これらのモデルは他のベースラインシステムで十分にサポートされていないため、Hugging Face Transformersのモデル著者のオリジナル実装がベースラインとして使用されました。次の表に示すように、SGLangはこれらのベンチマークで最大6倍のスループットを提供します。llava-bench-in-the-wildでは、同じ画像について複数の質問が処理され、SGLangランタイムはKVキャッシュを再利用しました。本稼働へのデプロイSGLangは、オープンウェイトモデルを提供するChatbot...
人工知能 July 29, 2024

MINT-1T：オープンソースのマルチモーダルデータを10倍に拡大

大規模なマルチモーダルモデル（LMM）のトレーニングには、画像とテキストのインターリーブされたシーケンスを含む大規模なデータセットが必要です。オープンソースのLMMは急速に進化していますが、まだオープンソースのマルチモーダルインターリーブされたデータセットが不足しています。これらのデータセットは、さまざまなモダリティのコンテンツを理解および生成できる高度なAIシステムを作成するための基盤を形成するため、その重要性は強調されるべきです。十分なマルチモーダルインターリーブされたデータセットがなければ、より高度で能力のあるLMMの開発の可能性は大きく制限されます。これらのデータセットにより、モデルはさまざまな入力から学習し、さまざまなアプリケーションでより汎用性と有効性が高まります。さらに、オープンソースコミュニティはイノベーションとコラボレーションの推進に共有リソースに依存しているため、これらのデータセットの不足は課題となります。オープンソースのLMMは近年大きな進歩を遂げてきましたが、その成長は大規模なマルチモーダルインターリーブされたデータセットの限られた入手可能性によって妨げられています。この障害を克服するために、マルチモーダルモデルをサポートするための包括的なデータセットの作成と公開が必要です。また、これらのデータセットの作成と配布には、データの収集、注釈付け、法的および倫理的考慮など、技術的およびロジスティック的な課題が伴います。データの収集は、LMMが展開されるさまざまなコンテキストを代表するものでなければなりません。注釈付けには、モデルが学習する能力を高めるために、画像とテキストのシーケンスが適切に整列するようにするための注意深い考慮が必要です。また、データセットをオープンソースにするには、データのプライバシーと使用権に関する法的および倫理的考慮事項に対処する必要があります。高品質のマルチモーダルインターリーブされた大規模データセットの入手可能性の拡大は、AI研究と開発の将来にとって不可欠です。現在の不足を解消することで、AIコミュニティはイノベーションとコラボレーションの促進につながり、より強力で汎用性の高いLMMの作成につながります。この点について、MINT-1Tは、現在までで最大かつ最も多様なオープンソースのマルチモーダルインターリーブされたデータセットです。MINT-1T：1兆のテキストトークンと34億の画像を含む、既存のオープンソースデータセットの10倍の規模です。MINT-1Tデータセットは、PDFファイルやarXiv論文などの新たな情報源も導入しています。マルチモーダルインターリーブされたデータセットは簡単に拡張できないため、MINT-1Tデータセットがデータキュレーションプロセスを共有することは重要であり、他者もこれらの情報豊富なバリアントについての実験を実施できるようになります。MINT-1Tデータセットは、その方法が有効であることを実証しており、MINT-1TでトレーニングされたLMモデルは、以前の最先端のOBELICSと比較して競争力があります。MINT-1T：1兆トークンのマルチモーダルデータセット大規模なオープンソースの事前トレーニングデータセットは、データエンジニアリングとオープンソースモデルをトレーニングする研究コミュニティにとって重要でした。テキストドメインでは、C4やThe Pileなどの初期の研究は、最初のオープンソースの大規模言語モデルであるGPT-J、GPT-Neoなどのトレーニングを可能にする上で重要な役割を果たしました。これらの基礎的な取り組みは、データフィルタリング方法の改善やスケーリングにも道を開きました。同様に、画像とテキストの空間では、大規模なオープンソースデータセットは、Data Filtering NetworksやT-MARSなどのデータキュレーション方法の改善につながりました。フロンティアラボから大規模なマルチモーダルモデル（LMM）のトレーニングへの移行が見られ、LMMに必要なマルチモーダルインターリーブされたデータセットとクローズドソースモデルの間には、重大なギャップが生じています。現在のオープンソースのマルチモーダルインターリーブされたデータセットは、テキストのみのデータセットよりも小さく、多様性も低く、主にHTMLドキュメントから取得されています。これらのデータセットの限界は、ロバストなオープンソースLMMの開発を妨げ、オープンソースモデルとクローズドソースモデルの間のギャップを生み出しています。このギャップを解消するために、MINT-1Tは、現在までで最大かつ最も多様なオープンソースのマルチモーダルインターリーブされたデータセットとして作成されました。MINT-1Tには、1兆のテキストトークンと34億の画像が含まれており、HTML、PDF、arXivなどのさまざまな情報源から収集されています。MINT-1Tの前に、オープンソースのマルチモーダルインターリーブされたデータセットの中で最大だったOBELICSには、1150億のテキストトークンと3.53億の画像が含まれており、すべてHTMLから収集されていました。MINT-1Tの貢献は以下のとおりです：データエンジニアリング：マルチモーダルインターリーブされたデータをスケーリングすることは、テキストのみまたは画像とテキストのペアのデータセットを作成するよりも、エンジニアリング上の課題です。ドキュメントのサイズを処理し、画像とテキストの元の順序を維持することが重要です。多様性： MINT-1Tは、マルチモーダルインターリーブされたデータセットの中で初めて、CommonCrawlのPDFやarXivなどの情報源から、高品質のマルチモーダルドキュメントを大規模に収集しました。モデル実験：実験では、MINT-1TでトレーニングされたLMMは、以前の最先端のオープンソースデータセットであるOBELICSと比較して、競争力があります。 MINT-1T：データセットの構築MINT-1Tは、PDFやarXiv論文などのより多様な情報源から収集された、大規模なオープンソースのマルチモーダルインターリーブされたデータセットです。このセクションでは、MINT-1Tのマルチモーダルドキュメントの収集、低品質コンテンツのフィルタリング、データの重複排除、NSFWコンテンツの除去などの方法について説明します。最終的なデータセットには、9220億のHTMLトークン、1060億のPDFトークン、90億のarXivトークンが含まれています。大規模なマルチモーダルドキュメントの収集HTMLパイプラインMINT-1Tは、CommonCrawlのWARCファイルからHTMLドキュメントを抽出するために、OBELICSと同様の方法を使用しています。ただし、MINT-1Tは、2017年5月から2024年4月までのHTMLドキュメントを収集しています。ドキュメントのフィルタリングでは、画像が含まれないドキュメント、30を超える画像を含むドキュメント、または不適切なサブストリングを含む画像URLのドキュメントを除外します。PDFパイプラインMINT-1Tは、CommonCrawlのWATファイルからPDFドキュメントを抽出します。PDFリンクを抽出し、PyMuPDFを使用してPDFをダウンロードして読み取ります。50MBを超えるPDFや50ページを超えるPDFは除外し、テキストが含まれないページも除外します。読み取り順序を決定するために、テキストブロックのバウンディングボックスを検出して、カラムに基づいてクラスタリングし、左上から右下に順序付けます。画像は、同じページのテキストブロックに近接する順序で統合されます。arXivパイプラインMINT-1Tは、LaTeXソースコードからarXivのインターリーブされたドキュメントを構築します。TexSoupを使用して、図のタグを見つけ、画像とテキストをインターリーブします。マルチファイルの論文の場合、メインのTeXファイルを特定し、入力タグをそのファイルの内容に置き換えます。LaTeXコードは、インポート、ビブリオグラフィ、表、引用タグを削除することでクリーンアップされます。arXivはすでに高度にキュレーションされた情報源であるため、追加のフィルタリングと重複排除は実行されません。テキスト品質フィルタリングMINT-1Tは、モデルベースのヒューリスティックを使用せずに、RefinedWeb、Dolma、FineWebに従ったテキストフィルタリングを実施します。Fasttextの言語識別モデルを使用して、英語以外のドキュメントを除外します。NSFWサブストリングを含むURLのドキュメントも除外します。RefinedWebのテキストフィルタリング方法を適用し、過剰なn-グラムの繰り返しやMassiveTextのルールに基づいて低品質と判断されたドキュメントを除去します。画像フィルタリングPDFとHTMLファイルのキュレーション後、MINT-1TはHTMLデータセット内のすべての画像URLのダウンロードを試み、取得できないリンクや有効な画像リンクのないドキュメントを除去します。150ピクセル未満の画像は除去し、20000ピクセルを超える画像も除去します。HTMLドキュメントの場合、2を超えるアスペクト比の画像は除去します。PDFの場合、3を超えるアスペクト比の画像は除去しますが、科学的図表を保存するために調整されています。上記の図は、MINT-1TがHTML以外の情報源であるPDFやarXivからデータを含むことを示しています。セーフティフィルタリング NSFW画像フィルタリング：MINT-1Tは、データセット内のすべての画像にNSFW画像検出器を適用します。ドキュメントに1つでもNSFW画像が含まれている場合、そのドキュメント全体を除去します。個人情報の除去：個人情報の漏洩リスクを軽減するために、テキストデータ内のメールアドレスとIPアドレスを匿名化します。メールアドレスは「[email protected]」のようなテンプレートに置き換え、IPアドレスは機能しないランダムなIPアドレスに置き換えます。重複排除MINT-1Tは、各CommonCrawlスナップショット内で段落レベルとドキュメントレベルのテキスト重複排除を実施し、アイコンやロゴのような情報のない画像を除去するために画像重複排除も実施します。すべての重複排除手順は、各情報源ごとに個別に実行されます。段落とドキュメントの重複排除Dolmaの方法に従い、MINT-1Tは、段落レベルのテキスト重複排除にBloomフィルタを使用します。偽陽性率を0.01に設定し、各ドキュメントからダブルニューラインデリミタで示される13グラムの段落を重複排除します。ドキュメントの80%以上の段落が重複している場合、そのドキュメント全体を除去します。共通のボイラープレートテキストの除去段落レベルの重複排除後、MINT-1Tは、HTMLドキュメントから「Skip to content」や「Blog Archive」のような短い共通のボイラープレート文を除去します。これは、CCNetの慣行に従い、各CommonCrawlスナップショットの2%のドキュメントで段落レベルの重複排除を実行することで実施され、主に共通のボイラープレートテキストの除去を目的としています。上記の図は、MINT-1Tのフィルタリングプロセスを示し、HTML、PDF、arXivのデータパイプラインを通じてトークンが除去される方法を示しています。画像の重複排除各CommonCrawlスナップショット内で、MINT-1TはSHA256ハッシュを使用して画像の重複を除去します。厳密な重複排除ではなく、スナップショット内で10回以上出現する画像のみを除去します。Multimodal-C4の慣行に従い、ドキュメント内で繰り返される画像は除去し、最初の出現のみを保持します。インフラストラクチャデータ処理中、MINT-1Tは、平均2,350のCPUコアと、190プロセッサと90プロセッサのノードを使用しました。合計で約420万CPU時間を使用してこのデータセットを構築しました。MINT-1TとOBELICSのドキュメント構成の比較インターリーブされたデータセットの構成を評価するために、2つの重要な特性を検討します。ドキュメントあたりのテキストトークンの分布とドキュメントあたりの画像の数です。この分析では、OBELICSとMINT-1Tの各情報源から50,000のドキュメントをランダムにサンプリングしました。GPT-2のトークナイザーを使用してテキストトークンの数を計算します。外れ値は、テキストトークンと画像の数の1.5四分位範囲の外側にあるドキュメントを除外することで除去されます。次の図は、MINT-1TのHTMLサブセットがOBELICSのトークン分布と密接に一致していることを示しています。ただし、PDFやarXivから得られるドキュメントは、平均してHTMLドキュメントよりも長いことを示しています。これは、多様な情報源からデータを収集する利点を強調しています。図5は、ドキュメント全体の画像密度を示し、PDFやarXivのドキュメントがHTMLドキュメントよりも画像が多く含まれていることを示しています。arXivのサンプルは最も画像密度が高いです。さまざまな情報源がドキュメントの多様性をどのように向上させるかマルチモーダルドキュメントのプールをHTML以外の情報源に拡大することの重要な動機は、ドメインのカバレッジの向上です。カバレッジの多様性と深さを量化するために、OBELICS、MINT-1TのHTMLサブセット、MINT-1TのPDFサブセット（arXivを除く）から100,000のドキュメントをサンプリングして、200のトピックを取得するためにLatent Dirichlet Allocation（LDA）モデルをトレーニングしました。GPT-4を使用して、MMMUドメインに基づいて、ヘルス＆メディシン、サイエンス、ビジネス、ヒューマニティーズ、ヒストリーなどの主要ドメインを識別するために、単語のセットを分類しました。分析では、ドメイン分布に関する明確な傾向が見られます。 OBELICS：このデータセットは「ヒューマニティーズと社会科学」に重点を置いています。これは、ウィキペディアの記事に似たドキュメントをフィルタリングするデータ構築プロセスに起因する可能性があり、一般知識とヒューマニティーズに重点を置いたコンテンツの分布が変化する可能性があります。 MINT-1TのHTMLサブセット：一方、MINT-1TのHTMLサブセットは、特定のドメインに強く偏っていません。ドメインの表現がより広範でバランスの取れたものであることを示しています。 MINT-1TのPDFサブセット： MINT-1TのPDFドキュメントには、サイエンスとテクノロジーのドキュメントの割合が高いことがわかります。これは、科学的コミュニケーションにおいて、PDFが詳細な研究論文や技術報告を共有するための好まれる形式であるため、arXivやPDFから得られるドキュメントの性質に起因する可能性があります。 MINT-1T：結果と実験すべての実験では、MINT-1Tは、50%の画像とテキストのキャプションバッチと50%のマルチモーダルインターリーブされたバッチでモデルをトレーニングします。各インターリーブされたドキュメントから最大2048のマルチモーダルトークンをサンプリングし、各画像とテキストのサンプルから340トークンをサンプリングします。Flamingoと同様に、隣接する画像とテキストのシーケンスの終了を示すために「end」トークンを追加します。トレーニング中、単一の画像を持つインターリーブされたドキュメントの50%をランダムにドロップして、マルチ画像ドキュメントをオーバーサンプリングします。画像とテキストのデータセットは、内部でキュレーションされたキャプションデータセットの混合です。モデルのマルチモーダルインターリーブされたシーケンスについての推論能力は、インコンテキストラーニングとマルチ画像推論のパフォーマンスを評価することで評価されます。上記の図は、MMMUの各ドメインからのドキュメントの割合を、OBELICSとMINT-1Tのサブセットで示しています。インコンテキストラーニング：...
人工知能 July 16, 2024

DIAMOND：拡散を環境の夢のモデルとして

2018年、ニューラルネットワークの世界モデルにおける強化学習の概念が初めて導入され、すぐにこの基本原理が世界モデルに適用された。強化学習を実装する著名なモデルには、潜在的な状態空間の再帰的な状態空間モデルからの強化学習を導入したDreamerフレームワークがありました。DreamerV2は、離散的な潜在変数を使用することで複合エラーを軽減できることを実証しました。DreamerV3フレームワークは、固定されたハイパーパラメータで、さまざまなドメインのタスクのシリーズで人間のようなパフォーマンスを達成することができました。さらに、画像生成モデルと世界モデルとの類似性から、生成的なビジョンモデルでの進歩が世界モデルに利益をもたらすことが示唆されました。自然言語処理フレームワークでのトランスフォーマーの使用が人気を博したとき、DALL-EとVQGANフレームワークが登場しました。これらのフレームワークは、画像を離散的なトークンに変換するために離散的なオートエンコーダーを実装し、オートレグレッシブトランスフォーマーのシーケンスモデリング能力を利用して、高度に強力で効率的なテキストから画像への生成モデルを構築することができました。同時に、拡散モデルが注目を集め、現在、拡散モデルは高解像度画像生成の支配的なパラダイムとして確立されています。拡散モデルと強化学習の能力を考慮して、これら2つのアプローチを組み合わせる試みが行われており、拡散モデルの柔軟性を軌道モデル、報酬モデル、プランナー、およびオフライン強化学習のデータ増強のポリシーとして利用することを目的としています。世界モデルは、強化学習エージェントを安全に効率的にトレーニングするための有望な方法を提供します。従来、これらのモデルは環境のダイナミクスをシミュレートするために、離散的な潜在変数のシーケンスを使用します。ただし、この圧縮は、強化学習に重要な視覚的な詳細を無視する可能性があります。同時に、拡散モデルは画像生成のために人気を博し、従来の離散的な潜在変数を使用する方法に挑戦しています。この変化に触発されて、この記事では、DIAMOND（DIffusion As a Model Of eNvironment Dreams）について説明します。DIAMONDは、拡散世界モデル内でトレーニングされた強化学習エージェントです。拡散モデルの適切な設計選択を行うことで、拡散モデルの視覚的な詳細の向上がエージェントのパフォーマンスの向上につながることを示します。DIAMONDは、Atari 100kベンチマークで新しいベンチマークを設定し、平均人間の正規化スコア1.46を達成し、世界モデル内で完全にトレーニングされたエージェントの最高スコアを達成します。DIAMOND：拡散を環境の夢のモデルとして世界モデルまたは環境の生成モデルは、生成エージェントが環境について計画し、推論するための重要なコンポーネントとして登場しています。強化学習の使用は近年大きな成功を収めてきましたが、強化学習を実装するモデルは、サンプル効率が低いことで知られており、これは実世界での応用において大きな制限となります。他方で、世界モデルは、さまざまな環境で強化学習エージェントを効率的にトレーニングする能力を示し、モデルが実世界の経験から学ぶことを可能にしました。最近の世界モデリングフレームワークは通常、環境のダイナミクスを離散的な潜在変数のシーケンスとしてモデル化します。モデルは潜在的な空間を離散化して、複合エラーを避けるため、離散的な潜在変数を使用することで大きな結果をもたらすことができます。ただし、このアプローチは情報の損失にも関連しており、再構成の品質と一般性の損失につながります。情報の損失は、情報が適切に定義されている必要がある実世界のシナリオ、たとえば自動運転車のトレーニングにおいて、大きな障害となる可能性があります。こうしたタスクでは、視覚的な入力の小さな変更や詳細、たとえば交通信号の色や前の車両のターンシグナルは、エージェントのポリシーを変更する可能性があります。離散的な潜在変数の数を増やすことで情報の損失を避けることができますが、計算コストが大幅に増加します。さらに、近年、拡散モデルは、高品質の画像生成フレームワークの支配的なアプローチとして登場しました。拡散モデルは、ノイズ化プロセスを逆転させることでサンプルを生成し、非平衡熱力学から多大なインスピレーションを得ています。DIAMONDフレームワークは、連続的な時間変数で索引付けされた拡散プロセスを考慮し、対応する余分と境界条件とともに、扱いやすい非構造化事前分布を持ちます。さらに、生成モデルを取得するために、DIAMONDフレームワークはノイズからデータへのマッピングを行う必要があります。逆転プロセスも拡散プロセスであり、時間の逆方向に実行されます。さらに、任意の時点で、スコア関数を推定することは簡単ではありません。DIAMONDフレームワークは、実際のスコア関数へのアクセスがないため、スコアマッチングオブジェクトを実装して、スコアモデルをトレーニングするフレームワークを提供します。スコアベースの拡散モデルは、無条件の生成モデルを提供します。ただし、環境のダイナミクスを条件付けるために、世界モデルとして使用するには、条件付き生成モデルが必要です。DIAMONDフレームワークは、一般的なPOMDPアプローチを考慮し、過去の観測と行動を使用して未知のマルコフ状態を近似することができます。図1に示すように、DIAMONDフレームワークはこの履歴を使用して拡散モデルを条件付けて、次の観測を直接推定および生成します。理論的には、DIAMONDフレームワークは任意のSDEまたはODEソルバーを使用できますが、NFE（関数評価の数）とサンプルの品質のトレードオフがあり、拡散モデルの推論コストに大きな影響を与えます。上記の知識を基に、拡散ベースの世界モデルの実用的実現、特に拡散係数と対応する拡散アプローチの特定の選択について見てみましょう。DDPMは自然な候補ですが、DIAMONDフレームワークはEDM形式を使用し、拡散時間の実数値関数であるノイズスケジュールを持つ摂動カーネルを考慮します。フレームワークは、入力と出力の分散を維持するために、前処理器を選択します。ネットワークトレーニングは、劣化レベルに応じてシグナルとノイズを適応的に組み合わせます。ノイズが低い場合、ターゲットはクリーンシグナルと摂動シグナルとの差、つまり追加されたガウシアンノイズになります。直感的には、これにより、低ノイズレジームでのトレーニングオブジェクトが簡単になるのを防ぎます。実践的には、この目的はノイズスケジュールの端では高分散であるため、ノイズレベルを対数正規分布からサンプリングして、トレーニングを中ノイズ領域に集中させます。DIAMONDフレームワークは、ベクトル場のために標準的なU-Net 2Dコンポーネントを使用し、過去の観測と行動を保持するバッファーを保持します。DIAMONDフレームワークはこれらの過去の観測を次のノイズ観測に結合し、適応グループ正規化レイヤーを使用して、U-Netの残差ブロック内の入力アクションを結合します。DIAMOND：方法論とアーキテクチャ拡散モデルは、ノイズ化プロセスを逆転させることでサンプルを生成する、生成モデルのクラスです。非平衡熱力学から多大なインスピレーションを得ています。DIAMONDフレームワークは、連続的な時間変数で索引付けされた拡散プロセスを考慮し、対応する余分と境界条件とともに、扱いやすい非構造化事前分布を持ちます。さらに、生成モデルを取得するために、DIAMONDフレームワークはノイズからデータへのマッピングを行う必要があります。逆転プロセスも拡散プロセスであり、時間の逆方向に実行されます。さらに、任意の時点で、スコア関数を推定することは簡単ではありません。DIAMONDフレームワークは、実際のスコア関数へのアクセスがないため、スコアマッチングオブジェクトを実装して、スコアモデルをトレーニングするフレームワークを提供します。スコアベースの拡散モデルは、無条件の生成モデルを提供します。ただし、環境のダイナミクスを条件付けるために、世界モデルとして使用するには、条件付き生成モデルが必要です。DIAMONDフレームワークは、一般的なPOMDPアプローチを考慮し、過去の観測と行動を使用して未知のマルコフ状態を近似することができます。図1に示すように、DIAMONDフレームワークはこの履歴を使用して拡散モデルを条件付けて、次の観測を直接推定および生成します。理論的には、DIAMONDフレームワークは任意のSDEまたはODEソルバーを使用できますが、NFE（関数評価の数）とサンプルの品質のトレードオフがあり、拡散モデルの推論コストに大きな影響を与えます。Atari 100kベンチマークを使用して、包括的な評価を行います。Atari 100kベンチマークは、エージェントの幅広い能力をテストするために設計された26のゲームで構成されています。各ゲームでは、エージェントは環境で100,000回のアクションを実行することによって、ゲームを学習する前に評価されます。これは、人間のゲームプレイの約2時間に相当します。比較として、制限なしのAtariエージェントは通常、50百万ステップでトレーニングされ、経験の500倍の増加を表します。私たちは、各ゲームで5つのランダムシードを使用してDIAMONDをスクラッチからトレーニングしました。各トレーニングランは、約12GBのVRAMを必要とし、単一のNvidia RTX 4090で約2.9日かかり、合計で1.03のGPU年を要しました。次の表には、すべてのゲームのスコア、平均、人間の正規化スコアのIQM（四分位間平均）が示されています。点推定の限界に従って、DIAMONDフレームワークは、人間の正規化スコアの平均とIQMの層化ブートストラップ信頼区間を提供します。さらに、パフォーマンスプロファイルと追加のメトリクスが次の図にまとめられています。結果は、DIAMONDがベンチマーク全体で優れたパフォーマンスを示していることを示しています。11のゲームで人間のプレイヤーを上回り、平均人間の正規化スコア1.46を達成し、世界モデル内で完全にトレーニングされたエージェントの新しいベンチマークを設定しています。さらに、DIAMONDのIQMはSTORMと比較可能であり、他のすべてのベースラインを上回っています。DIAMONDは、 Asterix、Breakout、RoadRunnerなどの環境で、小さな詳細を捉えることが重要な場合に優れています。さらに、前述のように、DIAMONDフレームワークは、パイプラインで任意の拡散モデルを実装する柔軟性を持っています。EDMアプローチを選択していますが、DDPMモデルはすでに多くの画像生成アプリケーションで実装されているため、DDPMモデルを選択することも自然な選択です。EDMアプローチとDDPMの実装を比較するために、DIAMONDフレームワークは、同じネットワークアーキテクチャを使用して、同じ静的データセットで両方のバリアントをトレーニングします。世界モデルの推論コストに直接関係するため、ノイズ除去ステップの数を最小限に抑えることを目指しています。理想的には10未満のノイズ除去ステップを使用することを目指しています。ただし、ノイズ除去ステップの数を低すぎる設定すると、視覚的な品質が低下し、複合エラーが発生する可能性があります。さまざまな拡散バリアントの安定性を評価するために、n≤10の異なるノイズ除去ステップ数を使用して、t=1000のタイムステップまでオートレグレッシブに生成された想像トラジェクトを表示します。DDPM（a）を使用すると、このレジームでは深刻な複合エラーが発生し、世界モデルがすぐに分布から外れてしまいます。一方、EDMベースの拡散世界モデル（b）は、長時間のホライズンで、1つのノイズ除去ステップでも、はるかに安定しています。想像トラジェクトは、DDPM（左）とEDM（右）に基づく拡散世界モデルで生成されます。初期観測はt=0で同じですが、各行はノイズ除去ステップの減少を表します。DDPMベースの生成は複合エラーに苦労し、ノイズ除去ステップの数が少ないとエラーが早く蓄積します。一方、DIAMONDのEDMベースの世界モデルは、n=1の場合でもはるかに安定しています。最適な1ステップ予測は、与えられたノイズ入力に対する可能な再構成の期待値であり、後部分布が多峰性の場合、分布外の場合になります。いくつかのゲーム、たとえばBreakoutは、1つのノイズ除去ステップで正確にモデル化できる決定的な遷移を持ちますが、他のゲームは部分的に観測可能であり、多峰性の観測分布を示します。このような場合、特定のモードに向けてサンプリング手順を導くための反復ソルバーが必要です。ボクシングゲームの図に示すように。したがって、DIAMONDフレームワークはすべての実験でn=3を設定します。上記の図は、ボクシングでのシングルステップ（上行）とマルチステップ（下行）サンプリングを比較しています。黒いプレイヤーの動きは予測できないため、シングルステップの除去は可能な結果の間で補間し、ぼやけた予測を生成します。一方、複数ステップのサンプリングは、特定のモードに向けて生成を導くことで、明確な画像を生成します。興味深いことに、ポリシーが白いプレイヤーを制御するため、彼の行動は世界モデルにわかっているため、両方のシングルステップとマルティステップのサンプリングは、白いプレイヤーの位置を正しく予測します。上記の図は、DIAMONDによって想像されたトラジェクトリとIRISによって想像されたトラジェクトリを比較しています。IRISによって生成されたトラジェクトリには、フレーム間の視覚的な不一致（白いボックスで強調表示）が含まれています。たとえば、敵が報酬として表示されたり、その逆が表示されたりします。こうした不一致はわずか数ピクセルに影響する可能性がありますが、強化学習の学習に大きな影響を与える可能性があります。たとえば、エージェントは通常、報酬をターゲットとし、敵を避けることを目指します。こうした小さな視覚的な不一致は、最適なポリシーを学習することをより困難にします。図は、IRIS（左）とDIAMOND（右）で想像された連続するフレームを示しています。白いボックスは、IRISによって生成されたトラジェクトリでのみ発生するフレーム間の不一致を強調しています。Asterix（上行）では、敵（オレンジ）が2番目のフレームで報酬（赤）になり、3番目のフレームで敵になり、4番目のフレームで再び報酬になります。Breakout（中行）では、ブロックとスコアがフレーム間で一貫性がありません。Road Runner（下行）では、報酬（道路上的小さな青い点）はフレーム間で一貫してレンダリングされていません。こうした不一致はDIAMONDでは発生しません。Breakoutでは、赤いブロックが破壊されたときにスコアが+7で信頼性の高い更新されます。結論この記事では、DIAMONDについて説明しました。DIAMONDは、拡散世界モデル内でトレーニングされた強化学習エージェントです。DIAMONDフレームワークは、拡散世界モデルが長時間のホライズンで効率的かつ安定したままであることを保証するための、慎重な設計選択を行います。DIAMONDは、Atari 100kベンチマークで新しいベンチマークを設定し、平均人間の正規化スコア1.46を達成し、世界モデル内で完全にトレーニングされたエージェントの最高スコアを達成します。画像空間で動作することで、DIAMONDの拡散世界モデルは環境をシームレスに置き換えることができ、世界モデルとエージェントの動作についての洞察を提供します。特に、特定のゲームでのパフォーマンスの向上は、重要な視覚的な詳細のモデリングの改善に帰因します。DIAMONDフレームワークは、環境を標準的なPOMDPまたは部分的に観測可能なマルコフ決定プロセスとしてモデル化し、状態のセット、離散的な行動のセット、画像観測のセットを持ちます。遷移関数は環境のダイナミクスを記述し、報酬関数は遷移をスカラー報酬にマップします。
人工知能 July 15, 2024

Paint3D：イメージ生成におけるライトニングレス拡散モデル

ディープジェネレーティブAIモデルは、自然言語生成、3D生成、イメージ生成、音声合成など、驚くべき能力を示してきました。3Dジェネレーティブモデルは、さまざまな業界やアプリケーションを変革し、現在の3Dプロダクションの風景を変えています。しかし、多くの現在のディープジェネレーティブモデルは、複雑なワイヤリングやライトニングテクスチャーを持つメッシュが、従来のレンダリングパイプライン（Physically Based Rendering）と互換性がないという課題に直面しています。拡散ベースのモデルは、ライトニングテクスチャーを持たない3Dアセットを生成する能力が優れていますが、3Dオブジェクトの形状を完全に理解することができません。この記事では、Paint3Dという、新しい粗密なフレームワークについて説明します。Paint3Dは、視覚的またはテキスト入力に基づいて、テクスチャーが付いていない3Dメッシュに対して、多様で高解像度の2K UVテクスチャーマップを生成することができます。Paint3Dの主な課題は、照明情報を埋め込まない高品質のテクスチャーを生成することです。Paint3Dフレームワークは、事前トレーニングされた2D拡散モデルを使用して、多視点テクスチャー融合を実行し、初期の粗いテクスチャーマップを生成します。しかし、2Dモデルは、3D形状を完全に表現できないため、テクスチャーマップには照明の影響が残る可能性があります。この記事では、Paint3Dフレームワークの詳細について説明します。Paint3Dフレームワークは、粗密なテクスチャー生成モデルであり、事前トレーニングされたジェネレーティブAIモデルとイメージ生成の強力なプロンプトガイダンスを利用して、3Dオブジェクトをテクスチャー化します。最初の段階では、Paint3Dは、多視点イメージを事前トレーニングされた2Dイメージ拡散モデルからサンプリングし、初期のテクスチャーマップを生成します。2番目の段階では、Paint3Dは、照明の影響を除去し、形状に応じた不完全な領域を精製するために、拡散プロセスをUV空間で実行します。Paint3Dフレームワークは、多様で高解像度の2K UVテクスチャーマップを生成することができます。Paint3Dは、テクスチャー生成タスクでStable Diffusionテキストイメージモデルを使用し、イメージエンコーダーコンポーネントはイメージ条件を管理します。Paint3Dフレームワークは、ControlNetドメインエンコーダーを使用して、イメージインペイント、深度処理、ハイデフィニションイメージなどの条件タスクを実行します。Paint3D：概要ディープジェネレーティブAIモデルは、自然言語生成、3D生成、イメージ生成など、驚くべき能力を示してきました。しかし、多くの現在のディープジェネレーティブモデルは、複雑なワイヤリングやライトニングテクスチャーを持つメッシュが、従来のレンダリングパイプラインと互換性がないという課題に直面しています。Paint3Dフレームワークは、粗密なテクスチャー生成モデルであり、事前トレーニングされたジェネレーティブAIモデルとイメージ生成の強力なプロンプトガイダンスを利用して、3Dオブジェクトをテクスチャー化します。方法とアーキテクチャPaint3Dフレームワークは、条件入力（イメージやプロンプト）に基づいて、3Dモデルに対して多様で高品質のテクスチャーを生成するために、テクスチャーマップを生成し、精製します。以下のイメージは、Paint3Dフレームワークのアーキテクチャを示しています。ステージ1：粗いテクスチャー生成初期の粗いテクスチャー生成段階では、Paint3Dは、事前トレーニングされた2Dイメージ拡散モデルを使用して、多視点イメージをサンプリングし、初期のテクスチャーマップを生成します。この段階では、3Dメッシュの可視領域から開始し、最初のカメラビューからテクスチャーを生成します。次に、テクスチャーイメージをサンプリングし、3Dメッシュの表面に投影します。このプロセスは、繰り返し実行され、不完全な領域を埋め合わせるために、深度認識イメージインペイントエンコーダーを使用します。ステージ2：UV空間でのテクスチャー精製粗いテクスチャーマップを生成した後、Paint3Dは、UV空間での拡散プロセスを実行して、テクスチャーマップを精製します。この段階では、照明の影響を除去し、形状に応じた不完全な領域を精製します。Paint3Dは、位置情報を使用して、テクスチャーの断片を接続し、UV空間でのテクスチャー精製を実行します。Paint3D：実験と結果Paint3Dフレームワークは、Stable Diffusionテキストイメージモデルを使用して、テクスチャー生成タスクを実行します。Paint3Dは、ControlNetドメインエンコーダーを使用して、イメージインペイント、深度処理、ハイデフィニションイメージなどの条件タスクを実行します。以下のイメージは、Paint3Dフレームワークの実験結果を示しています。テキストからテクスチャーへの比較Paint3Dフレームワークの性能を評価するために、テキストプロンプトに基づいてテクスチャーを生成し、他のフレームワーク（Text2Tex、TEXTure、LatentPaint）と比較しました。結果は、以下のイメージに示されています。イメージからテクスチャーへの比較Paint3Dフレームワークの性能を評価するために、イメージプロンプトに基づいてテクスチャーを生成し、他のフレームワーク（TEXTure）と比較しました。結果は、以下のイメージに示されています。最終的な考えこの記事では、Paint3Dという、新しい粗密なフレームワークについて説明しました。Paint3Dは、視覚的またはテキスト入力に基づいて、テクスチャーが付いていない3Dメッシュに対して、多様で高解像度の2K UVテクスチャーマップを生成することができます。Paint3Dフレームワークは、粗密なテクスチャー生成モデルであり、事前トレーニングされたジェネレーティブAIモデルとイメージ生成の強力なプロンプトガイダンスを利用して、3Dオブジェクトをテクスチャー化します。Paint3Dは、照明の影響を除去し、形状に応じた不完全な領域を精製するために、拡散プロセスをUV空間で実行します。結果は、Paint3Dフレームワークが、他のフレームワークよりも優れた性能を示していることを示しています。
人工知能 July 9, 2024

マークLLM: LLMのウォーターマーキングツールキット

LLMのウォーターマーキングは、LLMによって生成されたテキストを識別するために、LLMの出力に検出可能な信号を組み込む技術です。この技術は、LLMの誤用を防ぐために重要です。ウォーターマーキング技術は、主に2つのカテゴリに分けられます。KGWファミリーとクリストファミリーです。KGWファミリーは、LLMによって生成されるログを変更してウォーターマークを付けた出力を生成します。クリストファミリーは、LLMのテキスト生成プロセス中にサンプリングプロセスを変更してウォーターマークを埋め込みます。両方のウォーターマーキングファミリーは、ウォーターマークの検出可能性とテキストの品質のバランスを取ることを目指しています。近年、LLMのウォーターマーキング技術の研究が進んでいます。ウォーターマーキング技術は、LLMによって生成されたテキストを識別するために重要な役割を果たします。マークLLMは、LLMのウォーターマーキングアルゴリズムを実装するための統一されたフレームワークを提供します。また、ユーザーに親しみやすいインターフェースを提供して、ウォーターマーキングアルゴリズムの実験を容易にします。マークLLMは、LLMのウォーターマーキングアルゴリズムの評価を容易にするために、12のツールを提供します。これらのツールは、ウォーターマークの検出可能性、ロバスト性、テキストの品質の影響を評価するために使用できます。また、マークLLMは、2つの自動評価パイプラインを提供します。これらのパイプラインは、ウォーターマークの検出可能性とテキストの品質の評価を容易にするために使用できます。マークLLM: LLMウォーターマーキングツールキット大規模言語モデルフレームワークの出現により、AIモデルが特定のタスクを実行する能力が大幅に向上しました。しかし、大規模言語モデルの優れた能力とともに、学術論文のゴーストライティング、LLMによって生成された偽のニュースや画像、個人の偽装などのリスクも生じています。これらのリスクを軽減するために、LLMによって生成されたテキストと人間が生成したテキストを区別する方法を開発することが重要です。LLMのウォーターマーキングは、LLMによって生成されたテキストを識別するために重要な役割を果たします。マークLLMは、LLMのウォーターマーキングアルゴリズムを実装するための統一されたフレームワークを提供します。また、ユーザーに親しみやすいインターフェースを提供して、ウォーターマーキングアルゴリズムの実験を容易にします。マークLLMは、LLMのウォーターマーキングアルゴリズムの評価を容易にするために、12のツールを提供します。これらのツールは、ウォーターマークの検出可能性、ロバスト性、テキストの品質の影響を評価するために使用できます。多くのウォーターマーキングアルゴリズムが提案されていますが、それぞれの実装アプローチは特定の要件を優先するために標準化されていません。これにより、既存の方法を最適化または拡張するために多大な労力が必要になります。マークLLMは、LLMのウォーターマーキングアルゴリズムを実装するための統一されたフレームワークを提供します。また、ユーザーに親しみやすいインターフェースを提供して、ウォーターマーキングアルゴリズムの実験を容易にします。クラス設計の標準化不足: これにより、既存の方法を最適化または拡張するために多大な労力が必要になります。トップレベル呼び出しインターフェースの統一性不足: これにより、バッチ処理やさまざまなアルゴリズムの複製が困難になります。コード標準の問題: これにより、カスタマイズや有効な使用が困難になります。マークLLMは、LLMのウォーターマーキングアルゴリズムの評価を容易にするために、12のツールを提供します。これらのツールは、ウォーターマークの検出可能性、ロバスト性、テキストの品質の影響を評価するために使用できます。また、マークLLMは、2つの自動評価パイプラインを提供します。これらのパイプラインは、ウォーターマークの検出可能性とテキストの品質の評価を容易にするために使用できます。マークLLM: アーキテクチャと方法論LLMのウォーターマーキング技術は、主に2つのカテゴリに分けられます。KGWファミリーとクリストファミリーです。KGWファミリーは、LLMによって生成されるログを変更してウォーターマークを付けた出力を生成します。クリストファミリーは、LLMのテキスト生成プロセス中にサンプリングプロセスを変更してウォーターマークを埋め込みます。両方のウォーターマーキングファミリーは、ウォーターマークの検出可能性とテキストの品質のバランスを取ることを目指しています。自動化された包括的な評価LLMのウォーターマーキングアルゴリズムの評価は、複雑なタスクです。マークLLMは、LLMのウォーターマーキングアルゴリズムの評価を容易にするために、12のツールを提供します。これらのツールは、ウォーターマークの検出可能性、ロバスト性、テキストの品質の影響を評価するために使用できます。また、マークLLMは、2つの自動評価パイプラインを提供します。これらのパイプラインは、ウォーターマークの検出可能性とテキストの品質の評価を容易にするために使用できます。評価パイプラインマークLLMは、LLMのウォーターマーキングアルゴリズムの評価を容易にするために、2つの評価パイプラインを提供します。これらのパイプラインは、ウォーターマークの検出可能性とテキストの品質の評価を容易にするために使用できます。 DirectQual: このパイプラインは、ウォーターマークの付いたテキストと付いていないテキストの品質を比較するために使用されます。 RefQual: このパイプラインは、ウォーターマークの付いたテキストと付いていないテキストの品質を、共通の参照テキストと比較するために使用されます。 ExDisQual: このパイプラインは、ウォーターマークの付いたテキストと付いていないテキストの品質を、外部のジャッジャーを使用して評価するために使用されます。マークLLM: 実験と結果マークLLMは、LLMのウォーターマーキングアルゴリズムの評価を容易にするために、9つのアルゴリズムを使用して評価を行います。上の表は、9つのアルゴリズムの検出可能性の評価結果を示しています。最終的な考えこの記事では、マークLLMについて説明しました。マークLLMは、LLMのウォーターマーキングアルゴリズムを実装するための統一されたフレームワークを提供します。また、ユーザーに親しみやすいインターフェースを提供して、ウォーターマーキングアルゴリズムの実験を容易にします。マークLLMは、LLMのウォーターマーキングアルゴリズムの評価を容易にするために、12のツールを提供します。これらのツールは、ウォーターマークの検出可能性、ロバスト性、テキストの品質の影響を評価するために使用できます。
人工知能 June 14, 2024

MoRA：PEFTのためのハイランク更新

LoRA（Low-Rank Adaption）またはPEFT（Parameter Efficient Fine-Tuning）の一種であるLoRAは、他の方法と比較して堅牢なパフォーマンスと広範な適用性を持つため、LLM（Large Language Model）のファインチューニングに最も人気のあるPEFT方法の1つです。LoRAフレームワークは、2つの低ランク行列を使用して、FFT（Full Fine Tuning）での重み更新を分解し、近似します。LoRAフレームワークは、これらの学習可能なパラメータを調整することで、これらの行列を変更します。プロセスを実装する主な利点は、LoRAフレームワークがファインチューニング後の推論遅延なしにこれらの行列をマージできることです。さらに、最近の大規模言語モデルは、コンテキスト内学習タスクで優れたパフォーマンスを発揮しますが、ファインチューニングが必要なシナリオも依然として存在し、主に3種類に分類できます。最初のタイプは、LLMをエンドタスクやユーザーの好みとよりよく一致させることを目的としたインストラクションチューニングであり、LLMの知識や能力を向上させることを目的としません。このアプローチにより、さまざまなタスクや複雑な指示を処理するプロセスが簡素化されます。2番目のタイプは、数学的な問題解決のような複雑な推論タスクを含みます。最後に、3番目のタイプは、LLMの全体的なドメイン固有の能力を向上させることを目的とした継続的プレトレーニングです。この記事では、LoRAフレームワークのパフォーマンスに低ランク更新が与える影響について話し合います。低ランク更新メカニズムが、LLMが新しい知識を学習し、記憶する能力を妨げる可能性があることが観察されています。同様に、この記事では、同じ数の学習可能なパラメータを使用して高ランク更新を実現する新しい方法であるMoRAについて話し合います。MoRAフレームワークは、低ランク行列ではなく、正方行列を使用します。MoRAフレームワークは、入力次元を減らし、出力次元を増やすことで、正方行列の学習可能な行列を実現します。さらに、これらの演算子により、重みをLLMにマージすることが可能になり、MoRAフレームワークはLoRAと同様に展開可能になります。この記事は、MoRAフレームワークを深く掘り下げ、メカニズム、方法論、フレームワークのアーキテクチャを探求し、最先端のフレームワークと比較します。では、始めましょう。MoRA：PEFTのためのハイランク更新言語モデルのサイズと能力が増加するにつれて、PEFTは、LLMを特定のダウンストリームタスクに適応させるための最も人気のある効率的な方法の1つとして登場しています。FFTと比較して、PEFTは全パラメータを更新するのではなく、総パラメータの小さな部分のみを変更します。PEFTは、FFTと同等のパフォーマンスを達成するために、総パラメータの1％未満を更新するだけで済みます。これにより、最適化器のメモリ要件が大幅に削減され、モデルの保存と展開が容易になります。さらに、PEFT方法の中で、LoRAはLLMで最も人気のある方法です。LoRA方法が、他のPEFT方法よりも優れたパフォーマンスを発揮する主な理由は、LoRAが低ランク行列を使用してパラメータを更新することです。LoRAフレームワークは、これらの行列を元のモデルパラメータにマージする機能を提供し、推論時の計算要件を追加しません。さらに、LoRAを大規模言語モデルで改良しようとする多くの方法は、GLUEを使用してその効率を検証します。少ない学習可能なパラメータを必要とするか、優れたパフォーマンスを達成するかです。LoRAを大規模言語モデルで改良しようとする多くの方法は、GLUEを使用してその効率を検証します。少ない学習可能なパラメータを必要とするか、優れたパフォーマンスを達成するかです。LoRAの実験は、継続的プレトレーニング、数学的推論、インストラクションチューニングを含む幅広いタスクで実施され、LoRAベースのフレームワークがこれらのタスクで同等のパフォーマンスを発揮することを示しています。さらに、LoRAベースのモデルは、FFTベースの方法と同等のパフォーマンスをインストラクションチューニングタスクで発揮します。しかし、LoRAベースのモデルは、継続的プレトレーニングや数学的推論タスクでFFTベースの方法と同等のパフォーマンスを発揮できません。LoRAが低ランク行列更新に依存していることが、このパフォーマンスの低下の原因である可能性があります。低ランク更新行列は、FFTでのフルランク更新を推定するのに苦労する可能性があり、特に、ドメイン固有の知識を記憶する必要があるメモリーアイテンシブなタスクでは、限界があります。MoRAは、低ランク更新行列のランクを最大化しながら、同じ数の学習可能なパラメータを使用することで、この問題に対処しようとしています。MoRAは、低ランク行列ではなく、正方行列を使用します。次の図は、LoRAとMoRAの比較を示しています。図(a)はLoRA、図(b)はMoRAを表しています。Wはモデルからの凍結重み、MはMoRAの学習可能な行列、AとBはLoRAの学習可能な低ランク行列、rはLoRAとMoRAのランクを表します。MoRAフレームワークは、LoRAベースのモデルよりも大きなランクを示しています。さらに、MoRAフレームワークは、学習可能な行列Mと演算子を置き換えるために、対応する非パラメータ演算子を開発します。MoRAフレームワークは、LoRAと同様に、重みをLLMにマージする機能を提供します。次の表は、FFT、LoRA、LoRAのバリアント、および提案方法のパフォーマンスを、インストラクションチューニング、数学的推論、継続的プレトレーニングタスクで比較しています。MoRA：方法論とアーキテクチャ低ランク更新の影響LoRAベースのモデルの主な原理は、FFTでのフルランク更新を低ランク更新で推定することです。従来、LoRAは、与えられた事前トレーニング済みパラメータ行列に対して、2つの低ランク行列を使用して重み更新を計算します。トレーニング開始時に重み更新が0になることを保証するために、LoRAフレームワークは1つの低ランク行列をガウシアンダイストリビューションで初期化し、もう1つの低ランク行列を0で初期化します。LoRAの全体的な重み更新は、FFTでのファインチューニングと比較して低ランクですが、低ランク更新は、インストラクションチューニングやテキスト分類などの特定のタスクで、フルランク更新と同等のパフォーマンスを発揮します。しかし、LoRAフレームワークのパフォーマンスは、継続的プレトレーニングや複雑な推論タスクなどのタスクで低下します。MoRAは、低ランク更新を使用してタスクを解決することは容易ですが、モデルは能力や知識を向上させるタスクを実行するのに苦労することを提案しています。方法論コンテキスト内学習を備えたLLMは、以前のアプローチと比較して大幅なパフォーマンスの向上を示していますが、依然としてファインチューニングに依存するシナリオが存在します。これらのシナリオは、主に3種類に分類できます。最初のタイプは、LLMをエンドタスクやユーザーの好みとよりよく一致させることを目的としたインストラクションチューニングであり、LLMの知識や能力を向上させることを目的としません。このアプローチにより、さまざまなタスクや複雑な指示を処理するプロセスが簡素化されます。2番目のタイプは、数学的な問題解決のような複雑な推論タスクを含みます。最後に、3番目のタイプは、LLMの全体的なドメイン固有の能力を向上させることを目的とした継続的プレトレーニングです。さらに、LoRAのバリアントの大部分は、GLUEインストラクションチューニングやテキスト分類タスクのみを使用して、LLMのコンテキストでその有効性を評価します。インストラクションチューニングのファインチューニングには、他のタイプと比較して最も少ないリソースが必要です。したがって、LoRAバリアント間の適切な比較を提供することはできません。最近の研究では、推論タスクを評価方法に追加することが一般的になっています。しかし、小さなトレーニングセット（例えば、100万サンプル）を使用します。LLMは、このサイズの例から適切な推論を学習するのに苦労します。例えば、一部のアプローチでは、GSM8Kを使用しますが、トレーニングエピソードはわずか7,500個です。さらに、SOTA方法は39.5万サンプルでトレーニングされています。これらの数字は、LLMの推論能力を学習する能力を判断することを困難にします。低ランク更新の影響に関する観察に基づいて、MoRAフレームワークは、低ランク更新の悪影響を軽減するための新しい方法を提案します。MoRAフレームワークの基本原理は、同じ数の学習可能なパラメータを使用して、低ランク更新行列のランクを最大化することです。事前トレーニング済みの重みを考慮すると、LoRAフレームワークは、ランクrの2つの低ランク行列AとBを使用して、合計で学習可能なパラメータを使用します。しかし、同じ数の学習可能なパラメータの場合、正方行列は最大のランクを達成できます。MoRAフレームワークは、入力次元を減らし、出力次元を増やすことで、学習可能な正方行列を実現します。さらに、これらの関数は非パラメータ化された演算子でなければなりません。次元に対して線形時間で実行されることが期待されます。MoRA：実験と結果MoRAフレームワークのパフォーマンスを評価するために、幅広いタスクで評価しました。UUIDのペアを記憶する、ファインチューニングタスク、およびプレトレーニングタスクの3つのタスクで、ハイランク更新の影響を理解しました。UUIDのペアを記憶するパフォーマンスの向上を示すために、MoRAフレームワークは、FFTとLoRAフレームワークと比較して、UUIDのペアを記憶するタスクで評価されました。実験からのトレーニング損失は、次の画像に反映されています。同数の学習可能なパラメータの場合、MoRAフレームワークは既存のLoRAモデルを上回り、高ランク更新戦略の利点を示しています。次の表は、さまざまなトレーニングステップでの文字レベルのトレーニング精度をまとめたものです。LoRAと比較して、MoRAフレームワークは、UUIDのペアを記憶するために必要なトレーニングステップが少ないことがわかります。ファインチューニングタスクMoRAフレームワークのファインチューニングタスクのパフォーマンスを評価するために、大規模言語モデル用に設計された3つのファインチューニングタスクで評価しました。インストラクションチューニング、数学的推論、および継続的プレトレーニングです。MoRAモデルとLoRAモデルの両方で、高品質の対応データセットを使用しました。ファインチューニングタスクの結果は、次の表に示されています。LoRAモデルとMoRAモデルは、数学的推論とインストラクションチューニングタスクで同等のパフォーマンスを示しています。しかし、MoRAモデルは、財務および医療のドメインで継続的プレトレーニングタスクでLoRAフレームワークを上回り、高ランク更新アプローチの利点を示しています。さらに、3つのタスクはそれぞれ異なっており、異なる要件とファインチューニング能力を持っています。プレトレーニングハイランク更新の全体的なパフォーマンスへの影響を評価するために、MoRAフレームワーク内のトランスフォーマーは、C4データセットからスクラッチでトレーニングされ、LoRAモデルとReLoRAモデルと比較して評価されました。C4データセットでのプレトレーニング損失と複雑さは、次の図に示されています。 MoRAモデルは、LoRAモデルとReLoRAモデルと比較して、プレトレーニングタスクで優れたパフォーマンスを示しています。さらに、低ランク更新行列の学習された低ランク更新行列のスペクトルを分析することで、ハイランク更新のランクへの影響を示すために、MoRAフレームワークは、250Mモデルのプレトレーニングで学習された低ランク更新行列のスペクトルを分析しました。結果は、次の画像に示されています。最終的な考えこの記事では、LoRAフレームワークのパフォーマンスに低ランク更新が与える影響について話し合いました。低ランク更新メカニズムが、LLMが新しい知識を学習し、記憶する能力を妨げる可能性があることが観察されています。同様に、この記事では、同じ数の学習可能なパラメータを使用して高ランク更新を実現する新しい方法であるMoRAについて話し合いました。MoRAフレームワークは、低ランク行列ではなく、正方行列を使用します。MoRAフレームワークは、入力次元を減らし、出力次元を増やすことで、正方行列の学習可能な行列を実現します。さらに、これらの演算子により、重みをLLMにマージすることが可能になり、MoRAフレームワークはLoRAと同様に展開可能になります。
人工知能 June 11, 2024

LightAutoML: オートMLフレームワーク для金融サービス

オートMLは数年前に人気を博したが、オートMLの初期の研究は90年代初頭に科学者がハイパーパラメータ最適化に関する最初の論文を発表したときに始まった。2014年にICMLが最初のオートMLワークショップを開催したとき、オートMLはML開発者の注目を集めた。オートMLの主要な焦点の1つは、ハイパーパラメータ検索問題であり、モデルは特定の機械学習モデルに対して大きなハイパーパラメータ空間で最適なハイパーパラメータを決定するために、さまざまな最適化方法の配列を実装する。オートMLモデルが一般的に実装するもう1つの方法は、特定のハイパーパラメータが特定の機械学習モデルに対して最適なハイパーパラメータである確率を推定することである。モデルは、従来、歴史的なデータや他のデータセットから得られるベイジアン方法を実装することでこれを達成する。ハイパーパラメータ最適化に加えて、他の方法は、モデルの空間から最適なモデルを選択することを試みる。この記事では、LightAutoMLという、主に金融部門のヨーロッパ企業とそのエコシステムのために開発されたオートMLシステムについて説明する。LightAutoMLフレームワークは、さまざまなアプリケーションに展開されており、結果は優れたパフォーマンスを示し、データサイエンティストのレベルに相当する、高品質の機械学習モデルを構築することにも成功した。LightAutoMLフレームワークは、以下の貢献を試みている。まず、LightAutoMLフレームワークは、主に大きなヨーロッパの金融および銀行機関のエコシステムのために開発された。フレームワークとアーキテクチャのため、LightAutoMLフレームワークは、複数のオープンベンチマークとエコシステムアプリケーションで、最先端のオートMLフレームワークを上回ることができる。LightAutoMLフレームワークのパフォーマンスは、データサイエンティストによって手動で調整されたモデルと比較され、結果はLightAutoMLフレームワークのパフォーマンスが優れていることを示した。この記事は、LightAutoMLフレームワークを深く掘り下げ、メカニズム、方法論、フレームワークのアーキテクチャ、そして最先端のフレームワークとの比較を探る。では、始めましょう。LightAutoML: 金融サービス向けオートMLフレームワーク研究者がオートMLを初めて研究し始めたのは90年代初頭だったが、オートMLは最近数年で大きな注目を集めた。プロミネントな工業的な解決策の多くは、AmazonのAutoGluon、DarwinAI、H20.ai、IBM Watson AI、Microsoft AzureMLなど、自動的に機械学習モデルを構築する。多くのこれらのフレームワークは、金融サービス、ヘルスケア、教育など、さまざまなアプリケーションクラス全体で自動的に機械学習モデルを構築するための一般的なオートMLソリューションを実装する。背後にある主な仮定は、自動モデルを開発するプロセスはすべてのアプリケーション全体で同じであるということである。しかし、LightAutoMLフレームワークは、一般的なオートMLソリューションではなく、個々のアプリケーションのニーズに応える垂直的なアプローチを実装する。LightAutoMLフレームワークは、複雑なエコシステムとその特性に焦点を当てた垂直的なオートMLソリューションである。まず、LightAutoMLフレームワークは、高速で近似的に最適なハイパーパラメータ検索を提供する。モデルはこれらのハイパーパラメータを直接最適化しないが、満足のいく結果を達成する。さらに、モデルは、最適なモデルを小さな問題で、そして大きな問題で十分に高速であることを保証するために、スピードとハイパーパラメータ最適化のバランスを動的に保つ。2つ目、LightAutoMLフレームワークは、モデルの実行時間を悪影響なく高速化するために、機械学習モデルの範囲を故意に2つ、線形モデルとGBMまたは勾配ブースティング決定木のみに制限する。機械学習モデルの範囲を制限する主な理由は、与えられた問題とデータの種類に対して、パフォーマンスに悪影響を与えることなく、モデルの実行時間を高速化することである。3つ目、LightAutoMLフレームワークは、モデルの特徴に基づいて、特定の選択ルールとメタ統計を使用して、さまざまな特徴の前処理スキームを選択するための独自の方法を提示する。LightAutoMLフレームワークは、幅広いオープンデータソースとさまざまなアプリケーションで評価される。LightAutoML: 方法論とアーキテクチャLightAutoMLフレームワークは、Presetsというモジュールで構成されており、典型的な機械学習タスクのエンドツーエンドモデル開発に専用である。現在、LightAutoMLフレームワークはPresetsモジュールをサポートする。まず、TabularAutoML Presetは、表形式データセットで定義された古典的な機械学習問題を解決することに焦点を当てている。2つ目、White-Box Presetは、WoEまたはWeight of Evidenceエンコーディングと離散化された特徴ではなく、ロジスティック回帰などのシンプルな解釈可能なアルゴリズムを実装して、表形式データの二項分類タスクを解決する。シンプルな解釈可能なアルゴリズムを実装することは、さまざまな要因によって解釈可能性の制約が課されるため、適用可能性の確率をモデル化するための一般的な慣行である。3つ目、NLP Presetは、事前トレーニングされた深層学習モデルや特定の特徴抽出器を含むNLPツールと組み合わせて表形式データを処理することができる。最後に、CV Presetは、基本的なツールの助けを借りて画像データを処理する。LightAutoMLモデルがすべての4つのPresetsをサポートしていることにもかかわらず、フレームワークはプロダクションレベルのシステムでTabularAutoMLのみを使用することが重要である。LightAutoMLフレームワークの典型的なパイプラインは、以下の画像に示されている。各パイプラインには3つのコンポーネントがある。まず、Readerは、タスクの種類と生データを受け取るオブジェクトであり、重要なメタデータ計算を実行し、初期データをクリーンアップし、さまざまなモデルを適合させる前にデータ操作を決定する。次に、LightAutoMLの内部データセットには、CVイテレータとメタデータが含まれており、データセットの検証スキームを実装する。3つ目は、単一の予測を得るためにスタックされまたはブレンドされる複数の機械学習パイプラインである。LightAutoMLフレームワークのアーキテクチャ内の機械学習パイプラインは、単一のデータ検証と前処理スキームを共有する複数の機械学習モデルの1つである。前処理ステップには、最大2つの特徴選択ステップ、特徴エンジニアリングステップ、または前処理が不要な場合は空であることがある。MLパイプラインは、同じデータセットで独立して計算され、平均化（または加重平均化）を使用してまとめることができる。代わりに、スタッキングアンサンブルスキームを使用して、マルチレベルアンサンブルアーキテクチャを構築することができる。LightAutoML タブラープリセットLightAutoMLフレームワーク内では、TabularAutoMLはデフォルトのパイプラインであり、表形式データで3つのタスクの種類を解決するために実装される: 二項分類、回帰、多クラス分類、さまざまなパフォーマンスメトリックと損失関数に対して。表形式データの4つの列、カテゴリ特徴、数値特徴、タイムスタンプ、クラスラベルまたは連続値を持つ単一のターゲット列が、TabularAutoMLコンポーネントに入力として提供される。LightAutoMLフレームワークの設計の背後にある主な目的の1つは、高速な仮説テストのツールを設計することであったため、フレームワークはパイプラインの最適化のためのブルートフォース方法を使用せず、効率性の高い技術と、幅広いデータセットで機能するモデルにのみ焦点を当てている。オートタイピングとデータ前処理さまざまな特徴をさまざまな方法で処理するために、モデルは各特徴の種類を知る必要がある。単一のタスクと小さなデータセットの場合、ユーザーは各特徴の種類を手動で指定することができる。しかし、特徴の種類を手動で指定することは、数百のタスクと数千の特徴を持つデータセットを含む状況では実行可能な選択肢ではない。TabularAutoML Presetの場合、LightAutoMLフレームワークは特徴を3つのクラスにマッピングする必要がある: 数値、カテゴリ、日時。1つのシンプルで明らかな解決策は、実際の特徴の種類として列配列データ型を使用することである: 浮動小数点/整数列を数値特徴にマッピングし、タイムスタンプまたはタイムスタンプとして解釈できる文字列を日時にマッピングし、他のものをカテゴリにマッピングする。しかし、このマッピングは、数値データ型がカテゴリ列で頻繁に発生するため、最も適切なものではない。検証スキーム検証スキームは、オートMLフレームワークの重要なコンポーネントである。業界のデータは時間の経過とともに変化するため、モデルを開発する際に、独立同分布（IID）仮定は無関係になる。オートMLモデルは、パフォーマンスを推定し、ハイパーパラメータを検索し、フォールド外予測を生成するために検証スキームを使用する。TabularAutoMLパイプラインは、以下の3つの検証スキームを実装する。 KFoldクロスバリデーション: KFoldクロスバリデーションは、TabularAutoMLパイプラインのデフォルトの検証スキームであり、行動モデルのためのGroupKFoldと、分類タスクのための層化KFoldを含む。ホールドアウト検証: ホールドアウト検証スキームは、ホールドアウトセットが指定された場合に実装される。カスタム検証スキーム: カスタム検証スキームは、ユーザーが個々の要件に応じて作成することができる。カスタム検証スキームには、クロスバリデーションと時間シリーズ分割スキームが含まれる。特徴選択特徴選択は、業界基準のモデルを開発する上で重要な側面であるが、多くのオートMLソリューションはこの問題に焦点を当てていない。対照的に、TabularAutoMLパイプラインは、以下の3つの特徴選択戦略を実装する: 選択なし、重要度カットオフ選択、重要度ベースのフォワード選択。3つの中で、重要度カットオフ選択特徴選択戦略がデフォルトである。さらに、特徴の重要度を推定する主な2つの方法がある:...
人工知能 June 6, 2024

LLaVA-UHD: 任何アスペクト比と高解像度の画像を効率的に認識する

最近の進歩と大型言語モデルの発展により、ビジョン言語推論、理解、インタラクションの能力が大幅に向上しました。現代のフレームワークでは、ビジョン言語モデルの能力を視覚的に解釈できるように、視覚信号をLLM（Large Language Model）に投影します。これは、視覚エンコーディング戦略が重要な役割を果たすさまざまなシナリオです。ただし、現実世界の画像は、シナリオの範囲が広いだけでなく、解像度とアスペクト比も大きく異なります。これは、さまざまなドメインとタスクのLLMに大きな課題をもたらします。現実世界の画像の大きな変動性に立ち向かうために、現代の大型言語モデルは、低解像度（例：LLaVA-UHDの場合、224×224）と固定のアスペクト比（1:1）で画像を認識します。解像度とアスペクト比が事前に決定されているため、モデルはぼけた画像を推測するだけとなり、モデルは事実に基づいていないテキスト応答を生成することになります。この記事では、LLaVA-UHDという新しいアプローチについて説明します。LLaVA-UHDは、LLaVA-1.5とGPT-4Vフレームワークを代表的な例として取り、視覚エンコーディング戦略の根底にある体系的な欠陥を暴くことを試みています。LLaVA-UHDフレームワークは、高解像度と任意のアスペクト比の画像を認識できるように設計されています。LLaVA-UHDフレームワークは、3つの重要なコンポーネントで構成されています。まず、ネイティブ解像度の画像を小さな可変サイズのスライスに分割する画像モジュール化戦略があります。次に、視覚エンコーダーによって生成された画像トークンをさらに凝縮する圧縮モジュールがあります。最後に、大型言語モデルにスライストークンを整理する空間スキーマがあります。包括的な実験により、LLaVA-UHDフレームワークは9つのベンチマークで最先端の大型言語モデルを上回ることが示されています。さらに、LLaVA-UHDフレームワークは、推論計算の94%しか使用せずに、6倍大きな解像度（672×1088）の画像をサポートできることが示されています。LLaVA-UHD: 任何アスペクト比と高解像度の画像を効率的に認識するビジョン言語推論、理解、インタラクションは最近大幅に進歩しました。これは、大型言語モデルの進歩によるものです。現代のフレームワークでは、視覚信号をLLM（Large Language Model）に投影することで、LLMが視覚的に世界を解釈できるようにします。これは、視覚エンコーディング戦略が重要な役割を果たすさまざまなシナリオです。ただし、現実世界の画像は、シナリオの範囲が広いだけでなく、解像度とアスペクト比も大きく異なります。これは、さまざまなドメインとタスクのLLMに大きな課題をもたらします。現代の大型言語モデルは、低解像度（例：LLaVA-UHDの場合、224×224）と固定のアスペクト比（1:1）で画像を認識します。解像度とアスペクト比が事前に決定されているため、モデルはぼけた画像を推測するだけとなり、モデルは事実に基づいていないテキスト応答を生成することになります。ベンチマークLMMは、高解像度と可変アスペクト比の画像を認識できない理由は2つあります。まず、視覚エンコーダーは固定解像度で事前に訓練されているため、モデルとエンコーダーは解像度とアスペクト比が異なる画像を扱うことが難しくなります。これにより、モデルの適応性が大幅に低下します。2つ目は、高解像度の画像を直接ビジョントランスフォーマーでエンコードすることは、計算コストが大幅に増加するためです。また、高解像度の画像を処理するために、大型言語モデルが視覚トークンの大量を処理する必要があり、モデルの全体的な効率が低下します。これらの課題に対処するために、LLaVA-UHDは、高解像度と任意のアスペクト比の画像を認識できるように設計されています。LLaVA-UHDフレームワークは、3つの重要なコンポーネントで構成されています。まず、ネイティブ解像度の画像を小さな可変サイズのスライスに分割する画像モジュール化戦略があります。次に、視覚エンコーダーによって生成された画像トークンをさらに凝縮する圧縮モジュールがあります。最後に、大型言語モデルにスライストークンを整理する空間スキーマがあります。上記の画像は、GPT-4Vが画像内のオブジェクトの数を識別する実験結果を反映しています。LLaVA-UHDフレームワークの核心には、3つのコンポーネントがあります。まず、ネイティブ解像度の画像を小さな可変サイズのスライスに分割する画像モジュール化戦略があります。これは、最近の大型言語モデルが画像を固定解像度とアスペクト比で処理するのとは対照的に、LLaVA-UHDフレームワークは画像のネイティブ解像度に完全に適応できるようにします。次に、視覚エンコーダーによって生成された画像トークンをさらに凝縮する圧縮モジュールがあります。これにより、大型言語モデルの計算コストが大幅に低減されます。最後に、空間スキーマによって、スライストークンが大型言語モデルに整理されます。LLaVA-UHD: 方法論とアーキテクチャGPT-4VやLLaVA-1.5などの既存のフレームワークに関するパイロット実験の知見に基づいて、LLaVA-UHDフレームワークは3つのコンポーネントで構成されるアーキテクチャを実装しています。これは、以下の画像に示されています。まず、ネイティブ解像度の画像を小さな可変サイズのスライスに分割する画像モジュール化戦略があります。次に、視覚エンコーダーによって生成された画像トークンをさらに凝縮する圧縮モジュールがあります。最後に、大型言語モデルにスライストークンを整理する空間スキーマがあります。これらのコンポーネントについて詳しく見てみましょう。モジュール化された視覚エンコーディング高解像度と異なるアスペクト比の画像を扱う一般的なアプローチは、ビジョントランスフォーマーまたはViTの位置埋めをターゲット形状に補間することです。ただし、このアプローチの実装は、計算コストが高く、分布外の問題が発生し、パフォーマンスが低下することがあります。LLaVA-UHDフレームワークは、モジュール化された視覚エンコーディング戦略を提案します。これは、ネイティブ解像度の画像を小さな可変サイズのスライスに分割することを目的としています。各スライスの形状は、ビジョントランスフォーマーの標準的な事前訓練設定に近いものになります。可変サイズのスライスを使用することで、LLaVA-UHDフレームワークは、ネイティブ解像度の画像に完全に適応できるようになります。さらに、画像スライシング戦略の主な目的は、各スライスの解像度の変更を最小限に抑えることです。特定の解像度（w、h）とビジョントランスフォーマーの事前訓練解像度が与えられた場合、LLaVA-UHDフレームワークは、画像を処理するために必要なスライスの数を決定します。次に、スライスの数をm列とn行に因数分解します。さらに、ビジョントランスフォーマーの標準的な事前訓練設定からの偏差を測定するスコア関数を定義します。理論的には、LLaVA-UHDフレームワークは、パーティショニング戦略で実装されたアーキテクチャが、各スライスに対して標準的な事前訓練解像度からの小さな期待変化と適度な最悪変化を保証することを示しています。さらに、多くの既存のLLMは、静的な解像度で画像スライスをエンコードします。これは、モデルがネイティブ解像度に完全に適応できないため、静的なスライス解像度は、必然的に形状の歪みをもたらすリサイズまたはパディングを招きます。LLaVA-UHDフレームワークは、画像スライスをパーティショニング戦略で定義されたアスペクト比でエンコードすることを提案します。具体的には、LLaVA-UHDフレームワークは、元の画像をアスペクト比に応じて比例してリサイズし、パッチの数がビジョントランスフォーマーの事前訓練予算内に収まるようにします。次に、LLaVA-UHDモデルは、ビジョントランスフォーマーの事前訓練された1D位置埋めを2D形式に変換します。圧縮レイヤーLLMが高解像度の画像を処理するときに直面する一般的な問題は、処理する視覚トークンの数が大幅に増加することです（例：LLaVA-1.5フレームワークは、解像度672×1008の単一の画像で約3500の視覚トークンを生成します）。これは、計算リソースとコストの主要な部分を占めます。LLaVA-UHDモデルは、画像スライスの視覚トークンを圧縮するために、共有パーシーバーリサンプラーレイヤーを実装します。モデルは、視覚エンコーダーの出力の視覚トークンを、クロスアテンションを介してクエリベクトルを使用して、より低い数にリサンプリングします。一般的なマルチレイヤーパーセプトロンベースの視覚プロジェクション戦略と比較して、LLaVA-UHDによって実装されたパーシーバーサンプルアプローチは、画像の解像度に関係なく、固定数の視覚トークンを維持することができます。これにより、LLaVA-UHDフレームワークは、高解像度画像処理と理解タスクとの互換性が向上します。具体的には、LLaVA-UHDフレームワークは、672×1008解像度の画像をエンコードするときに、LLaVA-1.5フレームワークが336×336解像度の画像をエンコードするときと同じ数のトークンを生成します。これは、競合他社よりも約6倍効率が高いです。画像スライスの空間スキーマ画像のパーティショニングが動的であるため、大型言語モデルに画像スライスの空間配置を通知することは必要です。LLaVA-UHDフレームワークは、2つの特殊トークンを使用して、LLMにスライスの相対的な位置を通知する空間スキーマを設計および実装しています。この空間スキーマでは、LLaVA-UHDフレームワークは、行内のスライス表現を区切るために「、」を使用し、行を区切るために「n」を使用します。LLaVA-UDH: 実験と結果LLaVA-UHDフレームワークは、9つの一般的なベンチマーク、光学文字ベースの視覚質問回答ベンチマーク、幻覚ベンチマーク、および包括的なベンチマークに対して評価されます。さらに、LLaVA-UHDフレームワークは、LLaVA-1.5、MiniGPT-v2、InstructBLIP、BLIP-2などの強力なベースラインと比較されます。LLaVA-UHDフレームワークの9つの一般的なベンチマークでのパフォーマンスは、以下の表にまとめられています。上記の結果に基づいて、LLaVA-UHDフレームワークは、強力なベースラインモデルを含む一般的なベンチマークで最先端のモデルを上回ることが示されています。さらに、結果は、LLaVA-UHDフレームワークが、LLaVA-1.5アーキテクチャよりも大幅に優れた結果を達成していることも示しています。一方で、LLaVA-1.5は固定336×336解像度をサポートしますが、LLaVA-UHDフレームワークは、任意のアスペクト比と同じ数の視覚トークンで672×1088解像度の画像をサポートします。最終的な考えこの記事では、LLaVA-UHDという新しいアプローチについて説明しました。LLaVA-UHDは、LLaVA-1.5とGPT-4Vフレームワークを代表的な例として取り、視覚エンコーディング戦略の根底にある体系的な欠陥を暴くことを試みています。LLaVA-UHDフレームワークは、高解像度と任意のアスペクト比の画像を認識できるように設計されています。LLaVA-UHDフレームワークは、3つの重要なコンポーネントで構成されています。まず、ネイティブ解像度の画像を小さな可変サイズのスライスに分割する画像モジュール化戦略があります。次に、視覚エンコーダーによって生成された画像トークンをさらに凝縮する圧縮モジュールがあります。最後に、大型言語モデルにスライストークンを整理する空間スキーマがあります。包括的な実験により、LLaVA-UHDフレームワークは9つのベンチマークで最先端の大型言語モデルを上回ることが示されています。さらに、LLaVA-UHDフレームワークは、推論計算の94%しか使用せずに、6倍大きな解像度（672×1088）の画像をサポートできることが示されています。
人工知能 May 31, 2024

ユニモエ：統一マルチモーダルLLMをスケーリングするための専門家の混合

最近のマルチモーダル大規模言語モデル（MLLM）のアーキテクチャとパフォーマンスの進歩は、パフォーマンスを向上させるためにスケーラブルなデータとモデルが重要であることを強調しています。ただし、このアプローチは実用的で使いやすいものではありません。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなります。モデルのサイズを増やすと、計算コストが高くなります。モデルのトレーニングと推論の両方のプロセスで計算コストが高くなり
人工知能 May 24, 2024

マンボアウト：マンボは本当にビジョンに必要ですか？

モダンな機械学習および人工知能フレームワークでは、トランスフォーマーはGPTシリーズやBERTなどの自然言語処理、コンピュータービジョンタスクなどのさまざまなドメインで最も広く使用されているコンポーネントの1つです。ただし、トランスフォーマーのアテンションモジュールはシーケンスの長さに比例して計算コストが増加し、高い計算コストの課題をもたらします。さまざまなモデルは、カーネル化、履歴メモリ圧縮、トークン混合範囲の制限、低ランクアプローチなどのさまざまな戦略を使用してこの課題に対処してきました。最近、MambaやRWKVなどの再帰型ニューラルネットワークは、大規模言語モデルの結果が約束されているため、注目を集めています。マンボは、再帰型ニューラルネットワークのようなトークンミキサーのアーキテクチャを持つモデルファミリーで、最近、トランスフォーマーのアテンションメカニズムの二次的な複雑さに対処するために導入され、後にビジョンタスクに適用されました。研究者は、MambaやSSM（State Space Model）を視覚認識タスクに組み込む方法をすでに探索しており、Mambaを使用して等方性ビジョンモデルを開発するVision Mambaはその例です。一方、LocalMambaは視覚マンボモデルを強化するためにローカル誘導バイアスを組み込み、VMambaフレームワークはベースマンボモデルを使用してResNetやAlexNetに似た階層モデルを構築します。ただし、ビジョン認識コンテキストタスクにマンボフレームワークは本当に必要なのでしょうか。マンボファミリーのモデルのパフォーマンスは、伝統的なアテンションベースおよび畳み込みモデルの比較で、ビジョンタスクで今まで不調な結果を出しています。MambaOutは、Mambaファミリーのモデルの性質を調査し、Mambaはオートリグレッシブまたは長シーケンスの特性を持つタスクに適しているという仮説を立てています。ただし、ほとんどのビジョンタスクはこれらの特性の両方を備えていないため、MambaOutは次の2つの仮説を提案しています。まず、状態空間モデルは画像分類に必要ないということです。画像分類タスクは、長シーケンスまたはオートリグレッシブの特性のいずれにも対応していないからです。2つ目は、インスタンスセグメンテーションやセマンティックセグメンテーション、およびオブジェクト検出は長シーケンスの特性を示しますが、オートリグレッシブではないため、状態空間モデルはこれらのタスクに有益である可能性があるということです。実験結果は、MambaOutフレームワークの仮説を支持しており、MambaOutフレームワークは画像分類タスクで視覚マンボモデルを上回り、検出およびセグメンテーションタスクでは最先端のマンボモデルに匹敵することができません。この記事では、MambaOutフレームワークを深く掘り下げ、メカニズム、方法、フレームワークのアーキテクチャ、最先端のフレームワークとの比較について探ります。では、始めましょう。マンボアウト：マンボは本当にビジョンに必要ですか？機械学習アプリケーションの進歩とともに、トランスフォーマーは、Vision Transformers、GPTシリーズ、BERTなどのモデルを支える主流のバックボーンとして登場しました。ただし、トランスフォーマーのトークンミキサーはシーケンスの長さに比例して二次的な複雑さをもたらします。これを解決するために、Linformer、Longformer、Performer、Dynamic Convolution、Big Birdなどのトークンミキサーが導入されています。ただし、最近、RNNのようなモデルは並列化可能なトレーニングと長シーケンスでの効率的なパフォーマンスを提供するため、注目を集めています。Mambaファミリーのモデルは、トランスフォーマーのトークンミキサーの二次的な複雑さに対処するために導入され、最近、視覚認識タスクに適用されています。MambaOutは、Mambaファミリーのモデルの性質を調査し、Mambaはオートリグレッシブまたは長シーケンスの特性を持つタスクに適しているという仮説を立てています。ただし、ほとんどのビジョンタスクはこれらの特性の両方を備えていないため、MambaOutは次の2つの仮説を提案しています。まず、状態空間モデルは画像分類に必要ないということです。画像分類タスクは、長シーケンスまたはオートリグレッシブの特性のいずれにも対応していないからです。2つ目は、インスタンスセグメンテーションやセマンティックセグメンテーション、およびオブジェクト検出は長シーケンスの特性を示しますが、オートリグレッシブではないため、状態空間モデルはこれらのタスクに有益である可能性があるということです。実験結果は、MambaOutフレームワークの仮説を支持しており、MambaOutフレームワークは画像分類タスクで視覚マンボモデルを上回り、検出およびセグメンテーションタスクでは最先端のマンボモデルに匹敵することができません。マンボに適したタスクは何か？マンボフレームワークのトークンミキサーは、選択的な状態空間モデルで、4つの入力依存パラメーターを定義します。フレームワークの再帰的特性は、RNNのような状態空間モデルを因果的アテンションから区別します。隠れ状態は、歴史情報を保存する固定サイズのメモリとして見ることができます。固定サイズのメモリは、計算コストを一定に保つことを保証します。一方、因果的アテンションレイヤーは、前のトークンからのすべてのキーと値を保存し、新しいトークンが入力されるたびにキーと値を追加します。メモリサイズは、入力されるトークンの数に比例して増加します。状態空間モデルのメモリは、因果的アテンションのメモリに比べ、損失のあるメモリです。したがって、マンボモデルは、短シーケンスを扱うタスクで因果的アテンションメカニズムに比べ、優位性を示すことができません。ただし、長シーケンスを扱うタスクでは、因果的アテンションアプローチは二次的な複雑さのために失敗します。このシナリオでは、マンボフレームワークはメモリを現在の入力と効率的に統合する能力を示し、長シーケンスをスムーズに処理することができます。また、状態空間モデルの再帰的特性により、マンボモデルは、現在および過去のタイムステップからの情報にのみアクセスできます。このタイプのトークンミキサーは、因果モードと呼ばれます。因果モードは、オートリグレッシブ生成タスクに適しています。視覚認識タスク、因果的トークンミキサーコード、そして非常に大きなシーケンス視覚認識タスクは、モデルが画像全体を一度に認識できるため、トークンミキサーの制限を必要としません。因果モードは、オートリグレッシブタスクに適しています。一方、完全可視モードは、モデルがすべての入力を一度に認識できるため、理解タスクに適しています。実験的検証と結果MambaOutフレームワークの仮説を実験的に検証するために、Mambaブロックは、ゲート化畳み込みニューラルネットワークブロックに基づいて構築されています。MambaOutフレームワークは、Mambaブロックを積み重ね、状態空間モデルを削除することで構築されています。MambaOutフレームワークの実験結果は、MambaOutフレームワークの仮説を支持しており、画像分類タスクで視覚マンボモデルを上回り、検出およびセグメンテーションタスクでは最先端のマンボモデルに匹敵することができません。画像分類タスクImageNetは、画像分類タスクのベンチマークとして使用され、1000以上の一般的なクラス、130万以上のトレーニング画像、5万以上の検証画像で構成されています。実験で使用されるデータ増強には、ランダムリサイズクロップ、Mixup、カラージッター、ランダム消去、CutMix、Rand Augmentが含まれます。次の表は、Mambaファミリーのモデル、MambaOutモデル、および他のアテンションベースおよび畳み込みモデルのImageNetデータセットでのパフォーマンスをまとめたものです。MambaOutフレームワークは、状態空間モデルなしで構築されており、画像分類タスクで視覚マンボモデルを上回ります。例えば、MambaOut-Smallモデルは、トップ1の精度スコアで84%以上を達成し、最も近いMambaの競合相手よりも0.4%高くなります。この結果は、画像分類タスクに状態空間モデルを導入する必要がないという最初の仮説を強く支持しています。オブジェクト検出およびインスタンスセグメンテーションタスクCOCOは、オブジェクト検出およびインスタンスセグメンテーションタスクのベンチマークとして使用されます。MambaOutフレームワークは、一部の視覚マンボモデルを上回りますが、最先端の視覚マンボモデル、LocalVMambaやVMambaには及ばないことがわかります。MambaOutと最先端の視覚モデルの間のパフォーマンスの差は、長シーケンスの視覚タスクにおけるMambaファミリーのモデルの潜在性を強調しています。最終的な考えマンボファミリーのモデルは、オートリグレッシブまたは長シーケンスの特性を持つタスクに適しています。MambaOutフレームワークは、画像分類タスクにマンボは必要ないという仮説を立てています。検出およびセグメンテーションタスクはオートリグレッシブではないものの、長シーケンスの特性を示します。MambaOutフレームワークは、Mambaブロックを積み重ね、状態空間モデルを削除することで構築されています。実験結果は、MambaOutフレームワークの仮説を支持しており、画像分類タスクで視覚マンボモデルを上回り、検出およびセグメンテーションタスクでは最先端のマンボモデルに匹敵することができません。

More Posts