人工知能

Sapiens: Foundation for Human Vision Models

Published September 9, 2024

Updated April 27, 2026

Kunal Kejriwal

Sapiens: Foundation for Human Vision Models

大規模事前学習とタスク固有の微調整による言語モデリングの驚くべき成功により、このアプローチは標準的な慣行として確立されています。同様に、コンピュータビジョン方法も、事前学習のために広範なデータスケールを徐々に採用しています。LAION5B、Instagram-3.5B、JFT-300M、LVD142M、Visual Genome、YFCC100Mなどの大規模データセットの出現により、従来のベンチマークの範囲を超えたデータコーパスの探索が可能になりました。このドメインでの著名な研究には、DINOv2、MAWS、AIMがあります。DINOv2は、LDV-142Mデータセットでコントラストive iBot方法をスケーリングすることで、自己教師あり特徴量の生成で最先端のパフォーマンスを達成します。MAWSは、100万枚の画像でマスク付きオートエンコーダー（MAE）のスケーリングを研究しています。AIMは、BERTと同様のビジョントランスフォーマーに対する自己回帰的ビジュアル事前学習のスケーラビリティを探索しています。これらの方法とは対照的に、Sapiensは、主に画像事前学習またはゼロショット画像分類に焦点を当てているのではなく、明らかに人間中心のアプローチを取ります。Sapiensのモデルは、人間の画像の膨大なコレクションを使用して事前学習を行い、次に人間関連タスクの範囲に微調整します。3D人間のデジタル化は、コンピュータビジョンにおける重要な目標です。

制御された環境やスタジオ環境内では重要な進歩がなされていますが、制約のない環境にこれらの方法を拡張する際には、課題が残っています。これらの課題に対処するために、キーポイント推定、ボディパーツセグメンテーション、深度推定、表面法線予測などの基本タスクを実行できる多機能モデルを開発することが重要です。Sapiensは、自然な設定でのこれらの基本的な人間の視覚タスクに一般化するモデルを開発することを目的としています。現在、最大の公開言語モデルには100Bパラメーターが含まれていますが、より一般的に使用される言語モデルには約7Bパラメーターが含まれています。一方、Vision Transformers（ViT）は、同様のアーキテクチャを共有していますが、同様のスケールまで成功的に拡張されていません。ViT-4Bをテキストと画像の両方でトレーニングしたり、ViT-22Bの安定したトレーニングのためのテクニックを開発したりするなどの注目すべき取り組みがありますが、一般的に使用されるビジョンモデルは、約300Mから600Mパラメーターで、主に224ピクセル程度の画像解像度で事前トレーニングされています。同様に、DiTなどの既存のトランスフォーマーベースの画像生成モデルは、700Mパラメーター未満を使用し、強く圧縮された潜在空間で動作します。Sapiensは、100万枚の人間の画像で1024ピクセル画像解像度でネイティブに事前トレーニングされた、大規模な高解像度ViTモデルのコレクションを導入することで、このギャップに取り組みます。

Sapiensは、2Dポーズ推定、ボディパーツセグメンテーション、深度推定、表面法線予測の4つの基本的な人間中心のビジョンタスクのモデルファミリーを提示します。Sapiensモデルは、ネイティブに1Kの高解像度推論をサポートし、300万枚以上の人間の画像で事前トレーニングされたモデルを簡単に微調整するだけで、個々のタスクに簡単に適応できます。Sapiensは、同じ計算予算の場合、人間の画像のキュレーションデータセットでの自己教師あり事前トレーニングにより、人間中心のタスクのパフォーマンスが大幅に向上することを観察します。生成されたモデルは、ラベル付きデータが不足しているか、または完全に合成されている場合でも、野外データに顕著な一般化を示します。シンプルなモデル設計もスケーラビリティをもたらします。モデルのパフォーマンスは、0.3から20億パラメーターにスケールアップするにつれて、タスク全体で向上します。Sapiensは、さまざまな人間中心のベンチマークで既存のベースラインを一貫して上回り、以前の最先端結果よりも大幅な改善を達成します。具体的には、Humans-5K（ポーズ）で7.6 mAP、Humans-2K（パーツセグ）で17.1 mIoU、Hi4D（深度）で22.4%の相対RMSE、THuman2（法線）で53.5%の相対角度誤差を達成します。

Sapiens : 人間の視覚モデルのブレークスルー

近年、2Dと3Dの写実的な人間の生成に向けて大きな進歩が見られました。これらの方法の成功は、2Dキーポイント、ボディパーツの細分化、深度、表面法線などのさまざまなアセットの強力な推定に大いに帰因します。ただし、これらのアセットのロバストで正確な推定は、依然として活発な研究分野であり、個々のタスクのパフォーマンスを向上させるために複雑なシステムが必要になることがよくあります。また、野外での正確なグラウンドトゥルース注釈を取得することは、スケーラビリティの面で非常に難しいことです。Sapiensの目標は、さまざまな人間中心のアプリケーションを可能にするために、野外でこれらのアセットを推論するための統一されたフレームワークとモデルを提供することです。

Sapiensは、人間中心のモデルは、汎用性、広範な適用可能性、そして高忠実度の3つの基準を満たすべきであると主張しています。汎用性は、モデルがさまざまな環境で一貫してパフォーマンスを発揮できることを保証します。広範な適用可能性は、モデルが最小限の変更でさまざまなタスクに適応できることを示します。高忠実度は、人間生成タスクに不可欠な、正確で高解像度の出力の生成能力を示します。この論文では、これらの属性を備えたモデルを開発することを目的としています。

Sapiensは、大規模なデータセットとスケーラブルなモデルアーキテクチャを活用しています。これらは汎用性に不可欠です。より広範な適用可能性のために、Sapiensは事前トレーニングしてから微調整するアプローチを採用しています。これにより、事前トレーニング後に特定のタスクに最小限の変更で適応できます。このアプローチは、重要な質問を提起します。計算リソースの制約を考えると、事前トレーニングに最も効果的なデータはどのようなものでしょうか。実世界の変動性を反映するために、よりキュレーションされたセットではなく、事前トレーニングに使用するべきでしょうか。既存の方法は、下流タスクの文脈で事前トレーニングデータの分布を頻繁に無視しています。事前トレーニングデータの分布が人間特有のタスクに与える影響を研究するために、Sapiensは300万枚の人間の画像を特集したHumans-300Mデータセットを収集しました。これらのラベル付けされていない画像は、スクラッチから300Mから20億パラメータまでの範囲のビジョントランスフォーマーを事前トレーニングするために使用されます。

大規模なデータセットから一般目的の視覚特徴を学習するための自己教師あり方法の多くの中で、Sapiensは、マスク付きオートエンコーダー（MAE）アプローチを、そのシンプルさと効率性により選択しています。MAEは、コントラストやマルチ推論戦略と比較して、単一パスの推論モデルを持ち、同じ計算リソースでより大規模な画像ボリュームを処理できることを可能にします。より高忠実度のために、Sapiensは、事前トレーニングのネイティブ入力解像度を1024ピクセルに増やします。これは、約4倍のFLOPS増加をもたらします。各モデルは1.2兆トークンで事前トレーニングされます。人間中心のタスクの微調整には、Sapiensは一貫したエンコーダー-デコーダーアーキテクチャを使用します。エンコーダーは事前トレーニングされた重みで初期化され、軽量でタスク固有のヘッドであるデコーダーはランダムに初期化されます。両方のコンポーネントは、端から端まで微調整されます。Sapiensは、2Dポーズ推定、ボディパーツセグメンテーション、深度推定、法線推定の4つの主要タスクに焦点を当てています。

一貫して、Sapiensは、ラベル品質がモデルの野外パフォーマンスに与える重要な影響を確認しています。パブリックベンチマークには、モデルの微調整中に一貫性のない教師信号を提供するノイズラベルが含まれています。同時に、Sapiensの主な目的である3D人間デジタル化に密接に合致するように、微調整と精密な注釈を活用することが重要です。Sapiensは、2D全身キーポイントの推定のための密度の高いコレクションと、ボディパーツセグメンテーションのための詳細なクラス語彙を提案します。これらは、以前のデータセットの範囲を超えています。具体的には、Sapiensは、ボディ、手、足、表面、顔を包含する308個のキーポイントのコレクションを導入します。さらに、Sapiensは、ヘア、舌、歯、上/下唇、胴体などのボディパーツをカバーする28クラスのセグメンテーションクラス語彙を拡張します。注釈と一貫性の品質を保証し、高度な自動化を実現するために、Sapiensはマルチビューキャプチャーセットアップを使用してポーズとセグメンテーションの注釈を収集します。Sapiensはまた、深度と法線推定のために人間中心の合成データを利用し、RenderPeopleから600個の詳細なスキャンを使用して高解像度の深度マップと表面法線を生成します。Sapiensは、ドメイン固有の事前トレーニングと、高品質の少量の注釈の組み合わせが、野外でのロバストな一般化につながることを実証しています。

Sapiens : 方法とアーキテクチャ

Sapiensは、マスク付きオートエンコーダー（MAE）アプローチに従います。モデルは、部分的な観察から元の人間の画像を再構築するようにトレーニングされます。すべてのオートエンコーダーと同様に、Sapiensのモデルには、視覚可能な画像を潜在的な表現にマッピングするエンコーダーと、この潜在的な表現から元の画像を再構築するデコーダーがあります。事前トレーニングデータセットには、単一の人間と複数の人間の画像が含まれており、各画像は固定サイズで正方形のアスペクト比にリサイズされます。ViTと同様に、画像は固定のパッチサイズで正方形のパッチに分割されます。パッチのサブセットがランダムに選択され、マスクされ、残りは視覚可能なまま残ります。マスクされたパッチと視覚可能なパッチの比率、つまりマスキング比率は、トレーニング全体を通して固定されます。

Sapiensのモデルは、画像の特徴、スケール、クロップ、被写体の年齢や民族、被写体の数など、さまざまな画像特徴にわたって汎用性を示しています。各パッチトークンは、標準のViTと比較して、0.02%の画像領域を表します。これは、16倍の削減であり、モデルのための繊細なインタートークン推論を提供します。マスク比率が95%に増加した場合でも、Sapiensのモデルは人間の解剖学の妥当な再構築を達成します。事前トレーニング済みモデルのSapienの再構築は、未見の人間の画像で示されています。

さらに、Sapiensは、約10億枚の人間の画像で構成される大規模な独自データセットを事前トレーニングに使用し、人間の画像にのみ焦点を当てています。前処理では、水印、テキスト、芸術的な表現、または非自然な要素を含む画像が破棄されます。Sapiensは、事前トレーニングに使用する画像をフィルタリングするために、オフザシェルフの人物バウンディングボックス検出器を使用し、検出スコアが0.9を超え、バウンディングボックスの寸法が300ピクセルを超える画像のみを保持します。データセットの約2億4800万枚の画像には複数の被写体が含まれています。

2Dポーズ推定

Sapienフレームワークは、エンコーダーとデコーダーをPで微調整し、複数のスケルトン（K = 17、K = 133、および新しい詳細なスケルトン、K = 308）でフィットします。

既存のフォーマットと比較して、最大で68個の顔のキーポイントがあるのに対し、Sapienの注釈には、目、唇、鼻、耳の周囲を代表する243個の顔のキーポイントが含まれています。これは、実世界での繊細な表情を正確に捉えることを目的として設計されています。これらのキーポイントを使用して、Sapienフレームワークは、4K解像度のインドアキャプチャーセットアップから100万枚の画像を手動で注釈付けします。以前のタスクと同様に、法線推定器Nのデコーダーの出力チャンネルを法線ベクトルのxyz成分に対応する3に設定します。生成された合成データは、表面法線推定のための教師信号としても使用されます。

Sapien : 実験と結果

Sapiens-2Bは、1024のA100 GPUで18日間、PyTorchを使用して事前トレーニングされます。Sapiensは、すべての実験でAdamWオプティマイザを使用します。学習スケジュールには、事前トレーニングのための短いリニアウォームアップとコサインアニーリング、微調整のためのリニア減衰が含まれます。すべてのモデルは、1024 × 1024の解像度でパッチサイズ16からスクラッチで事前トレーニングされます。微調整の際には、入力画像を4:3の比率、つまり1024 × 768にリサイズします。Sapiensは、クロッピング、スケーリング、フリッピング、光学的歪みなどの標準的な拡張を適用します。ボディパーツセグメンテーション、深度、法線予測タスクのために、非人間のCOCO画像からのランダムな背景が追加されます。重要な点として、Sapiensは、初期層には低い学習率を、続く層には徐々に高い学習率を使用することで、汎用性を維持するために、差分学習率を使用します。層ごとの学習率減衰は0.85に設定され、エンコーダーには0.1の重み減衰が適用されます。

Sapiensの設計仕様は、以下の表に詳細されています。特定のアプローチに従って、Sapiensは、深さではなく幅でモデルをスケーリングすることを優先します。注目すべきは、Sapiens-0.3Bモデルは、従来のViT-Largeとアーキテクチャ的に似ているものの、解像度の高さにより、約20倍のFLOPSを持ちます。

Sapiensは、1M画像のトレーニングセットを使用して、顔、体、足、手（K = 308）のポーズ推定のためにエンコーダーとデコーダーを微調整します。評価には、5K画像のテストセットHumans5Kを使用します。評価はトップダウンアプローチに従い、Sapiensはバウンディングボックスのためのオフザシェルフ検出器を使用し、単一の人間ポーズ推定を実行します。表3は、全身ポーズ推定のためのSapiensモデルと既存の方法の比較を示しています。すべての方法は、Sapiensの308キーポイント語彙とCOCO-WholeBodyの133キーポイント語彙の間の114個の共通キーポイントで評価されます。Sapiens-0.6Bは、現在の最先端であるDWPose-lを+2.8 AP上回ります。DWPose-lは、タスクに特化した複雑な生徒-教師フレームワークと特徴量の蒸留を使用するのに対し、Sapiensは、人間中心の事前トレーニングを使用した一般的なエンコーダー-デコーダーアーキテクチャを採用しています。

興味深い点としては、同じパラメータ数の場合でも、Sapiensモデルはそのカウンターパートに比べて優れたパフォーマンスを示しています。たとえば、Sapiens-0.3BはVitPose+-Lを+5.6 AP上回り、Sapiens-0.6BはVitPose+-Hを+7.9 AP上回ります。Sapiensファミリー内では、結果はモデルのサイズとパフォーマンスの直接的な相関関係を示しています。Sapiens-2Bは、61.1 APで新しい最先端のパフォーマンスを達成し、以前の最先端結果より+7.6 APの改善を示しています。インドアスタジオキャプチャーセットアップからの注釈で微調整されたにもかかわらず、Sapiensはリアルワールドシナリオにロバストに一般化することを示しています。

Sapiensは、28クラスのセグメンテーション語彙で微調整および評価されます。トレーニングセットは10万枚の画像で構成され、テストセットHumans-2Kは2千枚の画像で構成されます。Sapiensは、同じトレーニングセットで微調整された既存のボディパーツセグメンテーション方法と比較され、各方法の推奨事前トレーニング済みチェックポイントが初期化として使用されます。ポーズ推定と同様に、Sapiensはセグメンテーションで汎用性を示しています。

注目すべき点としては、最小のモデルであるSapiens-0.3Bは、高解像度と大規模な人間中心の事前トレーニングにより、既存の最先端セグメンテーション方法であるMask2FormerとDeepLabV3+を12.6 mIoU上回ります。さらに、モデルのサイズを増加させることでセグメンテーションのパフォーマンスが向上します。Sapiens-2Bは、テストセットで81.2 mIoUと89.4 mAccを達成し、最も優れたパフォーマンスを示しています。以下の図は、Sapiensモデルの定性的結果を示しています。

結論

Sapiensは、人間中心のビジョンモデルを基礎モデルへの重要なステップを表しています。Sapiensモデルは、さまざまな人間中心のタスクにわたって強力な汎用性を示しています。最先端のパフォーマンスは、人間を理解するための特別に設計された大規模なキュレーションデータセットでの事前トレーニング、スケールアップされた高解像度および高容量ビジョントランスフォーマーバックボーン、そしてスタジオおよび合成データでの高品質の注釈に帰因します。Sapiensモデルは、幅広いコミュニティに高品質のビジョンモデルを提供するための重要な構成要素になり得ます。