Connect with us

人工知能

Sapiens: 人間視覚モデルの基盤

mm
Sapiens: Foundation for Human Vision Models

大規模な事前学習とタスク固有のファインチューニングによる言語モデリングの顕著な成功は、このアプローチを標準的な手法として確立しました。同様に、コンピュータビジョンの手法も、事前学習のために大規模なデータスケールを次第に取り入れつつあります。LAION5B、Instagram-3.5B、JFT-300M、LVD142M、Visual Genome、YFCC100Mなどの大規模データセットの出現により、従来のベンチマークの範囲をはるかに超えるデータコーパスの探索が可能になりました。この分野における代表的な研究には、DINOv2、MAWS、AIMなどがあります。DINOv2は、LDV-142Mデータセット上で対照的なiBot手法をスケーリングすることで、自己教師あり特徴の生成において最先端の性能を達成しています。MAWSは、数十億枚の画像に対するマスク化オートエンコーダ(MAE)のスケーリングを研究しています。AIMは、ビジョントランスフォーマーに対するBERTと同様の自己回帰的視覚事前学習のスケーラビリティを探求しています。これらの手法が主に一般的な画像事前学習やゼロショット画像分類に焦点を当てているのに対し、Sapiensは明確に人間中心のアプローチを取ります:Sapiensのモデルは、事前学習に膨大な人間画像のコレクションを活用し、その後、一連の人間関連タスクに対してファインチューニングを行います。大規模な3D人間デジタル化の追求は、コンピュータビジョンにおける重要な目標であり続けています。 制御された環境やスタジオ環境内では大きな進歩がありましたが、これらの手法を制約のない環境に拡張するという課題は依然として残っています。これらの課題に対処するためには、自然環境下での画像からのキーポイント推定、身体部位セグメンテーション、深度推定、表面法線予測など、複数の基本的なタスクを実行できる汎用的なモデルを開発することが重要です。本研究では、Sapiensは、実世界の設定に一般化するこれらの重要な人間視覚タスクのためのモデル開発を目指しています。現在、公開されている最大の言語モデルは1000億以上のパラメータを含んでいますが、より一般的に使用されている言語モデルは約70億パラメータです。対照的に、ビジョントランスフォーマー(ViT)は、類似のアーキテクチャを共有しているにもかかわらず、この程度まで成功裏にスケールされていません。この方向性における注目すべき取り組みとしては、テキストと画像の両方で学習された高密度なViT-4Bの開発や、ViT-22Bの安定した学習のための技術の定式化などがありますが、一般的に使用される視覚バックボーンは依然として3億から6億パラメータの範囲に留まり、主に約224ピクセルの画像解像度で事前学習されています。同様に、DiTなどの既存のトランスフォーマーベースの画像生成モデルは、7億未満のパラメータを使用し、高度に圧縮された潜在空間で動作します。このギャップに対処するため、Sapiensは、数百万枚の人間画像に対して1024ピクセルの画像解像度でネイティブに事前学習された、大規模で高解像度なViTモデルのコレクションを導入します。 Sapiensは、4つの基本的な人間中心視覚タスクのためのモデルファミリーを提示します:2Dポーズ推定、身体部位セグメンテーション、深度推定、表面法線予測です。Sapiensモデルはネイティブで1K高解像度推論をサポートし、3億枚以上の実世界人間画像で事前学習されたモデルを単純にファインチューニングするだけで、個々のタスクに極めて容易に適応できます。Sapiensは、同じ計算予算が与えられた場合、人間画像の精選されたデータセットでの自己教師あり事前学習が、多様な人間中心タスクの性能を大幅に向上させることを観察しています。結果として得られるモデルは、ラベル付きデータが不足しているか完全に合成的である場合でも、実世界データへの顕著な一般化を示します。シンプルなモデル設計はスケーラビリティももたらし、パラメータ数が3億から20億にスケールするにつれて、タスク全体でのモデル性能が向上します。Sapiensは、様々な人間中心ベンチマークにおいて既存のベースラインを一貫して上回り、従来の最先端結果に対して大幅な改善を達成しています:Humans-5K(ポーズ)で7.6 mAP、Humans-2K(部位セグメンテーション)で17.1 mIoU、Hi4D(深度)で22.4%の相対RMSE、THuman2(法線)で53.5%の相対角度誤差です。

Sapiens : 人間視覚モデルにおけるブレークスルー

近年、2Dおよび3Dでの写実的な人間の生成に向けて著しい進歩が見られています。これらの手法の成功は、2Dキーポイント、細粒度の身体部位セグメンテーション、深度、表面法線などの様々なアセットのロバストな推定に大きく起因しています。しかし、これらのアセットのロバストで正確な推定は依然として活発な研究領域であり、個々のタスクの性能を向上させるための複雑なシステムは、より広範な採用を妨げることがよくあります。さらに、実世界での正確な教師データアノテーションの取得は、スケールすることが非常に困難であることで知られています。Sapiensの目標は、実世界でこれらのアセットを推論するための統一されたフレームワークとモデルを提供し、誰もが幅広い人間中心アプリケーションを利用できるようにすることです。 Sapiensは、このような人間中心モデルは3つの基準を満たすべきであると主張します:一般化、幅広い適用性、高忠実度です。一般化は、未見の条件に対するロバスト性を保証し、モデルが様々な環境で一貫して動作することを可能にします。幅広い適用性は、モデルの汎用性を示し、最小限の変更で幅広いタスクに適していることを意味します。高忠実度は、忠実な人間生成タスクに不可欠な、精密で高解像度の出力をモデルが生成する能力を示します。本論文は、これらの属性を具現化するモデルの開発について詳述し、それらを総称してSapiensと呼びます。 洞察に従い、Sapiensは一般化の鍵となる大規模データセットとスケーラブルなモデルアーキテクチャを活用します。より広範な適用性のために、Sapiensは事前学習後ファインチューニングアプローチを採用し、事前学習後の特定タスクへの適応を最小限の調整で可能にします。このアプローチは重要な疑問を提起します:どのような種類のデータが事前学習に最も効果的でしょうか?計算上の制限を考えると、可能な限り多くの人間画像を収集することに重点を置くべきでしょうか、それとも実世界の多様性をよりよく反映するために、あまり精選されていないセットで事前学習する方が望ましいでしょうか?既存の手法は、下流タスクの文脈における事前学習データ分布を見落とすことがよくあります。人間固有のタスクに対する事前学習データ分布の影響を研究するため、Sapiensは3億枚の多様な人間画像を含むHumans-300Mデータセットを収集しました。これらのラベルなし画像は、パラメータ数が3億から20億までのビジョントランスフォーマーファミリーをゼロから事前学習するために使用されます。 大規模データセットから汎用視覚特徴を学習するための様々な自己教師あり手法の中で、Sapiensはそのシンプルさと事前学習の効率性からマスク化オートエンコーダ(MAE)アプローチを選択します。MAEは、対照的またはマルチ推論戦略と比較して単一パスの推論モデルを持つため、同じ計算リソースでより大量の画像を処理することができます。より高い忠実度のために、従来の手法とは対照的に、Sapiensは事前学習のネイティブ入力解像度を1024ピクセルに増加させ、既存の最大の視覚バックボーンと比較して約4倍のFLOPs増加をもたらします。各モデルは1.2兆トークンで事前学習されます。人間中心タスクのファインチューニングには、Sapiensは一貫したエンコーダ-デコーダアーキテクチャを使用します。エンコーダは事前学習からの重みで初期化され、デコーダ(軽量でタスク固有のヘッド)はランダムに初期化されます。その後、両コンポーネントがエンドツーエンドでファインチューニングされます。Sapiensは、以下の図に示すように、2Dポーズ推定、身体部位セグメンテーション、深度、法線推定の4つの主要タスクに焦点を当てます。 先行研究と一致して、Sapiensはラベルの品質がモデルの実世界性能に与える重大な影響を確認しています。公開ベンチマークはしばしばノイズの多いラベルを含み、モデルのファインチューニング中に一貫しない教師信号を提供します。同時に、Sapiensの主要目標である3D人間デジタル化に密接に合わせるために、細粒度で正確なアノテーションを利用することが重要です。この目的のために、Sapiensは、ポーズ推定のための従来のデータセットの範囲を超える、大幅に高密度な2D全身キーポイントのセットと、身体部位セグメンテーションのための詳細なクラス語彙を提案します。具体的には、Sapiensは身体、手、足、表面、顔を含む308のキーポイントの包括的なコレクションを導入します。さらに、Sapiensはセグメンテーションクラス語彙を28クラスに拡張し、髪、舌、歯、上唇/下唇、胴体などの身体部位をカバーします。アノテーションの品質と一貫性、および高度な自動化を保証するために、Sapiensはポーズとセグメンテーションのアノテーションを収集するためにマルチビューキャプチャー設定を利用します。Sapiensはまた、深度と法線推定のために人間中心の合成的データを利用し、RenderPeopleからの600の詳細なスキャンを活用して高解像度深度マップと表面法線を生成します。Sapiensは、ドメイン固有の大規模事前学習と限定的ながら高品質なアノテーションの組み合わせが、ロバストな実世界一般化につながることを実証しています。全体として、Sapiensの手法は、高価で多様なアノテーションセットを収集する必要なく、実世界シナリオで実行可能な高度に精密な識別モデルを開発するための効果的な戦略を示しています。

Sapiens : 手法とアーキテクチャ

Sapiensは事前学習にマスク化オートエンコーダ(MAE)アプローチに従います。モデルは、部分的な観測が与えられた元の人間画像を再構成するように訓練されます。すべてのオートエンコーダと同様に、Sapiensのモデルには、可視画像を潜在表現にマッピングするエンコーダと、この潜在表現から元の画像を再構成するデコーダがあります。事前学習データセットは、単一および複数人間画像の両方で構成され、各画像は正方形のアスペクト比で固定サイズにリサイズされます。ViTと同様に、画像は固定パッチサイズの規則的な非重複パッチに分割されます。これらのパッチのサブセットがランダムに選択されマスクされ、残りが可視として残されます。マスクされたパッチと可視パッチの比率(マスキング比率)は、学習を通じて固定されたままです。 Sapiensのモデルは、スケール、クロップ、被写体の年齢や民族性、被写体の数など、様々な画像特性にわたって一般化を示します。モデル内の各パッチトークンは、標準ViTの0.4%と比較して画像面積の0.02%を占め、16倍の削減であり、モデルに細粒度のトークン間推論を提供します。マスク比率が95%に増加した場合でも、Sapiensのモデルはホールドアウトサンプルで人間の解剖学的構造の妥当な再構成を達成します。学習済みSapiensモデルによる未見の人間画像の再構成を以下の画像に示します。 さらに、Sapiensは事前学習のために大規模な独自データセットを利用し、約10億枚の実世界画像からなり、人間画像に特化しています。前処理には、透かし、テキスト、芸術的描写、または不自然な要素を含む画像を破棄することが含まれます。Sapiensはその後、オフザシェルフの人物バウンディングボックス検出器を使用して画像をフィルタリングし、検出スコアが0.9以上でバウンディングボックスの寸法が300ピクセルを超える画像を保持します。データセット内の2億4800万枚以上の画像には複数の被写体が含まれています。

2Dポーズ推定

Sapienフレームワークは、エンコーダとデコーダをP内で、K = 17 [67]、K = 133 [55]、および新しい高度に詳細なスケルトン(K = 308、以下の図に示す)を含む複数のスケルトンにわたってファインチューニングします。 最大68の顔面キーポイントを持つ既存のフォーマットと比較して、Sapienのアノテーションは243の顔面キーポイントで構成され、目、唇、鼻、耳の周りの代表的な点を含みます。この設計は、実世界の表情の微妙な詳細を細心の注意を払って捉えるために調整されています。これらのキーポイントを用いて、Sapienフレームワークは、屋内キャプチャー設定からの4K解像度の100万枚の画像を手動でアノテーションしました。以前のタスクと同様に、法線推定器Nのデコーダ出力チャネルを3に設定し、各ピクセルにおける法線ベクトルのxyz成分に対応させます。生成された合成的データは、表面法線推定の教師データとしても使用されます。

Sapien : 実験と結果

Sapiens-2Bは、PyTorchを使用して1024個のA100 GPUで18日間事前学習されます。Sapiensはすべての実験にAdamWオプティマイザを使用します。学習スケジュールには、短い線形ウォームアップと、事前学習のためのコサインアニーリング、ファ

「職業はエンジニア、心はライター」。Kunalは、AIとMLに対する深い愛情と理解を持つテクニカルライターであり、これらの分野の複雑な概念を、魅力的で情報豊富なドキュメンテーションを通じて簡素化することに専念しています。