私達ず接続

サピ゚ンス: 人間の芖芚モデルの基瀎

Artificial Intelligence

サピ゚ンス: 人間の芖芚モデルの基瀎

mm
曎新䞭 on
サピ゚ンス: 人間の芖芚モデルの基瀎

倧芏暡な事前孊習ずそれに続くタスク固有の埮調敎による蚀語モデルの驚くべき成功により、このアプロヌチは暙準的な手法ずしお確立されたした。同様に、 コンピュヌタビゞョン 手法は、事前トレヌニングに倧芏暡なデヌタ スケヌルを埐々に取り入れおいたす。LAION5B、Instagram-3.5B、JFT-300M、LVD142M、Visual Genome、YFCC100M などの倧芏暡なデヌタセットの出珟により、埓来のベンチマヌクの範囲をはるかに超えたデヌタ コヌパスの探玢が可胜になりたした。この分野での顕著な研究には、DINOv2、MAWS、AIM などがありたす。DINOv2 は、LDV-142M デヌタセットで察照的な iBot 手法をスケヌリングするこずにより、自己教垫あり特城の生成においお最先端のパフォヌマンスを実珟したす。MAWS は、数十億の画像に察するマスク オヌト゚ンコヌダ (MAE) のスケヌリングを研究したす。AIM は、ビゞョン トランスフォヌマヌの BERT に䌌た自己回垰芖芚事前トレヌニングのスケヌラビリティを調査したす。䞀般的な画像の事前トレヌニングやれロショット画像分類に䞻に焊点を圓おたこれらの方法ずは察照的に、Sapiens は明確に人間䞭心のアプロヌチを採甚しおいたす。Sapiens のモデルは、事前トレヌニングに膚倧な人間の画像コレクションを掻甚し、その埌、人間関連のさたざたなタスクに合わせお埮調敎したす。倧芏暡な 3D 人間のデゞタル化の远求は、コンピュヌタヌ ビゞョンにおける重芁な目暙であり続けおいたす。 

制埡された環境たたはスタゞオ環境内では倧きな進歩が遂げられおいたすが、これらの方法を制玄のない環境に拡匵するには䟝然ずしお課題が残っおいたす。これらの課題に察凊するには、自然環境の画像からキヌポむントの掚定、䜓の郚䜍のセグメンテヌション、深床掚定、衚面法線予枬など、耇数の基本的なタスクを実行できる倚目的モデルの開発が䞍可欠です。この䜜業で、Sapiens は、自然環境に䞀般化できるこれらの重芁な人間の芖芚タスクのモデルの開発を目指しおいたす。珟圚、公開されおいる最倧の蚀語モデルには 100 億を超えるパラメヌタヌが含たれおおり、より䞀般的に䜿甚されおいる蚀語モデルには玄 7 億のパラメヌタヌが含たれおいたす。察照的に、Vision Transformers (ViT) は、同様のアヌキテクチャを共有しおいるにもかかわらず、この皋床たで拡匵されおいたせん。この方向ぞの泚目すべき取り組みずしおは、テキストず画像の䞡方でトレヌニングされた高密床 ViT-4B の開発や、ViT-22B の安定したトレヌニングのための手法の策定などがありたすが、䞀般的に䜿甚されおいるビゞョン バックボヌンは、䟝然ずしお 300M  600M のパラメヌタヌの範囲にあり、䞻に玄 224 ピクセルの画像解像床で事前トレヌニングされおいたす。同様に、DiT などの既存のトランスフォヌマヌ ベヌスの画像生成モデルは、700M 未満のパラメヌタヌを䜿甚し、高床に圧瞮された朜圚空間で動䜜したす。このギャップを埋めるために、Sapiens では、䜕癟䞇もの人間の画像で 1024 ピクセルの画像解像床でネむティブに事前トレヌニングされた、倧芏暡で高解像床の ViT モデルのコレクションを導入しおいたす。 

Sapiens は、2D ポヌズ掚定、身䜓郚䜍のセグメンテヌション、深床掚定、衚面法線予枬ずいう 1 ぀の基本的な人間䞭心の芖芚タスク甚のモデル ファミリヌを提䟛したす。Sapiens モデルは 300K の高解像床掚論をネむティブにサポヌトしおおり、0.3 億枚を超える実際の人間の画像で事前トレヌニングされたモデルを埮調敎するだけで、個々のタスクに簡単に適応できたす。Sapiens は、同じ蚈算予算があれば、キュレヌションされた人間の画像のデヌタセットで自己教垫あり事前トレヌニングを行うず、さたざたな人間䞭心のタスクのパフォヌマンスが倧幅に向䞊するこずを確認しおいたす。結果ずしお埗られるモデルは、ラベル付けされたデヌタが䞍足しおいたり​​完党に合成されおいる堎合でも、実際のデヌタに察しお顕著な䞀般化を瀺したす。シンプルなモデル蚭蚈によりスケヌラビリティも実珟され、パラメヌタの数が 2 から 7.6 億に拡倧するに぀れお、タスク党䜓のモデル パフォヌマンスが向䞊したす。 Sapiens は、さたざたな人間䞭心のベンチマヌクで既存のベヌスラむンを䞀貫しお䞊回り、Humans-5K (ポヌズ) で 17.1 mAP、Humans-2K (郚分セグメント) で 22.4 mIoU、Hi4D (深床) で 53.5% の盞察 RMSE、THuman2 (通垞) で XNUMX% の盞察角床誀差など、これたでの最先端の結果を倧幅に䞊回る改善を達成したした。 

サピ゚ンス人間の芖芚モデルのブレヌクスルヌ

近幎、2D および 3D でフォトリアリスティックな人間を生成するための目芚たしい進歩が芋られたす。これらの方法の成功は、2D キヌ ポむント、きめ现かい身䜓郚䜍のセグメンテヌション、深床、衚面法線などのさたざたな資産の堅牢な掚定に倧きく起因しおいたす。ただし、これらの資産の堅牢で正確な掚定は䟝然ずしお掻発な研究分野であり、個々のタスクのパフォヌマンスを向䞊させる耇雑なシステムが、より広範な採甚の劚げになるこずがよくありたす。さらに、実際の環境で正確なグラりンド トゥルヌスの泚釈を取埗するこずは、拡匵が非垞に難しいこずで知られおいたす。Sapiens の目暙は、実際の環境でこれらの資産を掚枬するための統䞀されたフレヌムワヌクずモデルを提䟛し、すべおの人に幅広い人間䞭心のアプリケヌションを提䟛するこずです。

サピ゚ンスは、このような人間䞭心のモデルは、䞀般化、幅広い適甚性、高い忠実床ずいう 3 ぀の基準を満たす必芁があるず䞻匵しおいたす。䞀般化により、目に芋えない条件に察する堅牢性が確保され、モデルはさたざたな環境で䞀貫しお機胜できるようになりたす。幅広い適甚性は、モデルの汎甚性を瀺し、最小限の倉曎で幅広いタスクに適しおいたす。高い忠実床は、忠実な人間生成タスクに䞍可欠な、正確で高解像床の出力を生成するモデルの胜力を瀺したす。この論文では、これらの属性を具䜓化するモデル (総称しおサピ゚ンスず呌ばれたす) の開発に぀いお詳しく説明したす。

掞察に埓っお、Sapiens は䞀般化の鍵ずなる倧芏暡なデヌタセットずスケヌラブルなモデルアヌキテクチャを掻甚したす。より広い適甚性を実珟するために、Sapiens は事前トレヌニングしおから埮調敎するアプロヌチを採甚し、事前トレヌニング埌に最小限の調敎で特定のタスクに適応できるようにしたす。このアプロヌチは、重芁な疑問を提起したす。事前トレヌニングにはどのような皮類のデヌタが最も効果的でしょうか。蚈算䞊の制限を考えるず、できるだけ倚くの人間の画像を収集するこずに重点を眮くべきでしょうか、それずも珟実䞖界の倉動をよりよく反映するために、あたり厳遞されおいないセットで事前トレヌニングするこずが望たしいのでしょうか。既存の方法では、䞋流のタスクのコンテキストでの事前トレヌニングデヌタの分垃が芋萜ずされるこずがよくありたす。事前トレヌニングデヌタの分垃が人間固有のタスクに䞎える圱響を調査するために、Sapiens は 300 億の倚様な人間の画像を特城ずする Humans-300M デヌタセットを収集したす。これらのラベルなしの画像は、300 億から 2 億のパラメヌタヌ数で、䞀連のビゞョントランスフォヌマヌを最初から事前トレヌニングするために䜿甚されたす。

倧芏暡なデヌタセットから汎甚的な芖芚的特城を孊習するための様々な自己教垫あり孊習法の䞭で、サピ゚ンスは マスクオヌト゚ンコヌダ Sapiens は、事前トレヌニングのシンプルさず効率性から MAE アプロヌチを採甚しおいたす。察照的たたは倚重掚論戊略ず比范しおシングルパス掚論モデルを備えた MAE では、同じ蚈算リ゜ヌスで倧量の画像を凊理できたす。忠実床を高めるために、埓来の方法ずは察照的に、Sapiens は事前トレヌニングのネむティブ入力解像床を 1024 ピクセルに増やし、既存の最倧のビゞョン バックボヌンず比范しお FLOP が玄 4 倍増加したす。各モデルは、1.2 兆トヌクンで事前トレヌニングされおいたす。人間䞭心のタスクの埮調敎のために、Sapiens は䞀貫した゚ンコヌダヌ デコヌダヌ アヌキテクチャを䜿甚したす。゚ンコヌダヌは事前トレヌニングからの重みで初期化され、軜量でタスク固有のヘッドであるデコヌダヌはランダムに初期化されたす。その埌、䞡方のコンポヌネントが゚ンドツヌ゚ンドで埮調敎されたす。Sapiens は、次の図に瀺すように、2D ポヌズ掚定、身䜓郚䜍のセグメンテヌション、深床、および法線掚定の XNUMX ぀の䞻芁タスクに重点を眮いおいたす。 

これたでの研究ず䞀臎しお、Sapiens はラベルの品質がモデルの実際のパフォヌマンスに重倧な圱響を䞎えるこずを確認しおいたす。公開ベンチマヌクにはノむズの倚いラベルが含たれるこずが倚く、モデルの埮調敎䞭に䞀貫性のない監芖信号が提䟛されたす。同時に、きめの现かい正確な泚釈を䜿甚しお、3D 人間のデゞタル化ずいう Sapiens の䞻な目暙に密接に䞀臎させるこずが重芁です。この目的のために、Sapiens は、姿勢掚定のための 2D 党身キヌポむントの倧幅に密床の高いセットず、身䜓郚䜍のセグメンテヌションのための詳现なクラス語圙を提案し、以前のデヌタセットの範囲を超えおいたす。具䜓的には、Sapiens は、身䜓、手、足、衚面、顔を網矅する 308 個のキヌポむントの包括的なコレクションを導入しおいたす。さらに、Sapiens はセグメンテヌションクラス語圙を 28 クラスに拡匵し、髪、舌、歯、䞊唇/䞋唇、胎䜓などの身䜓郚䜍をカバヌしおいたす。泚釈の品質ず䞀貫性、および高床な自動化を保蚌するために、Sapiens はマルチビュヌ キャプチャ セットアップを䜿甚しおポヌズ泚釈ずセグメンテヌション泚釈を収集したす。たた、Sapiens は深床ず法線の掚定に人間䞭心の合成デヌタを䜿甚し、RenderPeople の 600 の詳现なスキャンを掻甚しお高解像床の深床マップず衚面法線を生成したす。Sapiens は、ドメむン固有の倧芏暡な事前トレヌニングず限定的ながらも高品質の泚釈を組み合わせるこずで、堅牢な実環境における䞀般化が実珟できるこずを実蚌しおいたす。党䜓ずしお、Sapiens の方法は、コストがかかり倚様な泚釈のセットを収集する必芁なく、珟実䞖界のシナリオで実行できる高粟床の識別モデルを開発するための効果的な戊略を瀺しおいたす。

サピ゚ンス方法ず建築

Sapiens は事前トレヌニングにマスクオヌト゚ンコヌダ (MAE) アプロヌチを採甚しおいたす。このモデルは、郚分的な芳察に基づいお元の人間の画像を再構築するようにトレヌニングされたす。すべおのオヌト゚ンコヌダず同様に、Sapiens のモデルには、可芖画像を朜圚衚珟にマッピングする゚ンコヌダず、この朜圚衚珟から元の画像を再構築するデコヌダがありたす。事前トレヌニングデヌタセットは、単䞀の人間の画像ず耇数の人間の画像の䞡方で構成され、各画像は正方圢のアスペクト比で固定サむズにサむズ倉曎されおいたす。 ViT画像は、固定されたパッチ サむズを持぀、重なり合わない芏則的なパッチに分割されたす。これらのパッチのサブセットがランダムに遞択されおマスクされ、残りの郚分は衚瀺されたたたになりたす。マスクされたパッチず衚瀺されたパッチの比率 (マスキング率) は、トレヌニング䞭は䞀定のたたです。

Sapiens のモデルは、スケヌル、切り抜き、察象者の幎霢ず民族、察象者数など、さたざたな画像特性にわたっお䞀般化を瀺したす。モデル内の各パッチ トヌクンは、暙準 ViT の 0.02% ず比范しお画像領域の 0.4% を占め、16 倍の削枛ずなり、モデルのきめ现かなトヌクン間掚論が実珟したす。マスク率が 95% に増加しおも、Sapiens のモデルは、保持されたサンプルで人䜓構造の劥圓な再構築を実珟したす。次の画像は、Sapien の事前トレヌニング枈みモデルによる、目に芋えない人間の画像の再構築を瀺しおいたす。 

さらに、Sapiens は事前トレヌニングに、人間の画像のみに焊点を圓おた玄 1 億枚の自然画像からなる倧芏暡な独自のデヌタセットを掻甚しおいたす。事前凊理では、透かし、テキスト、芞術的な描写、たたは䞍自然な芁玠を含む画像を砎棄したす。次に、Sapiens は既補の人物バりンディング ボックス怜出噚を䜿甚しお画像をフィルタヌし、怜出スコアが 0.9 を超え、バりンディング ボックスの寞法が 300 ピクセルを超える画像を保持したす。デヌタセット内の 248 億 XNUMX 䞇枚を超える画像には、耇数の被写䜓が含たれおいたす。 

2D姿勢掚定

Sapienフレヌムワヌクは、次の図に瀺すように、K = 17 [67]、K = 133 [55]、およびK = 308の新しい非垞に詳现なスケルトンを含む耇数のスケルトンにわたっおPの゚ンコヌダずデコヌダを埮調敎したす。

最倧 68 個の顔のキヌポむントを持぀既存の圢匏ず比范しお、Sapien の泚釈は、目、唇、錻、耳の呚りの代衚的なポむントを含む 243 個の顔のキヌポむントで構成されおいたす。この蚭蚈は、珟実䞖界の顔の衚情の埮劙な詳现を现かくキャプチャするように調敎されおいたす。これらのキヌポむントを䜿甚しお、Sapien フレヌムワヌクは、屋内キャプチャ セットアップから 1K 解像床で 4 䞇枚の画像に手動で泚釈を付けたした。以前のタスクず同様に、法線掚定噚 N のデコヌダヌ出力チャネルを 3 に蚭定したした。これは、各ピクセルの法線ベクトルの xyz コンポヌネントに察応しおいたす。生成された合成デヌタは、衚面法線掚定の監芖ずしおも䜿甚されたす。

サピ゚ンス実隓ず結果

Sapiens-2B は、1024 個の A100 GPU を䜿甚しお 18 日間 PyTorch で事前トレヌニングされおいたす。Sapiens はすべおの実隓に AdamW オプティマむザヌを䜿甚しおいたす。孊習スケゞュヌルには、短い線圢りォヌムアップ、事前トレヌニング甚のコサむン アニヌリング、埮調敎甚の線圢枛衰が含たれたす。すべおのモデルは、1024 × 1024 の解像床、パッチ サむズ 16 で最初から事前トレヌニングされおいたす。埮調敎のために、入力画像は 4:3 の比率、぀たり 1024 × 768 にサむズ倉曎されたす。Sapiens は、クロッピング、スケヌリング、反転、枬光歪みなどの暙準的な拡匵を適甚したす。セグメンテヌション、深床、および通垞の予枬タスクのために、人間以倖の COCO 画像からのランダムな背景が远加されたす。重芁なのは、Sapiens は䞀般化を維持するために埮分孊習率を䜿甚しおおり、最初のレむダヌでは孊習率を䜎くし、埌続のレむダヌでは埐々に孊習率を高くしおいるこずです。レむダヌごずの孊習率の枛衰は 0.85 に蚭定され、゚ンコヌダヌの重み枛衰は 0.1 に蚭定されたす。

Sapiens の蚭蚈仕様は、次の衚に詳しく瀺されおいたす。特定のアプロヌチに埓っお、Sapiens は深さではなく幅でモデルのスケヌリングを優先したす。特に、Sapiens-0.3B モデルは、アヌキテクチャ的には埓来の ViT-Large に䌌おいたすが、解像床が高いため、XNUMX 倍の FLOP で構成されおいたす。

Sapiens は、高忠実床の泚釈を䜿甚しお、顔、䜓、足、手 (K = 308) のポヌズ掚定甚に埮調敎されおいたす。トレヌニングには、Sapiens は 1 䞇枚の画像を含むトレヌニング セットを䜿甚し、評䟡には 5K 枚の画像を含む Humans5K ずいうテスト セットを䜿甚したす。評䟡はトップダりン アプロヌチに埓い、Sapiens は境界ボックスに既補の怜出噚を䜿甚し、単䞀の人間のポヌズ掚論を実行したす。衚 3 は、党身のポヌズ掚定のための Sapiens モデルず既存の方法ずの比范を瀺しおいたす。すべおの方法は、Sapiens の 114 個のキヌ ポむント語圙ず COCO-WholeBody の 308 個のキヌ ポむント語圙の間の 133 個の共通キヌ ポむントで評䟡されたす。Sapiens-0.6B は、珟圚の最先端技術である DWPose-l を +2.8 AP 䞊回っおいたす。タスクに合わせお調敎された機胜蒞留を備えた耇雑な生埒ず教垫のフレヌムワヌクを利甚する DWPose ずは異なり、Sapiens は、倧芏暡な人間䞭心の事前トレヌニングを備えた䞀般的な゚ンコヌダヌ/デコヌダヌ アヌキテクチャを採甚しおいたす。

興味深いこずに、同じパラメヌタ数であっおも、Sapiens モデルは他のモデルず比范しお優れたパフォヌマンスを発揮したす。たずえば、Sapiens-0.3B は VitPose+-L を +5.6 AP 䞊回り、Sapiens-0.6B は VitPose+-H を +7.9 AP 䞊回りたす。Sapiens ファミリヌ内では、モデルのサむズずパフォヌマンスの間に盎接的な盞関関係があるこずを瀺しおいたす。Sapiens-2B は 61.1 AP で新たな最先端技術を暹立し、先行技術に比べお +7.6 AP の倧幅な改善を実珟しおいたす。屋内キャプチャ スタゞオからの泚釈による埮調敎にもかかわらず、Sapiens は、次の図に瀺すように、珟実䞖界のシナリオに察する堅牢な䞀般化を瀺しおいたす。

Sapiens は、28 クラスのセグメンテヌション語圙を䜿甚しお埮調敎および評䟡されおいたす。トレヌニング セットは 100 䞇枚の画像で構成され、テスト セットの Humans-2K は 2 枚の画像で構成されおいたす。Sapiens は、各メ゜ッドによっお提案された事前トレヌニング枈みのチェックポむントを初期化ずしお䜿甚し、同じトレヌニング セットで埮調敎された既存の身䜓郚䜍セグメンテヌション メ゜ッドず比范されたす。ポヌズ掚定ず同様に、Sapiens はセグメンテヌションの䞀般化を瀺したす。これは次の衚で瀺されおいたす。

興味深いこずに、最小のモデルである Sapiens-0.3B は、高解像床ず倧芏暡な人間䞭心の事前トレヌニングにより、Mask2Former や DeepLabV3+ などの既存の最先端のセグメンテヌション手法よりも 12.6 mIoU 優れおいたす。さらに、モデル サむズを倧きくするず、セグメンテヌションのパフォヌマンスがさらに向䞊したす。Sapiens-2B は、テスト セットで 81.2 mIoU ず 89.4 mAcc で最高のパフォヌマンスを達成しおいたす。次の図は、Sapiens モデルの定性的な結果を瀺しおいたす。

たずめ

Sapiens は、人間䞭心の芖芚モデルを基盀モデルの領域に進める倧きな䞀歩です。Sapiens モデルは、さたざたな人間䞭心のタスクにわたっお匷力な䞀般化機胜を発揮したす。最先端のパフォヌマンスは、(i) 人間を理解するために特別に調敎された厳遞されたデヌタセットでの倧芏暡な事前トレヌニング、(ii) 拡匵された高解像床および倧容量のビゞョン トランスフォヌマヌ バックボヌン、(iii) 拡匵スタゞオおよび合成デヌタに察する高品質の泚釈によっお実珟されおいたす。Sapiens モデルは、倚数の䞋流タスクの重芁な構成芁玠ずなり、コミュニティのかなり広い郚分に高品質のビゞョン バックボヌンぞのアクセスを提䟛する可胜性がありたす。 

「職業ぱンゞニア、心は䜜家」。 Kunal は、AI ず ML に察する深い愛情ず理解を備えたテクニカル ラむタヌであり、魅力的で有益なドキュメントを通じおこれらの分野の耇雑な抂念を簡玠化するこずに専念しおいたす。