Artificial Intelligence
AI で「より良い」身体を偽装
アリババ DAMO アカデミーの新しい研究は、身体の画像の再形成を自動化するための AI 主導のワークフローを提供します。これは、現在多大な労力を費やしているコンピューター ビジョン分野では珍しい取り組みです。 顔ベースの操作 ディープフェイクやGANベースなど 顔の編集.
研究者のアーキテクチャは、骨格ポーズ推定を使用して、既存の身体画像を概念化しパラメータ化する際に画像合成および編集システムが直面するより複雑な問題に、少なくとも実際に有意義で選択的な編集を可能にする粒度レベルまで取り組んでいます。
このシステムにより、ユーザーは最終的に、人物の全身写真または中身長写真の体重、筋肉量、または体重分布の外観を変更できるパラメータを設定できるようになり、服を着ているまたは服を着ていない身体部分に任意の変形を生成することができます。
この仕事の動機は、ファッションから雑誌スタイルの出力に至るまで、メディアのさまざまな分野で写真家やプロダクション グラフィック アーティストが行う困難なデジタル操作を置き換えることができる自動化されたワークフローの開発です。 広報資料.
一般に、これらの変換は通常、Photoshop やその他の従来のビットマップ エディターの「ワープ」技術を使用して適用され、ほぼ女性の画像にのみ使用されることを著者らも認めています。 その結果、新しいプロセスを促進するために開発されたカスタム データセットは、主に女性の被写体の写真で構成されています。
「ボディレタッチは主に女性が希望するため、年齢、人種(アフリカ人:アジア人:白人=0.33:0.35:0.32)、ポーズ、服装の多様性を考慮して、私たちのコレクションの大部分は女性の写真です。」
紙 というタイトルです 人体の再形成のための構造を意識したフロー生成、アリババのグローバル DAMO アカデミーに関連する XNUMX 人の著者によるものです。
データセットの開発
画像合成および編集システムでは通常のことですが、このプロジェクトのアーキテクチャにはカスタマイズされたトレーニング データセットが必要でした。 著者らは XNUMX 人の写真家に、ストック フォト サイト Unsplash の適切な画像を標準的な Photoshop 操作で作成するよう依頼し、その結果、次のタイトルのデータセットが作成されました。 BR-5K* – 5,000K 解像度の 2 枚の高品質画像。
研究者らは、このデータセットでのトレーニングの目的は、魅力や望ましい外観の指標に関連する「理想化された」一般化された特徴を生成することではなく、むしろ身体画像の専門的な操作に関連する中心的な特徴マッピングを抽出することであると強調しています。
しかし、彼らは、この操作が最終的には「現実」から「理想」というあらかじめ設定された概念への進行をマッピングする変革的なプロセスを反映していることを認めています。
「人気の美学を満たすスレンダーな体型を実現することを目標に、XNUMX 人のプロのアーティストに Photoshop を使用して個別にボディをレタッチしてもらい、最も優れたものをグラウンドトゥルースとして選択します。」
このフレームワークは顔をまったく処理しないため、これらはデータセットに含められる前にぼかされています。
アーキテクチャとコアコンセプト
システムのワークフローには、高解像度ポートレートの入力、利用可能なコンピューティング リソースに適合する低解像度へのダウンサンプリング、推定スケルトン マップ ポーズ (下の画像の左から XNUMX 番目の図) およびパーツ アフィニティ フィールドの抽出が含まれます。 (PAF)、 革新的な 2016年にカーネギーメロン大学ロボット工学研究所によって発表されました(すぐ下に埋め込まれたビデオを参照)。
パーツ アフィニティ フィールドは、手足の方向と、より広範な骨格フレームワークとの一般的な関連性を定義するのに役立ち、新しいプロジェクトに追加の注意/位置特定ツールを提供します。
体重の見た目とは明らかに無関係であるにもかかわらず、スケルトン マップは、上腕、尻、太ももなど、修正する体の部分に最終的な変換プロセスを指示するのに役立ちます。
この後、結果はプロセスの中心的なボトルネックにある Structure Affinity Self-Attendee (SASA) に供給されます (下の画像を参照)。
SASA は、プロセスを促進するフロー ジェネレーターの一貫性を制御します。その結果はワーピング モジュール (上の画像の右から XNUMX 番目) に渡され、データセットに含まれる手動リビジョンのトレーニングから学習した変換が適用されます。 。
その後、出力画像は元の 2K 解像度にアップサンプリングされ、DeepFaceLab などの一般的なパッケージが派生した標準的な 2017 スタイルのディープフェイク アーキテクチャと似たプロセスを使用します。 アップサンプリング プロセスは GAN 編集フレームワークでも一般的です。
スキーマのアテンション ネットワークは次のようにモデル化されています。 構成的非注意ネットワーク (コーダ)、Amazon AI および Microsoft との 2019 年の米国/シンガポール学術コラボレーション。
テスト
フローベースのフレームワークは、以前のフローベースの方法に対してテストされました FAL ワーピングによるアニメーション化 (ATW)、および画像翻訳アーキテクチャ Pix2PixHD & GFLA、と SSIM、PSNR、LPIPS 評価指標として。
これらの採用された指標に基づくと、著者のシステムは以前のアーキテクチャよりも優れています。
自動化された測定基準に加えて、研究者らはユーザー調査(前述の結果表の最後の列)を実施しました。そこでは、40 人の参加者がそれぞれ、さまざまな方法で生成された画像に関する 30 問の質問プールからランダムに選択された 100 問の質問を提示されました。 回答者の 70% が、より「視覚的に魅力的」であるとして新しい技術を支持しました。
課題
新しい論文は、AI ベースの身体操作への珍しい探求を表しています。 画像合成分野は現在、Neural Radiance Fields (NeRF) などの方法で編集可能なボディを生成すること、または GAN の潜在空間と顔操作のためのオートエンコーダーの可能性を探ることに熱心に取り組んでいます。
著者らの取り組みは現在、知覚される体重の変化を生み出すことに限定されており、人物の写真をスリム化したときに必然的に現れる背景を復元するような修復技術は実装されていない。
しかし、彼らは、テクスチャ推論によるポートレートのマット化と背景のブレンディングによって、人間の「不完全さ」によって以前は画像に隠されていた世界の部分を復元するという問題を簡単に解決できる可能性があると提案しています。
* プレプリントは、データセットの詳細とプロジェクトのさらなる例を提供する補足資料に言及していますが、この資料の場所は論文内で公開されておらず、責任著者はまだアクセス要求に応じていません。 。
初版発行日は10年2022月XNUMX日。