Connect with us

人工知能

AIを用いた「より良い」体の作成

mm

Alibaba DAMOアカデミーからの新しい研究は、画像の体の形を変える自動化されたワークフローを提供しています。これは、現在、顔ベースの操作、例えばディープフェイクやGANベースの顔編集で占められているコンピュータビジョン分野における希少な取り組みです。

結果の列に、修正される領域を定義する生成されたアテンションマップが挿入されています。ソース: https://arxiv.org/pdf/2203.04670.pdf

結果の列に、修正される領域を定義する生成されたアテンションマップが挿入されています。 ソース: https://arxiv.org/pdf/2203.04670.pdf

研究者のアーキテクチャは、画像の合成と編集システムが、実際に有意義で選択的な編集を可能にするほどの粒度で、既存の体の画像を概念化し、パラメータ化する際に直面するより大きな複雑さに対処するために、スケルトン姿勢推定を使用しています。

推定スケルトンマップは、上腕部などの体の部分に焦点を当て、個別化するのに役立ちます。

システムは最終的に、ユーザーが、体の重量、筋肉量、または体重の分布の外観を変更するためのパラメータを設定できるようにし、服を着たまたは着ていない体の部分に対して任意の変換を生成できます。

左、入力画像;中央、導出されたアテンション領域のヒートマップ;右、変換された画像。

左、入力画像;中央、導出されたアテンション領域のヒートマップ;右、変換された画像。

この研究の動機は、写真家やメディアのさまざまな分野(ファッション、雑誌スタイルの出力、広報資料など)で行われている手間のかかるデジタル操作を置き換える自動化されたワークフローの開発です。

一般に、著者は、これらの変換は、Photoshopやその他の従来のビットマップエディタで「歪み」技術が適用されており、ほぼ女性の画像にのみ使用されていることを認めています。したがって、新しいプロセスを促進するために開発されたカスタムデータセットは、主に女性の写真で構成されています:

「ボディーリタッチは主に女性によって望まれているため、私たちのコレクションは主に女性の写真で構成されており、年齢、人種(アフリカ人:アジア人:コーカソイド = 0.33:0.35:0.32)、ポーズ、衣服の多様性を考慮しています。」

論文のタイトルは、Structure-Aware Flow Generation for Human Body Reshapingで、AlibabaのグローバルDAMOアカデミーに所属する5人の著者によるものです。

データセットの開発

画像の合成と編集システムの場合と同様に、このアーキテクチャにはカスタマイズされたトレーニングデータセットが必要でした。著者は、3人の写真家に、ストック写真サイトUnsplashから適切な画像のPhotoshop操作を依頼し、2K解像度の5,000枚の高品質画像で構成されるデータセット、BR-5K*を作成しました。

研究者は、このデータセットをトレーニングする目的は、魅力性や理想的な外見の指数に関連する「理想化された」および一般化された特徴を生成することではなく、プロのボディ画像の操作に関連する中央特徴マッピングを抽出することであると強調しています。

しかし、彼らは、最終的な操作は「現実的」から予め設定された「理想」の概念への変換プロセスを反映することを認めています:

「3人のプロのアーティストに、Photoshopを使用してボディをリタッチするように依頼し、人気のある美的基準を満たすスリムな体を作ることを目的としました。そして、ベストなものを基準として選択しました。」

顔はまったく扱わないため、データセットに含める前に顔はぼかされました。

アーキテクチャと主要概念

システムのワークフローには、高解像度のポートレートを入力し、利用可能なコンピューティングリソースに収まる低解像度にダウンサンプリングし、推定スケルトンマップポーズ(下の画像の2番目から左)とPart Affinity Fields(PAFs)を抽出します。PAFsは、2016年にカーネギーメロン大学のThe Robotics Instituteによって開発されました(下のビデオを参照)。

Part Affinity Fieldsは、四肢の向きと、より広い骨格フレームワークとの関連性を定義するのに役立ち、新しいプロジェクトに追加のアテンション/ローカライゼーションツールを提供します。

2016年のPart Affinity Fields論文から、予測されたPAFsは、2Dベクトルの一部として四肢の向きをエンコードし、四肢の一般的な位置も含みます。ソース: https://arxiv.org/pdf/1611.08050.pdf

2016年のPart Affinity Fields論文から、予測されたPAFsは、2Dベクトルの一部として四肢の向きをエンコードし、四肢の一般的な位置も含みます。 ソース: https://arxiv.org/pdf/1611.08050.pdf

アテンションマップは、最終的な変換プロセスを、上腕部、背中、太ももなどの修正される体の部分に導きます。

その後、結果はプロセスの中心にあるStructure Affinity Self-Attention(SASA)にフィードされます(下の画像を参照)。

SASAは、プロセスを推進するフロージェネレーターの一貫性を調整し、結果は、データセットに含まれる手動の修正から学習した変換を適用するためのワーピングモジュール(上の画像の2番目から右)に渡されます。

Structure Affinity Self-Attention(SASA)モジュールは、関連する体の部分にアテンションを割り当て、不要または無関係な変換を避けるのに役立ちます。

Structure Affinity Self-Attention(SASA)モジュールは、関連する体の部分にアテンションを割り当て、不要または無関係な変換を避けるのに役立ちます。

出力画像は、2017年式のディープフェイクアーキテクチャから派生したDeepFaceLabなどの人気パッケージと同様のプロセスを使用して、元の2K解像度にアップサンプリングされます。アップサンプリングプロセスは、GAN編集フレームワークでも一般的です。

スキーマのアテンションネットワークは、Compositional De-Attention NetworksCODA)に基づいてモデル化されています。これは、2019年の米国/シンガポールの学術協力であり、Amazon AIとMicrosoftが参加しています。

テスト

フローベースのフレームワークは、以前のフローベースの方法であるFALとAnimating Through Warping(ATW)および画像変換アーキテクチャであるPix2PixHDGFLAと比較してテストされました。評価メトリクスとしては、SSIM、PSNR、LPIPSが使用されました。

初期テストの結果(ヘッダーの矢印の方向は、どちらの指標が良いかを示しています)。

初期テストの結果(ヘッダーの矢印の方向は、どちらの指標が良いかを示しています)。

採用されたメトリクスに基づいて、著者のシステムは、以前のアーキテクチャを上回っています。

選択された結果。より高解像度の比較については、この記事にリンクされた元のPDFを参照してください。

選択された結果。より高解像度の比較については、この記事にリンクされた元のPDFを参照してください。

自動メトリクスに加えて、研究者はユーザー研究(結果テーブルの最後の列)を実施し、40人の参加者が、さまざまな方法で生成された画像に関する100問の質問のプールからランダムに選択された30問に回答しました。回答者の70%が、新しいテクニックを「視覚的に魅力的」と感じたと回答しました。

課題

新しい論文は、AIベースのボディ操作への希少な取り組みを表しています。画像の合成分野は現在、Neural Radiance Fields(NeRF)などの方法を使用して編集可能なボディを生成すること、またはGANの潜在的な潜在空間と顔操作のためのオートエンコーダーの可能性に重点を置いています。

著者の取り組みは現在、認識された重量の変化の生成に限定されており、背景が画像の「不完全性」によって隠されていた部分を復元するためのインペイント技術は実装されていません。

しかし、彼らは、ポートレイトマッチングとテクスチャ推論による背景ブレンドが、この問題を解決するために使えることを提案しています。

AI駆動の減量によって明らかになる背景の復元の提案された解決策。

AI駆動の減量によって明らかになる背景の復元の提案された解決策。

 

* 論文では、データセットの詳細とプロジェクトの追加の例についての補足資料へのリンクが示されていますが、補足資料の場所は論文内では示されていません。また、対応する著者はまだアクセスを求める私たちの要請に回答していません。

初めて発行されたのは2022年3月10日です。

機械学習に関するライター、ヒューマンイメージシンセシスのドメインスペシャリスト。Metaphysic.aiの研究コンテンツ責任者を務めた。