Artificial Intelligence

AI で「より良い」身体を偽装

更新中 on 2022 年 12 月 9 日

アリババ DAMO アカデミーの新しい研究は、身体の画像の再形成を自動化するための AI 主導のワークフローを提供します。これは、現在多大な労力を費やしているコンピュータービジョン分野では珍しい取り組みです。顔ベースの操作ディープフェイクやGANベースなど顔の編集.

「結果」列には、修正する領域を定義する生成されたアテンションマップが挿入されます。 出典：https://arxiv.org/pdf/2203.04670.pdf

研究者のアーキテクチャは、骨格ポーズ推定を使用して、既存の身体画像を概念化しパラメータ化する際に画像合成および編集システムが直面するより複雑な問題に、少なくとも実際に有意義で選択的な編集を可能にする粒度レベルまで取り組んでいます。

推定された骨格マップは、上腕部分など、レタッチされる可能性が高い体の領域を個別に特定し、そこに注意を集中させるのに役立ちます。

このシステムにより、ユーザーは最終的に、人物の全身写真または中身長写真の体重、筋肉量、または体重分布の外観を変更できるパラメータを設定できるようになり、服を着ているまたは服を着ていない身体部分に任意の変形を生成することができます。

左、入力画像。中央は、派生した注目領域のヒートマップです。右、変換された画像。

この仕事の動機は、ファッションから雑誌スタイルの出力に至るまで、メディアのさまざまな分野で写真家やプロダクショングラフィックアーティストが行う困難なデジタル操作を置き換えることができる自動化されたワークフローの開発です。広報資料.

一般に、これらの変換は通常、Photoshop やその他の従来のビットマップエディターの「ワープ」技術を使用して適用され、ほぼ女性の画像にのみ使用されることを著者らも認めています。その結果、新しいプロセスを促進するために開発されたカスタムデータセットは、主に女性の被写体の写真で構成されています。

「ボディレタッチは主に女性が希望するため、年齢、人種（アフリカ人：アジア人：白人＝0.33：0.35：0.32）、ポーズ、服装の多様性を考慮して、私たちのコレクションの大部分は女性の写真です。」

　紙というタイトルです 人体の再形成のための構造を意識したフロー生成、アリババのグローバル DAMO アカデミーに関連する XNUMX 人の著者によるものです。

データセットの開発

画像合成および編集システムでは通常のことですが、このプロジェクトのアーキテクチャにはカスタマイズされたトレーニングデータセットが必要でした。著者らは XNUMX 人の写真家に、ストックフォトサイト Unsplash の適切な画像を標準的な Photoshop 操作で作成するよう依頼し、その結果、次のタイトルのデータセットが作成されました。 BR-5K* – 5,000K 解像度の 2 枚の高品質画像。

研究者らは、このデータセットでのトレーニングの目的は、魅力や望ましい外観の指標に関連する「理想化された」一般化された特徴を生成することではなく、むしろ身体画像の専門的な操作に関連する中心的な特徴マッピングを抽出することであると強調しています。

しかし、彼らは、この操作が最終的には「現実」から「理想」というあらかじめ設定された概念への進行をマッピングする変革的なプロセスを反映していることを認めています。

「人気の美学を満たすスレンダーな体型を実現することを目標に、XNUMX 人のプロのアーティストに Photoshop を使用して個別にボディをレタッチしてもらい、最も優れたものをグラウンドトゥルースとして選択します。」

このフレームワークは顔をまったく処理しないため、これらはデータセットに含められる前にぼかされています。

アーキテクチャとコアコンセプト

システムのワークフローには、高解像度ポートレートの入力、利用可能なコンピューティングリソースに適合する低解像度へのダウンサンプリング、推定スケルトンマップポーズ (下の画像の左から XNUMX 番目の図) およびパーツアフィニティフィールドの抽出が含まれます。 (PAF)、革新的な 2016年にカーネギーメロン大学ロボット工学研究所によって発表されました（すぐ下に埋め込まれたビデオを参照）。

パーツアフィニティフィールドを使用したリアルタイムマルチパーソン 2D 人間の姿勢推定、CVPR 2017 口頭

Realtime Multi-Person 2D Human Pose Estimation using Part Affinity Fields, CVPR 2017 Oral

Watch this video on YouTube

パーツアフィニティフィールドは、手足の方向と、より広範な骨格フレームワークとの一般的な関連性を定義するのに役立ち、新しいプロジェクトに追加の注意/位置特定ツールを提供します。

2016 年の Part Affinity Fields 論文によると、予測された PAF は、四肢の一般的な位置も含む 2D ベクトルの一部として四肢の向きをエンコードします。 出典：https://arxiv.org/pdf/1611.08050.pdf

体重の見た目とは明らかに無関係であるにもかかわらず、スケルトンマップは、上腕、尻、太ももなど、修正する体の部分に最終的な変換プロセスを指示するのに役立ちます。

この後、結果はプロセスの中心的なボトルネックにある Structure Affinity Self-Attendee (SASA) に供給されます (下の画像を参照)。

SASA は、プロセスを促進するフロージェネレーターの一貫性を制御します。その結果はワーピングモジュール (上の画像の右から XNUMX 番目) に渡され、データセットに含まれる手動リビジョンのトレーニングから学習した変換が適用されます。。

Structure Affinity Self-Attention (SASA) モジュールは、関連する身体部分に注意を割り当て、無関係または無関係な変換を回避します。

その後、出力画像は元の 2K 解像度にアップサンプリングされ、DeepFaceLab などの一般的なパッケージが派生した標準的な 2017 スタイルのディープフェイクアーキテクチャと似たプロセスを使用します。アップサンプリングプロセスは GAN 編集フレームワークでも一般的です。

スキーマのアテンションネットワークは次のようにモデル化されています。 構成的非注意ネットワーク (コーダ)、Amazon AI および Microsoft との 2019 年の米国/シンガポール学術コラボレーション。

テスト

フローベースのフレームワークは、以前のフローベースの方法に対してテストされました FAL ワーピングによるアニメーション化 (ATW)、および画像翻訳アーキテクチャ Pix2PixHD & GFLA、と SSIM、PSNR、LPIPS 評価指標として。

初期テストの結果 (ヘッダーの矢印の方向は、低い数値が最適であるか高い数値が最適であるかを示します)。

これらの採用された指標に基づくと、著者のシステムは以前のアーキテクチャよりも優れています。

選択された結果。高解像度の比較については、この記事にリンクされているオリジナルの PDF を参照してください。

自動化された測定基準に加えて、研究者らはユーザー調査（前述の結果表の最後の列）を実施しました。そこでは、40 人の参加者がそれぞれ、さまざまな方法で生成された画像に関する 30 問の質問プールからランダムに選択された 100 問の質問を提示されました。回答者の 70% が、より「視覚的に魅力的」であるとして新しい技術を支持しました。