Refresh

This website www.unite.ai/ja/%E4%BA%BA%E7%89%A9%E3%81%AE%E7%94%BB%E5%83%8F%E3%82%92%E3%82%88%E3%82%8A%E7%BE%8E%E3%81%97%E3%81%8F%E3%81%99%E3%82%8BAI%E3%82%B7%E3%82%B9%E3%83%86%E3%83%A0/ is currently offline. Cloudflare's Always Online™ shows a snapshot of this web page from the Internet Archive's Wayback Machine. To check for the live version, click Refresh.

私達と接続

Artificial Intelligence

人物画像をより「美しく」できるAIシステム

mm
更新中 on
背景画像: DALL-E 2 「世界で最も美しい白人のキャットウォーク モデルの受賞歴のある 8K 写真」 - https://labs.openai.com/s/kRXusxOR5GcYyb6pqZjNH2AA
背景画像: DALL-E 2 「世界で最も美しい白人のキャットウォーク モデルの受賞歴のある 8K 写真」 - https://labs.openai.com/s/kRXusxOR5GcYyb6pqZjNH2AA

中国の研究者らは、強化学習への斬新なアプローチに基づいて、人物の画像をより「美しく」できる新しいAIベースの画像強調システムを開発した。

新しいアプローチでは、「顔の美しさ予測ネットワーク」を使用して、多くの要因に基づいて画像のバリエーションを反復しますが、その中で「照明」と目のポーズが重要な要因となる可能性があります。 ここで、元のソース (各列の左側) は、EigenGAN システムからのものであり、新しい結果はその右側にあります。 出典: https://arxiv.org/pdf/2208.04517.pdf

新しいアプローチでは、「顔の美しさ予測ネットワーク」を使用して、多くの要因に基づいて画像のバリエーションを反復しますが、その中で「照明」と目のポーズが重要な要因となる可能性があります。 ここで、元のソース (各列の左側) は、EigenGAN システムからのものであり、新しい結果はその右側にあります。 出典:https://arxiv.org/pdf/2208.04517.pdf

この技術は、 EigenGAN ジェネレーター、2021年からの別の中国のプロジェクトであり、多様性を特定し、ある程度の制御を獲得する点で顕著な進歩を遂げた。 セマンティック属性 敵対的生成ネットワーク (GAN) の潜在空間内。

2021年のEigenGANジェネレーターは、敵対的生成ネットワークの潜在空間内で「髪の色」などの高レベルの概念を個別化することができました。 新しい取り組みは、この革新的な手段に基づいて、ソース画像を「美化」できるシステムを提供しますが、以前のアプローチでは問題となっていた、認識可能なアイデンティティを変更することはありません。 出典: https://arxiv.org/pdf/2104.12476.pdf

2021年のEigenGANジェネレーターは、敵対的生成ネットワークの潜在空間内で「髪の色」などの高レベルの概念を個別化することができました。 新しい取り組みは、この革新的な手段に基づいて、ソース画像を「美化」できるシステムを提供しますが、以前のアプローチでは問題となっていた、認識可能なアイデンティティを変更することはありません。 出典:https://arxiv.org/pdf/2104.12476.pdf

このシステムは、 SCUT-FBP5500 (SCUT)、広州華南理工大学による顔の美しさ予測のための 2018 年のベンチマーク データセット。

2018 年の論文「SCUT-FBP5500: マルチパラダイム顔の美しさ予測のための多様なベンチマーク データセット」より。この論文は、知覚された魅力に関して顔をランク付けできるが、実際に変換することはできない「顔の美しさの予測」(FBP) ネットワークを提供しました。または顔を「アップグレード」します。 出典: https://arxiv.org/pdf/1801.06345.pdf

2018 年の論文「SCUT-FBP5500: マルチパラダイム顔の美しさ予測のための多様なベンチマーク データセット」より。この論文は、知覚された魅力に関して顔をランク付けできるが、実際に変換することはできない「顔の美しさの予測」(FBP) ネットワークを提供しました。または顔を「アップグレード」します。  出典:https://arxiv.org/pdf/1801.06345.pdf

新作とは異なり、2018 年のプロジェクトでは実際に変換を実行することはできませんが、男女混合の 5,500 人のラベラー (60/50 分割) によって提供された 50 の顔に対するアルゴリズムによる価値判断が含まれています。 これらは有効な手段として新システムに組み込まれています。 弁別器、画像の「魅力」を高める可能性のある変換を通知します。

興味深いことに、 新しい紙 というタイトルです 美学駆動型強化学習による属性制御可能な美しい白人の顔生成。 白人を除くすべての人種がシステムから除外されている理由(研究者自身が中国人であることも考慮してください)は、SCUT のソース データが特にアジアの情報源(均等に分割された 4000 人のアジア人女性/男性、均等に分割された 1500 人の白人女性)に偏っているためです。 /男性)、そのデータセット内の「平均的な人」は茶色の髪と茶色の目をしています。

したがって、少なくとも XNUMX つの人種内での色の変化に対応するには、元のデータからアジアの要素を除外するか、そうでなければ、データを再構成するという多大な費用を費やして、うまくいかなかった可能性のある方法を開発する必要がありました。 さらに、 美に対する文化的認識の違い 必然的に、そのようなシステムには「魅力」を構成するものに関してある程度の地理的な構成可能性が必要になることを意味します。

関連する属性

人物の「魅力的な」写真に寄与する主な要因を特定するために、研究者らはまた、画像に対するさまざまな変更の効果を、そのような拡張がアルゴリズムによる「美しさ」の認識をどの程度高めるかという観点からテストした。 彼らは、優れた遺伝学よりも、少なくとも XNUMX つの側面が優れた写真にとって重要であることを発見しました。

照明のほかに、美しさのスコアに最も大きな影響を与えた要素は、前髪(男性の場合、頭髪がすべてあることと同じであることがよくあります)、体の姿勢、目の性質(目との関わり方)でした。カメラ視点が魅力の補填です)。

(「口紅の色」に関しては、この新しいシステムは男性と女性の両方の性別表現に効果的に作用し、性別の外観を区別するのではなく、むしろこの点での「フィルター」として新しい弁別システムに依存しています。)

方法

新しいシステムの強化学習メカニズムの報酬関数は、顔の美しさの予測を出力する SCUT データに対する直接回帰によって強化されています。

トレーニング システムは、データ入力画像を反復処理します (下の図の左下)。 最初は事前トレーニング済み レスネット18 モデル(トレーニング済み) ImageNet) は、XNUMX つの同一 (「y」) 画像から特徴を抽出します。 次に、潜在的な変革アクションが、オブジェクトの隠れた状態から導出されます。 完全に接続されたレイヤー (GRUCell、下の画像)、および適用された変換により、美的スコア ネットワークに入力される XNUMX つの変更された画像が生成され、ダーウィン スタイルのそのランキングによって、どのバリエーションが開発され、どのバリエーションが破棄されるかが決まります。

新しいシステムのワークフローの大まかな図。

新しいシステムのワークフローの図。

美的スコア ネットワークは、効率的なチャネル アテンション (ACEは) モジュールですが、事前トレーニングされたインスタンスを適応させたものです。 EfficientNet-B4 は、各画像から 1,792 個の特徴を抽出する任務を負っています。

による正規化後、 ReLU活性化機能、ECA モジュールから 4 次元ベクトルが取得され、アクティブ化後に XNUMX 次元ベクトルに平坦化されます。 適応型平均プーリング。 最後に、結果が 回帰ネットワーク、美的スコアを取得します。

システムからの出力の定性的な比較。 下の行には、EigenGAN メソッドによって識別され、その後強化されたすべての個別ファセットの合計が表示されます。 画像の平均 FID スコアは画像行の左側にあります (高いほど優れています)。

システムからの出力の定性的な比較。 下の行には、EigenGAN メソッドによって識別され、その後強化されたすべての個別ファセットの合計が表示されます。 画像の平均 FID スコアは画像行の左側にあります (高いほど優れています)。

テストとユーザー調査

提案された方法の XNUMX つの変形が、フレシェ開始距離 (FID、 一部の方面で物議を醸している) システムを通過した合計 1000 枚の画像に割り当てられたスコア。

研究者らは、照明を改善することで、他のいくつかのより「明白な」可能な変更(つまり、描かれている人物の実際の外観)よりも写真の被写体の魅力度スコアが向上したことに注目しています。

この方法でシステムをテストすることは、SCUT データの奇抜さによってある程度制限されます。SCUT データには「明るい笑顔」があまりなく、これにより、より典型的な「謎めいた」外観が過剰にランク付けされる可能性があると著者らは主張しています。データを、潜在的な対象となるエンド ユーザー (この場合はおそらく西側市場) の好みと比較します。

ただし、システム全体はわずか 60 人の平均的な意見 (EigenGAN 論文の場合) に依存しており、研究されている品質は経験から程遠いため、この手順はデータセットよりも健全であると主張することができます。

論文では非常に簡単に扱われていますが、EigenGAN とシステム自体の XNUMX つのバリアントからの画像も、限定されたユーザー調査 (参加者 XNUMX 名) で表示され、「最高の画像」(「魅力的」という言葉は、避けられました)。

上は、小規模な研究グループに提示された GUI です。 以下、結果。

上は、小規模な研究グループに提示された GUI です。 以下、結果。

結果は、新しいシステムの出力が参加者間で最高の選択率を達成したことを示しています (上の画像の「MAES」)。

美の(目的のない?)追求

このようなシステムの有用性は、一見効果があるように見えても、確立するのが困難です。 注目すべき of 努力 in 中国 これらの目標に向かって。 新しい出版物では何も概要が説明されていません。

以前のEigenGAN論文*は、美認識システムがフェイシャルに使用できることを示唆しています。 メイクアップ合成推奨システム、美容外科、 顔の美化、またはコンテンツベースの画像検索。

おそらく、このようなアプローチは、古い写真や写真を使用する代わりに、エンドユーザーが自分のプロフィール写真を確実な「ラッキーショット」に「強化」するために、出会い系サイトでも使用できる可能性があります。 他の人の.

同様に、出会い系サイト自体もクライアントを「スコアリング」して評価を作成し、さらには アクセス制限層ただし、これはおそらく、送信された写真ではなく、ライブネス認証キャプチャを介してのみ機能します(このアプローチが普及した場合、クライアントによって同様に「強化」される可能性があります)。

広告における、美を評価するためのアルゴリズム手法 (SF 作家の故マイケル クライトンが 1982 年の映画出演で予測した技術) ルッカー)を使用して、ターゲット視聴者を魅了する可能性が最も高い非強化のクリエイティブ出力を選択することができますが、ディープフェイクのスタイルで顔画像を実際に上書きすることなく、顔画像の美的影響を実際に最大化する能力は、意図したすでに効果的な画像を強化する可能性があります公共の関心を集めるため。

この新しい研究は、中国国家自然科学財団、複雑系管理制御国家重点研究所のオープンファンドプロジェクト、中国教育省の哲学・社会科学研究プロジェクトなどの支援を受けている。

 

*EigenGAN 論文の推奨事項の多くは、学術リソースではなく、「顔の美しさ分析のためのコンピューター モデル」というタイトルの 2016 年の市販の書籍を指しています。

初版は11年2022月XNUMX日。

機械学習のライター、人間の画像合成のドメインスペシャリスト。Metaphysic.ai の元研究コンテンツ責任者。
個人サイト: マーティンアンダーソン.ai
お問合せ [メール保護]
Twitter: @manders_ai