Refresh

This website www.unite.ai/ja/%E3%83%A9%E3%82%A4%E3%83%96%E3%82%B9%E3%83%88%E3%83%AA%E3%83%BC%E3%83%A0%E3%81%AE%E9%A1%94%E3%81%AE%E9%AD%85%E5%8A%9B%E5%BA%A6%E4%BA%88%E6%B8%AC%E3%81%AE%E6%8E%A8%E5%AE%9A/ is currently offline. Cloudflare's Always Online™ shows a snapshot of this web page from the Internet Archive's Wayback Machine. To check for the live version, click Refresh.

私達と接続

Artificial Intelligence

ライブストリームの顔の魅力度予測の推定

mm
更新中 on
画像は ChatGPT によるもので、論文 https://arxiv.org/pdf/2501.02509 からの画像を重ね合わせたものです。

これまで、顔の魅力予測(FAP)は、心理学研究、美容・化粧品業界、美容整形の分野で主に研究されてきました。美しさの基準が曖昧になりがちなため、研究が難しい分野です。 世界的ではなく国家的.

これは、すべての文化から顔や評価をサンプリングして得られた平均値が非常に偏っているため(人口の多い国がさらに注目を集める)、単一の効果的なAIベースのデータセットは実行可能ではないことを意味します。 文化が全くない (複数のレース/評価の平均は、実際のレースがないことに相当します)。

代わりに、課題は開発することです 概念的方法論 国や文化に固有のデータを処理できるワークフローを構築し、地域ごとの効果的な FAP モデルの開発を可能にします。

美容と心理学の研究における FAP の使用事例は非常に限定的であり、業界固有のものであるため、これまでにキュレーションされたデータセットのほとんどには限られたデータしか含まれていないか、まったく公開されていません。

主に西洋の視聴者を対象としたオンラインの魅力予測ツールが簡単に入手できることは、必ずしも FAP の最先端技術を反映しているわけではありません。FAP は現在、東アジアの研究 (主に中国) とそれに対応する東アジアのデータセットによって支配されているようです。

2020 年の論文「転移学習とマルチチャネル機能融合によるディープ ニューラル ネットワークを使用したアジア人女性の顔の美しさの予測」のデータセットの例。出典: https://www.semanticscholar.org/paper/Asian-Female-Facial-Beauty-Prediction-Using-Deep-Zhai-Huang/59776a6fb0642de5338a3dd9bac112194906bf30

2020 年の論文「転移学習とマルチチャネル機能融合によるディープ ニューラル ネットワークを使用したアジア人女性の顔の美しさの予測」のデータセットの例。 Source: https://www.semanticscholar.org/paper/Asian-Female-Facial-Beauty-Prediction-Using-Deep-Zhai-Huang/59776a6fb0642de5338a3dd9bac112194906bf30

美容評価のより広範な商業的用途としては、 オンラインデートアプリ、そして生成AIシステム 人々の実際のアバター画像を「修正」する (このようなアプリケーションでは、有効性の尺度として量子化された美しさの基準が必要だったため)。

顔を描く

魅力的な個人は、広告や影響力の構築において引き続き貴重な資産であり、これらの分野における金銭的インセンティブは、最先端の FAP データセットとフレームワークを前進させる明確な機会となります。

例えば、現実世界のデータを使って顔の美しさを評価し評価するAIモデルは、広告効果の高いイベントや個人を特定できる可能性があります。この機能は、現在「フォロワー」や「いいね」などの指標が単なる指標にしか役立たないライブビデオストリーミングのコンテキストで特に重要です。 暗黙 個人(または顔のタイプ)が観客を魅了する能力を示す指標。

もちろん、これは表面的な指標であり、声、プレゼンテーション、視点も視聴者を集める上で重要な役割を果たします。したがって、FAP データセットのキュレーションには、人間の監視と、顔の魅力と「見かけ上の」魅力を区別する能力が必要です (これがなければ、アレックス ジョーンズなどの分野外のインフルエンサーが、顔の美しさを推定するためだけに設計されたコレクションの平均 FAP 曲線に影響を与える可能性があります)。

ライブビューティー

FAP データセットの不足に対処するため、中国の研究者らは、顔の美しさを推定する 100,000 万の人間による注釈とともに 200,000 万枚の顔画像を含む初の大規模 FAP データセットを提供しています。

新しい LiveBeauty データセットのサンプル。出典: https://arxiv.org/pdf/2501.02509

新しい LiveBeauty データセットからのサンプル。 出典: https://arxiv.org/pdf/2501.02509

題さ ライブビューティーこのデータセットには、10,000 年 2024 月に (不特定の) ライブ ストリーミング プラットフォームからキャプチャされた XNUMX の異なる ID が含まれています。

著者らはまた、新しいマルチモーダルFAP法であるFPEMも発表している。FPEMは、顔の全体的な事前知識とマルチモーダルな美的意味論を統合する。 機能を使用 パーソナライズされた魅力度事前モジュール (PAPM)、マルチモーダル魅力度エンコーダーモジュール (MAEM)、およびクロスモーダル融合モジュール (CMFM) を介して。

この論文では、FPEM が新しい LiveBeauty データセットやその他の FAP データセットで最先端のパフォーマンスを達成したと主張しています。著者らは、この研究はライブ ストリーミングでのビデオ品質の向上、コンテンツの推奨、顔のレタッチに応用できる可能性があると指摘しています。

著者らはまた、データセットを「すぐに」公開することを約束しているが、ソースドメインに固有のライセンス制限は、この作品を利用する可能性のある大多数の該当プロジェクトに引き継がれる可能性が高いことは認めざるを得ない。

この 新しい紙 というタイトルです ライブストリーミングにおける顔の魅力予測: 新しいベンチマークとマルチモーダル手法は、アリババグループと上海交通大学の研究者10人から寄せられたものです。

手法とデータ

研究者らは、ライブストリーミングプラットフォームからの10時間の各放送から、最初のXNUMX時間はXNUMX時間ごとにXNUMX枚の画像を抽出し、ページビューが最も多かった放送を選択した。

収集されたデータはその後、いくつかの前処理段階にかけられました。最初の段階は 顔領域のサイズ測定2018年のCPUベースの フェイスボックス 顔の輪郭の周りに境界ボックスを生成する検出モデル。パイプラインは、境界ボックスの短辺が 90 ピクセルを超えるようにし、小さい顔領域や不明瞭な顔領域を回避します。

XNUMX番目のステップは ぼかし検出の分散を用いて顔領域に適用され、 ラプラシアン演算子 顔の切り抜きの高さ (Y) チャネルで、この分散は 10 より大きい必要があり、これによりぼやけた画像を除外できます。

XNUMX番目のステップは 顔の姿勢推定、2021年の 3DDFA-V2 姿勢推定モデル:

3DDFA-V2 推定モデルの例。出典: https://arxiv.org/pdf/2009.09960

3DDFA-V2 推定モデルからの例。 出典: https://arxiv.org/pdf/2009.09960

ここでのワークフローは、切り取られた顔のピッチ角度が 20 度以下、ヨー角度が 15 度以下であることを保証します。これにより、極端なポーズの顔が除外されます。

XNUMX番目のステップは 顔の比率の評価3DDFA-V2 モデルのセグメンテーション機能も使用し、切り取られた顔領域の割合が画像の 60% 以上になるようにし、顔が目立たない画像、つまり全体像の中で小さい画像を除外します。

最後に、5番目のステップは 重複文字の削除は、10 時間のビデオで収集された XNUMX 枚の画像のうち XNUMX 枚以上に同じ人物が映っている場合に、最先端の (匿名の) 顔認識モデルを使用します。

人間による評価と注釈

使用されたライブ プラットフォームの人口統計を反映して、男性 14 名と女性 6.7 名の合計 14 名の注釈者が採用されました*。顔は、一貫した実験室環境下で、iPhone XNUMX Pro Max の XNUMX インチ スクリーンに表示されました。

評価は 200 回のセッションに分かれ、各セッションでは 50 枚の画像が使用されました。被験者はサンプルの顔の魅力を 1 ~ 5 のスコアで評価するよう求められ、各セッションの間には XNUMX 分間の休憩が設けられ、すべての被験者がすべてのセッションに参加しました。

したがって、10,000 枚の画像全体が 200,000 人の被験者にわたって評価され、XNUMX 個の注釈が得られました。

分析と前処理

まず、外れ値比率を用いて被験者の事後スクリーニングを実施し、 スピアマンの順位相関係数 (SROCC)。SROCCが0.75未満または 外れ値 比率が 2% を超えるものは信頼できないと判断され、除外され、最終的に 20 人の被験者が得られました。

次に、各顔画像について、有効な被験者から得られたスコアの平均をとることで、平均オピニオンスコア(MOS)が計算されました。MOSは、 グラウンドトゥルース 各画像の魅力度ラベルが付けられ、各有効な被写体からの個々のスコアすべてを平均してスコアが計算されます。

最後に、すべてのサンプル、および女性と男性のサンプルのMOS分布の分析では、 ガウス型の形状これは現実世界の顔の魅力の分布と一致しています。

LiveBeauty MOS ディストリビューションの例。

LiveBeauty MOS ディストリビューションの例。

ほとんどの人は平均的な顔の魅力を持っている傾向があり、魅力が非常に低い、または非常に高いという極端な状態にある人は少数です。

さらに、 歪度と尖度 値は、分布が薄い裾野を特徴とし、平均スコアの周囲に集中していることを示しており、 高い魅力は女性のサンプルでより顕著であった 収集されたライブストリーミングビデオで。

アーキテクチャ

LiveBeauty の Facial Prior Enhanced Multi-modal モデル (FPEM) とハイブリッド融合フェーズには、2 段階のトレーニング戦略が使用され、パーソナライズされた魅力度事前モジュール (PAPM)、マルチモーダル魅力度エンコーダ モジュール (MAEM)、クロスモーダル融合モジュール (CMFM)、および決定融合モジュール (DFM) の 4 つのモジュールに分割されました。

LiveBeauty のトレーニング パイプラインの概念スキーマ。

LiveBeauty のトレーニング パイプラインの概念スキーマ。

PAPMモジュールは画像を入力として受け取り、 スウィントランス、また、事前学習済みの顔認識機能を使用して顔認識機能も抽出します。 フェイスネット モデル化。これらの特徴は、 交差注意 ブロックを使用して、パーソナライズされた「魅力」機能を作成します。

また、予備訓練段階では、MAEMは魅力の画像とテキストの説明を活用し、 CLIP マルチモーダルな美的意味的特徴を抽出する。

テンプレート化されたテキストの説明は次の形式です。 「魅力的な人物の写真」 (どこで {NS} することができます 悪い, 貧しいです, フェア, 良い or 完璧)。このプロセスでは、 コサイン類似性 テキスト埋め込みと視覚埋め込みを比較して、魅力レベルの確率を算出します。

ハイブリッド融合フェーズでは、CMFMはPAPMによって生成されたパーソナライズされた魅力特性を使用してテキスト埋め込みを改良し、パーソナライズされたテキスト埋め込みを生成します。次に、 類似度回帰 予測を行うための戦略。

最後に、DFMはPAPM、MAEM、CMFMからの個々の予測を組み合わせて、単一の最終的な魅力スコアを作成し、堅固なコンセンサスを達成することを目標としています。

損失関数

損失指標PAPMは、 L1損失予測された魅力スコアと実際の(真実の)魅力スコアの絶対差の尺度。

MAEMモジュールは、スコアリング損失(LS)とマージされたランキング損失(LR)を組み合わせた、より複雑な損失関数を使用します。ランキング損失(LR)は、忠実度損失(LR1)と 双方向ランキング損失 (LR2)。

LR1 は画像ペアの相対的な魅力を比較し、LR2 は魅力レベルの予測確率分布が単一のピークを持ち、両方向に減少することを保証します。この組み合わせたアプローチは、魅力度に基づいて画像の正確なスコアリングと正しいランキングの両方を最適化することを目的としています。

CMFM と DFM は、単純な L1 損失を使用してトレーニングされます。

テスト

テストでは、研究者らは LiveBeauty を 9 つの従来のアプローチと比較しました。 コンボネット; 2D-FAP; REX-INCEP; CNN-ER(REX-INCEPで紹介); MEビューティー; AVA-MLSP; TAネット; デレトランス、および 食べ.

ベースラインメソッドは、 画像の美的評価 (IAA)プロトコルもテストされました。これらは ビタミンB; レスネクスト-50、および インセプションV3.

LiveBeautyの他にテストされたデータセットは SCUT-FBP5000 および MEBeauty。以下では、これらのデータセットの MOS 分布を比較します。

ベンチマーク データセットの MOS 分布。

ベンチマーク データセットの MOS 分布。

それぞれ、これらのゲストデータセットは split 元のプロトコルとの一貫性を保つために、トレーニングとテストにそれぞれ 60%-40% と 80%-20% を割り当てました。LiveBeauty は 90%-10% の割合で分割されました。

MAEMのモデル初期化では、画像エンコーダーとテキストエンコーダーとしてそれぞれVT-B/16とGPT-2が使用され、CLIPの設定によって初期化されました。PAPMでは、Swin-Tがトレーニング可能な画像エンコーダーとして使用されました。 スウィンフェイス.

この アダム・W オプティマイザーが使用され、 学習率 スケジューラ で設定 線形ウォームアップ 下の コサインアニーリング スキーム。学習率はトレーニングフェーズごとに異なりますが、それぞれ バッチサイズ 32のうち50 エポック.

テストの結果

テストの結果

3 つの FAP データセットのテストの結果は上記に示されています。これらの結果について、論文では次のように述べられています。

「我々の提案した方法は、LiveBeauty、MEBeauty、SCUT-FBP0.012のSROCC値でそれぞれ0.081位を獲得し、0.021位を約5500、XNUMX、XNUMX上回っており、提案方法の優位性が実証されています。

「IAA法はFAP法よりも劣っており、一般的な美的評価法では顔の魅力の主観的な性質に関わる顔の特徴が見落とされ、FAPタスクのパフォーマンスが低下することを示しています。

「すべての手法のパフォーマンスは MEBeauty では大幅に低下します。これは、トレーニング サンプルが限られていることと、MEBeauty では顔が民族的に多様であるため、顔の魅力に大きな多様性があることを示しているからです。」

「これらすべての要因により、MEBeauty での顔の魅力の予測はより困難になります。」

倫理的配慮

魅力に関する研究は、潜在的に分裂を招く研究である。なぜなら、美の経験的基準を確立するにあたって、そのようなシステムは、年齢、人種、および人間に関連するコンピューター ビジョン研究のその他の多くのセクションに関する偏見を強化する傾向があるからである。

FAPシステムは本質的に 素因のある 魅力に関する偏った見方を強化し、永続させる。こうした判断は、人間が主導する注釈(多くの場合、効果的なドメイン一般化には規模が限定されすぎている)から生じる場合もあれば、ストリーミング プラットフォームなどのオンライン環境における注目パターンの分析から生じる場合もありますが、ストリーミング プラットフォームは、おそらく実力主義からはほど遠いものです。

 

* この論文では、名前のないソースドメインを単数形と複数形の両方で参照しています。

初版発行日:8年2025月XNUMX日水曜日

機械学習のライター、人間の画像合成のドメインスペシャリスト。Metaphysic.ai の元研究コンテンツ責任者。
個人サイト: マーティンアンダーソン.ai
お問合せ [メール保護]
Twitter: @manders_ai