人工知能

顔の魅力予測の推定をライブストリーミングに適用する

Published January 8, 2025

Updated April 26, 2026

Martin Anderson

Image by ChatGPT, with superimposed image from the paper https://arxiv.org/pdf/2501.02509

までに、顔の魅力予測（FAP）は、主に心理学研究、美容と化粧品業界、美容外科の文脈で研究されてきた分野である。これは、美の基準が国によって異なることが多いため、研究するのが難しい分野である。

これは、世界中の文化からの顔や評価の平均値を取得した場合、より人口の多い国がより多くのトラクションを得るため、バイアスがかかった結果になることを意味する。あるいは、実際の人種に相当しない平均値をもたらすため、どの文化にも適用できない。

代わりに、課題は、国や文化ごとに特化したデータを処理できるように、概念的な方法論とワークフローを開発することである。これにより、各地域ごとの有効なFAPモデルを開発できる。

美容と心理学研究におけるFAPの使用例はかなり限られているため、ほとんどのデータセットは制限されたデータしか含んでおらず、またはまったく公開されていない。

オンラインの魅力予測ツールは、主に西洋の観客を対象としているため、FAPの最新の技術を必ずしも表しているわけではない。現在、FAPは東アジアの研究（主に中国）によって支配されており、対応する東アジアのデータセットが利用されている。

Dataset examples from the 2020 paper ‘Asian Female Facial Beauty Prediction Using Deep Neural Networks via Transfer Learning and Multi-Channel Feature Fusion’. Source: https://www.semanticscholar.org/paper/Asian-Female-Facial-Beauty-Prediction-Using-Deep-Zhai-Huang/59776a6fb0642de5338a3dd9bac112194906bf30

美の推定のより広範な商業的用途には、オンラインデートアプリや、画像を美しくするために設計された生成的なAIシステムが含まれる（これらのアプリケーションは、有効性の尺度として美の量化された基準を必要とするため）。

顔の描画

魅力的な人は、広告や影響力の構築において貴重な資産であり続けており、これらの分野における金融的インセンティブは、FAPデータセットとフレームワークの最新技術を進歩させるための明確な機会を提供している。

例えば、実世界のデータでトレーニングされたAIモデルは、広告の影響力を高めるイベントや個人の潜在能力を評価してランク付けすることができる。この機能は、ライブビデオストリーミングのコンテキストで特に関連性が高く、そこでは「フォロワー」や「いいね」のような指標が、個人の（または顔のタイプの）観客を魅了する能力の暗黙的な指標としてのみ機能している。

これは表面的な指標であり、声、プレゼンテーション、視点も観客を集める上で重要な役割を果たしている。したがって、FAPデータセットのキュレーションには、人間の監視と、顔の魅力と「見せかけの」魅力を区別する能力が必要である（そうでない場合、Alex Jonesのようなドメイン外のインフルエンサーが、顔の美しさのみを推定するために設計されたコレクションのFAP曲線の平均に影響を与えることになる）。

LiveBeauty

FAPデータセットの不足に対処するために、中国の研究者は、100,000枚の顔画像と200,000人の人間による顔の美しさの評価を含む、最初の大規模なFAPデータセットを提供している。

新しいLiveBeautyデータセットのサンプル。 ソース: https://arxiv.org/pdf/2501.02509

LiveBeautyという名前のこのデータセットには、10,000人の異なるアイデンティティが含まれており、すべて2024年3月に（特定の）ライブストリーミングプラットフォームから収集された。

著者はまた、FPEMという新しい多モーダルFAP方法を提示している。FPEMは、Personalized Attractiveness Prior Module（PAPM）、Multi-modal Attractiveness Encoder Module（MAEM）、Cross-Modal Fusion Module（CMFM）を介して、ホリスティックな顔の先入知識と多モーダルな美的意味の特徴を統合する。

論文では、FPEMが新しいLiveBeautyデータセットと他のFAPデータセットで最高の性能を達成することが示唆されている。著者は、この研究がビデオ品質の向上、コンテンツの推奨、ライブストリーミングでの顔の修正に潜在的な応用があると述べている。

著者はまた、データセットを「すぐに」利用できるようにすることを約束しているが、ソースドメインに含まれるライセンスの制限が、利用する可能性のある多くのプロジェクトに継承される可能性がある。

新しい論文は、ライブストリーミングでの顔の魅力予測：新しいベンチマークと多モーダル方法というタイトルで、Alibaba Groupと上海交通大学の10人の研究者によって執筆された。

方法とデータ

各10時間の放送から、最初の3時間ごとに1枚の画像を収集した。ページビューが最も多い放送が選択された。

収集されたデータは、複数の前処理ステージを経た。最初のステージは、顔の領域のサイズの測定で、2018年のCPUベースのFaceBoxes検出モデルを使用して、顔の特徴の周りにバウンディングボックスを生成する。パイプラインでは、バウンディングボックスの短い辺が90ピクセルを超えることを保証することで、顔の領域が小さすぎるまたは不明確な画像を除外する。

2番目のステップは、ぼけ検出で、顔の領域にラプラシアン演算子の分散を使用して適用される。顔の領域の高さ（Y）チャネルのラプラシアン演算子の分散は10を超える必要があり、これによりぼけた画像を除外する。

3番目のステップは、顔のポーズの推定で、2021年の3DDFA-V2ポーズ推定モデルを使用する：

3DDFA-V2推定モデルの例。 ソース: https://arxiv.org/pdf/2009.09960

ここでは、ワークフローでは、切り取られた顔のピッチ角度が20度を超えないこと、およびヨー角度が15度を超えないことを保証することで、極端なポーズの顔は除外される。

4番目のステップは、顔の比率の評価で、3DDFA-V2モデルのセグメンテーション機能も使用され、切り取られた顔の領域の比率が画像の60％を超えることを保証する。これにより、顔が画像全体の中で小さく、目立たない画像は除外される。

最後に、5番目のステップは、重複したキャラクターの削除で、状態-of-the-artの顔認識モデル（無属性）を使用し、同じアイデンティティが10時間のビデオの3枚の画像のいずれかに複数回出現する場合に使用される。

人間の評価と注釈

20人の注釈者が採用され、6人の男性と14人の女性で構成され、ライブプラットフォームの人口統計を反映している*。顔は、6.7インチの画面を持つiPhone 14 Pro Maxに表示され、一定の実験室条件下で評価された。

評価は、200回のセッションに分割され、各セッションでは50枚の画像が使用された。被験者は、1から5までのスコアでサンプルの顔の魅力を評価するよう求められ、各セッションの間には5分間の休憩が設けられ、すべての被験者がすべてのセッションに参加した。

したがって、10,000枚の画像は、20人の人間の被験者によって評価され、200,000の注釈が得られた。

分析と前処理

まず、被験者への事前スクリーニングが、外れ値の比率とスピアマンの順位相関係数（SROCC）を使用して実行された。SROCCが0.75未満、または外れ値の比率が2％を超える被験者は、信頼できないと判断され、除外された。最終的に、20人の被験者が得られた。

次に、各顔画像の平均意見スコア（MOS）が、有効な被験者から得られたスコアの平均値を取ることで計算された。MOSは、各画像の魅力の真のラベルとして機能し、スコアは、各有効な被験者からの個々のスコアの平均値を取ることで計算される。

最後に、すべてのサンプルのMOSの分布、および女性と男性のサンプルのMOSの分布の分析は、ガウシアンモデルに似た形状を示した。これは、実世界の顔の魅力の分布と一致する。

ほとんどの個人は、平均的な顔の魅力を持っており、非常に低いまたは非常に高い魅力を持つ個人は少ない。

さらに、歪度と尖度の値の分析は、分布が薄い尾と集中した平均スコアを持っていることを示し、高魅力は、収集されたライブストリーミングビデオの女性サンプルでより一般的であることを示した。

アーキテクチャ

FPEMとLiveBeautyのハイブリッド融合フェーズの2段階のトレーニング戦略が使用された。4つのモジュールに分割された：Personalized Attractiveness Prior Module（PAPM）、Multi-modal Attractiveness Encoder Module（MAEM）、Cross-Modal Fusion Module（CMFM）、およびDecision Fusion Module（DFM）。

LiveBeautyのトレーニングパイプラインの概念スキーマ。

PAPMモジュールは画像を入力として受け取り、Swin Transformerを使用して多スケールの視覚特徴を抽出し、事前トレーニングされたFaceNetモデルを使用して顔認識特徴を抽出する。これらの特徴は、クロスアテンションブロックを使用して結合され、パーソナライズされた「魅力」の特徴を生成する。

また、前処理段階では、MAEMは画像と魅力のテキスト記述を使用し、CLIPを使用して多モーダルな美的意味の特徴を抽出する。

テンプレート化されたテキスト記述は、‘{a}魅力のある人の写真’（{a}は悪い、貧しい、公平、良い、または完全である）という形式である。プロセスは、テキストと視覚の埋め込み間のコサイン類似度を推定して、魅力のレベルを推定する。

ハイブリッド融合段階では、CMFMは、PAPMによって生成されたパーソナライズされた魅力の特徴を使用して、テキストの埋め込みを改良し、パーソナライズされたテキストの埋め込みを生成する。次に、類似性回帰戦略を使用して、予測を行う。

最後に、DFMは、PAPM、MAEM、CMFMからの個々の予測を組み合わせて、単一の最終的な魅力スコアを生成する。頑健なコンセンサスを達成することを目標とする。

損失関数

損失メトリックの場合、PAPMは、予測された魅力スコアと実際の（真の）魅力スコアの間の絶対差を測定するL1損失を使用してトレーニングされる。

MAEMモジュールは、スコアリング損失（LS）とランキング損失（LR）の組み合わせた、より複雑な損失関数を使用する。ランキング損失（LR）には、忠実度損失（LR1）と二方向ランキング損失（LR2）が含まれる。

LR1は、画像ペアの相対的な魅力を比較し、LR2は、魅力のレベルの予測分布が単一のピークを持ち、両方向に減少することを保証する。この組み合わせアプローチは、スコアリングとランキングの両方の正確性を最適化することを目指す。

CMFMとDFMは、単純なL1損失を使用してトレーニングされる。

テスト

テストでは、研究者はLiveBeautyを、ComboNet、2D-FAP、REX-INCEP、CNN-ER（REX-INCEPに含まれる）、MEBeauty、AVA-MLSP、TANet、Dele-Trans、およびEATの9つの以前のアプローチと比較した。

ベースライン方法は、Image Aesthetic Assessment（IAA）プロトコルに従ってテストされた。これらは、ViT-B、ResNeXt-50、およびInception-V3であった。

LiveBeauty以外のテストされたデータセットは、SCUT-FBP5000とMEBeautyであった。以下は、これらのデータセットのMOS分布の比較である：

ベンチマークデータセットのMOS分布。

それぞれ、これらのゲストデータセットは、60％-40％と80％-20％でトレーニングとテストに分割された。LiveBeautyは90％-10％で分割された。

MAEMのモデル初期化には、VT-B/16とGPT-2が画像とテキストエンコーダーとして使用され、CLIPの設定によって初期化された。PAPMでは、Swin-Tがトレーニング可能な画像エンコーダーとして使用され、SwinFaceに従った。

AdamWオプティマイザが使用され、学習率のスケジューラーが、線形ウォームアップの下でコサインアニーリングスキームで設定された。学習率はトレーニングの段階によって異なったが、各段階でバッチサイズは32、エポックは50であった。

テストの結果。

3つのFAPデータセットのテスト結果が上記に示されている。これらの結果について、論文は次のように述べている：

‘私たちの提案した方法は、LiveBeauty、MEBeauty、SCUT-FBP5500のSROCC値で1位となり、2位よりも約0.012、0.081、0.021上回った。これは、私たちの提案した方法の優位性を示している。 ‘

‘IAA方法は、FAP方法に比べて劣っている。これは、汎用的な美的評価方法が、顔の魅力の主観的な性質に伴う顔の特徴を無視するため、FAPタスクで性能が低いことを示している。 ‘

‘MEBeautyでは、すべての方法の性能が大きく低下する。これは、MEBeautyのトレーニングサンプルが限られており、収集された顔が人種的に多様であるため、顔の魅力に大きな多様性があることを示している。 ‘

‘これらの要因はすべて、MEBeautyでの顔の魅力の予測をより困難にしている。 ‘

倫理的配慮

美の研究は、偏った美の基準を確立する可能性があるため、潜在的に分裂する追求である。人間の注釈やオンライン環境での注目パターンの分析に基づいて、システムは偏った美の基準を強化し、永続させる可能性がある。

* 論文では、ソースドメインを単数と複数の両方で参照している。

2025年1月8日初版。