Andersonの視点

AIの美の追求

Published March 19, 2026

Updated April 25, 2026

Martin Anderson

AI-generated image featuring a woman whose face is being analyzed by a Terminator-style HUD. GPT-1.5.

新しいAI駆動の美評価システムは、顔の魅力度を評価するよう設計されており、従来のディープラーニングモデルよりも高速にトレーニングできるため、大規模な自動美評価の実現可能性が高まっている。

顔の美しさ予測（Facial Beauty Prediction, FBP）は大きなビジネスであり、研究文献の中でも強い研究分野である。AIと機械学習の実践における偏りの排除に関する原則をほとんどすべて破壊しており、また、アルゴリズムによる女性の認識における客体化と還元主義を支持しているにもかかわらず、数多くの多億ドル規模の業界の注目を集めている。これらの業界の多くは、コスメティックス、美容外科、ライブストリーミング、ファッションなど、女性を直接対象としたものである。

1から5までの評価を受けた女性、論文『Asian Female Facial Beauty Prediction Using Deep Neural Networks via Transfer Learning and Multi-Channel Feature Fusion』より。 ソース

これらの明らかな女性を対象としたビジネス分野を超えて、広告やその他の業界、エンターテインメントや出版など、美しさについて理解することに多大な利益を持つ業界もある。

美しさの認識は地域によって異なるため、世界的に適用可能なデータセットを取得することはできず、新しい研究は地域限定のものであるか、または多様な文化データに適用可能な「高水準」の方法に集中する必要がある。

2015年のSCUT-FBPプロジェクトの顔の美しさ評価システムのインターフェイス。 ソース

地理的な場所だけが制限ではありません。美しさに焦点を当てたデータセットは、性別間で同等の有効性を提供するのに苦労したり、特定のアプリケーションを念頭に置いてキュレーションされたりすることがあり、それが他のドメインでのコレクションの使用を制限する可能性がある。

例えば、2025年に私は報告したように、ライブストリーミングでの魅力度評価のために100,000を超えるアイデンティティを持つデータセットの開発について触れたが、他のプロジェクトへの適応には大きな努力が必要である。

顔の表現

上記のリンクや画像から明らかなように、アジアの研究機関は、西洋の同等の機関とは異なる文化的制約の下で運営されていることが多い。西洋の同等の機関は、上記の研究のように、西洋の女性を1から5の評価でランク付けする科学的なイラストを公開することは難しいだろう。

アジア発祥のこのようなシステムが、公開された場で効果的であることが証明されれば、西洋の利益は、批判を受けることなく、研究を使用または適応させることができる。女性の「評価」のタスクは、批判を受けない場所で追求できるように、レンダリングされる。

これが一般的か、または西洋の同等のシステムが、オープンソースのコラボレーションや公開の監視から遠ざけて開発される傾向があるかはわかりませんが、多数の専門分野が正確な魅力度評価から利益を得る可能性があるため、目標は世界的な関心事であると推測することは妥当である。

最も適切なものの生存

Tik Tok、Instagram、YouTubeなどの大量のWebデータは、フォロワー、いいね、トラフィックを魅力度と関連付けることで、美しさの仲裁者となる可能性が高い。なぜなら、これは一般的で妥当な関連付けだからである（ただし、一部の例外がある）。

また、ImageNetとLAIONなどの既存のコレクションは、俳優やモデルが「トップ」に立っていることが多く、魅力的な個人を特集している（ただし、データポイントが少なく、人数が多すぎることがある）。これらは、魅力度の代理として機能するより広い文化的メカニズムを提供する。

しかし、これは、美しさの傾向の変化を時間の経過とともに（地理的に言えば、もっとも）考慮していない。したがって、個別のコレクションやキュレーションではなく、個別的で疑わしいコレクションやキュレーションではなく、高水準でデータに依存しないシステムが必要である。

組み合わせ肌

これらの課題に取り組む最新の学術的取り組みは、中国から来ている。ここでは、転移学習とBroad Learning System（BLS）を組み合わせて、精度と計算コストの長年のトレードオフに取り組んでいる。

従来のニューラルネットワークは、重いトレーニングでなければ強い結果を達成できないのに対し、軽量なシステムであるBLSは迅速にトレーニングできるが、細かい視覚的な詳細を捉えるのに苦労する。新しい研究は、事前トレーニング済みの視覚モデルを使用して顔の特徴を抽出し、それを迅速なBLSベースのシステムに渡して評価することで、このギャップを埋める。特徴を再利用することで、スクラッチからニューラルネットワークをトレーニングする必要がなくなり、トレーニングの効率が維持される。

LSAFBDデータセットのサンプル画像、1から5までの人間が割り当てた美しさスコアで女性の顔をグループ化している。 ソース

最初のバリエーション（E-BLS）は、抽出された特徴を直接軽量システムにフィードする。一方、2番目のバリエーション（ER-BLS）は、特徴を評価する前に標準化および精製するための簡単な中間ステップを追加する。

著者が実施したテストは、彼らのアプローチが、各方法自身や他の競合方法よりも優れていることを証明したと主張している。

新しい論文は、転移学習とBroad Learning Systemを組み合わせた顔の美しさ予測というタイトルで、呉宜大学の6人の研究者によって発表された。

方法

上記のBroad Learning Systemは、ディープニューラルネットワークの代替手段であり、複数の層を積み重ねるのではなく、より単純な接続を広く分布させることで、迅速にトレーニングできるモデルを提供する。ただし、通常、より細かい視覚的な詳細を捉えることができない。

最初のバリエーションであるE-BLSは、EfficientNetベースの転移学習とBLSを組み合わせ、顔から詳細な視覚的な特徴を抽出し、最終的な予測のためにBLSに渡す。全くのスクラッチからディープニューラルネットワークをトレーニングする必要性を排除する。

E-BLSモデルのアーキテクチャスキーマ、SCUT-FBP5500やLSAFBDなどのターゲットデータセットからの顔画像が、事前トレーニング済みのEfficientNet特徴抽出器を通過し、固定されたImageNetパラメータから特徴マップが抽出され、結果として得られた特徴マップがBLSにフィードされる。

EfficientNetは、ImageNet-1kで事前トレーニングされており、大部分が変更されていない。各入力画像を、顔の構造化された説明を提供するコンパクトな特徴値のセットに変換する。BLSは、これらの値を処理して、最終的な魅力度スコアを生成する。

E-BLSは、ディープ層構造に依存しないため、システム全体を再トレーニングするのではなく、新しいノードを追加することで更新できる。トレーニングは迅速に維持され、新しいデータが導入されるとモデルを改善することが容易になる。

2番目のバリエーションであるER-BLSは、E-BLSを基にして、EfficientNet特徴抽出器とBLSの間に、特徴を評価する前に標準化および精製するための簡単な中間ステップを追加する。

ER-BLSモデルのアーキテクチャ、顔画像が事前トレーニング済みのEfficientNet特徴抽出器を通過し、プーリング、正規化、ラジアルベース関数（RBF）変換を使用する接続層で精製され、出力がBLSに渡されて最終的な顔の美しさスコアが生成される。

EfficientNetの生の特徴を直接BLSに渡すのではなく、ER-BLSはそれらを、ノイズを軽減し、特徴を異なる画像間でより一貫性のあるものにすることを目的とした精製層に渡す。精製された特徴は、E-BLSで使用されるのと同じBLS構造に渡され、最終的な魅力度スコアが生成される。

データとテスト

著者は、SCUT-FBP5500データセットを使用してアプローチをテストした。このデータセットは、南中国大学の顔の美しさ予測コレクションであり、5,500枚の正面顔画像（350x350px）を含み、人種、性別、年齢が多様である。

SCUT-FBP5500データセットのサンプル顔画像、1から5までの美しさスコアで評価されている。

各画像は、60人のボランティアによって1から5のスケールで美しさスコアが付けられた。

美しさスコアによる画像の割合の分割。

使用されたもう1つのデータベースは、Large-Scale Asian Female Beauty Dataset（LSAFBD）コレクションであり、著者自身によってキュレーションされたデータセットである。

LSAFBDデータセットのサンプル顔画像、1から5までの美しさスコアで評価されている。

コレクションには、144x144pxの解像度で80,000枚の未ラベル画像が含まれており、ポーズや背景、年齢に変化がある。これらは、同じ基準で0から4のスケールで75人のボランティアによって評価された。

LSAFBDデータセットの分割。

各データセットは、8/20の比率でトレーニングとテストのセグメントに分割され、分割とクロスバリデーションが使用されて、実行間で結果を安定させた。BLSコンポーネントは、特徴ウィンドウの数、ウィンドウごとのノードの数、および強化ノードの数で構成され、Hyperoptが有効な組み合わせを検索するために使用された。

基準線を確立するために、標準的なBLSモデルが同等の設定でトレーニングされ、続いてResNet50、Inception-V3、DenseNet121、InceptionResNetV2、EfficientNetB7、MobileNetV2、NASNet、およびXceptionを含む一連の転移学習モデルが導入された。これらのモデルはすべてImageNet-1kの重みで初期化され、最終層がアンフリーズされた状態でトレーニングされた。

トレーニングでは、学習率0.001（進歩が停滞したときに減少）とバッチサイズ16が使用され、50エポックにわたってトレーニングされ、正則化とReLUが全体に適用された。

パフォーマンスは、精度とピアソンの相関を使用して評価され、合計トレーニング時間も考慮された。結果は5回の実行で平均化された。

著者は、トレーニング設定をIntel-i7 3.6 GHz CPUと64GB RAMを搭載した「デスクトップコンピューター」として報告している。

SCUT-FBP5500でのパフォーマンス比較、E-BLSとER-BLSがResNet50、EfficientNetB7、InceptionV3、Xceptionを含むディープCNNモデルと競合する精度を達成しながら、トレーニング時間を大幅に削減している。

結果は、E-BLSが精度を65.85%から73.13%に向上させ、ER-BLSが74.69%に達し、すべての比較モデルを上回った。トレーニング時間は、ディープCNNよりも大幅に短く、約1,300秒であった。

LSAFBDでのテストでは、結果はE-BLSが平凡なBLSを上回り、ER-BLSがすべての比較方法の中で最高の精度を達成した。

LSAFBDでのパフォーマンス、ER-BLSとE-BLSがすべての基準線モデルと転移学習モデルを上回る精度を達成しながら、トレーニング時間のわずかなフラクションを必要とする。

両方のバリエーションは、ディープCNNモデルよりも大幅に短いトレーニング時間を維持し、効率と予測の質のバランスが改善されたことを示した。

結論

これはある意味で「往年の」出版物である。ディープラーニングのブーム以前の時代の技術であるCNNを使用していることや、使用されているトレーニング機器が最も低水準であることからも明らかである。

しかし、コンピュータビジョンにおける驚くほど耐久性のある目標に取り組んでおり、人間の経験や主観的な解釈に深く触れている。時流の美的傾向を超えた、真正に耐久性のあるパイプラインを提供するスキーマが必要である。

Martin Anderson

機械学習に関するライター、ヒューマンイメージシンセシスのドメインスペシャリスト。Metaphysic.aiの研究コンテンツ責任者を務めた。

Unite.AI

AIの美の追求

顔の表現

最も適切なものの生存

組み合わせ肌

方法

データとテスト

結論

You may like