Andersonの視点
AIツールがメイクを除去して未成年者が年齢確認を回避するのを防ぐ

顔のメイクの外観は、未成年ユーザー、特に女の子が、デーティングアプリや電子商取引サイトなどのプラットフォームでセルフィー 기반の年齢確認を回避することを可能にしている。新しいAIツールは、この抜け穴に対処し、メイクを消去しながらアイデンティティを保存するための判別モデルを使用して、未成年者が自動化システムを欺くことをより困難にしている。
セルフィー 기반の年齢確認サービスを使用することは、一般的な世界的な動きのために、オンラインでの年齢確認の必要性が増している。
例えば、イギリスのオンライン安全法が現在義務付けている新しい執行体制では、年齢確認は、サードパーティのサービスによって、さまざまな方法を使用して行うことができ、視覚的な年齢確認を含む。これらのサービスには、Ondato、TrustStamp、およびYotiが含まれる。
しかし、年齢推定は完璧ではなく、大人の権利を得ようとする思春期の伝統的な決意により、若い人たちは、年齢制限のあるデーティングサイト、フォーラム、またはその他の環境にアクセスするためのさまざまな有効な方法を開発してきた。
これらの方法の1つは、主に女性によって使用されるもので、顔のメイクを使用することである。これは、自動化された年齢推定システムを欺くことがわかっている戦術である。これらのシステムは一般に、若い人の年齢を過大評価し、高齢者の年齢を過小評価する。
女の子だけではありません
メイクを「女性中心」とみなすことに対する抗議が起こる前に、私たちが注目する必要があるのは、誰でもがメイクをしているということは、非常に信頼できない性別の指標であるということである:

米国の研究者は、ジェンダー交換メイクによってジェンダー検証システムが欺かれることを発見した。ソース: https://cse.msu.edu/~rossarun/pubs/ChenCosmeticsGenderAge_VISAPP2014.pdf
2024年には、18〜24歳の米国男性消費者の72%が推定されている。メイクを使用している。ただし、ほとんどの人は、健康な皮膚の外観を向上させるために化粧品を使用しているのであって、女性の視覚的な美学と関連付けられるマスカラや口紅などのパフォーマンス化粧には従事していない。
したがって、私たちが研究する材料は、新しい研究で最も一般的に探索されるシナリオに従って、メイクを使用して自動化された視覚的な年齢確認システムを回避する未成年女性のものである。
効果的なメイク除去 – AIの方法
上記の研究は、ニューヨーク大学の3人の貢献者によって行われ、新しい論文 DiffClean: Diffusion-based Makeup Removal for Accurate Age Estimation として発表された。
このプロジェクトの目的は、画像(または動画画像)からメイクの外観を除去するAI駆動型方法を達成することである。メイクの後ろにある人の真の年齢をよりよく理解するために。

新しい論文から、メイク除去が年齢予測を著しく変更する例。ソース: https://arxiv.org/pdf/2507.13292
このようなシステムを開発する上での課題の1つは、未成年女性のメイクをしている画像を収集またはキュレーションすることの潜在的な感受性である。結局、研究者は、EleGANt と呼ばれる第三者による生成対抗ネットワークベースのシステムを使用して、メイクスタイルを人工的に適用することにした。これは非常に効果的なテクニックであった。

清華大学の2022年のEleGANtシステムは、生成対抗ネットワーク(GAN)を使用して、ソース写真に化粧を本物のように重ね合わせる。ソース: https://arxiv.org/pdf/2207.09840
この方法で得られた合成データと、さまざまな補助プロジェクトとデータセットの助けを借りて、著者は、明らかなメイクのときに、 DiffClean は、年齢推定において、最先端の方法を超えることができた。
論文では、次のように述べられている。
‘DiffCleanは、テキストガイドの拡散モデルを使用してメイクの痕跡を除去し、メイク攻撃に対して防御する。年齢推定(未成年者と大人の精度を4.8%向上)と顔認証(TMRを8.9%向上、FMR=0.01)を、デジタルシミュレートされた画像と実際のメイク画像の両方で、競合するベースラインよりも優れたものとした。’
DiffClean の方法を見てみましょう。
方法
未成年者のメイクをしている実際の画像を収集するのを避けるために、著者は EleGANt を使用して、UTKFace データセットから画像に合成メイクを適用し、トレーニング用の前後ペアを生成した。

UTKFace データセットの例。ソース: https://susanqq.github.io/UTKFace/
DiffClean は、この変換を逆転させるようにトレーニングされた。年齢推定アルゴリズムは、特に若い年齢層で最も多く間違えるため、研究者はターゲット年齢(10〜19歳)にファインチューンされたプロキシ年齢分類器を開発する必要があった。そこで、ファインチューンされた SSRNet アーキテクチャを使用し、UTKFace でトレーニングし、加重 L1 損失 を使用した。
2021 年の OpenAI の 拡散モデル の簡略化バージョンが、変換のバックボーンを提供し、著者はコアアーキテクチャを保持しながら、さまざまな解像度で追加の アテンションヘッド、より深い層、および BigGAN スタイルのブロックを変更して、アップサンプリングとダウンサンプリングの段階を改善した。
方向を制御するために、CLIP プロンプトを使用した: 特に、メイクをしている顔 と メイクをしていない顔 というように、モデルが望ましいセマンティック方向に移動することを学習し、メイクを除去することなく、顔の詳細、年齢のヒント、アイデンティティを保存できるようにした。

EleGANt を使用して合成メイクを適用したもの。各トリプレットは、元の UTKFace 画像(左)、参照メイクスタイル(中央)、およびスタイル転送後の結果(右)を示す。コンピュータビジョンの文献では、このようなメイク転送は一般的であり、Adobe Photoshop のニューラルフィルタでも、参照画像からターゲット画像にメイクを適用する機能が利用できる。
メイク除去を顔のアイデンティティや年齢のヒントを損なうことなく行う 4 つの重要な 損失関数 が導入された。上記の CLIP ベースの損失の他に、アイデンティティを保存するために、ArcFace の加重ペアの損失が、InsightFace ライブラリから使用された。損失は、生成された顔と元のクリーン画像および「メイクをしている」バージョンの間の類似性を測定し、メイク除去の前後に主体が視覚的に一貫性を保つことを保証した。
3 番目に、学習された感覚類似性メトリック (LPIPS) は、L1 距離を使用してピクセルレベルのリアリズムを強制し、メイクを除去した後の元の画像の全体的な外観を保持した。
最後に、年齢は、UTKFace データセットでトレーニングされたファインチューンされた SSRNet を使用して、スムーズ化された L1 損失(10〜29 歳の年齢範囲でのエラーに対してより重い罰則)で監視された。モデルのバリアントは、これを CLIP ベースの年齢プロンプトに置き換え、モデルが特定の年齢の外観に一致するように促した。
推論時の年齢推定には、2023 年の MiVOLO フレームワークが使用された。
データとテスト
UTKFace の SSRNet のファインチューンには、15,364 枚の画像のトレーニングセットが使用され、6,701 枚の画像の テストセット が使用された。元の 20,000 枚の画像は、70 歳以上の人の画像を除去してから、70:30 の比率で分割された。
DiffAM プロジェクトによって確立された以前の方法に従って、トレーニングは 2 つの段階で行われた。最初のセッションでは、BeautyGAN の MT データセット から 300 枚の実際のメイク画像(トレーニングと検証の 200/100 の分割)が使用された。
モデルは、EleGANt を使用して合成メイクを付けた 300 枚の追加の UTKFace 画像でさらに改良された。これにより、5 つの参照スタイルの BeautyGAN アプローチを使用して、600 枚のペアのトレーニングセットが作成された。メイク除去には、多数のメイクスタイルを 1 つのクリーンな顔にマッピングすることが含まれるため、トレーニングは、すべての可能な化粧のバリエーションをカバーするのではなく、広い一般化に焦点を当てた。
パフォーマンスは、合成画像と実際の画像の両方で評価された。合成テストでは、9 つの年齢グループに均等にサンプリングされた 2,556 枚の Flickr-Faces-HQ データセット (FFHQ) 画像が使用され、EleGANt で変更された。
一般化は、BeautyFace と LADN の 3,000 枚の画像で評価された。

BeautyFace データセットの例。影響を受ける顔の表面のさまざまな領域を定義するセマンティックセグメンテーションを示す。ソース: https://li-chongyi.github.io/BeautyREC_files/
メトリックと実装
メトリックとして、著者は、実際の年齢と予測年齢の間の 平均絶対誤差 (MAE) を使用した。ここで、低い結果がより良いものである。さらに、年齢グループの精度 と 未成年/大人の精度 を使用して、予測年齢が正しいグループに属するかどうかを評価した。
また、特にこのトピックに関連するものではないが、著者は、受信者操作特性 (ROC) 値を含む、アイデンティティ検証メトリックとして、真のマッチ率 (TMR) と偽のマッチ率 (FMR) を報告している。
SSRNet は、バッチサイズ 50 で Adam オプティマイザを使用して、64x64px の画像でファインチューンされ、重み減算 は 1e-4 で、コサインアニーリングスケジューラー と、200 エポック で、学習率 1e-3 で、早期終了 でトレーニングされた。
一方、DiffClean モジュールは、256x256px の入力画像を受け取り、5 エポックでファインチューンされ、Adam で学習率 4e-3 でトレーニングされた。サンプリングには、40 の DDIM 反転ステップ と 6 の DDIM フォワードステップが使用された。すべてのトレーニングは、単一の NVIDIA A100 GPU (VRAM が 40GB または 80GB であるかは指定されていない) で実行された。
対抗的なシステムとしてテストされたのは、CLIP2Protect と、先ほど述べた DiffAM である。著者は、CLIP2Protect で高い成功率が達成されたと報告されている「マット」メイクスタイルを使用した。
DiffAM をベースラインとして複製するには、BeautyGAN から事前トレーニングされたモデルを MT データセットでファインチューンし、デフォルトのパラメータで対象モデル、参照画像、およびアイデンティティを使用して、対抗的なメイク転送を実行した。

MiVOLO を使用した年齢推定タスクにおける DiffClean とベースラインの比較。報告されるメトリックは、未成年/大人の分類精度、年齢グループの精度、および平均絶対誤差 (MAE) である。CLIP 年齢損失を使用した DiffClean がすべてのメトリックで最高の結果を達成する。
これらの結果について、著者は次のように述べている。
‘私たちの方法である DiffClean は、CLIP2Protect と DiffAM の両方を上回り、メイクによって混乱した年齢のヒントを回復することができ、MAE を 5.71 に低減し、全体的な年齢グループの予測精度を 37% 向上させた。 ‘
‘私たちの目的は未成年層に焦点を当てており、結果は私たちが未成年者と大人の年齢分類で 88.6% の精度を達成したことを示している。 ‘

ベースラインと提案された方法のメイク除去結果。左端の列はソース画像を示し、次の列は CLIP2Protect と DiffAM の出力を示し、3 列目は CLIP ベースの年齢損失を使用した DiffClean の結果を示す。著者は、DiffClean がメイクをより効果的に除去し、CLIP2Protect の特徴の歪みと DiffAM の残留化粧を避けていると主張している。
著者はさらに、メイクが年齢の認識に一様に影響を与えるのではなく、顔の年齢の認識を増加、減少、または変化させないことを指摘している。したがって、DiffClean は「一律の年齢の低下」を適用せず、代わりにメイクの痕跡を除去することで、元の年齢のヒントを回復しようとする。

CelebA-HQ と CACD データセットからのメイク除去の例。各列は、メイクを除去する前の画像(左)とメイクを除去した後の画像(右)を示す。最初の列では、予測年齢がメイクを除去した後に低下し、2 列目では変化はなく、3 列目では年齢が増加する。
DiffClean が新しいデータでどのように機能するかをテストするために、それは BeautyFace と LADN データセットで実行された。これらのデータセットには実際のメイクが含まれているが、化粧をしていない同じ被写体のペア画像は含まれていない。メイク除去の前後に行われた年齢予測が比較され、メイクによって引き起こされる歪みをどれだけ効果的に減らすかが評価された。

LADN(左のペア)と BeautyFace(右のペア)データセットからの実際の画像でのメイク除去結果。DiffClean は化粧を除去することで、予測年齢を低減し、見かけ上の年齢と実際の年齢のギャップを縮小する。白い数字は、処理の前後に推定年齢を示す。
結果は、DiffClean が両方のデータセットで見かけ上の年齢と実際の年齢のギャップを平均約 3 年縮小することを示しており、実際の化粧スタイルに一般化する能力が高いことを示唆している。
結論
パフォーマンス化粧が対抗的に使用されることは、興味深く、ある意味では避けられないことである。女の子が男の子よりも一貫して早く成熟するという事実が考えられる中で、未成年と大人の女性の境界を特定することは、研究界がこれまでに取り組んだ最も野心的かつ困難なタスクの 1 つであるかもしれない。
しかし、時間とデータが最終的に、視覚的な年齢確認システムを固定するための一貫した年齢関連の兆候を決定するかもしれない。
* この主題は感情的な言語を招き、そして「女の子」という用語は排他的である(そして「女性と女の子」という現在受け入れられている用語は、この場合には正確な説明ではない)ため、私は「女性」という用語を最善の妥協点として使用した。ただし、これはすべての人口統計の繊細さを捉えていないことを認識する。私の謝罪を。
† この記事では、「パフォーマンス」という用語を、メイクが見えるように、認識できるように意図されていることを示すために使用している。例えば、マスカラ、アイライナー、チーク、ファンデーションなどである。これは、隠すことを目的としたコンシールクリームやその他の化粧品とは対照的である。
最初に 2025 年 7 月 18 日に公開された。












