Angle d’Anderson

La poursuite de la beautĂ© par l’IA

mm
AI-generated image featuring a woman whose face is being analyzed by a Terminator-style HUD. GPT-1.5.

Un nouveau système d’évaluation de la beauté basé sur l’IA évalue à quel point les visages sont attractifs, tout en s’entraînant plus rapidement que les modèles d’apprentissage profond typiques, ce qui pourrait rendre plus pratique la notation de beauté automatisée à grande échelle.

 

La prédiction de la beauté faciale (FBP) est un secteur important, et un domaine de recherche solide. Même si elle enfreint pratiquement tous les principes de lutte contre les préjugés dans les pratiques d’IA et d’apprentissage automatique, et même si elle soutient dans de nombreux cas l’objectification et le réductionnisme dans les perceptions algorithmiques des femmes, elle attire néanmoins l’intérêt de plusieurs industries à plusieurs milliards de dollars, dont la plupart sont directement axées sur les femmes, telles que les cosmétiques, la chirurgie faciale cosmétique, les diffusions en direct et la mode, entre autres:

Des femmes notées de 1 à 5, à partir de l'article 'Asian Female Facial Beauty Prediction Using Deep Neural Networks via Transfer Learning and Multi-Channel Feature Fusion'. Source - https://www.semanticscholar.org/paper/Asian-Female-Facial-Beauty-Prediction-Using-Deep-Zhai-Huang/59776a6fb0642de5338a3dd9bac112194906bf30

Des femmes notées de 1 à 5, à partir de l’article ‘Asian Female Facial Beauty Prediction Using Deep Neural Networks via Transfer Learning and Multi-Channel Feature Fusion’. Source

Au-delà de ces secteurs évidemment axés sur les femmes, la publicité et de nombreuses autres industries, y compris le divertissement et l’édition, ont des enjeux importants pour comprendre ce que les hommes et les femmes trouvent ‘attractif’, nécessairement sur une base par culture.

Le fait que les perceptions globales de la beauté varient selon les régions signifie qu’aucun jeu de données définitif et applicable à l’échelle mondiale ne peut être obtenu, et que les nouvelles recherches doivent soit rester paroissiales, soit se concentrer sur des méthodes ‘de haut niveau’ qui peuvent être appliquées à des données culturelles diverses.

Une interface pour un systÚme d'évaluation de la beauté faciale pour le projet SCUT-FBP 2015. Source - https://arxiv.org/pdf/1511.02459

Une interface pour un système d’évaluation de la beauté faciale pour le projet SCUT-FBP 2015. Source

Souvent, la localisation géographique n’est pas la seule restriction, puisque les jeux de données axés sur l’attractivité peuvent avoir du mal à offrir la même efficacité pour les deux sexes, ou peuvent avoir été créés avec une application particulière en tête – et cela peut restreindre l’utilisation de la collection dans d’autres domaines.

Par exemple, en 2025, j’ai rapporté sur le développement d’un jeu de données relativement important (100 000 identités+) pour évaluer l’attractivité dans les diffusions en direct, dont les normes de recadrage serré pourraient nécessiter une adaptation notable pour des projets plus larges, malgré l’énorme effort derrière l’initiative.

Représentation faciale

Comme le montrent les liens et les images ci-dessus, les organismes de recherche asiatiques ne fonctionnent souvent pas sous les mêmes restrictions culturelles que leurs homologues occidentaux, qui seraient difficiles à publier une illustration scientifique notant cinq femmes occidentales de moins à plus attractives, comme on le voit dans l’étude ci-dessus.

On pourrait affirmer que lorsque des systèmes de ce type d’origine asiatique sont prouvés efficaces en public, sans crainte de critique locale, les intérêts occidentaux peuvent utiliser ou adapter de tels travaux de recherche dans des implémentations privées et propriétaires. La tâche de ‘noter les femmes’ est, dans ce scénario, rendue à un lieu où elle peut être poursuivie sans critique.

Quoi qu’il en soit, que ce soit courant ou que des systèmes équivalents occidentaux moins médiatisés soient développés à l’écart de la collaboration open source et de la surveillance publique, il est raisonnable de supposer que l’objectif ciblé est d’intérêt mondial, en raison du grand nombre de secteurs professionnels qui peuvent ou pourraient bénéficier d’évaluations précises de l’attractivité.

La survie du plus apte

Il peut sembler que de vastes corpus téléchargeables tels que Tik Tok, Instagram et YouTube feraient d’excellents arbitres de la beauté, en corrélant les abonnés, les likes et le trafic à l’attractivité, puisque c’est une association courante et raisonnable (bien qu’avec quelques exceptions).

De même, les collections existantes – telles que ImageNet et LAION – mettant en vedette des acteurs et des mannequins qui ont ‘émergé’, présenteront généralement des individus attractifs (bien qu’avec trop de points de données de très peu de personnes), permettant aux mécanismes culturels plus larges d’agir comme un proxy pour l’attractivité.

Cependant, cela ne tient pas compte des changements de goûts dans ce que les gens trouvent attractif au fil du temps (sans parler des différences géographiques). Par conséquent, à nouveau, des systèmes de haut niveau et indépendants des données sont nécessaires, et non des collections ou des curations individuelles et spécieuses qui échoueront à refléter les goûts changeants.

Peau mixte

La dernière entrée académique pour relever ces défis vient de Chine, où l’apprentissage par transfert et le système d’apprentissage large (BLS) sont combinés pour résoudre le dilemme de longue date entre précision et coût computationnel.

Les réseaux de neurones conventionnels tendent à obtenir de solides résultats uniquement avec une formation lourde, tandis que des systèmes plus légers tels que le BLS s’entraînent rapidement, mais ont du mal à capturer suffisamment de détails. Le nouveau travail combler ce fossé en utilisant un modèle visuel pré-entraîné pour extraire les caractéristiques faciales, qui sont ensuite transmises à un système BLS rapide pour la notation, permettant aux caractéristiques d’être réutilisées au lieu d’être apprises à partir de zéro, tout en gardant la formation efficace:

Exemples d'images du jeu de donnĂ©es LSAFBD, montrant des visages de femmes regroupĂ©s par notes de beautĂ© attribuĂ©es par des humains de 1 Ă  5, oĂč les notes Ă©taient dĂ©rivĂ©es de plusieurs annotateurs et utilisĂ©es comme Ă©tiquettes supervisĂ©es pour la formation et l'Ă©valuation de la prĂ©diction de la beautĂ© faciale sur des variations de pose, d'Ă©clairage et d'apparence.. Source - https://arxiv.org/pdf/2603.16930

Exemples d’images du jeu de données LSAFBD, montrant des visages de femmes regroupés par notes de beauté attribuées par des humains de 1 à 5. Les notes étaient obtenues à partir de plusieurs annotateurs, et utilisées comme étiquettes supervisées pour la formation et l’évaluation de la prédiction de la beauté faciale sur des variations de pose, d’éclairage et d’apparence. Source

La première des deux variantes introduites dans le travail (E-BLS, voir ci-dessous), alimente directement les caractéristiques extraites dans le système léger, tandis que la seconde, ER-BLS (également ci-dessous), ajoute une étape de traitement intermédiaire entre l’extracteur de caractéristiques EfficientNet et le BLS, dans le but d’améliorer la façon dont ces caractéristiques extraites sont préparées avant d’être utilisées pour la prédiction:

Les tests menés par les auteurs prouvent, selon eux, que leur approche est supérieure à chaque méthode prise séparément, et à d’autres méthodes concurrentes.

Le nouvel article est intitulé Prédiction de la beauté faciale en combinant l’apprentissage par transfert et le système d’apprentissage large, et provient de six chercheurs de l’Université Wuyi, Jiangmen.

Méthode

Le Système d’apprentissage large mentionné est une alternative légère aux réseaux de neurones profonds, qui évite de superposer plusieurs couches, et répartit plutôt l’apprentissage sur un large ensemble de connexions plus simples, permettant aux modèles de s’entraîner rapidement – mais généralement au détriment de la perte de détails visuels plus fins.

La première des deux variantes, E-BLS, combine l’apprentissage par transfert EfficientNet avec le BLS, en extrayant des caractéristiques visuelles détaillées d’un visage, puis en les transmettant au BLS, ce qui entraîne une prédiction finale qui évite le besoin de former un réseau de neurones profonds complet à partir de zéro:

SchĂ©ma d'architecture pour le modĂšle E-BLS, montrant comment les images faciales des jeux de donnĂ©es cibles tels que SCUT-FBP5500 et LSAFBD sont d'abord passĂ©es Ă  travers un extracteur de caractĂ©ristiques EfficientNet prĂ©-entraĂźnĂ©, dont les paramĂštres sont transfĂ©rĂ©s Ă  partir d'ImageNet et conservĂ©s inchangĂ©s, avant que les cartes de caractĂ©ristiques rĂ©sultantes soient alimentĂ©es dans un systĂšme BLS, oĂč les nƓuds de caractĂ©ristiques et les nƓuds d'amĂ©lioration sont combinĂ©s Ă  travers des poids entraĂźnables pour produire la note de beautĂ© faciale finale.

Schéma d’architecture pour le modèle E-BLS.

EfficientNet, pré-entraîné sur ImageNet-1k, et largement conservé inchangé, convertit chaque image d’entrée en un ensemble compact de valeurs de caractéristiques qui décrivent le visage de manière structurée, tandis que le BLS prend ces valeurs et les traite à travers un réseau de nœuds simples et aléatoirement connectés qui transforment et combinent les informations, avant de produire la note d’attractivité finale.

Parce que le BLS ne repose pas sur des structures de couches profondes, l’E-BLS peut être mis à jour en ajoutant plus de nœuds au lieu de réentraîner l’ensemble du système,. Cela maintient la formation rapide, et facilite l’amélioration du modèle à mesure que de nouvelles données sont introduites.

La seconde des deux variantes, ER-BLS, s’appuie sur l’E-BLS en insérant une étape de traitement intermédiaire supplémentaire entre l’extracteur de caractéristiques EfficientNet et le BLS, dans le but d’améliorer la façon dont ces caractéristiques extraites sont préparées avant d’être utilisées pour la prédiction:

Architecture du modĂšle ER-BLS, oĂč les images faciales sont traitĂ©es par un extracteur de caractĂ©ristiques EfficientNet prĂ©-entraĂźnĂ©, puis raffinĂ©es Ă  travers une couche de connexion utilisant le regroupement, la normalisation et la transformation de la fonction radiale (RBF). La sortie est ensuite transmise au systĂšme BLS, pour produire la note de beautĂ© faciale finale.

Architecture du modèle ER-BLS.

Au lieu de transmettre les caractéristiques brutes d’EfficientNet directement dans le BLS, l’ER-BLS les transmet d’abord à travers une couche de raffinement qui les standardise et les affine, ce qui aide à réduire le bruit et à rendre les caractéristiques plus cohérentes à travers différentes images. Cette étape est conçue pour améliorer la façon dont le système se généralise, en particulier lorsque les visages varient en éclairage, pose ou autres conditions visuelles qui peuvent autrement introduire de l’instabilité dans les prédictions.

Les caractéristiques raffinées sont ensuite transmises à la même structure BLS utilisée dans l’E-BLS, où les nœuds de caractéristiques et les nœuds d’amélioration transforment et combinent les informations pour produire la note d’attractivité finale.

Données et tests

Pour tester leur approche, les auteurs ont utilisé le jeu de données SCUT-FBP5500, une collection de prédiction de la beauté faciale de l’Université du Sud de la Chine, contenant 5 500 images de visages frontaux à 350x350px, présentant des races, des sexes et des âges divers:

Exemples d'images du jeu de données SCUT-FBP5500, notées de moins (1) à plus (5) attractives.

Exemples d’images du jeu de données SCUT-FBP5500, notées de moins (1) à plus (5) attractives.

Chaque image a été notée avec une note de beauté par 60 volontaires, sur une échelle de 1 à 5, allant de extrêmement peu attractive (1) à extrêmement attractive (5):

La répartition des proportions d'images par note de beauté.

La répartition des proportions d’images par note de beauté.

L’autre base de données utilisée était la Large-Scale Asian Female Beauty Dataset (LSAFBD), une collection de données créée par les auteurs eux-mêmes.

Exemples d'images du jeu de données LSAFBD, notées de moins (1) à plus (5) attractives.

Exemples d’images du jeu de données LSAFBD, notées de moins (1) à plus (5) attractives.

La collection se compose de 80 000 images non étiquetées à une résolution de 144x144px, avec des variations de pose et d’arrière-plan, ainsi que d’âge. Ces images ont été notées par 75 volontaires pour les mêmes critères que le jeu de données précédent, cette fois sur une échelle de 0 à 4:

Les divisions pour le jeu de données LSAFBD.

Les divisions pour le jeu de données LSAFBD.

Chaque jeu de données a été divisé en segments de formation et de test à un rapport de 8/20, et la validation croisée a été utilisée pour stabiliser les résultats sur plusieurs exécutions. Le composant BLS a été configuré à travers le nombre de fenêtres de caractéristiques ; le nombre de nœuds par fenêtre ; et le nombre de nœuds d’amélioration, avec Hyperopt utilisé pour rechercher des combinaisons efficaces.

Pour établir une référence, un modèle BLS standard a été entraîné dans les mêmes conditions, après quoi une série de modèles d’apprentissage par transfert ont été introduits, notamment ResNet50, Inception-V3, DenseNet121, InceptionResNetV2, EfficientNetB7, MobileNetV2, NASNet, et Xception – tous initialisés avec des poids ImageNet-1k, et entraînés avec leurs couches finales déverrouillées.

La formation a utilisé un taux d’apprentissage de 0,001 (réduit lorsque la progression s’est arrêtée), et une taille de lot de 16, sur 50 époques, avec régularisation et activation linéaire rectifiée (ReLU) appliquées tout au long.

Les performances ont été évaluées en utilisant la précision et la corrélation de Pearson, ainsi que le temps de formation total, avec des résultats moyennés sur cinq exécutions.

Les auteurs rapportent que la configuration d’entraînement était un processeur Intel-i7 3,6 GHz et 64 Go de RAM sur un ‘ordinateur de bureau’:

Comparaison des performances sur SCUT-FBP5500, oĂč E-BLS et ER-BLS atteignent une prĂ©cision concurrentielle par rapport aux modĂšles de CNN profonds, notamment ResNet50, EfficientNetB7, InceptionV3 et Xception, tout en nĂ©cessitant nettement moins de temps de formation – mettant en Ă©vidence les gains d'efficacitĂ© de la combinaison de l'apprentissage par transfert avec un systĂšme d'apprentissage large.

Comparaison des performances sur SCUT-FBP5500, où E-BLS et ER-BLS atteignent une précision concurrentielle par rapport aux modèles de CNN profonds, notamment ResNet50, EfficientNetB7, InceptionV3 et Xception, tout en nécessitant nettement moins de temps de formation – mettant en évidence les gains d’efficacité de la combinaison de l’apprentissage par transfert avec un système d’apprentissage large.

Les résultats ont indiqué que l’E-BLS améliorait la précision de 65,85 % à 73,13 %, tandis que l’ER-BLS atteignait 74,69 %, dépassant tous les modèles comparés. Le temps de formation est resté nettement inférieur à celui des CNN profonds, à environ 1 300 secondes, contre plusieurs milliers à plus de 25 000 secondes.

Pour les tests sur LSAFBD, les résultats ont montré que l’E-BLS améliorait la précision par rapport au BLS simple, tandis que l’ER-BLS atteignait la précision la plus élevée parmi toutes les méthodes comparées:

Performances sur LSAFBD, oĂč ER-BLS et E-BLS livrent une prĂ©cision plus Ă©levĂ©e que tous les modĂšles de rĂ©fĂ©rence et d'apprentissage par transfert, tout en nĂ©cessitant seulement une fraction de leur temps de formation, indiquant un avantage constant en efficacitĂ© sans sacrifier la qualitĂ© prĂ©dictive.

Performances sur LSAFBD, où ER-BLS et E-BLS livrent une précision plus élevée que tous les modèles de référence et d’apprentissage par transfert, tout en nécessitant seulement une fraction de leur temps de formation, indiquant un avantage constant en efficacité sans sacrifier la qualité prédictive.

Les deux variantes ont maintenu un temps de formation nettement inférieur à celui des modèles de CNN profonds, indiquant un équilibre plus efficient entre les performances et le coût computationnel.

Conclusion

Ceci est quelque peu une publication ‘rétro’, comme en témoigne son utilisation de favoris d’avant le boom, tels que les CNN, et par son utilisation de l’équipement d’entraînement de niveau le plus bas que j’aie rencontré dans un nouvel article depuis de nombreuses années.

Cependant, cela traite d’un objectif étonnamment résilient en vision par ordinateur ; l’un qui touche fortement l’expérience humaine et l’interprétation subjective, et qui exige un schéma qui transcende les tendances esthétiques du moment, et qui peut fournir une véritable pipeline résiliente pour la tâche.

 

Publié pour la première fois le jeudi 19 mars 2026

Écrivain sur l'apprentissage automatique, spĂ©cialiste de domaine en synthĂšse d'images humaines. Ancien responsable du contenu de recherche chez Metaphysic.ai.