Connect with us

La poursuite de la beauté par l’IA

Angle d’Anderson

La poursuite de la beauté par l’IA

mm
AI-generated image featuring a woman whose face is being analyzed by a Terminator-style HUD. GPT-1.5.

Un nouveau système d’évaluation de la beauté basé sur l’IA évalue à quel point les visages sont attractifs, tout en s’entraînant plus rapidement que les modèles d’apprentissage profond typiques, ce qui pourrait rendre la notation automatisée de la beauté à grande échelle plus pratique.

 

La prédiction de la beauté faciale (FBP) est un secteur important, et un domaine de recherche solide. Même si elle enfreint pratiquement tous les principes de la lutte contre les biais dans les pratiques d’IA et d’apprentissage automatique, et même si elle soutient l’objectification et le réductionnisme dans les perceptions algorithmiques des femmes, elle attire néanmoins l’intérêt de plusieurs industries à plusieurs milliards de dollars, dont la plupart sont axées directement sur les femmes, telles que les cosmétiques, la chirurgie faciale cosmétique, la diffusion en direct, et la mode, entre autres :

Des femmes notées de 1 à 5, à partir de l'article 'Prédiction de la beauté faciale féminine asiatique à l'aide de réseaux de neurones profonds via l'apprentissage par transfert et la fusion de fonctionnalités multi-canaux'. Source - https://www.semanticscholar.org/paper/Asian-Female-Facial-Beauty-Prediction-Using-Deep-Zhai-Huang/59776a6fb0642de5338a3dd9bac112194906bf30

Des femmes notées de 1 à 5, à partir de l’article ‘Prédiction de la beauté faciale féminine asiatique à l’aide de réseaux de neurones profonds via l’apprentissage par transfert et la fusion de fonctionnalités multi-canaux’. Source

Au-delà de ces secteurs commerciaux centrés sur les femmes, la publicité et de nombreuses autres industries, notamment le divertissement et l’édition, ont des intérêts notables pour comprendre ce que les hommes et les femmes trouvent ‘attirant’, nécessairement sur une base par culture.

Le fait que les perceptions globales de la beauté varient selon les régions signifie qu’aucun ensemble de données définitif et applicable à l’échelle mondiale ne peut être obtenu, et que les nouvelles recherches doivent soit rester paroissiales, soit se concentrer sur des méthodes ‘de haut niveau’ qui peuvent être appliquées à travers diverses données culturelles.

Interface d'un système d'évaluation de la beauté faciale pour le projet SCUT-FBP 2015. Source - https://arxiv.org/pdf/1511.02459

Interface d’un système d’évaluation de la beauté faciale pour le projet SCUT-FBP 2015. Source

Souvent, la localisation géographique n’est pas la seule restriction, car les ensembles de données axés sur l’attractivité peuvent avoir du mal à fournir une efficacité égale entre les genres, ou peuvent avoir été créés avec une application particulière à l’esprit – et cela peut restreindre l’utilisation de la collection dans d’autres domaines.

Par exemple, en 2025, j’ai rapporté sur le développement d’un ensemble de données relativement important (100 000+ identités) pour évaluer l’attractivité dans les diffusions en direct, dont les normes de recadrage serré pourraient nécessiter une adaptation notable pour des projets plus larges, malgré les efforts énormes déployés pour l’initiative.

Représentation faciale

Comme cela peut être évident à partir des liens et des images ci-dessus, les organismes de recherche asiatiques ne fonctionnent souvent pas sous les mêmes restrictions culturelles que leurs homologues occidentaux, qui seraient difficiles à publier une illustration scientifique notant cinq femmes occidentales de moins à plus attractives, comme on le voit dans l’étude illustrée ci-dessus.

On pourrait soutenir que lorsque les systèmes de ce type d’origine asiatique sont prouvés efficaces en public, sans crainte de critique locale, les intérêts occidentaux peuvent utiliser ou adapter de telles recherches dans des implémentations privées et propriétaires. La tâche de ‘noter les femmes’ est, dans ce scénario, rendue à un lieu où elle peut être poursuivie sans critique.

Que ce soit courant ou que des systèmes équivalents moins publicisés en Occident tendent à être développés à l’écart de la collaboration open source et de la surveillance publique, il est raisonnable de supposer que l’objectif ciblé est d’intérêt mondial, en raison du grand nombre de secteurs professionnels qui peuvent ou pourraient bénéficier d’évaluations précises de l’attractivité.

Survie du plus apte

Il peut sembler que de vastes corpus téléchargeables sur le Web, tels que Tik Tok, Instagram et YouTube, prouvent d’excellents arbitres de la beauté, en corrélant les abonnés, les likes et le trafic à l’attractivité, puisque c’est une association raisonnable (bien qu’avec quelques exceptions).

De même, les collections existantes – telles que ImageNet et LAION – présentant des acteurs et des mannequins qui ont ‘émergé au sommet’ – présenteront généralement des individus attractifs (bien qu’avec trop de points de données de trop peu de personnes), permettant aux mécanismes culturels plus larges d’agir comme un proxy pour l’attractivité.

Cependant, cela ne tient pas compte des goûts changeants en ce que les gens trouvent attractif au fil du temps (pour ne pas dire géographiquement). Par conséquent, encore une fois, des systèmes de haut niveau et agnostiques aux données sont nécessaires, et non des collections ou des curations individuelles et spécieuses qui ne parviendront pas à refléter les goûts changeants.

Pele mélangée

La dernière entrée universitaire pour relever ces défis vient de Chine, où l’apprentissage par transfert et le Système d’apprentissage large (BLS) sont combinés pour résoudre le compromis de longue date entre la précision et le coût computationnel.

Les réseaux de neurones conventionnels tendent à obtenir de solides résultats uniquement avec une formation lourde, tandis que des systèmes plus légers tels que le BLS s’entraînent rapidement, mais ont du mal à capturer suffisamment de détails. Le nouveau travail comble cet écart en utilisant un modèle visuel pré-entraîné pour extraire les fonctionnalités faciales, qui sont ensuite transmises à un système BLS rapide pour la notation, permettant aux fonctionnalités d’être réutilisées au lieu d’être apprises à partir de zéro, tout en maintenant une formation efficiente :

Exemples d'images du jeu de données LSAFBD, montrant des visages féminins regroupés par notes de beauté humaines allant de 1 à 5, où les notes étaient dérivées de plusieurs annotateurs et utilisées comme étiquettes supervisées pour la formation et l'évaluation des modèles de prédiction de la beauté faciale à travers les variations de pose, d'éclairage et d'apparence.

Exemples d’images du jeu de données LSAFBD, montrant des visages féminins regroupés par notes de beauté humaines allant de 1 à 5. Les notes étaient obtenues à partir de plusieurs annotateurs, et utilisées comme étiquettes supervisées pour la formation et l’évaluation des modèles de prédiction de la beauté faciale à travers les variations de pose, d’éclairage et d’apparence. Source

La première des deux variantes introduites dans le travail (E-BLS, voir ci-dessous), alimente directement les fonctionnalités extraites dans le système léger, tandis que la seconde, ER-BLS (voir également ci-dessous), ajoute une étape intermédiaire simple qui standardise et affine ces fonctionnalités avant l’évaluation, aidant à améliorer la cohérence sans ralentir le processus.

Les tests menés par les auteurs prouvent, selon eux, que leur approche est supérieure à chaque méthode prise individuellement, et aux autres méthodes concurrentes.

Le nouvel article est intitulé Prédiction de la beauté faciale en fusionnant l’apprentissage par transfert et le système d’apprentissage large, et vient de six chercheurs de l’Université Wuyi, Jiangmen.

Méthode

Le Système d’apprentissage large est une alternative légère aux réseaux de neurones profonds, qui saute l’empilement de plusieurs couches, et répartit plutôt l’apprentissage sur un large ensemble de connexions plus simples, permettant aux modèles de s’entraîner rapidement – mais généralement au détriment des détails visuels plus fins.

La première des deux variantes, E-BLS, combine l’apprentissage par transfert basé sur EfficientNet avec le BLS, en extrayant des fonctionnalités visuelles détaillées d’un visage, puis en les transmettant au BLS, impliquant une prédiction finale qui évite la nécessité de former un réseau de neurones profond à partir de zéro :

Schéma d'architecture pour le modèle E-BLS, montrant comment les images faciales des jeux de données cibles tels que SCUT-FBP5500 et LSAFBD sont d'abord passées à travers un extracteur de fonctionnalités EfficientNet pré-entraîné, dont les paramètres sont transférés à partir d'ImageNet et conservés fixes, avant que les cartes de fonctionnalités résultantes soient alimentées dans un Système d'apprentissage large (BLS), où les nœuds de fonctionnalités et les nœuds d'amélioration sont combinés à travers des poids entraînables pour produire la note de beauté faciale finale.

Schéma d’architecture pour le modèle E-BLS.

EfficientNet, pré-entraîné sur ImageNet-1k, et largement conservé inchangé, convertit chaque image d’entrée en un ensemble compact de valeur de fonctionnalités qui décrivent le visage de manière structurée, tandis que le BLS prend ces valeurs et les traite à travers un réseau de nœuds simples et aléatoirement connectés qui transforment et combinent les informations, avant de produire la note d’attractivité finale.

Puisque le BLS ne repose pas sur des structures couches profondes, E-BLS peut être mis à jour en ajoutant plus de nœuds au lieu de réentraîner l’ensemble du système, ce qui maintient la formation rapide et facilite l’amélioration du modèle à mesure que de nouvelles données sont introduites.

La seconde des deux variantes, ER-BLS, s’appuie sur E-BLS en insérant une étape de traitement intermédiaire supplémentaire entre l’extracteur de fonctionnalités EfficientNet et le BLS, avec pour objectif d’améliorer la façon dont ces fonctionnalités extraites sont préparées avant d’être utilisées pour la prédiction :

Architecture du modèle ER-BLS, où les images faciales sont traitées par un extracteur de fonctionnalités EfficientNet pré-entraîné, puis raffinées à travers une couche de connexion utilisant le regroupement, la normalisation et la transformation de la fonction radiale (RBF). La sortie est ensuite transmise au Système d'apprentissage large (BLS), pour produire la note de beauté faciale finale.

Architecture du modèle ER-BLS.

Au lieu d’envoyer les fonctionnalités brutes d’EfficientNet directement dans le BLS, ER-BLS passe d’abord celles-ci à travers une couche de raffinement qui standardise et façonne les données, aidant à réduire le bruit et à rendre les fonctionnalités plus cohérentes à travers les différentes images. Cette étape est conçue pour améliorer la façon dont le système se généralise, notamment lorsque les visages varient en éclairage, en pose ou dans d’autres conditions visuelles qui pourraient autrement introduire de l’instabilité dans les prédictions.

Les fonctionnalités raffinées sont ensuite transmises dans la même structure BLS utilisée dans E-BLS, où les nœuds de fonctionnalités et les nœuds d’amélioration transforment et combinent les informations pour produire la note d’attractivité finale.

Données et tests

Pour tester leur approche, les auteurs ont utilisé le jeu de données SCUT-FBP5500, une collection de prédiction de la beauté faciale de l’Université de Chine du Sud, contenant 5 500 images de visages frontaux à 350x350px, présentant des races, des genres et des âges divers :

Exemples d'images du jeu de données SCUT-FBP5500 notées de moins (1) à plus (5) attractives.

Exemples d’images du jeu de données SCUT-FBP5500 notées de moins (1) à plus (5) attractives.

Chaque image a été notée avec une note de beauté par 60 volontaires, sur une échelle de 1 à 5, allant de extrêmement peu attrayant (1) à extrêmement attrayant (5) :

La division des proportions d'images par note de beauté.

La division des proportions d’images par note de beauté.

L’autre base de données utilisée était la collection Large-Scale Asian Female Beauty Dataset (LSAFBD), un ensemble de données créé par les auteurs eux-mêmes.

Exemples d'images du jeu de données LSAFBD notées de moins (1) à plus (5) attractives.

Exemples d’images du jeu de données LSAFBD notées de moins (1) à plus (5) attractives.

La collection se compose de 80 000 images non étiquetées à une résolution de 144x144px, avec des variations de pose et de fond, ainsi que d’âge. Celles-ci ont été notées par 75 volontaires pour les mêmes critères que la base de données précédente, cette fois sur une échelle de 0 à 4 :

Les divisions pour le jeu de données LSAFBD.

Les divisions pour le jeu de données LSAFBD.

Chaque base de données a été divisée en segments d’entraînement et de test à un rapport de 8/20, et la validation croisée a été utilisée pour stabiliser les résultats à travers les exécutions. La composante BLS a été configurée à travers le nombre de fenêtres de fonctionnalités ; le nombre de nœuds par fenêtre ; et le nombre de nœuds d’amélioration, avec Hyperopt utilisé pour rechercher des combinaisons efficaces.

Pour établir une référence, un modèle BLS standard a été entraîné dans les mêmes paramètres, après quoi une série de modèles d’apprentissage par transfert ont été introduits, notamment ResNet50, Inception-V3, DenseNet121, InceptionResNetV2, EfficientNetB7, MobileNetV2, NASNet, et Xception – tous initialisés avec les poids d’ImageNet-1k, et entraînés avec leurs dernières couches déverrouillées.

L’entraînement a utilisé un taux d’apprentissage de 0,001 (réduit lorsque la progression s’est arrêtée), et une taille de lot de 16, sur 50 époques, avec la régularisation et l’activation linéaire rectifiée (ReLU) appliquées tout au long.

La performance a été évaluée en utilisant la précision et la corrélation de Pearson, aux côtés du temps de formation total, avec les résultats moyennés sur cinq exécutions.

Les auteurs rapportent la configuration d’entraînement comme un processeur Intel-i7 3,6 GHz et 64 Go de RAM sur un ‘ordinateur de bureau’ :

Comparaison de performance sur SCUT-FBP5500, où E-BLS et ER-BLS atteignent une précision concurrentielle contre les modèles de CNN profonds, notamment ResNet50, EfficientNetB7, InceptionV3 et Xception, tout en nécessitant nettement moins de temps de formation – mettant en évidence les gains d'efficacité de la combinaison de l'apprentissage par transfert avec un Système d'apprentissage large.

Comparaison de performance sur SCUT-FBP5500, où E-BLS et ER-BLS atteignent une précision concurrentielle contre les modèles de CNN profonds, notamment ResNet50, EfficientNetB7, InceptionV3 et Xception, tout en nécessitant nettement moins de temps de formation – mettant en évidence les gains d’efficacité de la combinaison de l’apprentissage par transfert avec un Système d’apprentissage large.

Les résultats ont indiqué que E-BLS améliore la précision de 65,85 % à 73,13 %, tandis que ER-BLS atteint 74,69 %, dépassant tous les modèles comparés. Le temps de formation est resté nettement inférieur à celui des CNN profonds, à environ 1 300 secondes, contre plusieurs milliers à plus de 25 000 secondes.

Pour les tests sur LSAFBD, les résultats ont montré que E-BLS améliore la précision par rapport au BLS simple, tandis que ER-BLS atteint la précision la plus élevée parmi toutes les méthodes comparées :

Performance sur LSAFBD, où ER-BLS et E-BLS livrent une précision plus élevée que tous les modèles de base et d'apprentissage par transfert, tout en nécessitant seulement une fraction de leur temps de formation, indiquant un avantage constant en termes d'efficacité sans sacrifier la qualité prédictive.

Performance sur LSAFBD, où ER-BLS et E-BLS livrent une précision plus élevée que tous les modèles de base et d’apprentissage par transfert, tout en nécessitant seulement une fraction de leur temps de formation, indiquant un avantage constant en termes d’efficacité sans sacrifier la qualité prédictive.

Les deux variantes ont maintenu un temps de formation nettement inférieur à celui des modèles de CNN profonds, indiquant un équilibre plus efficient entre la performance et le coût computationnel.

Conclusion

Ceci est un peu une publication ‘rétro’, comme en témoigne son utilisation de favoris d’avant le boom tels que les CNN, et par l’équipement de formation de niveau le plus bas que j’aie rencontré dans un nouvel article depuis de nombreuses années.

Néanmoins, il traite d’un objectif étonnamment résilient en vision par ordinateur ; un qui touche fortement à l’expérience humaine et à l’interprétation subjective, et qui exige un schéma qui transcende les tendances esthétiques du moment, et qui puisse fournir une véritable pipeline résiliente pour la tâche.

 

Publié pour la première fois jeudi 19 mars 2026

Écrivain sur l'apprentissage automatique, spécialiste de domaine en synthèse d'images humaines. Ancien responsable du contenu de recherche chez Metaphysic.ai.