Intelligence artificielle

Un système d’IA capable de rendre les images de personnes plus ‘belles’

Published August 11, 2022

Updated April 28, 2026

Martin Anderson

Background image: DALL-E 2 'Award-winning 8K photo of the most beautiful Caucasian catwalk model in the world' - https://labs.openai.com/s/kRXusxOR5GcYyb6pqZjNH2AA

Les chercheurs de Chine ont développé un nouveau système d’amélioration d’images basé sur l’IA capable de rendre les images d’une personne plus ‘belles’, en fonction d’une nouvelle approche d’apprentissage par renforcement.

La nouvelle approche utilise un ‘réseau de prédiction de la beauté faciale’ pour itérer à travers les variations d’une image en fonction d’un certain nombre de facteurs, parmi lesquels ‘l’éclairage’ et les poses des yeux peuvent être des facteurs critiques. Voici les sources originales (à gauche de chaque colonne) provenant du système EigenGAN, avec les nouveaux résultats à droite de ceux-ci. Source: https://arxiv.org/pdf/2208.04517.pdf

La technique s’appuie sur les innovations découvertes pour le générateur EigenGAN, un autre projet chinois, de 2021, qui a réalisé des progrès notables dans l’identification et le contrôle des attributs sémantiques divers dans l’espace latent des réseaux antagonistes génératifs (GAN).

Le générateur EigenGAN de 2021 a pu individuer des concepts de haut niveau tels que ‘couleur des cheveux’ dans l’espace latent d’un réseau antagoniste génératif. Le nouveau travail s’appuie sur cet instrument innovant pour livrer un système capable de ‘beautifier’ les images sources, mais sans changer l’identité reconnaissable – un problème dans les approches précédentes. Source: https://arxiv.org/pdf/2104.12476.pdf

Le système utilise un ‘réseau de score esthétique’ dérivé de SCUT-FBP5500 (SCUT), un jeu de données de référence de 2018 pour la prédiction de la beauté faciale, de l’Université de technologie de Chine du Sud à Guangzhou.

À partir de l’article de 2018 ‘SCUT-FBP5500 : un jeu de données diversifié pour la prédiction multi-paradigme de la beauté faciale’, qui a proposé un ‘réseau de prédiction de la beauté faciale’ (FBP) capable de classer les visages en fonction de leur attractivité perçue, mais qui ne pouvait pas réellement transformer ou ‘améliorer’ les visages. Source: https://arxiv.org/pdf/1801.06345.pdf

Contrairement au nouveau travail, le projet de 2018 ne peut pas réellement exécuter des transformations, mais contient des jugements de valeur algorithmiques pour 5 500 visages, fournis par 60 étiqueteurs de genre mixte (un ratio de 50/50). Ceux-ci ont été incorporés dans le nouveau système en tant que discriminant efficace, pour informer les transformations qui sont susceptibles d’améliorer l’attractivité d’une image.

Intéressamment, le nouvel article est intitulé Génération de visages beaux caucasiens contrôlables par attribut par apprentissage par renforcement guidé par l’esthétique. La raison pour laquelle toutes les races, à l’exception des Caucasiens, sont exclues du système (considérez également que les chercheurs eux-mêmes sont chinois) est que les données sources pour SCUT sont biaisées de manière notable vers les sources asiatiques (4 000 femmes et hommes asiatiques divisés de manière égale, 1 500 femmes et hommes caucasiens divisés de manière égale), ce qui rend la ‘personne moyenne’ dans ce jeu de données brune et aux yeux bruns.

Par conséquent, afin d’accueillir la variation de coloration au moins dans une race, il a été nécessaire d’exclure la composante asiatique des données originales, ou de reconstituer les données à grands frais pour développer une méthode qui n’aurait peut-être pas fonctionné. De plus, la variation des perceptions culturelles de la beauté signifie inévitablement que de tels systèmes auront besoin d’un certain degré de configurabilité géographique en ce qui concerne ce qui constitue ‘l’attractivité’.

Attributs pertinents

Pour déterminer les facteurs principaux contribuant à une photo ‘attirante’ d’une personne, les chercheurs ont également testé l’effet de diverses modifications apportées aux images, en termes de la façon dont de telles augmentations amélioraient la perception algorithmique de ‘beauté’. Ils ont constaté qu’au moins un des aspects est plus central à la bonne photographie qu’à la bonne génétique :

Outre l’éclairage, les aspects qui ont eu l’impact le plus important sur le score de beauté étaient les bangs (qui, dans le cas des hommes, peuvent souvent être équivalents à avoir une tête pleine de cheveux), la pose du corps et la disposition des yeux (où l’engagement avec le point de vue de la caméra est un facteur d’attractivité).

(En ce qui concerne la ‘couleur du rouge à lèvres’, le nouveau système, qui peut fonctionner efficacement sur les présentations de genre masculin et féminin, n’individue pas l’apparence du genre, mais repose plutôt sur le nouveau système de discriminant en tant que ‘filtre’ à cet égard)

Méthode

La fonction de récompense dans le mécanisme d’apprentissage par renforcement du nouveau système est alimentée par une régression simple sur les données SCUT, qui produit des prédictions de beauté faciale.

Le système d’entraînement itère sur les images d’entrée (en bas à gauche dans le schéma ci-dessous). Initialement, un modèle ResNet18 pré-entraîné (entraîné sur ImageNet) extrait des fonctionnalités des cinq images identiques (‘y’). Ensuite, une action de transformation potentielle est dérivée de l’état caché d’une couche entièrement connectée (GRUCell, dans l’image ci-dessous), et les transformations sont appliquées, ce qui conduit à cinq images modifiées qui sont alimentées dans le réseau de score esthétique, dont les classements, à la manière de Darwin, détermineront quelles variations seront développées et lesquelles seront rejetées.

Une illustration large du flux de travail pour le nouveau système.

Une illustration du flux de travail pour le nouveau système.

Le réseau de score esthétique utilise un module d’attention de canal efficace (ECA), tandis qu’une adaptation d’une instance pré-entraînée de EfficientNet-B4 est chargée d’extraire 1 792 fonctionnalités de chaque image.

Après une normalisation à travers une fonction d’activation ReLU, un vecteur à quatre dimensions est obtenu à partir du module ECA, qui est ensuite aplati en un vecteur unidimensionnel après activation et pooling moyen adaptatif. Enfin, les résultats sont alimentés dans le réseau de régression, qui récupère un score esthétique.

Une comparaison qualitative de la sortie du système. Dans la rangée inférieure, nous voyons la somme agrégée de tous les aspects individués qui ont été identifiés par la méthode EigenGAN et ensuite améliorés. Les scores FID moyens pour les images sont à gauche des rangées d’images (plus élevé est mieux).

Tests et étude utilisateur

Cinq variantes de la méthode proposée ont été évaluées algorithmiquement (voir image ci-dessus), avec des scores de distance de Fréchet (FID, controversé dans certains quartiers) attribués à un total de 1 000 images passées par le système.

Les chercheurs notent que l’amélioration de l’éclairage a obtenu un meilleur score d’attractivité pour les sujets des photos que plusieurs autres changements possibles (c’est-à-dire à l’apparence réelle de la personne représentée).

Pour une certaine mesure, tester le système de cette manière est limité par les excentricités des données SCUT, qui ne contiennent pas beaucoup de ‘sourires lumineux’, et les auteurs soutiennent que cela pourrait surestimer de manière excessive le regard ‘énigmatique’ plus typique dans les données, par rapport aux préférences probables des utilisateurs cibles finaux (présumément, dans ce cas, un marché occidental).

Cependant, puisque l’ensemble du système repose sur les opinions moyennes de seulement 60 personnes (dans l’article EigenGAN), et puisque la qualité étudiée est loin d’être empirique, il pourrait être soutenu que la procédure est plus solide que le jeu de données.

Bien qu’il soit traité très brièvement dans l’article, les images de EigenGAN et les cinq variantes du système ont également été présentées dans une étude utilisateur limitée (huit participants), qui ont été invités à sélectionner la ‘meilleure image’ (le mot ‘attirant’ a été évité).

Ci-dessus, l’interface graphique utilisateur présentée au petit groupe d’étude ; ci-dessous, les résultats.

Les résultats indiquent que la sortie du nouveau système a obtenu le taux de sélection le plus élevé parmi les participants (‘MAES’ dans l’image ci-dessus).

La poursuite (sans but ?) de la beauté

L’utilité d’un tel système est difficile à établir, malgré ce qui semble être un lieu notable d’effort de travail en Chine vers ces objectifs. Aucun n’est présenté dans la nouvelle publication.

L’article EigenGAN précédent suggère* qu’un système de reconnaissance de la beauté pourrait être utilisé dans des systèmes de recommandation de synthèse de maquillage facial, la chirurgie esthétique, l’amélioration du visage, ou la récupération d’images basée sur le contenu.

Présumément, une telle approche pourrait également être utilisée sur des sites de rencontres, par les utilisateurs finaux, pour ‘améliorer’ leurs propres photos de profil en un ‘coup de chance’ garanti, à titre de alternative à l’utilisation de photos obsolètes, ou de photos d’autres personnes.

De même, les sites de rencontres eux-mêmes pourraient également ‘noter’ leurs clients pour créer des classements et même niveaux d’accès restreints, bien que cela nécessiterait probablement une authentification de présence, plutôt que des photos soumises (qui pourraient également être ‘améliorées’ par les clients, si l’approche devait devenir populaire).

Dans la publicité, une méthode algorithmique pour évaluer la beauté (une technologie prédite par le défunt auteur de science-fiction Michael Crichton dans son film de 1982 Looker) pourrait être utilisée pour sélectionner la sortie créative non améliorée la plus susceptible de captiver un public cible, tandis que la capacité de maximiser réellement l’impact esthétique des images de visage, sans réellement les surcharger dans le style des deepfakes, pourrait améliorer les images déjà efficaces destinées à susciter l’intérêt du public.

Le nouveau travail est soutenu par la Fondation nationale des sciences naturelles de Chine, le projet de fonds ouvert du Laboratoire d’État des systèmes complexes de gestion et de contrôle, et le projet de recherche en philosophie et en sciences sociales du ministère de l’Éducation de Chine, entre autres soutiens.

* De nombreuses recommandations de l’article EigenGAN pointent vers un livre commercial disponible de 2016 intitulé ‘Modèles d’ordinateur pour l’analyse de la beauté faciale’, plutôt que des ressources universitaires.

Publié pour la première fois le 11 août 2022.

Related Topics:China image synthesis research

Martin Anderson

Écrivain sur l'apprentissage automatique, spécialiste de domaine en synthèse d'images humaines. Ancien responsable du contenu de recherche chez Metaphysic.ai.

Unite.AI

Un système d’IA capable de rendre les images de personnes plus ‘belles’

Attributs pertinents

Méthode

Tests et étude utilisateur

La poursuite (sans but ?) de la beauté

You may like