Angle d’Anderson

Le secteur de la synthèse d’images a adopté une métrique défectueuse, selon des recherches

mm

2021 a été une année de progrès sans précédent et de rythme de publication furieux dans le secteur de la synthèse d’images, offrant un flux d’innovations et d’améliorations dans les technologies capables de reproduire les personnalités humaines à l’aide de la rendu neuronal, des deepfakes et d’une multitude de approches nouvelles.

Cependant, des chercheurs allemands affirment maintenant que la norme utilisée pour juger automatiquement du réalisme des images synthétiques est gravement défectueuse ; et que les centaines, voire les milliers de chercheurs dans le monde qui s’appuient sur elle pour réduire le coût des résultats d’évaluation basés sur des humains peuvent être en train de suivre une fausse piste.

Afin de démontrer comment la norme, Fréchet Inception Distance (FID), ne répond pas aux normes humaines pour évaluer les images, les chercheurs ont déployé leurs propres GAN, optimisés pour FID (maintenant une métrique courante). Ils ont constaté que FID suit ses propres obsessions, basées sur un code sous-jacent ayant un objectif très différent de celui de la synthèse d’images, et qu’il échoue régulièrement à atteindre un niveau de discernement « humain » :

Scores FID (plus bas est mieux) pour les images générées par différents modèles à l'aide de jeux de données et d'architectures standard. Les chercheurs de la nouvelle étude posent la question 'Êtes-vous d'accord avec ces classements ?'. Source: https://openreview.net/pdf?id=mLG96UpmbYz

Scores FID (plus bas est mieux) pour les images générées par différents modèles à l’aide de jeux de données et d’architectures standard. Les chercheurs de la nouvelle étude posent la question ‘Êtes-vous d’accord avec ces classements ?’. Source: https://openreview.net/pdf?id=mLG96UpmbYz

En plus de son affirmation que FID n’est pas adapté à sa tâche, l’article suggère également que les « remèdes évidents », tels que le remplacement de son moteur interne par des moteurs concurrents, ne feront que remplacer un ensemble de biais par un autre. Les auteurs suggèrent qu’il incombe maintenant à de nouvelles initiatives de recherche de développer de meilleures métriques pour évaluer l’« authenticité » des photos générées synthétiquement.

L’article intitulé Internalized Biases in Fréchet Inception Distance, est issu de Steffen Jung à l’Institut Max Planck d’informatique à Sarrebruck, et de Margret Keuper, professeure de calcul visuel à l’Université de Siegen.

La recherche d’un système de notation pour la synthèse d’images

Comme le note la nouvelle recherche, les progrès dans les cadres de synthèse d’images, tels que les GAN et les architectures encodeur/décodeur, ont dépassé les méthodes permettant de juger les résultats de ces systèmes. Outre le fait qu’il est coûteux et donc difficile à mettre à l’échelle, l’évaluation humaine de la production de ces systèmes ne propose pas une méthode empirique et reproductible d’évaluation.

Par conséquent, un certain nombre de cadres de métriques ont émergé, notamment Inception Score (IS), présenté dans l’article de 2016 intitulé Improved Techniques for Training GANs, co-écrit par l’inventeur des GAN, Ian Goodfellow.

La disqualification du score Inception en tant que métrique largement applicable à plusieurs réseaux GAN en 2018 a conduit à l’adoption généralisée de FID dans la communauté de synthèse d’images GAN. Cependant, comme le score Inception, FID est basé sur le réseau de classification d’images Inception v3 de Google (IV3).

Les auteurs de la nouvelle étude affirment que Fréchet Inception Distance propage des biais préjudiciables dans IV3, entraînant une classification non fiable de la qualité des images.

Puisque FID peut être intégré dans un cadre d’apprentissage automatique en tant que discriminant (un « juge » intégré qui décide si le GAN fonctionne bien ou doit « réessayer »), il doit représenter avec précision les normes que l’homme appliquerait lors de l’évaluation des images.

Fréchet Inception Distance

FID compare la façon dont les fonctionnalités sont réparties dans le jeu de données d’entraînement utilisé pour créer un modèle GAN (ou une fonctionnalité similaire) et les résultats de ce système.

Par conséquent, si un cadre GAN est formé sur 10 000 images de (par exemple) célébrités, FID compare les images originales (réelles) aux images fausses produites par le GAN. Le score FID plus bas, plus le GAN s’est rapproché d’images « photoréalistes », selon les critères de FID.

Extrait de l'article, résultats d'un GAN formé sur FFHQ64, un sous-ensemble du jeu de données FFHQ très populaire de NVIDIA. Ici, bien que le score FID soit très bas, à 5,38, les résultats ne sont pas plaisants ou convaincants pour l'homme moyen.

Extrait de l’article, résultats d’un GAN formé sur FFHQ64, un sous-ensemble du jeu de données FFHQ très populaire de NVIDIA. Ici, bien que le score FID soit très bas, à 5,38, les résultats ne sont pas plaisants ou convaincants pour l’homme moyen.

Le problème, selon les auteurs, est que Inception v3, dont les hypothèses alimentent Fréchet Inception Distance, ne regarde pas aux bons endroits – du moins, pas lorsqu’il s’agit de la tâche en question.

Inception V3 est formé sur le défi de reconnaissance d’objets ImageNet, une tâche qui est sans doute en contradiction avec la façon dont les objectifs de la synthèse d’images ont évolué ces dernières années. IV3 met à l’épreuve la robustesse d’un modèle en effectuant une augmentation de données : il retourne aléatoirement les images, les recadre à une échelle aléatoire comprise entre 8 % et 100 %, modifie le rapport d’aspect (dans une plage allant de 3/4 à 4/3) et injecte aléatoirement des distorsions de couleur liées à la luminosité, à la saturation et au contraste.

Les chercheurs allemands ont constaté que IV3 a tendance à favoriser l’extraction de bords et de textures, plutôt que d’informations de couleur et d’intensité, qui seraient des indices plus significatifs d’authenticité pour les images synthétiques ; et que son objectif initial de détection d’objets a donc été inappropriément détourné pour une tâche inadaptée. Les auteurs déclarent* :

‘[Inception v3] a un biais en faveur de l’extraction de fonctionnalités basées sur les bords et les textures plutôt que sur les informations de couleur et d’intensité. Cela correspond à son pipeline d’augmentation qui introduit des distorsions de couleur, mais conserve les informations de haute fréquence intactes (par opposition, par exemple, à l’augmentation avec un flou gaussien).

‘Par conséquent, FID hérite de ce biais. Lorsqu’il est utilisé comme métrique de classement, les modèles génératifs reproduisant bien les textures peuvent être préférés aux modèles reproduisant bien les distributions de couleurs.’

Données et méthode

Pour tester leur hypothèse, les auteurs ont formé deux architectures GAN, DCGAN et SNGAN, sur le jeu de données de visages humains FFHQ de NVIDIA, échantillonné à une résolution d’image de 642, avec le jeu de données dérivé appelé FFHQ64.

Trois procédures d’entraînement GAN ont été suivies : GAN G+D, un réseau discriminant standard ; GAN FID|G+D, où FID fonctionne comme un discriminant supplémentaire ; et GAN FID|G, où le GAN est entièrement alimenté par le score FID en cours de roulement.

Techniquement, les auteurs notent que la perte FID devrait stabiliser l’entraînement et potentiellement même remplacer complètement le discriminant (comme c’est le cas dans #3, GAN FID|G), tout en produisant des résultats agréables pour l’homme.

Dans la pratique, les résultats sont plutôt différents, avec – les auteurs hypothèsent – les modèles assistés par FID « surajustant » sur les mauvaises métriques. Les chercheurs notent :

‘Nous hypothésons que le générateur apprend à produire des fonctionnalités inappropriées pour correspondre à la distribution des données d’entraînement. Cette observation devient plus grave dans le cas de [GAN FID|G] . Ici, nous remarquons que le manque de discriminant conduit à des distributions de fonctionnalités spatialement incohérentes. Par exemple [SNGAN FID|G] ajoute principalement des yeux seuls et aligne les caractéristiques faciales d’une manière menaçante.’

Exemples de visages produits par SNGAN FID|G.

Exemples de visages produits par SNGAN FID|G.

Les auteurs concluent* :

‘Alors que des annotateurs humains préféreraient certainement les images produites par SNGAN D+G par rapport à SNGAN FID|G (dans les cas où la fidélité des données est préférée à l’art), nous voyons que cela n’est pas reflété par FID. FID n’est donc pas aligné sur la perception humaine.

‘Nous argumentons que les fonctionnalités discriminatives fournies par les réseaux de classification d’images ne sont pas suffisantes pour fournir la base d’une métrique significative.’

Pas d’alternatives faciles

Les auteurs ont également constaté que remplacer Inception V3 par un moteur similaire ne résolvait pas le problème. En remplaçant IV3 par « un large choix de réseaux de classification différents », qui ont été testés contre ImageNet-C (un sous-ensemble d’ImageNet conçu pour évaluer les corruptions et les perturbations couramment générées dans les images de synthèse), les chercheurs n’ont pas pu améliorer substantiellement leurs résultats :

[Les biais] présents dans Inception v3 sont également largement présents dans d’autres réseaux de classification. De plus, nous voyons que différents réseaux produiraient différents classements entre les types de corruption.’

Les auteurs concluent l’article en espérant que des recherches en cours développeront une métrique « alignée sur l’homme et impartiale » capable de permettre un classement plus équitable des architectures de générateurs d’images.

 

* Insistance des auteurs.

Publié pour la première fois le 20 décembre 2021, 13h00 GMT+2.

Écrivain sur l'apprentissage automatique, spécialiste de domaine en synthèse d'images humaines. Ancien responsable du contenu de recherche chez Metaphysic.ai.