talon Le secteur de la synthèse d'images a adopté une métrique erronée, affirme la recherche - Unite.AI
Suivez nous sur

Intelligence artificielle

Le secteur de la synthèse d'images a adopté une métrique erronée, affirme la recherche

mm
Le kit de préparation mis à jour on

2021 a été une année de progrès sans précédent et d'un rythme effréné de publication dans le secteur de la synthèse d'images, offrant un flux de nouvelles innovations et améliorations dans les technologies capables de reproduire des personnalités humaines à travers rendu neuronal, deepfakes et une foule de approches novatrices.

Cependant, des chercheurs allemands affirment maintenant que la norme utilisée pour juger automatiquement le réalisme des images de synthèse est fatalement erronée ; et que les centaines, voire les milliers de chercheurs du monde entier qui comptent sur lui pour réduire le coût de l'évaluation coûteuse des résultats basés sur l'homme pourraient se diriger vers une impasse.

Afin de démontrer comment la norme, Distance de départ de Fréchet (FID), n'est pas à la hauteur des normes humaines d'évaluation des images, les chercheurs ont déployé leurs propres GAN, optimisés pour le FID (désormais une métrique commune). Ils ont constaté que le FID suit ses propres obsessions, basées sur un code sous-jacent avec une mission très différente de celle de la synthèse d'images, et qu'il échoue régulièrement à atteindre un niveau de discernement "humain":

Scores FID (plus bas est meilleur) pour les images générées par divers modèles utilisant des ensembles de données et des architectures standard. Les chercheurs du nouveau document posent la question « Seriez-vous d'accord avec ces classements ? ». Source : https://openreview.net/pdf?id=mLG96UpmbYz

Scores FID (plus bas est meilleur) pour les images générées par divers modèles utilisant des ensembles de données et des architectures standard. Les chercheurs du nouveau document posent la question « Seriez-vous d'accord avec ces classements ? ». Source : https://openreview.net/pdf?id=mLG96UpmbYz

En plus de son affirmation selon laquelle le FID n'est pas adapté à sa tâche prévue, le document suggère en outre que des remèdes "évidents", tels que le remplacement de son moteur interne par des moteurs concurrents, échangeront simplement un ensemble de biais contre un autre. Les auteurs suggèrent qu'il incombe maintenant à de nouvelles initiatives de recherche de développer de meilleures mesures pour évaluer «l'authenticité» des photos générées de manière synthétique.

La papier est intitulé Biais intériorisés dans la distance initiale de Fréchet, et vient de Steffen Jung de l'Institut Max Planck d'informatique de la Sarre, et de Margret Keuper, professeur d'informatique visuelle à l'Université de Siegen.

La recherche d'un système de notation pour la synthèse d'images

Comme le note la nouvelle recherche, les progrès dans les cadres de synthèse d'images, tels que les GAN et les architectures d'encodeur/décodeur, ont dépassé les méthodes permettant d'évaluer les résultats de tels systèmes. En plus d'être coûteuse et donc difficile à mettre à l'échelle, l'évaluation humaine des résultats de ces systèmes n'offre pas de méthode d'évaluation empirique et reproductible.

Par conséquent, un certain nombre de cadres métriques ont émergé, y compris Score initial (IS), présenté dans le 2016 papier Techniques améliorées pour la formation des GAN, co-écrit par GAN inventeur, Ian Goodfellow.

Le discrédit du score IS en tant que métrique largement applicable pour plusieurs réseaux GAN en 2018. a conduit à l'adoption généralisée du FID dans la communauté de synthèse d'images GAN. Cependant, comme Inception Score, FID est basé sur Google Réseau de classification d'images Inception v3 (IV3).

Les auteurs du nouvel article soutiennent que Fréchet Inception Distance propage des biais dommageables dans IV3, conduisant à une classification peu fiable de la qualité de l'image.

Étant donné que le FID peut être intégré dans un cadre d'apprentissage automatique en tant que discriminateur (un « juge » intégré qui décide si le GAN fonctionne bien ou s'il doit « réessayer »), il doit représenter avec précision les normes qu'un humain appliquerait lors de l'évaluation. les images.

Distance de départ de Fréchet

Le FID compare la manière dont les fonctionnalités sont distribuées dans l'ensemble de données d'apprentissage utilisé pour créer un modèle GAN (ou une fonctionnalité similaire) et les résultats de ce système.

Par conséquent, si un framework GAN est formé sur 10,000 XNUMX images de célébrités (par exemple), le FID compare les images originales (réelles) aux fausses images produites par le GAN. Plus le score FID est bas, plus le GAN se rapproche des images « photoréalistes », selon les critères du FID.

D'après l'article, les résultats d'un GAN formé sur FFHQ64, un sous-ensemble de l'ensemble de données FFHQ très populaire de NVIDIA. Ici, bien que le score FID soit merveilleusement bas de 5.38, les résultats ne sont ni agréables ni convaincants pour l'humain moyen.

D'après l'article, les résultats d'un GAN formé sur FFHQ64, un sous-ensemble du très populaire NVIDIA Jeu de données FFHQ. Ici, bien que le score FID soit merveilleusement bas de 5.38, les résultats ne sont ni agréables ni convaincants pour l'humain moyen.

Le problème, selon les auteurs, est qu'Inception v3, dont les hypothèses alimentent Fréchet Inception Distance, ne cherche pas aux bons endroits - du moins, pas lorsque l'on considère la tâche à accomplir.

Inception V3 est formé sur le Défi de reconnaissance d'objet ImageNet, une tâche qui est sans doute en contradiction avec la façon dont les objectifs de la synthèse d'images ont évolué ces dernières années. IV3 défie la robustesse d'un modèle en effectuant une augmentation des données : il retourne les images de manière aléatoire, les recadre à une échelle aléatoire entre 8 et 100 %, modifie le rapport d'aspect (dans une plage de 3/4 à 4/3) et injecte de manière aléatoire distorsions de couleur liées à la luminosité, à la saturation et au contraste.

Les chercheurs basés en Allemagne ont découvert qu'IV3 a tendance à favoriser l'extraction des bords et des textures, plutôt que les informations de couleur et d'intensité, qui seraient des indices d'authenticité plus significatifs pour les images synthétiques ; et que son objectif initial de détection d'objet a donc été séquestré de manière inappropriée pour une tâche inadaptée. Les auteurs précisent* :

'[Inception v3] a tendance à extraire des caractéristiques basées sur les bords et les textures plutôt que sur les informations de couleur et d'intensité. Cela s'aligne sur son pipeline d'augmentation qui introduit des distorsions de couleur, mais conserve intactes les informations haute fréquence (contrairement, par exemple, à l'augmentation avec flou gaussien).

«Par conséquent, FID hérite de ce biais. Lorsqu'ils sont utilisés comme métrique de classement, les modèles génératifs reproduisant bien les textures peuvent être préférés aux modèles qui reproduisent bien les distributions de couleurs.'

Données et méthode

Pour tester leur hypothèse, les auteurs ont formé deux architectures GAN, DCGAN et de SNGAN, sur NVIDIA Jeu de données sur les visages humains de la FFHQ, sous-échantillonné à 642 résolution d'image, avec le jeu de données dérivé appelé FFHQ64.

Trois procédures de formation GAN ont été poursuivies : GAN G+D, une norme basé sur le discriminateur réseau; GAN FID|G+D, où FID fonctionne comme un discriminateur supplémentaire ; et GAN FID|G. où le GAN est entièrement alimenté par le score FID roulant.

Techniquement, notent les auteurs, la perte de FID devrait stabiliser la formation, et potentiellement même être en mesure de remplacer complètement le discriminateur (comme il le fait dans # 3, GAN FID | G), tout en produisant des résultats agréables pour l'homme.

Dans la pratique, les résultats sont plutôt différents, avec - les auteurs émettent l'hypothèse - les modèles assistés par FID "sur-ajustant" sur les mauvaises métriques. Les chercheurs notent :

«Nous supposons que le générateur apprend à produire des caractéristiques inadaptées pour correspondre à la distribution des données d'entraînement. Cette observation devient plus sévère dans le cas de [GAN FID|G] . Ici, nous remarquons que le discriminateur manquant conduit à des distributions de caractéristiques spatialement incohérentes. Par exemple, [SNGAN FID|G] ajoute principalement des yeux simples et aligne les caractéristiques faciales d'une manière intimidante.

Exemples de visages réalisés par SNGAN FID|G.

Exemples de visages réalisés par SNGAN FID|G.

Les auteurs concluent* :

"Alors que les annotateurs humains préféreraient sûrement les images produites par SNGAN D+G à SNGAN FID|G (dans les cas où la fidélité des données est préférée à l'art), nous constatons que cela n'est pas reflété par FID. Par conséquent, le FID n'est pas aligné sur la perception humaine.

"Nous soutenons que les caractéristiques discriminantes fournies par les réseaux de classification d'images ne sont pas suffisantes pour fournir la base d'une métrique significative."

Pas d'alternatives faciles

Les auteurs ont également constaté que l'échange d'Inception V3 contre un moteur similaire n'a pas résolu le problème. En remplaçant IV3 par "un vaste choix de différents réseaux de classification", qui ont été testés par ImageNet-C (un sous-ensemble d'ImageNet conçu pour comparer les corruptions et les perturbations couramment générées dans les images de sortie des cadres de synthèse d'images), les chercheurs n'ont pas pu améliorer considérablement leurs résultats :

»[Les préjugés] présents dans Inception v3 sont également largement présents dans d'autres réseaux de classification. De plus, nous constatons que différents réseaux produiraient différents classements entre les types de corruption.

Les auteurs concluent l'article avec l'espoir que les recherches en cours développeront une « métrique humainement alignée et impartiale » capable de permettre un classement plus juste des architectures de générateurs d'images.

 

* Emphase des auteurs.


Première publication le 2 décembre 2021, 1h GMT+2.