Angle d’Anderson

Visages synthétiques « dégradés » pourraient améliorer la reconnaissance d’images de visages

Publié le 1 août 2022

Mis à jour le 23 mai 2026

Par

Martin Anderson

Les chercheurs de l’Université d’État du Michigan ont trouvé un moyen de faire une pause dans la scène des deepfakes et de faire du bien dans le monde – en aidant les systèmes de reconnaissance d’images à devenir plus précis.

Le nouveau module de synthèse de visages contrôlable (CFSM) qu’ils ont conçu est capable de régénérer des visages dans le style de la vidéo de surveillance en temps réel, plutôt que de s’appuyer sur des images de haute qualité utilisées dans les jeux de données open source populaires de célébrités, qui ne reflètent pas toutes les faiblesses et les défauts des systèmes de vidéosurveillance réels, tels que le flou des visages, la faible résolution et le bruit de capteur – facteurs qui peuvent affecter la précision de la reconnaissance.

Architecture conceptuelle pour le module de synthèse de visages contrôlable (CFSM). Source: http://cvlab.cse.msu.edu/pdfs/Liu_Kim_Jain_Liu_ECCV2022.pdf

Le CFSM n’est pas conçu spécifiquement pour simuler de manière authentique les poses de tête, les expressions ou tous les autres traits qui sont l’objectif des systèmes de deepfakes, mais plutôt pour générer une gamme de vues alternatives dans le style du système de reconnaissance cible, en utilisant le transfert de style.

Le système est conçu pour imiter le domaine de style du système cible et pour adapter sa sortie en fonction de la résolution et de la plage de « particularités » qui s’y trouvent. L’utilisation de ce système inclut les systèmes hérités qui ne sont pas susceptibles d’être mis à niveau en raison de leur coût, mais qui peuvent actuellement contribuer peu à la nouvelle génération de technologies de reconnaissance faciale, en raison de la mauvaise qualité de leur sortie qui a pu être à la pointe de la technologie à un moment donné.

Lors des tests du système, les chercheurs ont constaté qu’il réalisait des progrès notables sur l’état de l’art dans les systèmes de reconnaissance d’images qui doivent faire face à ce type de données bruyantes et de faible qualité.

Formation des modèles de reconnaissance faciale pour s’adapter aux limitations des systèmes cibles. Source: http://cvlab.cse.msu.edu/pdfs/Liu_Kim_Jain_Liu_ECCV2022_supp.pdf

Ils ont également constaté un sous-produit utile du processus – que les jeux de données cibles pouvaient maintenant être caractérisés et comparés les uns aux autres, ce qui facilite la comparaison, la création de benchmarks et la génération de jeux de données sur mesure pour les différents systèmes de vidéosurveillance à l’avenir.

En outre, la méthode peut être appliquée aux jeux de données existants, effectuant ainsi une adaptation de domaine de facto et les rendant plus adaptés aux systèmes de reconnaissance faciale.

Le nouvel article est intitulé Synthèse de visages contrôlée et guidée pour la reconnaissance faciale non contrainte, est soutenu en partie par le Bureau du directeur du renseignement national des États-Unis (ODNI, à IARPA), et provient de quatre chercheurs du département de sciences et d’ingénierie informatique de l’Université d’État du Michigan.

Contenu mis en avant

La reconnaissance faciale de mauvaise qualité (LQFR) est devenue un domaine d’étude notable au cours des dernières années. Puisque les autorités civiles et municipales ont construit des systèmes de vidéosurveillance pour être résistants et durables (ne voulant pas réaffecter des ressources au problème périodiquement), de nombreux réseaux de surveillance « hérités » sont devenus des victimes de la dette technique, en termes de leur adaptabilité en tant que sources de données pour l’apprentissage automatique.

Niveaux de résolution faciale variables à travers une gamme de systèmes de vidéosurveillance historiques et plus récents. Source: https://arxiv.org/pdf/1805.11519.pdf

Heureusement, c’est une tâche que les modèles de diffusion et d’autres modèles basés sur le bruit sont particulièrement bien adaptés pour résoudre. Beaucoup des systèmes de synthèse d’images les plus populaires et les plus efficaces de ces dernières années effectuent une mise à l’échelle d’images de faible résolution dans le cadre de leur pipeline, tandis que cela est également essentiel aux techniques de compression neuronale (méthodes pour enregistrer des images et des films sous forme de données neuronales plutôt que de données bitmap).

Une partie du défi de la reconnaissance faciale est d’obtenir la précision maximale possible à partir du nombre minimum de caractéristiques qui peuvent être extraites des images de faible résolution les plus petites et les moins prometteuses. Cette contrainte existe non seulement parce qu’il est utile de pouvoir identifier (ou créer) un visage à faible résolution, mais également en raison de limitations techniques sur la taille des images qui peuvent passer à travers l’espace latent émergeant d’un modèle qui est formé dans la VRAM disponible sur une GPU locale.

Dans ce sens, le terme « caractéristiques » est trompeur, puisque de telles caractéristiques peuvent également être obtenues à partir d’un jeu de données de bancs de parc. Dans le secteur de la vision par ordinateur, « caractéristiques » fait référence aux caractéristiques distinctives obtenues à partir d’images – quelconques images, qu’il s’agisse des lignements d’une église, d’une montagne ou de la disposition de caractéristiques faciales dans un jeu de données de visages.

Puisque les algorithmes de vision par ordinateur sont maintenant aptes à mettre à l’échelle les images et les séquences vidéo, diverses méthodes ont été proposées pour « améliorer » les matériaux de surveillance de faible résolution ou dégradés, au point qu’il pourrait être possible de les utiliser à des fins légales, telles que placer une personne particulière sur les lieux d’un crime.

En plus de la possibilité de fausse identification, qui a occasionnellement fait les gros titres, en théorie, il ne devrait pas être nécessaire de hyper-résoudre ou de transformer les images de faible résolution pour effectuer une identification positive d’un individu, puisque un système de reconnaissance faciale qui se concentre sur les caractéristiques de faible niveau ne devrait pas avoir besoin de ce niveau de résolution et de clarté. De plus, de telles transformations sont coûteuses dans la pratique et soulèvent des questions récurrentes sur leur validité et leur légalité potentielle.

Besoin de plus de célébrités « déclassées »

Il serait plus utile si un système de reconnaissance faciale pouvait dériver des caractéristiques (c’est-à-dire des caractéristiques d’apprentissage automatique de caractéristiques humaines) à partir de la sortie des systèmes hérités tels quels, en comprenant mieux la relation entre l’« identité de haute résolution » et les images dégradées qui sont disponibles dans les cadres de vidéosurveillance existants et implacables.

Le problème ici est un problème de normes : les jeux de données couramment collectés sur le Web, tels que MS-Celeb-1M et WebFace260M (parmi plusieurs autres), ont été adoptés par la communauté de recherche parce qu’ils fournissent des références cohérentes contre lesquelles les chercheurs peuvent mesurer leurs progrès incrémentiels ou majeurs par rapport à l’état actuel de la technique.

Exemples du jeu de données MS-Celeb1m de Microsoft. Source: https://www.microsoft.com/en-us/research/project/ms-celeb-1m-challenge-recognizing-one-million-celebrities-real-world/

Cependant, les auteurs soutiennent que les algorithmes de reconnaissance faciale (FR) formés sur ces jeux de données sont des matériaux inadaptés pour les « domaines » visuels de la sortie de nombreux systèmes de surveillance plus anciens.

L’article indique* :

‘Les modèles FR de pointe (SoTA) ne fonctionnent pas bien sur les images de surveillance en temps réel (non contraintes) en raison du problème de décalage de domaine, c’est-à-dire que les grands jeux de données d’entraînement (semi-contraints) obtenus via les visages de célébrités parcourus sur le Web manquent de variations in situ, telles que le bruit de capteur inhérent, la faible résolution, le flou de mouvement, l’effet de turbulence, etc.

‘Par exemple, la précision de vérification 1:1 signalée par l’un des modèles SoTA sur le jeu de données IJB-S non contraint est d’environ 30 % inférieure à celle du jeu de données LFW semi-contraint.

‘Un remède possible à cet écart de performance est de constituer un grand jeu de données de visages non contraints. Cependant, la construction d’un tel jeu de données d’entraînement avec des dizaines de milliers de sujets est prohibitivement difficile avec un coût de marquage manuel élevé.’

L’article rappelle diverses méthodes antérieures qui ont tenté de « faire correspondre » les types variés de sorties des systèmes de surveillance historiques ou à faible coût, mais note que celles-ci ont traité d’« augmentations aveugles ». En revanche, le CFSM reçoit des commentaires directs de la sortie en temps réel du système cible pendant la formation et s’adapte via le transfert de style pour imiter ce domaine.

L’actrice Natalie Portman, qui n’est pas étrangère au petit nombre de jeux de données qui dominent la communauté de vision par ordinateur, figure parmi les identités de cet exemple de CFSM effectuant une adaptation de domaine à style correspondant basée sur les commentaires du domaine du modèle cible réel.

L’architecture conçue par les auteurs utilise la méthode de signe de gradient rapide (FGSM) pour individualiser et « importer » les styles et les caractéristiques obtenus à partir de la sortie réelle du système cible. La partie du pipeline consacrée à la génération d’images améliorera et deviendra plus fidèle au système cible avec la formation. Ces commentaires de l’espace de style de faible dimension du système cible sont de nature de bas niveau et correspondent aux descripteurs visuels les plus larges dérivés.

Les auteurs commentent :

‘Avec les commentaires du modèle FR, les images synthétisées sont plus bénéfiques pour la performance FR, ce qui conduit à des capacités de généralisation significativement améliorées des modèles FR formés avec elles.’

Tests

Les chercheurs ont utilisé le travail antérieur de MSU en tant que modèle pour tester leur système. Sur la base des mêmes protocoles expérimentaux, ils ont utilisé MS-Celeb-1m, qui se compose exclusivement de photographies de célébrités collectées sur le Web, en tant que jeu de données d’entraînement étiqueté. Pour équité, ils ont également inclus MS1M-V2, qui contient 3,9 millions d’images présentant 85 700 classes.

Les données cibles étaient le jeu de données WiderFace de l’Université chinoise de Hong Kong. Il s’agit d’un ensemble d’images particulièrement diversifié conçu pour les tâches de détection de visages dans des situations difficiles. 70 000 images de cet ensemble ont été utilisées.

Pour l’évaluation, le système a été testé contre quatre références de reconnaissance faciale : IJB-B, IJB-C, IJB-S et TinyFace.

Le CFSM a été formé avec environ 10 % des données d’entraînement de MS-Celeb-1m, soit environ 0,4 million d’images, pendant 125 000 itérations à une taille de lot de 32 sous l’optimiseur Adam à un taux d’apprentissage très faible de 1e-4.

Le modèle de reconnaissance faciale cible utilisait une modification de ResNet-50 pour le squelette, avec la fonction de perte ArcFace activée pendant la formation. De plus, un modèle a été formé avec le CFSM en tant qu’exercice d’ablation et de comparaison (noté « ArcFace » dans le tableau de résultats ci-dessous).

Résultats des tests principaux pour le CFSM. Les nombres plus élevés sont meilleurs.

Les auteurs commentent les résultats principaux :

‘Le modèle ArcFace surpasse toutes les références dans les tâches d’identification et de vérification de visages, et atteint une nouvelle performance de pointe.’

La capacité à extraire des domaines des diverses caractéristiques des systèmes de surveillance hérités ou sous-équipés permet également aux auteurs de comparer et d’évaluer la similarité de distribution entre ces cadres et de présenter chaque système en termes de style visuel qui pourrait être exploité dans des travaux ultérieurs.

Exemples de divers jeux de données présentant des différences de style claires.

Les auteurs notent en outre que leur système pourrait faire un usage profitable de certaines technologies qui, jusqu’à présent, ont été considérées uniquement comme des problèmes à résoudre par la communauté de recherche et de vision :

‘[CFSM] montre que la manipulation adversative pourrait aller au-delà d’être un attaquant et servir à augmenter les précisions de reconnaissance dans les tâches de vision. Pendant ce temps, nous définissons une métrique de similarité de jeu de données basée sur les bases de style apprises, qui capturent les différences de style de manière agnostique par rapport aux étiquettes ou aux prédicteurs.’

‘Nous croyons que notre recherche a présenté le pouvoir d’un modèle de synthèse de visages contrôlable et guidé pour la reconnaissance faciale non contrainte et fournit une compréhension des différences de jeu de données.’

* Ma conversion des citations en ligne des auteurs en hyperliens.

Publié pour la première fois le 1er août 2022.

Martin Anderson

Écrivain sur l'apprentissage automatique, spécialiste de domaine en synthèse d'images humaines. Ancien responsable du contenu de recherche chez Metaphysic.ai.

Unite.AI

Visages synthétiques « dégradés » pourraient améliorer la reconnaissance d’images de visages

Contenu mis en avant

Besoin de plus de célébrités « déclassées »

Tests

You may like