Intelligence artificielle

Les véritables identités peuvent être récupérées à partir de jeux de données synthétiques

Published November 6, 2024

Updated April 27, 2026

Martin Anderson

Sample comparison images from the paper 'Unveiling Synthetic Faces: How Synthetic Datasets Can Expose Real Identities', including original images (top), and inferred images (bottom).

Si 2022 a marqué le moment où le potentiel perturbateur de l’IA générative a captivé pour la première fois l’attention du grand public, 2024 a été l’année où les questions sur la légalité des données sous-jacentes ont pris le centre de la scène pour les entreprises impatientes d’harnacher son pouvoir.

La doctrine de l’utilisation équitable des États-Unis, ainsi que la licence universitaire implicite qui avait longtemps permis aux secteurs de la recherche académique et commerciale d’explorer l’IA générative, sont devenues de plus en plus intenables à mesure que des preuves de plagiat sont apparues. Par la suite, les États-Unis ont, pour le moment, interdit la protection par droit d’auteur du contenu généré par l’IA.

Ces questions sont loin d’être réglées et loin d’être résolues prochainement ; en 2023, en partie en raison de l’augmentation des préoccupations des médias et du public concernant le statut juridique de la production de l’IA, le Bureau du droit d’auteur des États-Unis a lancé une enquête de plusieurs années sur cet aspect de l’IA générative, publiant le premier segment (concernant les répliques numériques) en juillet 2024.

Entre-temps, les intérêts commerciaux restent frustrés par la possibilité que les modèles coûteux qu’ils souhaitent exploiter puissent les exposer à des conséquences juridiques lorsque la législation et les définitions définitives émergeront finalement.

La solution coûteuse à court terme a consisté à légitimer les modèles génératifs en les formant sur des données que les sociétés ont le droit d’exploiter. L’architecture Firefly d’Adobe, du texte à l’image (et maintenant de la vidéo), est alimentée principalement par son achat du jeu de données d’images stock de Fotolia en 2014, complété par l’utilisation de données du domaine public dont les droits d’auteur ont expiré*. Au même moment, les fournisseurs de photos stock existants tels que Getty et Shutterstock ont capitalisé sur la nouvelle valeur de leurs données sous licence, avec un nombre croissant d’accords pour licencier du contenu ou développer leurs propres systèmes de GenAI conformes aux normes de propriété intellectuelle.

Solutions synthétiques

Puisque supprimer les données sous copyright de l’espace latent formé d’un modèle d’IA est rempli de problèmes, les erreurs dans ce domaine pourraient potentiellement être très coûteuses pour les sociétés qui expérimentent des solutions pour les consommateurs et les entreprises qui utilisent l’apprentissage automatique.

Une solution alternative, et beaucoup moins chère, pour les systèmes de vision par ordinateur (et aussi pour les grands modèles de langage, ou LLM), est l’utilisation de données synthétiques, où le jeu de données est composé d’exemples aléatoirement générés du domaine cible (comme des visages, des chats, des églises, ou même un jeu de données plus généralisé).

Des sites tels que thispersondoesnotexist.com ont popularisé il y a longtemps l’idée que des photos authentiques de « non-réels » pouvaient être synthétisées (dans ce cas particulier, à travers les réseaux antagonistes génératifs, ou GAN) sans avoir de relation avec les personnes qui existent réellement dans le monde.

Par conséquent, si vous formez un système de reconnaissance faciale ou un système génératif sur de tels exemples abstraits et non réels, vous pouvez en théorie obtenir un standard photoréaliste de productivité pour un modèle d’IA sans avoir à considérer si les données sont légalement utilisables.

Équilibre

Le problème est que les systèmes qui produisent des données synthétiques sont eux-mêmes formés sur des données réelles. Si des traces de ces données se répandent dans les données synthétiques, cela peut potentiellement fournir des preuves que des matériaux restreints ou non autorisés ont été exploités à des fins lucratives.

Pour éviter cela, et afin de produire une véritable « aléatoire » d’images, de tels modèles doivent s’assurer qu’ils sont bien généralisés. La généralisation est la mesure de la capacité d’un modèle d’IA formé à comprendre intrinsèquement des concepts de haut niveau (comme « visage », « homme », ou « femme ») sans recourir à la réplication des données de formation réelles.

Malheureusement, il peut être difficile pour les systèmes formés de produire (ou de reconnaître) des détails granulaires, à moins qu’ils ne soient formés de manière quite extensive sur un jeu de données. Cela expose le système à un risque de mémorisation : une tendance à reproduire, dans une certaine mesure, des exemples des données de formation réelles.

Cela peut être atténué en définissant un taux d’apprentissage plus détendu, ou en terminant la formation à un stade où les concepts de base sont encore ductiles et non associés à un point de données spécifique (comme une image spécifique d’une personne, dans le cas d’un jeu de données de visages).

Révélation du visage

Cela nous amène à une étude intéressante et nouvelle de la Suisse, qui prétend être la première à démontrer que les images réelles originales qui alimentent les données synthétiques peuvent être récupérées à partir d’images générées qui devraient, en théorie, être entièrement aléatoires :

Exemples d’images de visages divulguées à partir des données de formation. Dans la rangée ci-dessus, nous voyons les images originales (réelles) ; dans la rangée ci-dessous, nous voyons des images générées aléatoirement, qui s’accordent de manière significative avec les images réelles. Source : https://arxiv.org/pdf/2410.24015

Les résultats, selon les auteurs, indiquent que les « génératifs synthétiques » ont en effet mémorisé un grand nombre de points de données de formation, dans leur quête d’une plus grande granularité. Ils indiquent également que les systèmes qui s’appuient sur des données synthétiques pour protéger les producteurs d’IA des conséquences juridiques pourraient être très peu fiables à cet égard.

Les chercheurs ont mené une étude approfondie sur six jeux de données synthétiques de pointe, démontrant que dans tous les cas, les données originales (potentiellement protégées par droit d’auteur ou protégées) peuvent être récupérées. Ils commentent :

‘Nos expériences démontrent que les jeux de données synthétiques de reconnaissance faciale de pointe contiennent des échantillons qui sont très proches des échantillons des données de formation de leurs modèles génératifs. Dans certains cas, les échantillons synthétiques contiennent de petits changements par rapport à l’image originale, cependant, nous pouvons également observer dans certains cas que l’échantillon généré contient plus de variations (par exemple, une pose différente, une condition de lumière, etc.) tandis que l’identité est préservée.

‘Cela suggère que les modèles génératifs apprennent et mémorisent les informations liées à l’identité à partir des données de formation et peuvent générer des identités similaires. Cela soulève des préoccupations critiques concernant l’application de données synthétiques dans des tâches sensibles à la vie privée, telles que la biométrie et la reconnaissance faciale.’

Le document est intitulé Dévoiler les visages synthétiques : comment les jeux de données synthétiques peuvent exposer les véritables identités, et provient de deux chercheurs de l’Institut de recherche Idiap à Martigny, de l’École polytechnique fédérale de Lausanne (EPFL), et de l’Université de Lausanne (UNIL) à Lausanne.

Méthode, données et résultats

Les visages mémorisés dans l’étude ont été révélés par Attaque d’inférence d’adhésion. Bien que le concept semble compliqué, il est assez auto-explicatif : l’inférence d’adhésion se réfère ici au processus de questionnement d’un système jusqu’à ce qu’il révèle des données qui correspondent soit aux données que vous recherchez, soit qui leur ressemblent de manière significative.

Autres exemples de sources de données inférées, de l’étude. Dans ce cas, les images synthétiques sources proviennent du jeu de données DCFace.

Les chercheurs ont étudié six jeux de données synthétiques pour lesquels la source du jeu de données (réel) était connue. Puisque les jeux de données réels et synthétiques en question contiennent tous deux un très grand volume d’images, cela revient essentiellement à chercher une aiguille dans une botte de foin.

Par conséquent, les auteurs ont utilisé un modèle de reconnaissance faciale standard^† avec un ResNet100 pour la colonne vertébrale formé sur la AdaFace fonction de perte (sur le jeu de données WebFace12M).

Les six jeux de données synthétiques utilisés étaient : DCFace (un modèle de diffusion latent) ; IDiff-Face (Uniforme – un modèle de diffusion basé sur FFHQ) ; IDiff-Face (Deux étapes – une variante utilisant une méthode d’échantillonnage différente) ; GANDiffFace (basé sur les réseaux antagonistes génératifs et les modèles de diffusion, en utilisant StyleGAN3 pour générer des identités initiales, puis DreamBooth pour créer des exemples variés) ; IDNet (une méthode basée sur les réseaux antagonistes génératifs, basée sur StyleGAN-ADA) ; et SFace (un cadre de protection de l’identité).

Puisque GANDiffFace utilise à la fois les méthodes de réseaux antagonistes génératifs et de diffusion, il a été comparé au jeu de données de formation de StyleGAN – le plus proche d’une « origine de visage réel » que ce réseau fournit.

Les auteurs ont exclu les jeux de données synthétiques qui utilisent la CGI plutôt que les méthodes d’IA, et en évaluant les résultats, ont décompté les correspondances pour les enfants, en raison d’anomalies de distribution dans ce sens, ainsi que les images non faciales (qui peuvent fréquemment se produire dans les jeux de données de visages, où les systèmes de scraping Web produisent des faux positifs pour des objets ou des artefacts qui ont des qualités de visage).

La similarité cosinus a été calculée pour toutes les paires récupérées, et concaténée en histogrammes, illustrés ci-dessous :

Une représentation d’histogramme pour les scores de similarité cosinus calculés sur les divers jeux de données, ainsi que leurs valeurs de similarité pour les paires top-k (lignes verticales pointillées).

Le nombre de similarités est représenté par les pics dans le graphique ci-dessus. Le document présente également des comparaisons d’exemples à partir des six jeux de données, ainsi que leurs images estimées correspondantes dans les jeux de données (réels) originaux, dont certaines sont présentées ci-dessous :

Exemples parmi les nombreuses instances reproduites dans le document source, auquel le lecteur est renvoyé pour une sélection plus complète.

Le document commente :

‘[Les] jeux de données synthétiques générés contiennent des images très similaires aux images des données de formation de leur modèle génératif, ce qui soulève des préoccupations concernant la génération de ces identités.’

Les auteurs notent que pour cette approche particulière, passer à l’échelle pour des jeux de données de plus grande taille est susceptible d’être inefficace, car les calculs nécessaires seraient extrêmement lourds. Ils observent en outre que la comparaison visuelle a été nécessaire pour inférer les correspondances, et que la reconnaissance faciale automatisée seule ne serait probablement pas suffisante pour une tâche plus large.

En ce qui concerne les implications de la recherche, et dans la perspective d’une voie à suivre, le travail déclare :

‘[Nous] aimerions souligner que la principale motivation pour générer des jeux de données synthétiques est de répondre aux préoccupations en matière de confidentialité lors de l’utilisation de grands jeux de données de visages extraits du Web.

‘Par conséquent, la fuite de toute information sensible (comme les identités des images réelles dans les données de formation) dans le jeu de données synthétique soulève des préoccupations critiques concernant l’application de données synthétiques pour des tâches sensibles à la vie privée, telles que la biométrie. Notre étude met en lumière les pièges de confidentialité dans la génération de jeux de données de reconnaissance faciale synthétiques et ouvre la voie à des études futures pour générer des jeux de données synthétiques responsables.’

Bien que les auteurs promettent une publication de code pour ce travail sur la page du projet, il n’y a pas encore de lien de référentiel.

Conclusion

Récemment, l’attention des médias a mis l’accent sur les rendements décroissants obtenus en formant des modèles d’IA sur des données générées par l’IA.

La nouvelle recherche suisse, cependant, met l’accent sur une considération qui peut être plus pressante pour le nombre croissant de sociétés qui souhaitent exploiter et profiter de l’IA générative – la persistance de modèles de données protégés par la propriété intellectuelle ou non autorisés, même dans des jeux de données conçus pour lutter contre cette pratique. Si nous devions lui donner une définition, dans ce cas, il pourrait s’agir de « lavage de visage ».

* Cependant, la décision d’Adobe d’autoriser les images générées par l’IA téléchargées par les utilisateurs à Adobe Stock a en réalité sapé la « pureté » juridique de ces données. Bloomberg a soutenu en avril 2024 que des images fournies par les utilisateurs du système d’IA générative MidJourney avaient été intégrées aux capacités de Firefly.

^† Ce modèle n’est pas identifié dans le document.

Publié pour la première fois le mercredi 6 novembre 2024

Martin Anderson

Écrivain sur l'apprentissage automatique, spécialiste de domaine en synthèse d'images humaines. Ancien responsable du contenu de recherche chez Metaphysic.ai.