Angle d’Anderson

Faire oublier à un modèle d’apprentissage automatique

Publié le 11 août 2021

Mis à jour le 24 mai 2026

Par

Martin Anderson

Supprimer une pièce de données spécifique qui a contribué à un modèle d’apprentissage automatique est comme essayer de supprimer la deuxième cuillère à café de sucre d’un café. Les données, à ce stade, sont déjà devenues intrinsèquement liées à de nombreux autres neurones à l’intérieur du modèle. Si un point de données représente des données « définissantes » qui ont été impliquées dans la partie la plus précoce et la plus multidimensionnelle de la formation, alors les supprimer peut radicalement redefinir la façon dont le modèle fonctionne, ou même exiger qu’il soit réentraîné à quelque dépense de temps et d’argent.

Néanmoins, en Europe au moins, l’article 17 du Règlement général sur la protection des données (RGPD) exige que les entreprises suppriment de telles données utilisateur sur demande. Puisque l’acte a été formulé sur la compréhension que cette suppression ne serait pas plus qu’une requête de suppression de base de données, la législation destinée à émerger du projet de loi de l’UE sur l’intelligence artificielle copiera et collera l’esprit du RGPD dans des lois qui s’appliquent aux systèmes d’IA formés plutôt qu’aux données tabulaires.

D’autres législations sont en cours d’examen dans le monde qui donneront aux individus le droit de demander la suppression de leurs données des systèmes d’apprentissage automatique, tandis que la loi californienne sur la confidentialité des consommateurs (CCPA) de 2018 fournit déjà ce droit aux résidents de l’État.

Pourquoi cela compte

Lorsqu’un jeu de données est formé en un modèle d’apprentissage automatique exploitable, les caractéristiques de ces données deviennent généralisées et abstraites, car le modèle est conçu pour déduire des principes et des tendances générales à partir des données, produisant finalement un algorithme qui sera utile pour analyser des données spécifiques et non généralisées.

Cependant, des techniques telles que l’inversion de modèle ont révélé la possibilité de réidentifier les données contributives sous-jacentes à l’algorithme abstrait final, tandis que les attaques d’inférence d’appartenance sont également capables d’exposer les données sources, y compris des données sensibles qui n’auraient peut-être été autorisées à être incluses dans un jeu de données qu’à la condition de l’anonymat.

L’intérêt croissant pour cette poursuite ne nécessite pas de s’appuyer sur l’activisme de base pour la confidentialité : à mesure que le secteur de l’apprentissage automatique se commercialise au cours des dix prochaines années, et que les nations sont sous pression pour mettre fin à la culture actuelle de laisser-faire sur l’utilisation du scraping d’écran pour la génération de jeux de données, il y aura une incitation commerciale croissante pour les organisations qui font respecter les droits de propriété intellectuelle (et les trolls de brevets) pour décoder et examiner les données qui ont contribué à des cadres d’inférence, de classification et de génération d’IA à forte rentabilité et propriétaires.

Induire l’amnésie dans les modèles d’apprentissage automatique

Nous sommes donc confrontés au défi de sortir le sucre du café. C’est un problème qui a vexé les chercheurs ces dernières années : en 2021, l’article soutenu par l’UE Une étude comparative sur les risques de confidentialité des bibliothèques de reconnaissance faciale a constaté que plusieurs algorithmes de reconnaissance faciale populaires étaient capables de permettre la discrimination fondée sur le sexe ou la race dans les attaques de réidentification ; en 2015, des recherches menées à l’Université de Columbia ont proposé une méthode d’« apprendre à oublier » basée sur la mise à jour d’un certain nombre de sommes dans les données ; et en 2019, des chercheurs de Stanford ont proposé de nouveaux algorithmes de suppression pour les implémentations de regroupement K-means.

Maintenant, un consortium de recherche de Chine et des États-Unis a publié un nouveau travail qui introduit une métrique uniforme pour évaluer le succès des approches de suppression de données, ainsi qu’une nouvelle méthode d’« apprendre à oublier » appelée Forsaken, que les chercheurs affirment être capable d’obtenir un taux d’oubli de plus de 90 %, avec une perte d’exactitude de seulement 5 % dans les performances globales du modèle.

L’article s’intitule Apprendre à oublier : l’apprentissage automatique via le masquage de neurones et présente des chercheurs de Chine et de Berkeley.

Le masquage de neurones, le principe derrière Forsaken, utilise un générateur de gradient de masque comme filtre pour la suppression de données spécifiques d’un modèle, mettant effectivement à jour celui-ci plutôt que de le forcer à être réentraîné à partir de zéro ou à partir d’un instantané qui s’est produit avant l’inclusion des données (dans le cas de modèles basés sur le streaming qui sont mis à jour en continu).

L’architecture du générateur de gradient de masque. Source : https://arxiv.org/pdf/2003.10933.pdf

Origines biologiques

Les chercheurs déclarent que cette approche a été inspirée par le processus biologique d’« oubli actif », où l’utilisateur prend des mesures énergiques pour effacer toutes les cellules d’engramme pour un souvenir particulier en manipulant un type spécial de dopamine.

Forsaken évoque continuellement un gradient de masque qui reproduit cette action, avec des garanties pour ralentir ou arrêter ce processus afin d’éviter un oubli catastrophique de données non ciblées.

Les avantages du système sont qu’il est applicable à de nombreux types de réseaux de neurones existants, alors que les travaux récents similaires ont connu du succès principalement dans les réseaux de vision par ordinateur ; et qu’il n’interfère pas avec les procédures d’entraînement du modèle, mais agit plutôt comme un adjoint, sans nécessiter que l’architecture de base soit modifiée ou que les données soient réentraînées.

Restreindre l’effet

La suppression des données contributives peut avoir un effet potentiellement délétère sur la fonctionnalité d’un algorithme d’apprentissage automatique. Pour éviter cela, les chercheurs ont exploité la régularisation des normes, une fonctionnalité de l’entraînement normal des réseaux de neurones qui est couramment utilisée pour éviter la sur-formation. La mise en œuvre particulière choisie est conçue pour garantir que Forsaken ne fait pas échouer la convergence lors de l’entraînement.

Pour établir une dispersion d’utilisation des données, les chercheurs ont utilisé des données hors distribution (OOD) (c’est-à-dire des données non incluses dans le jeu de données réel, imitant des « données sensibles » dans le jeu de données réel) pour calibrer la façon dont l’algorithme devrait se comporter.

Test sur les jeux de données

La méthode a été testée sur huit jeux de données standard et a généralement obtenu des taux d’oubli proches ou supérieurs à ceux de la réentraîne complète, avec très peu d’impact sur la précision du modèle.

Il semble impossible que la réentraîne complète sur un jeu de données édité puisse réellement faire pire que toute autre méthode, puisque les données ciblées sont entièrement absentes. Cependant, le modèle a à ce stade abstrait diverses fonctionnalités des données supprimées de manière « holographique », de la même manière (par analogie) qu’une goutte d’encre redéfinit l’utilité d’un verre d’eau.

En effet, les poids du modèle ont déjà été influencés par les données supprimées, et la seule façon de supprimer entièrement leur influence est de réentraîner le modèle à partir de zéro, plutôt que de réentraîner le modèle pondéré sur un jeu de données édité.