Refresh

This website www.unite.ai/fr/making-a-machine-learning-model-forget-about-you-forsaken-forgetting/ is currently offline. Cloudflare's Always Online™ shows a snapshot of this web page from the Internet Archive's Wayback Machine. To check for the live version, click Refresh.

Suivez nous sur

Intelligence Artificielle

Faire en sorte qu'un modèle d'apprentissage automatique vous oublie

mm
Le kit de préparation mis à jour on

Supprimer une donnée particulière ayant contribué à un modèle d’apprentissage automatique, c’est comme essayer de retirer la deuxième cuillerée de sucre d’une tasse de café. Les données, à ce stade, sont déjà intrinsèquement liées à de nombreux autres neurones à l’intérieur du modèle. Si un point de données représente des données « déterminantes » qui ont été impliquées dans la première partie de grande dimension de la formation, sa suppression peut redéfinir radicalement le fonctionnement du modèle, ou même nécessiter qu'il soit ré-entraîné au prix d'un certain temps et d'un certain temps. argent.

Néanmoins, en Europe du moins, l'article 17 de la loi sur le règlement général sur la protection des données (RGPD) a besoin que les entreprises suppriment ces données utilisateur sur demande. L'acte ayant été formulé en partant du principe que cet effacement ne serait qu'une simple requête de « suppression » de la base de données, la législation destinée à émerger du projet d'UE Loi sur l'intelligence artificielle sera effectivement copier et coller l'esprit du GDPR dans les lois qui s'appliquent aux systèmes d'IA formés plutôt qu'aux données tabulaires.

D'autres lois sont envisagées dans le monde entier qui permettront aux individus de demander la suppression de leurs données des systèmes d'apprentissage automatique, tandis que la loi californienne sur la protection de la vie privée des consommateurs (CCPA) de 2018 fournit déjà ce droit aux résidents de l'État.

Pourquoi ça compte

Lorsqu'un ensemble de données est entraîné dans un modèle d'apprentissage automatique exploitable, les caractéristiques de ces données deviennent généralisées et abstraites, car le modèle est conçu pour déduire des principes et des principes. grandes tendances à partir des données, produisant éventuellement un algorithme qui sera utile pour analyser des données spécifiques et non généralisées.

Cependant, des techniques telles que inversion de modèle ont révélé la possibilité de ré-identifier les données contributives qui sous-tendent l'algorithme abstrait final, tandis que attaques par inférence d'appartenance sont également capables d'exposer des données sources, y compris des données sensibles qui n'ont peut-être été autorisées à être incluses dans un ensemble de données que sur la compréhension de l'anonymat.

L'intérêt croissant pour cette poursuite n'a pas besoin de s'appuyer sur l'activisme de la vie privée à la base : alors que le secteur de l'apprentissage automatique se commercialise au cours des dix prochaines années, et que les nations subissent des pressions pour mettre fin à l'actuel culture du laissez-faire sur l'utilisation du grattage d'écran pour la génération d'ensembles de données, il y aura une incitation commerciale croissante pour les organisations chargées de l'application de la propriété intellectuelle (et les trolls de la propriété intellectuelle) à décoder et à examiner les données qui ont contribué à la classification, à l'inférence et aux cadres d'IA génératifs propriétaires et très rémunérateurs.

Induire l'amnésie dans les modèles d'apprentissage automatique

Par conséquent, nous nous retrouvons avec le défi d'éliminer le sucre du café. C'est un problème qui a été vexant chercheurs ces dernières années : en 2021, le document soutenu par l'UE Une étude comparative sur les risques pour la vie privée des bibliothèques de reconnaissance faciale ont constaté que plusieurs algorithmes de reconnaissance faciale populaires étaient capables de permettre une discrimination fondée sur le sexe ou la race dans les attaques de réidentification ; en 2015 recherche de l'Université de Columbia proposé une méthode de « désapprentissage machine » basée sur la mise à jour d'un certain nombre de sommations dans les données ; et en 2019 des chercheurs de Stanford présenté de nouveaux algorithmes de suppression pour les implémentations de clustering K-means.

Maintenant, un consortium de recherche de Chine et des États-Unis a publié de nouveaux travaux qui introduisent une métrique uniforme pour évaluer le succès des approches de suppression de données, ainsi qu'une nouvelle méthode de « désapprentissage » appelée Forsaken, qui, selon les chercheurs, est capable d'atteindre plus de 90 % de taux d'oubli, avec seulement 5 % de perte de précision dans les performances globales du modèle.

Le papier est appelé Apprendre à oublier : désapprentissage automatique via Neuron Masking, et présente des chercheurs de Chine et de Berkeley.

Le masquage des neurones, le principe de Forsaken, utilise un dégradé de masque générateur en tant que filtre pour la suppression de données spécifiques d'un modèle, le mettant à jour efficacement plutôt que de le forcer à être recyclé à partir de zéro ou à partir d'un instantané qui s'est produit avant l'inclusion des données (dans le cas de modèles basés sur le streaming qui sont continuellement mis à jour).

L'architecture du générateur de gradient de masque. Source : https://arxiv.org/pdf/2003.10933.pdf

L'architecture du générateur de gradient de masque. Source : https://arxiv.org/pdf/2003.10933.pdf

Origines biologiques

Les chercheurs affirment que cette approche a été inspirée par la processus biologique d'« oubli actif », où l'utilisateur prend des mesures stridentes pour effacer toutes les cellules d'engramme pour une mémoire particulière en manipulant un type spécial de dopamine.

Forsaken évoque en permanence un gradient de masque qui reproduit cette action, avec des garanties pour ralentir ou arrêter ce processus afin d'éviter un oubli catastrophique des données non ciblées.

Les avantages du système sont qu'il est applicable à de nombreux types de réseaux neuronaux existants, alors que des travaux similaires récents ont connu du succès en grande partie dans les réseaux de vision par ordinateur ; et qu'il n'interfère pas avec les procédures de formation des modèles, mais agit plutôt comme un complément, sans nécessiter que l'architecture de base soit modifiée ou que les données soient recyclées.

Restreindre l'effet

La suppression des données fournies peut avoir un effet potentiellement délétère sur la fonctionnalité d'un algorithme d'apprentissage automatique. Pour éviter cela, les chercheurs ont exploité régularisation de la norme, une caractéristique de l'entraînement normal des réseaux de neurones qui est couramment utilisée pour éviter le surentraînement. La mise en œuvre particulière choisie est conçue pour garantir que Forsaken ne manque pas de converger dans la formation.

Pour établir une dispersion utilisable des données, les chercheurs ont utilisé des données hors distribution (OOD) (c'est-à-dire des données non incluses dans l'ensemble de données réel, imitant les données «sensibles» dans l'ensemble de données réel) pour calibrer la manière dont l'algorithme devrait se comporter .

Test sur des ensembles de données

La méthode a été testée sur huit ensembles de données standard et a généralement atteint des taux d'oubli proches ou supérieurs à ceux d'un recyclage complet, avec très peu d'impact sur la précision du modèle.

Il semble impossible qu'un recyclage complet sur un ensemble de données édité puisse faire pire que toute autre méthode, puisque les données cibles sont totalement absentes. Cependant, le modèle a maintenant abstrait diverses caractéristiques des données supprimées de manière «holographique», de la manière (par analogie) qu'une goutte d'encre redéfinit l'utilité d'un verre d'eau.

En effet, les poids du modèle ont déjà été influencés par les données supprimées, et la seule façon de supprimer entièrement son influence est de recycler le modèle à partir du zéro absolu, plutôt que l'approche beaucoup plus rapide consistant à recycler le modèle pondéré sur un ensemble de données édité. .