talon Trois techniques d'apprentissage automatique préservant la confidentialité pour résoudre le problème le plus important de cette décennie - Unite.AI
Suivez nous sur

Des leaders d'opinion

Trois techniques d'apprentissage automatique préservant la vie privée résolvant le problème le plus important de cette décennie

mm

Publié le

 on

Par Amogh Tarcar, chercheur en apprentissage automatique et IA, Systèmes persistants.

La confidentialité des données, selon des experts dans un large éventail de domaines, sera le problème le plus important de cette décennie. Cela est particulièrement vrai pour l'apprentissage automatique (ML) où les algorithmes sont alimentés par des tonnes de données.

Traditionnellement, les techniques de modélisation ML reposaient sur la centralisation des données provenant de plusieurs sources dans un seul centre de données. Après tout, les modèles ML sont à leur maximum lorsqu'ils ont accès à d'énormes quantités de données. Cependant, il existe une foule de problèmes de confidentialité qui accompagnent cette technique. L'agrégation de données diverses provenant de sources multiples est moins faisable aujourd'hui en raison de préoccupations réglementaires telles que HIPAA, GDPR et CCPA. En outre, la centralisation des données augmente la portée et l'ampleur de l'utilisation abusive des données et des menaces de sécurité sous la forme de fuites de données.

Pour surmonter ces défis, plusieurs piliers de l'apprentissage automatique préservant la confidentialité (PPML) ont été développés avec des techniques spécifiques qui réduisent les risques pour la confidentialité et garantissent que les données restent raisonnablement sécurisées. Voici quelques-uns des plus importants :

1. Apprentissage fédéré

Apprentissage fédéré est une technique de formation ML qui renverse le problème d'agrégation de données. Au lieu d'agréger les données pour créer un modèle ML unique, l'apprentissage fédéré agrège les modèles ML eux-mêmes. Cela garantit que les données ne quittent jamais leur emplacement source et permet à plusieurs parties de collaborer et de créer un modèle ML commun sans partager directement des données sensibles.

Cela fonctionne comme ça. Vous commencez avec un modèle ML de base qui est ensuite partagé avec chaque nœud client. Ces nœuds exécutent ensuite une formation locale sur ce modèle en utilisant leurs propres données. Les mises à jour du modèle sont périodiquement partagées avec le nœud coordinateur, qui traite ces mises à jour et les fusionne pour obtenir un nouveau modèle global. De cette façon, vous obtenez les informations de divers ensembles de données sans avoir à partager ces ensembles de données.

Source : Systèmes persistants

Dans le contexte des soins de santé, il s'agit d'un outil incroyablement puissant et respectueux de la vie privée pour protéger les données des patients tout en donnant aux chercheurs la sagesse de la foule. En n'agrégeant pas les données, l'apprentissage fédéré crée une couche de sécurité supplémentaire. Cependant, les modèles et les mises à jour de modèles eux-mêmes présentent toujours un risque de sécurité s'ils sont laissés vulnérables.

2. Confidentialité différentielle

Les modèles ML sont souvent la cible d'attaques par inférence d'appartenance. Supposons que vous deviez partager vos données de santé avec un hôpital afin d'aider à développer un vaccin contre le cancer. L'hôpital protège vos données, mais utilise l'apprentissage fédéré pour former un modèle ML accessible au public. Quelques mois plus tard, les pirates utilisent une attaque par inférence d'appartenance pour déterminer si vos données ont été utilisées ou non dans la formation du modèle. Ils transmettent ensuite leurs informations à une compagnie d'assurance qui, en fonction de votre risque de cancer, pourrait augmenter vos primes.

La confidentialité différentielle garantit que les attaques adverses sur les modèles ML ne pourront pas identifier les points de données spécifiques utilisés lors de la formation, atténuant ainsi le risque d'exposer des données de formation sensibles dans l'apprentissage automatique. Cela se fait en appliquant un «bruit statistique» pour perturber les données ou les paramètres du modèle d'apprentissage automatique lors de la formation des modèles, ce qui rend difficile l'exécution d'attaques et la détermination si les données d'un individu particulier ont été utilisées pour former le modèle.

Par exemple, Facebook a récemment publié Opaque, une bibliothèque à haut débit pour entraîner des modèles PyTorch à l'aide d'un algorithme d'apprentissage automatique basé sur la confidentialité différentielle appelé Descente de gradient stochastique différentiellement privée (DP-SGD). Le gif ci-dessous montre comment il utilise le bruit pour masquer les données.

 

Ce bruit est régi par un paramètre appelé Epsilon. Si la valeur Epsilon est faible, le modèle a une parfaite confidentialité des données mais une utilité et une précision médiocres. Inversement, si vous avez une valeur Epsilon élevée, la confidentialité de vos données diminuera tandis que votre précision augmentera. L'astuce consiste à trouver un équilibre pour optimiser les deux.

3. Cryptage homomorphique

Le chiffrement standard est traditionnellement incompatible avec l'apprentissage automatique, car une fois que les données sont chiffrées, elles ne peuvent plus être comprises par l'algorithme ML. Cependant, le cryptage homomorphe est un schéma de cryptage spécial qui nous permet de continuer à effectuer certains types de calculs.

La source: OpenMiné

La puissance de ceci est que la formation peut se dérouler dans un espace entièrement crypté. Cela protège non seulement les propriétaires de données, mais également les propriétaires de modèles. Le propriétaire du modèle peut exécuter une inférence sur des données chiffrées sans jamais les voir ni les utiliser à mauvais escient.

Lorsqu'elle est appliquée à l'apprentissage fédéré, la fusion des mises à jour de modèles peut se produire en toute sécurité car elles se déroulent dans un environnement entièrement crypté, ce qui réduit considérablement le risque d'attaques par inférence d'appartenance.

La décennie de la vie privée

À l'aube de 2021, l'apprentissage automatique préservant la confidentialité est un domaine émergent avec une recherche remarquablement active. Si la dernière décennie concernait le décloisonnement des données, cette décennie concernera le décloisonnement des modèles ML tout en préservant la confidentialité des données sous-jacentes via l'apprentissage fédéré, la confidentialité différentielle et le chiffrement homomorphe. Celles-ci présentent une nouvelle voie prometteuse pour faire progresser les solutions d'apprentissage automatique dans le respect de la vie privée.

Amogh est un chercheur en apprentissage automatique et fait partie du laboratoire de recherche sur l'IA à Systèmes persistants. Ses recherches actuelles portent sur les applications d'apprentissage fédéré et la création d'outils de PNL pour l'extraction de connaissances.