Des leaders d'opinion
Trois techniques d'apprentissage automatique préservant la vie privée résolvant le problème le plus important de cette décennie
Par Amogh Tarcar, chercheur en apprentissage automatique et IA, Systèmes persistants.
La confidentialité des données, selon des experts dans un large éventail de domaines, sera le problème le plus important de cette décennie. Cela est particulièrement vrai pour l'apprentissage automatique (ML) où les algorithmes sont alimentés par des tonnes de données.
Traditionnellement, les techniques de modélisation ML reposaient sur la centralisation des données provenant de plusieurs sources dans un seul centre de données. Après tout, les modèles ML sont à leur maximum lorsqu'ils ont accès à d'énormes quantités de données. Cependant, il existe une foule de problèmes de confidentialité qui accompagnent cette technique. L'agrégation de données diverses provenant de sources multiples est moins faisable aujourd'hui en raison de préoccupations réglementaires telles que HIPAA, GDPR et CCPA. En outre, la centralisation des données augmente la portée et l'ampleur de l'utilisation abusive des données et des menaces de sécurité sous la forme de fuites de données.
Pour surmonter ces défis, plusieurs piliers de l'apprentissage automatique préservant la confidentialité (PPML) ont été développés avec des techniques spécifiques qui réduisent les risques pour la confidentialité et garantissent que les données restent raisonnablement sécurisées. Voici quelques-uns des plus importants :
1. Apprentissage fédéré
Apprentissage fédéré est une technique de formation ML qui renverse le problème d'agrégation de données. Au lieu d'agréger les données pour créer un modèle ML unique, l'apprentissage fédéré agrège les modèles ML eux-mêmes. Cela garantit que les données ne quittent jamais leur emplacement source et permet à plusieurs parties de collaborer et de créer un modèle ML commun sans partager directement des données sensibles.
Cela fonctionne comme ça. Vous commencez avec un modèle ML de base qui est ensuite partagé avec chaque nœud client. Ces nœuds exécutent ensuite une formation locale sur ce modèle en utilisant leurs propres données. Les mises à jour du modèle sont périodiquement partagées avec le nœud coordinateur, qui traite ces mises à jour et les fusionne pour obtenir un nouveau modèle global. De cette façon, vous obtenez les informations de divers ensembles de données sans avoir à partager ces ensembles de données.
Dans le contexte des soins de santé, il s'agit d'un outil incroyablement puissant et respectueux de la vie privée pour protéger les données des patients tout en donnant aux chercheurs la sagesse de la foule. En n'agrégeant pas les données, l'apprentissage fédéré crée une couche de sécurité supplémentaire. Cependant, les modèles et les mises à jour de modèles eux-mêmes présentent toujours un risque de sécurité s'ils sont laissés vulnérables.
2. Confidentialité différentielle
Les modèles ML sont souvent la cible d'attaques par inférence d'appartenance. Supposons que vous deviez partager vos données de santé avec un hôpital afin d'aider à développer un vaccin contre le cancer. L'hôpital protège vos données, mais utilise l'apprentissage fédéré pour former un modèle ML accessible au public. Quelques mois plus tard, les pirates utilisent une attaque par inférence d'appartenance pour déterminer si vos données ont été utilisées ou non dans la formation du modèle. Ils transmettent ensuite leurs informations à une compagnie d'assurance qui, en fonction de votre risque de cancer, pourrait augmenter vos primes.
La confidentialité différentielle garantit que les attaques adverses sur les modèles ML ne pourront pas identifier les points de données spécifiques utilisés lors de la formation, atténuant ainsi le risque d'exposer des données de formation sensibles dans l'apprentissage automatique. Cela se fait en appliquant un «bruit statistique» pour perturber les données ou les paramètres du modèle d'apprentissage automatique lors de la formation des modèles, ce qui rend difficile l'exécution d'attaques et la détermination si les données d'un individu particulier ont été utilisées pour former le modèle.
Par exemple, Facebook a récemment publié Opaque, une bibliothèque à haut débit pour entraîner des modèles PyTorch à l'aide d'un algorithme d'apprentissage automatique basé sur la confidentialité différentielle appelé Descente de gradient stochastique différentiellement privée (DP-SGD). Le gif ci-dessous montre comment il utilise le bruit pour masquer les données.
Ce bruit est régi par un paramètre appelé Epsilon. Si la valeur Epsilon est faible, le modèle a une parfaite confidentialité des données mais une utilité et une précision médiocres. Inversement, si vous avez une valeur Epsilon élevée, la confidentialité de vos données diminuera tandis que votre précision augmentera. L'astuce consiste à trouver un équilibre pour optimiser les deux.
3. Cryptage homomorphique
Le chiffrement standard est traditionnellement incompatible avec l'apprentissage automatique, car une fois que les données sont chiffrées, elles ne peuvent plus être comprises par l'algorithme ML. Cependant, le cryptage homomorphe est un schéma de cryptage spécial qui nous permet de continuer à effectuer certains types de calculs.
La puissance de ceci est que la formation peut se dérouler dans un espace entièrement crypté. Cela protège non seulement les propriétaires de données, mais également les propriétaires de modèles. Le propriétaire du modèle peut exécuter une inférence sur des données chiffrées sans jamais les voir ni les utiliser à mauvais escient.
Lorsqu'elle est appliquée à l'apprentissage fédéré, la fusion des mises à jour de modèles peut se produire en toute sécurité car elles se déroulent dans un environnement entièrement crypté, ce qui réduit considérablement le risque d'attaques par inférence d'appartenance.
La décennie de la vie privée
À l'aube de 2021, l'apprentissage automatique préservant la confidentialité est un domaine émergent avec une recherche remarquablement active. Si la dernière décennie concernait le décloisonnement des données, cette décennie concernera le décloisonnement des modèles ML tout en préservant la confidentialité des données sous-jacentes via l'apprentissage fédéré, la confidentialité différentielle et le chiffrement homomorphe. Celles-ci présentent une nouvelle voie prometteuse pour faire progresser les solutions d'apprentissage automatique dans le respect de la vie privée.