Entretiens
Amy Steier, Principal Machine Learning Scientist at Gretel.ai – Interview Series

Amy Steier est la principale scientifique en apprentissage automatique chez Gretel.ai, la plateforme d’ingénierie de confidentialité la plus avancée au monde. Gretel rend facile l’intégration de la confidentialité par conception dans le tissu de la technologie axée sur les données. Ses bibliothèques open source basées sur l’IA sont conçues pour transformer, anonymiser et synthétiser les informations sensibles.
Amy est une scientifique en apprentissage automatique et en données très accomplie, avec plus de 20 ans d’expérience. Sa passion est les grandes données et la mise en surface de l’intelligence cachée à l’aide de techniques d’apprentissage automatique, de fouille de données, d’intelligence artificielle et de statistiques. Elle est très compétente en modélisation prédictive, en classification, en regroupement, en détection d’anomalies, en visualisation de données, en méthodes d’ensemble, en recherche d’information, en analyse de cybersécurité, en NLP, en modèles de recommandation et en analyse du comportement des utilisateurs.
Qu’est-ce qui vous a initialement attiré pour poursuivre une carrière en informatique et en apprentissage automatique ?
Mon amour pur, sans réserve et durable pour les données. Le pouvoir, le mystère, l’intrigue et le potentiel des données m’ont toujours fasciné. L’informatique et l’apprentissage automatique sont des outils pour exploiter ce potentiel. C’est également très amusant de travailler dans un domaine où l’état de l’art évolue si rapidement. J’adore l’intersection de la recherche et du produit. Il est très satisfaisant de prendre des idées de pointe, de les pousser un peu plus loin, puis de les adapter pour répondre à des besoins de produits existants et tangibles.
Pour les lecteurs qui ne sont pas familiers, pourriez-vous expliquer ce qu’est la donnée synthétique ?
La donnée synthétique est des données qui ressemblent et agissent comme les données originales, mais qui sont également suffisamment différentes pour satisfaire un cas d’utilisation. Le cas d’utilisation le plus courant est le besoin de protéger la confidentialité des informations contenues dans les données originales. Un autre cas d’utilisation est le besoin de créer des données supplémentaires pour augmenter la taille du jeu de données original. Un autre cas d’utilisation encore est d’aider à résoudre un déséquilibre de classe ou peut-être un biais démographique dans le jeu de données original.
La donnée synthétique nous permet de continuer à développer de nouveaux produits et solutions innovants lorsque les données nécessaires pour le faire ne sont pas présentes ou disponibles.
Comment la plateforme Gretel fonctionne-t-elle pour créer des données synthétiques via des API ?
Les API d’ingénierie de confidentialité Gretel vous permettent d’ingérer des données dans Gretel et d’explorer les données que nous pouvons extraire. Ce sont les mêmes API utilisées par notre Console. En exposant les API, à travers une interface intuitive, nous espérons donner aux développeurs et aux scientifiques des données les moyens de créer leurs propres flux de travail autour de Gretel.
Alors que la console rend la création de données synthétiques très facile, les API permettent d’intégrer la création de données synthétiques dans votre flux de travail. J’adore utiliser les API car elles me permettent de personnaliser la création de données synthétiques pour un cas d’utilisation très particulier.
Pourriez-vous discuter de certains des outils proposés par Gretel pour aider à évaluer la qualité des données synthétiques ?
Après la création de données synthétiques, Gretel générera un rapport de données synthétiques. Dans ce rapport, vous pouvez voir le score de qualité des données synthétiques (SQS), ainsi qu’un grade de niveau de protection de la confidentialité (PPL).
Le score SQS est une estimation de la façon dont les données synthétiques générées maintiennent les mêmes propriétés statistiques que le jeu de données original. Dans ce sens, le score SQS peut être considéré comme un score d’utilité ou un score de confiance quant à savoir si les conclusions scientifiques tirées du jeu de données synthétique seraient les mêmes si l’on avait utilisé le jeu de données original à la place.
Le score de qualité des données synthétiques est calculé en combinant les métriques de qualité individuelles : Stabilité de la distribution des champs, Stabilité de la corrélation des champs et Stabilité de la structure profonde.
La stabilité de la distribution des champs est une mesure de la façon dont les données synthétiques maintiennent les mêmes distributions de champs que dans les données originales. La stabilité de la corrélation des champs est une mesure de la façon dont les corrélations entre les champs sont maintenues dans les données synthétiques. Et enfin, la stabilité de la structure profonde mesure l’intégrité statistique des distributions et des corrélations multi-champs plus profondes. Pour estimer cela, Gretel compare une analyse en composantes principales (ACP) calculée d’abord sur les données originales, puis à nouveau sur les données synthétiques.
Comment les filtres de confidentialité Gretel fonctionnent-ils ?
Les filtres de confidentialité Gretel étaient le résultat de nombreuses recherches sur la nature des attaques adverses contre les données synthétiques. Les filtres de confidentialité empêchent la création de données synthétiques avec des faiblesses couramment exploitées par les adverses. Nous avons deux filtres de confidentialité, le premier est le filtre de similarité, et le second est le filtre de valeurs aberrantes. Le filtre de similarité empêche la création de dossiers synthétiques qui sont trop similaires à un enregistrement de formation. Ceux-ci sont des cibles privilégiées des adverses qui cherchent à obtenir des informations sur les données originales. Le second filtre de confidentialité est le filtre de valeurs aberrantes. Celui-ci empêche la création de dossiers synthétiques qui seraient considérés comme des valeurs aberrantes dans l’espace défini par les données de formation. Les valeurs aberrantes révélées dans un jeu de données synthétique peuvent être exploitées par des attaques d’inférence de membership, d’inférence d’attribut et une grande variété d’autres attaques adverses. Ils constituent un risque grave pour la confidentialité.
Comment les données synthétiques peuvent-elles aider à réduire les biais de l’IA ?
La technique la plus courante est de résoudre le biais de représentation des données qui alimentent un système d’IA. Par exemple, si il existe un déséquilibre de classe fort dans vos données, ou peut-être qu’il existe un biais démographique dans vos données, Gretel propose des outils pour aider à mesurer le déséquilibre et à le résoudre dans les données synthétiques. En supprimant le biais dans les données, vous supprimez souvent le biais dans le système d’IA construit sur les données.
Vous aimez clairement apprendre sur les nouvelles technologies d’apprentissage automatique, comment faites-vous personnellement pour suivre tous les changements ?
Lisez, lisez, et lisez encore, lol ! J’aime commencer ma journée en lisant sur les nouvelles technologies d’apprentissage automatique. Le Medium me connaît si bien. J’aime lire des articles dans Towards Data Science, Analytics Vidhya et des newsletters comme The Sequence. Facebook AI, Google AI et OpenMined ont tous de très bons blogs. Il y a une multitude de bonnes conférences à suivre, telles que NeurIPS, ICML, ICLR, AISTATS.
J’aime également les outils qui suivent les pistes de citation, qui vous aident à trouver des articles similaires à ceux que vous aimez et qui apprennent à connaître vos intérêts spécifiques et qui regardent toujours en arrière-plan pour un article qui pourrait vous intéresser. Zeta Alpha est un outil que j’utilise beaucoup.
Enfin, vous ne pouvez pas surestimer les avantages d’avoir des collègues avec des intérêts similaires. Chez Gretel, l’équipe d’apprentissage automatique suit les articles de recherche pertinents pour les domaines que nous explorons et se réunit fréquemment pour discuter d’articles intéressants.
Quelle est votre vision pour l’avenir de l’apprentissage automatique ?
Un accès facile aux données déclenchera une grande ère d’innovation dans l’apprentissage automatique, qui à son tour turbochargera l’innovation dans un large éventail de domaines tels que la santé, la finance, la fabrication et les biosciences. Historiquement, de nombreux progrès remarquables dans l’apprentissage automatique peuvent être attribués à un grand volume de données riches. Cependant, historiquement, de nombreuses recherches ont été entravées par l’incapacité d’accéder ou de partager des données en raison de préoccupations de confidentialité. À mesure que des outils tels que Gretel suppriment cette barrière, l’accès aux données sera démocratisé. La communauté entière de l’apprentissage automatique bénéficiera de l’accès à des jeux de données riches et importants, au lieu de seulement quelques grandes entreprises élites.
Y a-t-il autre chose que vous aimeriez partager sur Gretel ?
Si vous aimez les données, vous aimerez Gretel (alors, clairement, j’aime Gretel !). L’accès facile aux données a été l’épine dans le côté de chaque scientifique des données que j’ai jamais connu. Chez Gretel, nous sommes très fiers d’avoir créé une console et un ensemble d’API qui rendent la création de données privées et partageables aussi simple que possible. Nous croyons profondément que les données sont plus précieuses lorsqu’elles sont partagées.
Je vous remercie pour cette grande interview et pour avoir partagé vos connaissances. Les lecteurs qui souhaitent en savoir plus devraient visiter Gretel.ai.












