stomp Amy Steier, Principal Machine Learning Scientist bij Gretel.ai - Interviewreeks - Unite.AI
Verbind je met ons

Interviews

Amy Steier, Principal Machine Learning Scientist bij Gretel.ai – Interviewreeks

mm

gepubliceerd

 on

Amy Steier is de hoofdwetenschapper op het gebied van machine learning bij Grietje.ai, 's werelds meest geavanceerde platform voor privacy-engineering. Gretel maakt het gemakkelijk om privacy by design in te bedden in de structuur van datagestuurde technologie. De op AI gebaseerde, open source-bibliotheken zijn ontworpen voor het transformeren, anonimiseren en synthetiseren van gevoelige informatie.

Amy is een zeer ervaren machine learning- en datawetenschapper met meer dan 20 jaar ervaring. Haar passie is big data en het naar boven halen van de verborgen intelligentie met behulp van technieken uit machine learning, datamining, kunstmatige intelligentie en statistiek. Ze is zeer bedreven in voorspellende modellering, classificatie, clustering, anomaliedetectie, datavisualisatie, ensemblemethoden, het ophalen van informatie, cybersecurity-analyse, NLP, aanbevelingsmodellen en analyse van gebruikersgedrag.

Wat trok je in eerste instantie aan om een ​​carrière in de informatica en machine learning na te streven?

Mijn pure, ongegeneerde, blijvende liefde voor data. De kracht, het mysterie, de intriges en het potentieel van data hebben me altijd gefascineerd. Computerwetenschap en machine learning zijn hulpmiddelen om dat potentieel te benutten. Het is ook ontzettend leuk om in een vakgebied te werken waar de stand van de techniek zo snel gaat. Ik hou van de kruising van onderzoek en product. Het geeft veel voldoening om grensverleggende ideeën te nemen, ze een beetje verder te duwen en ze vervolgens aan te passen aan bestaande, tastbare productbehoeften.

Kunt u voor onbekende lezers uitleggen wat synthetische gegevens zijn?

Synthetische gegevens zijn gegevens die eruit zien en zich gedragen als de originele gegevens, maar die ook voldoende verschillen om aan een bepaalde use case te voldoen. De meest voorkomende use case is de noodzaak om de privacy van de informatie in de originele gegevens te beschermen. Een andere use-case is de noodzaak om aanvullende gegevens te creëren om de omvang van de originele dataset te vergroten. Nog een andere use-case is om een ​​klassenonevenwichtigheid of misschien demografische vooringenomenheid in de oorspronkelijke dataset aan te pakken.

Synthetische data stelt ons in staat om nieuwe en innovatieve producten en oplossingen te blijven ontwikkelen wanneer de data die hiervoor nodig is anders niet aanwezig of beschikbaar zou zijn.

Hoe werkt het Gretel-platform om synthetische data te creëren via API's?

Gretel's API's voor privacy-engineering stellen u in staat gegevens in Gretel op te nemen en de gegevens te verkennen die we kunnen extraheren. Dit zijn dezelfde API's die door ons worden gebruikt troosten. Door de API's via een intuïtieve interface bloot te leggen, hopen we ontwikkelaars en datawetenschappers in staat te stellen hun eigen workflows rond Gretel te bouwen.

Hoewel de console het maken van synthetische gegevens heel eenvoudig maakt, stellen de API's u in staat om het maken van synthetische gegevens in uw workflow te integreren. Ik ben dol op het gebruik van de API's omdat ik hiermee het maken van synthetische gegevens kan aanpassen aan een heel specifieke use case.

Kunt u enkele van de tools bespreken die Gretel biedt om de kwaliteit van de synthetische gegevens te helpen beoordelen?

Na het aanmaken van synthetische gegevens, zal Gretel een synthetisch rapport genereren. In dit rapport ziet u de Kwaliteitsscore synthetische gegevens (SQS), evenals een Privacy Protection Level-graad (PPL).

De SQS-score is een schatting van hoe goed de gegenereerde synthetische data dezelfde statistische eigenschappen behouden als de originele dataset. In die zin kan de SQS-score worden gezien als een utiliteitsscore of een betrouwbaarheidsscore voor de vraag of wetenschappelijke conclusies uit de synthetische dataset dezelfde zouden zijn als men in plaats daarvan de originele dataset zou hebben gebruikt.

De Synthetic Data Quality Score wordt berekend door de individuele kwaliteitsstatistieken te combineren: velddistributiestabiliteit, veldcorrelatiestabiliteit en diepe structuurstabiliteit.

Field Distribution Stability is een maat voor hoe goed de synthetische data dezelfde velddistributies behouden als in de originele data. De veldcorrelatiestabiliteit is een maatstaf voor hoe goed correlaties tussen velden in de synthetische gegevens werden gehandhaafd. En tot slot meet de Deep Structure Stability de statistische integriteit van diepere distributies en correlaties met meerdere velden. Om dit te schatten, vergelijkt Gretel een Principal Component Analysis (PCA) die eerst wordt berekend op basis van de oorspronkelijke gegevens en vervolgens opnieuw op de synthetische gegevens.

Hoe werken de Gretel-privacyfilters?

De Gretel-privacyfilters waren het hoogtepunt van veel onderzoek naar de aard van vijandige aanvallen op synthetische gegevens. De privacyfilters voorkomen het creëren van synthetische gegevens met zwakke punten die vaak worden uitgebuit door tegenstanders. We hebben twee privacyfilters, de eerste is de gelijkenisfilter en de tweede is de uitbijterfilter. Het gelijkenisfilter voorkomt dat er synthetische records worden gemaakt die te veel lijken op een trainingsrecord. Dit zijn de belangrijkste doelwitten van tegenstanders die inzicht willen krijgen in de oorspronkelijke gegevens. Het tweede privacyfilter is het uitbijterfilter. Dit voorkomt het maken van synthetische records die als een uitbijter zouden worden beschouwd in de ruimte die wordt gedefinieerd door de trainingsgegevens. Uitbijters die in een synthetische dataset worden onthuld, kunnen worden misbruikt door Membership Inference Attacks, Attribute Inference en een breed scala aan andere vijandige aanvallen. Ze vormen een ernstig privacyrisico.

Hoe kunnen synthetische gegevens helpen bij het verminderen van AI-bias?

De meest gebruikelijke techniek is om de representatieve bias aan te pakken van de gegevens die in een AI-systeem worden ingevoerd. Als er bijvoorbeeld een sterke klassenongelijkheid in uw gegevens is, of als er misschien demografische vooringenomenheid in uw gegevens bestaat, biedt Gretel hulpmiddelen om eerst de onevenwichtigheid te meten en deze vervolgens in de synthetische gegevens op te lossen. Door de bias in de data weg te nemen, verwijder je vaak de bias in het AI-systeem dat op de data is gebouwd.

Je vindt het duidelijk leuk om nieuwe machine learning-technologieën te leren kennen. Hoe blijf je persoonlijk bij met alle veranderingen?

Lezen, lezen en nog eens lezen, lol! Ik begin mijn dag graag met lezen over nieuwe ML-technologieën. Het Medium kent mij zo goed. Ik lees graag artikelen in Towards Data Science, Analytics Vidhya en nieuwsbrieven zoals The Sequence. Facebook AI, Google AI en OpenMined hebben allemaal geweldige blogs. Er is een overvloed aan goede conferenties te volgen, zoals NeurIPS, ICML, ICLR, AISTATS.

Ik geniet ook van tools die citatiesporen volgen, je helpen papers te vinden die lijken op degene die je leuk vindt en die je specifieke interesses leren kennen en altijd op de achtergrond kijken naar een paper die je zou kunnen interesseren. Zeta Alpha is zo'n tool die ik veel gebruik.

Ten slotte mag je het voordeel van collega's met dezelfde interesses echt niet onderschatten. Bij Gretel volgt het ML-team onderzoekspapers die relevant zijn voor de velden die we verkennen en komt regelmatig samen om interessante papers te bespreken.

Wat is jouw visie op de toekomst van machine learning?

Gemakkelijke toegang tot gegevens zal een geweldig tijdperk van innovatie in machine learning inluiden, wat vervolgens een boost zal geven aan innovatie op een breed spectrum van gebieden zoals gezondheidszorg, financiën, productie en biowetenschappen. Historisch gezien kunnen veel baanbrekende vorderingen in ML worden toegeschreven aan een grote hoeveelheid rijke gegevens. Maar historisch gezien is veel onderzoek gehinderd door het onvermogen om toegang te krijgen tot of gegevens te delen vanwege privacykwesties. Naarmate tools zoals Gretel deze barrière wegnemen, zal de toegang tot gegevens worden gedemocratiseerd. De hele machine learning-gemeenschap zal profiteren van toegang tot rijke, grote datasets, in plaats van slechts een paar elite megabedrijven.

Is er nog iets dat je zou willen delen over Gretel?

Als je van data houdt, zul je van Gretel houden (dus ik hou duidelijk van Gretel!). Gemakkelijke toegang tot gegevens is de doorn in het oog van elke datawetenschapper die ik ooit heb gekend. Bij Gretel zijn we er trots op dat we een console en een reeks API's hebben gemaakt die het maken van persoonlijke, deelbare gegevens zo eenvoudig mogelijk maken. We zijn ervan overtuigd dat gegevens waardevoller zijn als ze worden gedeeld.

Bedankt voor het geweldige interview en voor het delen van je inzichten. Lezers die meer willen weten, zouden een bezoek moeten brengen Grietje.ai.

Een van de oprichters van unite.AI en lid van de Forbes Technologieraad, Antoine is een futuristisch die gepassioneerd is over de toekomst van AI en robotica.

Hij is tevens de oprichter van Effecten.io, een website die zich richt op het investeren in disruptieve technologie.