Stumm Amy Steier, Principal Machine Learning Scientist at Gretel.ai - Interview Series - Unite.AI
Connect mat eis

Interviewen

Amy Steier, Principal Machine Learning Scientist at Gretel.ai – Interview Series

mm

publizéiert

 on

Amy Steier, Principal Machine Learning Scientist bei Gretel.ai, déi weltwäit fortgeschratt Privatsphär Engineering Plattform. Gretel mécht et einfach d'Privatsphär vum Design an de Stoff vun datedriven Technologie z'integréieren. Seng AI-baséiert, Open-Source Bibliothéike sinn entwéckelt fir sensibel Informatioun ze transforméieren, anonymiséieren an ze synthetiséieren.

Amy ass en héich erfëllte Maschinnléieren an Datewëssenschaftler mat méi wéi 20 Joer Erfahrung. Hir Leidenschaft ass grouss Daten an d'Surface vun der verstoppt Intelligenz bannent Techniken aus Maschinn Léieren, Datemining, kënschtlech Intelligenz a Statistiken. Si ass héichqualifizéiert a predictive Modellerung, Klassifikatioun, Clustering, Anomalie Detektioun, Datevisualiséierung, Ensembelmethoden, Informatiounsrecuperatioun, Cybersecurity Analyse, NLP, Empfehlungsmodeller, a Benotzerverhalensanalytik.

Wat huet Iech ufanks ugezunn fir eng Karriär an der Informatik a Maschinnléieren ze maachen?

Meng reng, unabashed, dauerhafter Léift vun daten. D'Kraaft, d'Geheimnis, d'Intrig an d'Potenzial vun daten huet mech ëmmer faszinéiert. Informatik a Maschinnléieren sinn Tools fir dat Potenzial ze notzen. Et ass och schrecklech lëschteg an engem Gebitt ze schaffen, wou den Zoustand vun der Konscht sou séier beweegt. Ech hunn d'Kräizung vu Fuerschung a Produkt gär. Et ass ganz zefriddestellend fir bluddeg Rand Iddien ze huelen, se e bësse méi wäit ze drécken, an se dann ze morphéieren fir existéierend, konkret Produktbedürfnisser ze passen.

Fir Lieser déi net vertraut sinn, kënnt Dir erkläre wat synthetesch Donnéeën sinn?

Synthetesch Donnéeën sinn Daten déi ausgesinn an handelen wéi déi ursprénglech Donnéeën awer och ënnerschiddlech genuch sinn datt se e puer Benotzungsfall erfëllen. Am meeschte verbreet Benotzungsfall ass d'Noutwennegkeet d'Privatsphär vun der Informatioun an den originelle Donnéeën ze schützen. En anere Benotzungsfall ass d'Noutwendegkeet fir zousätzlech Donnéeën ze kreéieren fir d'Gréisst vum ursprénglechen Dataset ze erhéijen. Nach en anere Benotzungsfall ass et ze hëllefen e Klassenonbalance oder vläicht demographesch Bias am originelle Dateset ze adresséieren.

Synthetesch Donnéeën erlaben eis weider nei an innovativ Produkter a Léisungen z'entwéckelen, wann déi néideg Donnéeën soss net präsent oder verfügbar wieren.

Wéi funktionnéiert d'Gretel Plattform fir synthetesch Daten iwwer APIen ze kreéieren?

Gretel Privatsphär Engineering APIen erlaaben Iech Daten op Gretel z'informéieren an d'Donnéeën ze entdecken déi mir fäeg sinn ze extrahéieren. Dëst sinn déiselwecht APIen déi vun eisem benotzt ginn erweidert. Andeems Dir d'APIs aussetzt, duerch eng intuitiv Interface, hoffen mir Entwéckler an Datewëssenschaftler z'erméiglechen hir eege Workflows ronderëm Gretel ze bauen.

Wärend d'Konsole synthetesch Donnéeën ganz einfach mécht, d'APIs erméiglechen Iech d'Schafung vu syntheteschen Donnéeën an Ärem Workflow z'integréieren. Ech hu gär d'APIs ze benotzen well et mir et erméiglecht d'Kreatioun vu syntheteschen Donnéeën op e ganz besonnesche Benotzungsfall ze personaliséieren.

Kënnt Dir e puer vun den Tools diskutéieren, déi vum Gretel ugebuede ginn fir d'Qualitéit vun de syntheteschen Donnéeën ze bewäerten?

No der Schafung vu syntheteschen Donnéeën generéiert Gretel e synthetesche Bericht. An dësem Bericht kënnt Dir de Synthetesch Daten Qualitéit Score (SQS), souwéi e Privatsphär Schutzniveau Grad (PPL).

De SQS Score ass eng Schätzung vu wéi gutt déi generéiert synthetesch Donnéeën déiselwecht statistesch Eegeschafte behalen wéi déi ursprénglech Dataset. An dësem Sënn kann de SQS Score als Utility Score oder e Vertrauens Score gekuckt ginn ob wëssenschaftlech Conclusiounen aus dem syntheteschen Dataset d'selwecht wieren wann een den ursprénglechen Dataset amplaz benotzt hätt.

De syntheteschen Datequalitéit Score gëtt berechent andeems Dir déi individuell Qualitéitsmetriken kombinéiert: Feldverdeelungsstabilitéit, Feldkorrelatiounsstabilitéit an Deep Structure Stability.

Feldverdeelungsstabilitéit ass eng Moossnam fir wéi gutt déi synthetesch Donnéeën déiselwecht Feldverdeelunge behalen wéi an den originelle Daten. D'Feldkorrelatiounsstabilitéit ass e Mooss fir wéi gutt Korrelatiounen tëscht Felder an de syntheteschen Daten erhale goufen. A schliisslech moosst d'Deep Structure Stability d'statistesch Integritéit vu méi déif, Multi-Feld Verdeelungen a Korrelatiounen. Fir dëst ze schätzen, vergläicht d'Gretel eng Principal Component Analysis (PCA) berechent fir d'éischt op déi originell Donnéeën, dann erëm op déi syntheteschen Donnéeën.

Wéi funktionnéieren d'Gretel Privatsphärfilter?

d' Gretel Privatsphär Filtere waren den Héichpunkt vu vill Fuerschung iwwer d'Natur vu Géigner Attacken op syntheteschen Daten. D'Privatsphär Filtere verhënneren d'Schafung vu syntheteschen Donnéeën mat Schwächen, déi allgemeng vu Géigner exploitéiert ginn. Mir hunn zwee Privatsphär Filteren, déi éischt ass den Ähnlechkeetsfilter, an déi zweet ass den Outlier Filter. De Ähnlechkeetsfilter verhënnert d'Schafung vu syntheteschen Opzeechnungen déi zevill ähnlech wéi en Trainingsrekord sinn. Dëst sinn Haaptziler vu Géigner déi sichen Abléck an déi originell Donnéeën ze kréien. Den zweeten Privatsphärfilter ass den Outlier Filter. Dëst verhënnert d'Schafung vu syntheteschen Opzeechnungen, déi als Auslänner am Raum definéiert ginn duerch Trainingsdaten. Outliers, déi an engem syntheteschen Dataset opgedeckt ginn, kënne vun Membership Inference Attacks, Attribute Inference, an eng breet Varietéit vun anere adversarial Attacke exploitéiert ginn. Si sinn e seriéise Privatsphärrisiko.

Wéi kënne synthetesch Donnéeën hëllefen d'AI Bias ze reduzéieren?

Déi meescht üblech Technik ass d'Representatiounsbias vun den Daten, déi an en AI System fidderen, unzegoen. Zum Beispill, wann et e staarkt Klassonbalance an Ären Donnéeën ass, oder vläicht existéiert demographesch Bias an Ären Donnéeën, bitt Gretel Tools fir ze hëllefen fir d'éischt den Ungleichgewicht ze moossen an dann an de syntheteschen Donnéeën ze léisen. Andeems Dir d'Viraussetzung an den Donnéeën ewechhuelt, läscht Dir dacks d'Basitéit am AI System op d'Daten gebaut.

Dir genéisst kloer iwwer nei Maschinnléierentechnologien ze léieren, wéi hält Dir perséinlech mat all den Ännerunge weider?

Liesen, liesen, an dann e bësse méi liesen, lol! Ech genéissen mäin Dag unzefänken mat iwwer nei ML Technologien ze liesen. De Medium kennt mech sou gutt. Ech genéissen d'Artikelen an Towards Data Science, Analytics Vidhya an Newslettere wéi The Sequence ze liesen. Facebook AI, Google AI an OpenMined hunn all super Blogs. Et ginn eng Onmass vu gudde Konferenzen ze verfollegen wéi NeurIPS, ICML, ICLR, AISTATS.

Ech genéissen och Tools déi Zitatiounsweeër verfollegen, hëllefen Iech Pabeieren ze fannen ähnlech wéi déi Dir gär hutt an déi Är spezifesch Interessen kennen léieren a kucken ëmmer am Hannergrond no engem Pabeier deen Iech interesséiere kéint. Zeta Alpha ass ee sou Tool dat ech vill benotzen.

Schlussendlech kann een de Virdeel wierklech net ënnerschätzen, datt Dir Kollegen mat ähnlechen Interessen hutt. Bei Gretel verfollegt d'ML Team Fuerschungspabeieren relevant fir d'Felder déi mir entdecken an dacks zesummekommen fir interessant Aarbechten ze diskutéieren.

Wat ass Är Visioun fir d'Zukunft vum Maschinnléieren?

Einfach Zougang zu Daten wäert eng grouss Ära vun Innovatioun am Maschinnléieren initiéieren, déi dann Innovatioun an engem breede Spektrum vu Felder wéi Gesondheetsariichtung, Finanzen, Fabrikatioun an d'Biowëssenschaften turbocharger. Historesch kënne vill banebriechend Fortschrëtter am ML zu engem grousse Volume vu räichen Donnéeën zougeschriwwe ginn. Awer historesch ass vill Fuerschung behënnert duerch d'Onméiglechkeet Zougang oder Daten ze deelen wéinst Privatsphär Bedenken. Wéi Tools wéi Gretel dës Barrière ewechhuelen, gëtt den Zougang zu Daten demokratiséiert. Déi ganz Maschinnléieregemeinschaft profitéiert vum Zougang zu räichen, groussen Datesätz, anstatt nëmmen e puer Elite Megafirmen.

Gëtt et soss eppes wat Dir gär iwwer Gretel deele wëllt?

Wann Dir Léift daten, Dir wäert Gretel Léift (sou kloer ech Léift Gretel!). Einfach Zougang zu Daten war den Dorn an der Säit vun all Datewëssenschaftler, deen ech jeemools bekannt hunn. Bei Gretel si mir houfreg drop eng Konsol a Set vun APIen erstallt ze hunn, déi d'Schafe vu privaten, deelbaren Donnéeën esou einfach wéi méiglech maachen. Mir gleewen déif datt Daten méi wäertvoll sinn wann se gedeelt ginn.

Merci fir dee super Interview a fir Är Abléck ze deelen, Lieser déi méi gewuer ginn solle besichen Gretel.ai.

A founding partner of unite.AI & e Member vun der Forbes Technology Council, Den Antoine ass a futuristesch déi passionéiert ass iwwer d'Zukunft vun AI & Robotik.

Hien ass och de Grënner vun Securities.io, eng Websäit déi sech op d'Investitioun an d'Stéierungstechnologie konzentréiert.