Intervjui

Amy Steier, glavna znanstvenica za strojno učenje na Gretel.ai – serija intervjua

Objavljeno

Prije 2 godina

Veljače 8, 2022

Amy Steier je glavna znanstvenica za strojno učenje u Gretel.ai, najnapredniju svjetsku platformu za inženjering privatnosti. Gretel olakšava ugradnju privatnosti prema dizajnu u strukturu tehnologije vođene podacima. Njegove biblioteke otvorenog koda temeljene na umjetnoj inteligenciji dizajnirane su za transformaciju, anonimiziranje i sintetiziranje osjetljivih informacija.

Amy je visoko uspješna stručnjakinja za strojno učenje i podatkovnu znanstvenicu s više od 20 godina iskustva. Njezina su strast veliki podaci i otkrivanje skrivene inteligencije u njoj korištenjem tehnika strojnog učenja, rudarenja podataka, umjetne inteligencije i statistike. Vrlo je vješta u prediktivnom modeliranju, klasifikaciji, grupiranju, otkrivanju anomalija, vizualizaciji podataka, skupnim metodama, pronalaženju informacija, analitici kibernetičke sigurnosti, NLP-u, modelima preporuke i analizi ponašanja korisnika.

Što vas je u početku privuklo da nastavite karijeru u informatici i strojnom učenju?

Moja čista, besramna, trajna ljubav prema podacima. Snaga, tajanstvenost, intriga i potencijal podataka oduvijek su me fascinirali. Računalna znanost i strojno učenje alati su za iskorištavanje tog potencijala. Također je užasno zabavno raditi u polju gdje se najnovija dostignuća tako brzo mijenjaju. Volim sjecište istraživanja i proizvoda. Vrlo je zadovoljavajuće uzeti najnovije ideje, pogurati ih malo dalje, a zatim ih preoblikovati kako bi odgovarale postojećim, opipljivim potrebama proizvoda.

Za čitatelje koji nisu upoznati, možete li objasniti što su sintetički podaci?

Sintetički podaci su podaci koji izgledaju i ponašaju se kao izvorni podaci, ali su također dovoljno različiti da zadovolje neki slučaj upotrebe. Najčešći slučaj upotrebe je potreba da se zaštiti privatnost informacija u izvornim podacima. Drugi slučaj upotrebe je potreba za stvaranjem dodatnih podataka za povećanje veličine izvornog skupa podataka. Još jedan slučaj upotrebe je pomoć u rješavanju klasne neravnoteže ili možda demografske pristranosti u izvornom skupu podataka.

Sintetički podaci omogućuju nam nastavak razvoja novih i inovativnih proizvoda i rješenja kada podaci potrebni za to inače ne bi bili prisutni ili dostupni.

Kako platforma Gretel radi na stvaranju sintetičkih podataka putem API-ja?

Gretel API-ji za inženjering privatnosti omogućuju vam unos podataka u Gretel i istraživanje podataka koje mi možemo izdvojiti. To su isti API-ji koje koristi naš Utješiti. Izlaganjem API-ja, kroz intuitivno sučelje, nadamo se da ćemo osnažiti programere i znanstvenike podataka da izgrade vlastite tijekove rada oko Gretel.

Dok konzola čini stvaranje sintetičkih podataka vrlo jednostavnim, API-ji vam omogućuju integraciju stvaranja sintetičkih podataka u vaš tijek rada. Volim koristiti API jer mi omogućuje da prilagodim stvaranje sintetičkih podataka vrlo određenom slučaju upotrebe.

Možete li razgovarati o nekim od alata koje nudi Gretel za pomoć u procjeni kvalitete sintetičkih podataka?

Nakon izrade sintetičkih podataka, Gretel će generirati sintetičko izvješće. U ovom izvješću možete vidjeti Ocjena kvalitete sintetičkih podataka (SQS), kao i stupanj zaštite privatnosti (PPL).

SQS rezultat je procjena koliko dobro generirani sintetički podaci održavaju ista statistička svojstva kao izvorni skup podataka. U tom smislu, SQS rezultat može se promatrati kao rezultat korisnosti ili rezultat pouzdanosti o tome bi li znanstveni zaključci izvedeni iz sintetičkog skupa podataka bili isti da se umjesto toga koristio izvorni skup podataka.

Ocjena kvalitete sintetičkih podataka izračunava se kombiniranjem pojedinačnih metrika kvalitete: Stabilnost distribucije polja, Stabilnost korelacije polja i Stabilnost duboke strukture.

Stabilnost distribucije polja je mjera koliko dobro sintetički podaci održavaju iste distribucije polja kao u izvornim podacima. Stabilnost korelacije polja je mjera koliko su dobro korelacije između polja održane u sintetičkim podacima. I konačno, stabilnost duboke strukture mjeri statistički integritet dubljih distribucija i korelacija s više polja. Kako bi to procijenila, Gretel uspoređuje analizu glavnih komponenti (PCA) izračunatu prvo na izvornim podacima, a zatim ponovno na sintetičkim podacima.

Kako rade filtri privatnosti Gretel?

Korištenje električnih romobila ističe Gretel filtri privatnosti bili su vrhunac velikog broja istraživanja o prirodi kontradiktornih napada na sintetičke podatke. Filtri privatnosti sprječavaju stvaranje sintetičkih podataka sa slabostima koje neprijatelji obično iskorištavaju. Imamo dva filtra privatnosti, prvi je filtar sličnosti, a drugi je filtar odstupanja. Filtar sličnosti sprječava stvaranje sintetičkih zapisa koji su pretjerano slični zapisu o vježbanju. To su glavne mete protivnika koji žele dobiti uvid u izvorne podatke. Drugi filtar privatnosti je Outlier filtar. Time se sprječava stvaranje sintetičkih zapisa koji bi se smatrali izvanrednim u prostoru definiranom podacima o obuci. Outlieri otkriveni u sintetičkom skupu podataka mogu se iskoristiti napadima zaključivanjem članstva, zaključivanjem atributa i širokim spektrom drugih kontradiktornih napada. Oni predstavljaju ozbiljan rizik za privatnost.

Kako sintetički podaci mogu pomoći u smanjenju pristranosti umjetne inteligencije?

Najčešća tehnika je rješavanje reprezentativne pristranosti unosa podataka u sustav umjetne inteligencije. Na primjer, ako postoji jaka klasna neravnoteža u vašim podacima ili možda postoji demografska pristranost u vašim podacima, Gretel nudi alate koji će vam pomoći da prvo izmjerite neravnotežu, a zatim je riješite u sintetičkim podacima. Uklanjanjem pristranosti u podacima često uklanjate pristranost u sustavu umjetne inteligencije izgrađenom na podacima.

Očigledno uživate u učenju o novim tehnologijama strojnog učenja, kako osobno idete u korak sa svim promjenama?

Čitaj, čitaj, pa čitaj još malo, lol! Uživam započeti dan čitajući o novim ML tehnologijama. Medij me tako dobro poznaje. Uživam čitati članke u časopisima Towards Data Science, Analytics Vidhya i biltene poput The Sequence. Facebook AI, Google AI i OpenMined imaju sjajne blogove. Postoji mnoštvo dobrih konferencija za praćenje kao što su NeurIPS, ICML, ICLR, AISTATS.

Također uživam u alatima koji prate tragove citata, pomažu vam pronaći radove slične onima koji vam se sviđaju i koji upoznaju vaše specifične interese i uvijek u pozadini traže rad koji bi vas mogao zanimati. Zeta Alpha jedan je takav alat koji često koristim.

Konačno, ne možete podcijeniti dobrobit kolega sa sličnim interesima. U Gretelu, ML tim prati istraživačke radove relevantne za polja koja istražujemo i često će se okupljati kako bi raspravljali o zanimljivim radovima.

Koja je vaša vizija budućnosti strojnog učenja?

Jednostavan pristup podacima potaknut će veliku eru inovacija u strojnom učenju koje će potom potaknuti inovacije u širokom spektru područja kao što su zdravstvo, financije, proizvodnja i bioznanosti. Povijesno gledano, mnoga revolucionarna dostignuća u ML-u mogu se pripisati velikoj količini bogatih podataka. Ipak, povijesno gledano, mnoga su istraživanja bila ometana nemogućnošću pristupa ili dijeljenja podataka zbog brige o privatnosti. Kako alati poput Gretel uklone ovu prepreku, pristup podacima će se demokratizirati. Cijela zajednica strojnog učenja imat će koristi od pristupa bogatim, velikim skupovima podataka, umjesto samo nekoliko elitnih mega-tvrtki.

Postoji li još nešto što biste željeli podijeliti s Gretel?

Ako volite podatke, voljet ćete i Gretel (jasno je da volim Gretel!). Jednostavan pristup podacima bio je trn u oku svakom podatkovnom znanstveniku kojeg sam ikada poznavao. U Gretelu smo jako ponosni što smo stvorili konzolu i skup API-ja koji čine stvaranje privatnih podataka koji se mogu dijeliti što je moguće jednostavnijim. Duboko vjerujemo da su podaci vredniji kada se dijele.

Hvala vam na sjajnom intervjuu i na dijeljenju vaših uvida, čitatelji koji žele saznati više trebali bi ga posjetiti Gretel.ai.

Srodne teme:Gretel Intervju sintetički podaci

Sljedeći

Pavel Osokin, suosnivač i glavni izvršni direktor AMAI – Interview Series

Ne propustite

Yashar Behzadi, izvršni direktor Synthesis AI – Serija intervjua

Antoine Tardif

Osnivač unite.AI i član udruge Forbesovo tehnološko vijeće, Antoine je a futurist koji je strastven prema budućnosti umjetne inteligencije i robotike.

Također je i osnivač Vrijednosni papiri.io, web stranica koja se fokusira na ulaganje u disruptivnu tehnologiju.

Ujedinite se.AI

Amy Steier, glavna znanstvenica za strojno učenje na Gretel.ai – serija intervjua

Intervjui

Amy Steier, glavna znanstvenica za strojno učenje na Gretel.ai – serija intervjua

Sadržaj

Najnoviji postovi

Ujedinite se.AI

Amy Steier, glavna znanstvenica za strojno učenje na Gretel.ai – serija intervjua

Sadržaj

Svibanj vam se sviđa

Najnoviji postovi