Intervjuji

Amy Steier, glavna znanstvenica za strojno učenje pri Gretel.ai – serija intervjujev

objavljeno

Pred 2 leti

Februar 8, 2022

Amy Steier je glavna znanstvenica za strojno učenje pri Gretel.ai, najnaprednejša platforma za inženiring zasebnosti na svetu. Gretel omogoča preprosto vgradnjo zasebnosti po zasnovi v strukturo tehnologije, ki temelji na podatkih. Njegove odprtokodne knjižnice, ki temeljijo na umetni inteligenci, so zasnovane za preoblikovanje, anonimiziranje in sintetiziranje občutljivih informacij.

Amy je zelo uspešna znanstvenica na področju strojnega učenja in podatkov z več kot 20-letnimi izkušnjami. Njena strast so veliki podatki in odkrivanje skrite inteligence v njih z uporabo tehnik strojnega učenja, podatkovnega rudarjenja, umetne inteligence in statistike. Je zelo usposobljena za napovedno modeliranje, klasifikacijo, združevanje v gruče, odkrivanje anomalij, vizualizacijo podatkov, metode ansambla, iskanje informacij, analitiko kibernetske varnosti, NLP, modele priporočil in analitiko vedenja uporabnikov.

Kaj vas je na začetku pritegnilo, da ste nadaljevali kariero na področju računalništva in strojnega učenja?

Moja čista, nesramežljiva, trajna ljubezen do podatkov. Moč, skrivnostnost, spletka in potencial podatkov me je vedno fascinirala. Računalništvo in strojno učenje sta orodji za izkoriščanje tega potenciala. Prav tako je strašno zabavno delati na področju, kjer se stanje tehnike spreminja tako hitro. Všeč mi je presečišče raziskav in izdelka. Zelo zadovoljivo je vzeti najsodobnejše ideje, jih potisniti še malo naprej in jih nato preoblikovati, da bodo ustrezale obstoječim, oprijemljivim potrebam izdelka.

Ali lahko za bralce, ki niso seznanjeni, pojasnite, kaj so sintetični podatki?

Sintetični podatki so podatki, ki izgledajo in delujejo kot izvirni podatki, vendar so tudi dovolj drugačni, da ustrezajo določenemu primeru uporabe. Najpogostejši primer uporabe je potreba po zaščiti zasebnosti informacij v izvirnih podatkih. Drug primer uporabe je potreba po ustvarjanju dodatnih podatkov za povečanje velikosti izvirnega nabora podatkov. Še en primer uporabe je pomoč pri odpravljanju razrednega neravnovesja ali morda demografske pristranskosti v izvirnem nizu podatkov.

Sintetični podatki nam omogočajo, da nadaljujemo z razvojem novih in inovativnih izdelkov in rešitev, ko podatki, potrebni za to, sicer ne bi bili prisotni ali na voljo.

Kako deluje platforma Gretel za ustvarjanje sintetičnih podatkov prek API-jev?

API-ji za inženiring zasebnosti Gretel vam omogočajo, da vnašate podatke v Gretel in raziskujete podatke, ki jih lahko izvlečemo. To so isti API-ji, ki jih uporablja naš Konzole. Z razkritjem API-jev prek intuitivnega vmesnika upamo, da bomo opolnomočili razvijalce in podatkovne znanstvenike, da zgradijo lastne poteke dela okoli Gretel.

Medtem ko konzola zelo olajša ustvarjanje sintetičnih podatkov, vam API-ji omogočajo integracijo ustvarjanja sintetičnih podatkov v vaš potek dela. Všeč mi je uporaba API-jev, ker mi omogočajo prilagajanje ustvarjanja sintetičnih podatkov za zelo poseben primer uporabe.

Ali lahko razpravljate o nekaterih orodjih, ki jih ponuja Gretel za pomoč pri ocenjevanju kakovosti sintetičnih podatkov?

Po ustvarjanju sintetičnih podatkov bo Gretel ustvarila sintetično poročilo. V tem poročilu si lahko ogledate Ocena kakovosti sintetičnih podatkov (SQS), kot tudi stopnjo zaščite zasebnosti (PPL).

Rezultat SQS je ocena, kako dobro ustvarjeni sintetični podatki ohranjajo enake statistične lastnosti kot izvirni nabor podatkov. V tem smislu je mogoče oceno SQS obravnavati kot oceno uporabnosti ali oceno zaupanja glede tega, ali bi bili znanstveni zaključki iz sintetičnega nabora podatkov enaki, če bi namesto tega uporabili izvirni nabor podatkov.

Ocena kakovosti sintetičnih podatkov se izračuna s kombiniranjem posameznih meritev kakovosti: stabilnost porazdelitve polja, stabilnost korelacije polja in stabilnost globoke strukture.

Stabilnost porazdelitve polja je merilo, kako dobro sintetični podatki ohranjajo enake porazdelitve polja kot v izvirnih podatkih. Stabilnost korelacije polja je merilo, kako dobro so bile korelacije med polji ohranjene v sintetičnih podatkih. In končno, stabilnost globoke strukture meri statistično celovitost globljih porazdelitev in korelacij na več področjih. Da bi to ocenila, Gretel primerja analizo glavnih komponent (PCA), izračunano najprej na podlagi izvirnih podatkov, nato pa ponovno na podlagi sintetičnih podatkov.

Kako delujejo filtri zasebnosti Gretel?

O Filtri zasebnosti Gretel so bili vrhunec številnih raziskav o naravi kontradiktornih napadov na sintetične podatke. Filtri zasebnosti preprečujejo ustvarjanje sintetičnih podatkov s slabostmi, ki jih običajno izkoriščajo nasprotniki. Imamo dva filtra zasebnosti, prvi je filter podobnosti, drugi pa filter odstopanj. Filter podobnosti preprečuje ustvarjanje sintetičnih zapisov, ki so preveč podobni zapisu o usposabljanju. To so glavne tarče nasprotnikov, ki želijo pridobiti vpogled v izvirne podatke. Drugi filter zasebnosti je filter izstopa. To preprečuje ustvarjanje sintetičnih zapisov, ki bi veljali za izstopajoče v prostoru, ki ga določajo podatki o usposabljanju. Izstopajoče vrednosti, razkrite v sintetičnem naboru podatkov, lahko izkoristijo napadi sklepanja o članstvu, sklepanje o atributih in številni drugi kontradiktorni napadi. So resno tveganje za zasebnost.

Kako lahko sintetični podatki pomagajo pri zmanjševanju pristranskosti AI?

Najpogostejša tehnika je obravnavanje reprezentativne pristranskosti podajanja podatkov v sistem AI. Na primer, če je v vaših podatkih močno razredno neravnovesje ali morda v vaših podatkih obstaja demografska pristranskost, Gretel ponuja orodja, ki pomagajo najprej izmeriti neravnovesje in ga nato odpraviti v sintetičnih podatkih. Z odstranitvijo pristranskosti v podatkih pogosto odstranite pristranskost v sistemu AI, zgrajenem na podatkih.

Očitno uživate v spoznavanju novih tehnologij strojnega učenja, kako osebno sledite vsem spremembam?

Beri, beri in potem še nekaj, lol! Rad začnem dan z branjem o novih tehnologijah ML. Medij me tako dobro pozna. Uživam v branju člankov v Towards Data Science, Analytics Vidhya in glasila, kot je The Sequence. Facebook AI, Google AI in OpenMined imajo odlične bloge. Slediti je množici dobrih konferenc, kot so NeurIPS, ICML, ICLR, AISTATS.

Uživam tudi v orodjih, ki sledijo citatom, vam pomagajo najti članke, podobne tistim, ki so vam všeč, in ki spoznavajo vaša posebna zanimanja ter v ozadju vedno iščejo članek, ki bi vas lahko zanimal. Zeta Alpha je eno od takih orodij, ki jih pogosto uporabljam.

Nenazadnje res ne smete podcenjevati koristi sodelavcev s podobnimi interesi. Pri Gretel ekipa ML sledi raziskovalnim člankom, ki so pomembni za področja, ki jih raziskujemo, in se pogosto zberejo, da razpravljajo o zanimivih dokumentih.

Kakšna je vaša vizija za prihodnost strojnega učenja?

Enostaven dostop do podatkov bo sprožil veliko dobo inovacij v strojnem učenju, ki bo nato spodbudilo inovacije na širokem spektru področij, kot so zdravstvo, finance, proizvodnja in bioznanosti. Zgodovinsko gledano je veliko prelomnih napredkov v strojnem jeziku mogoče pripisati velikemu obsegu bogatih podatkov. Vendar je bilo v preteklosti veliko raziskav ovirano zaradi nezmožnosti dostopa do podatkov ali njihove skupne rabe zaradi skrbi glede zasebnosti. Ko bodo orodja, kot je Gretel, odstranila to oviro, bo dostop do podatkov demokratiziran. Celotna skupnost strojnega učenja bo imela koristi od dostopa do bogatih, velikih naborov podatkov, namesto le nekaj elitnih megapodjetij.

Ali želite še kaj povedati o Gretel?

Če imate radi podatke, boste vzljubili Gretel (očitno imam rad Gretel!). Enostaven dostop do podatkov je bil trn v peti vsakemu podatkovnemu znanstveniku, ki sem ga kdaj poznal. Pri Gretel smo zelo ponosni, da smo ustvarili konzolo in nabor API-jev, ki omogočajo čim preprostejše ustvarjanje zasebnih podatkov, ki jih je mogoče deliti. Globoko verjamemo, da so podatki bolj dragoceni, če jih delimo.

Hvala za odličen intervju in za delitev svojih vpogledov, bralci, ki želijo izvedeti več, naj obiščejo Gretel.ai.

Sorodne teme:Gretel Intervju sintetični podatki

Up Next

Pavel Osokin, soustanovitelj in izvršni direktor AMAI – Interview Series

Ne zamudite

Yashar Behzadi, izvršni direktor Synthesis AI – serija intervjujev

Antoine Tardif

Ustanovni partner unite.AI in član Forbesov tehnološki svet, Antoine je a futurist ki je navdušen nad prihodnostjo umetne inteligence in robotike.

Je tudi ustanovitelj Securities.io, spletno mesto, ki se osredotoča na vlaganje v prelomno tehnologijo.

Unite.AI

Amy Steier, glavna znanstvenica za strojno učenje pri Gretel.ai – serija intervjujev

Intervjuji

Amy Steier, glavna znanstvenica za strojno učenje pri Gretel.ai – serija intervjujev

Kazalo vsebine

Zadnje objave

Unite.AI

Amy Steier, glavna znanstvenica za strojno učenje pri Gretel.ai – serija intervjujev

Kazalo vsebine

Morda vam bo všeč

Zadnje objave