Haastattelut

Amy Steier, Gretel.ai:n koneoppimisen johtava tutkija – haastattelusarja

Julkaistu

2 vuotta sitten

Helmikuu 8, 2022

Amy Steier on koneoppimisen johtava tutkija Gretel.ai, maailman edistynein yksityisyyden suunnittelualusta. Gretelin avulla on helppo upottaa yksityisyys tietopohjaiseen teknologiaan. Sen tekoälypohjaiset avoimen lähdekoodin kirjastot on suunniteltu muuntamaan, anonymisoimaan ja syntetisoimaan arkaluonteisia tietoja.

Amy on erittäin taitava koneoppimis- ja datatieteilijä, jolla on yli 20 vuoden kokemus. Hänen intohimonsa on big data ja piilotetun älykkyyden paljastaminen koneoppimisen, tiedon louhinnan, tekoälyn ja tilastojen tekniikoilla. Hän on erittäin taitava ennustavassa mallintamisessa, luokittelussa, klusteroinnissa, poikkeamien havaitsemisessa, datan visualisoinnissa, ensemble-menetelmissä, tiedonhaussa, kyberturvallisuusanalytiikassa, NLP:ssä, suositusmalleissa ja käyttäjien käyttäytymisanalytiikassa.

Mikä alun perin houkutteli sinua hakemaan uraa tietojenkäsittelytieteen ja koneoppimisen parissa?

Pelkkä, häpeämätön, kestävä rakkauteni dataan. Datan voima, mysteeri, juonittelu ja potentiaali ovat aina kiehtoneet minua. Tietojenkäsittelytiede ja koneoppiminen ovat työkaluja tämän potentiaalin hyödyntämiseen. On myös hirveän hauskaa työskennellä alalla, jolla huipputason edistyminen liikkuu niin nopeasti. Pidän tutkimuksen ja tuotteen risteyksestä. On erittäin ilahduttavaa ottaa vertaansa vailla olevia ideoita, viedä niitä hieman pidemmälle ja sitten muokata niitä olemassa olevien, konkreettisten tuotetarpeiden mukaisiksi.

Voisitteko kertoa tuntemattomille lukijoille, mitä synteettinen data on?

Synteettinen data on dataa, joka näyttää ja toimii alkuperäisen datan kaltaisesti, mutta on myös riittävän erilainen, jotta se tyydyttää jonkin käyttötarpeen. Yleisin käyttötapaus on tarve suojata alkuperäisissä tiedoissa olevien tietojen yksityisyyttä. Toinen käyttötapaus on tarve luoda lisätietoa alkuperäisen tietojoukon koon kasvattamiseksi. Vielä yksi käyttötapaus on auttaa korjaamaan luokkaepätasapainoa tai kenties demografista harhaa alkuperäisessä tietojoukossa.

Synteettisen tiedon avulla voimme jatkaa uusien ja innovatiivisten tuotteiden ja ratkaisujen kehittämistä, kun siihen tarvittavaa dataa ei muuten olisi saatavilla tai saatavilla.

Miten Gretel-alusta luo synteettistä dataa API:iden kautta?

Gretelin tietosuojatekniikan sovellusliittymien avulla voit syöttää tietoja Greteliin ja tutkia tietoja, joita voimme poimia. Nämä ovat samoja sovellusliittymiä, joita käytämme Console. Julkaisemalla API:t intuitiivisen käyttöliittymän kautta toivomme voivamme kehittää kehittäjiä ja datatieteilijöitä rakentamaan omia työnkulkujaan Gretelin ympärille.

Vaikka konsoli tekee synteettisten tietojen luomisesta erittäin helppoa, sovellusliittymien avulla voit integroida synteettisten tietojen luomisen työnkulkuusi. Rakastan sovellusliittymien käyttöä, koska sen avulla voin mukauttaa synteettisten tietojen luomista tiettyyn käyttötapaukseen.

Voitko keskustella joistakin Gretelin tarjoamista työkaluista synteettisten tietojen laadun arvioimiseksi?

Synteettisten tietojen luomisen jälkeen Gretel luo synteettisen raportin. Tässä raportissa näet Synteettisten tietojen laatupisteet (SQS) sekä Privacy Protection Level grade (PPL).

SQS-pistemäärä on arvio siitä, kuinka hyvin luotu synteettinen data säilyttää samat tilastolliset ominaisuudet kuin alkuperäinen tietojoukko. Tässä mielessä SQS-pisteitä voidaan pitää hyödyllisyyspisteinä tai luottamuspisteinä siitä, olisivatko synteettisestä aineistosta tehdyt tieteelliset johtopäätökset samat, jos sen sijaan olisi käytetty alkuperäistä aineistoa.

Synteettisten tietojen laatupisteet lasketaan yhdistämällä yksittäisiä laatumittareita: kentän jakautumisen vakaus, kentän korrelaatiovakaus ja syvän rakenteen vakaus.

Kenttäjakauman vakaus on mitta siitä, kuinka hyvin synteettinen data säilyttää samat kenttäjakaumat kuin alkuperäisessä datassa. Kenttäkorrelaation vakaus on mitta siitä, kuinka hyvin kenttien väliset korrelaatiot säilyivät synteettisissä tiedoissa. Ja lopuksi Deep Structure Stability mittaa syvempien, monikenttäjakaumien ja korrelaatioiden tilastollista eheyttä. Tämän arvioimiseksi Gretel vertaa pääkomponenttianalyysiä (PCA), joka lasketaan ensin alkuperäisistä tiedoista ja sitten taas synteettisistä tiedoista.

Kuinka Gretel-tietosuojasuodattimet toimivat?

- Kerttu tietosuojasuodattimet olivat huipentuma monille tutkimuksille, jotka koskivat synteettisiä tietoja vastaan tehtyjen vastakkaisten hyökkäysten luonnetta. Tietosuojasuodattimet estävät synteettisten tietojen luomisen, ja niissä on heikkouksia, joita vastustajat yleensä käyttävät hyväkseen. Meillä on kaksi tietosuojasuodatinta, joista ensimmäinen on samankaltaisuussuodatin ja toinen outlier-suodatin. Samankaltaisuussuodatin estää synteettisten tietueiden luomisen, jotka ovat liian samankaltaisia harjoitustietueen kanssa. Nämä ovat vihollisten ensisijaisia kohteita, jotka haluavat saada käsityksen alkuperäisestä tiedosta. Toinen tietosuojasuodatin on outlier-suodatin. Tämä estää synteettisten tietueiden luomisen, joita pidettäisiin poikkeavina harjoitustietojen määrittämässä tilassa. Synteettisessä tietojoukossa paljastettuja poikkeavuuksia voidaan hyödyntää Membership Inference Attack-, Attribute Inference -hyökkäyksillä ja monilla muilla vastavuoroisilla hyökkäyksillä. Ne ovat vakava tietosuojariski.

Kuinka synteettinen data voi auttaa vähentämään tekoälyn harhaa?

Yleisin tekniikka on käsitellä tekoälyjärjestelmään syötettävien tietojen esitystapoja. Jos esimerkiksi tiedoissasi on vahva luokkaepätasapaino tai tiedoissasi on demografista harhaa, Gretel tarjoaa työkaluja, jotka auttavat ensin mittaamaan epätasapainoa ja sitten ratkaisemaan sen synteettisissä tiedoissa. Poistamalla tiedoista poikkeaman, poistat usein biasin datan varaan rakennetusta tekoälyjärjestelmästä.

Nautit selvästi uusien koneoppimistekniikoiden oppimisesta, miten pysyt mukana kaikissa muutoksissa?

Lue, lue ja sitten lisää, lol! Nautin aloittaa päiväni lukemalla uusista ML-tekniikoista. Medium tuntee minut niin hyvin. Nautin artikkeleista Towards Data Sciencestä, Analytics Vidhyasta ja uutiskirjeistä, kuten The Sequence. Facebook AI, Google AI ja OpenMined ovat kaikilla mahtavia blogeja. Seurattavana on lukuisia hyviä konferensseja, kuten NeurIPS, ICML, ICLR, AISTATS.

Nautin myös työkaluista, jotka seuraavat viittauspolkuja, auttavat sinua löytämään samankaltaisia papereita, joista pidät ja jotka oppivat tuntemaan erityisiä kiinnostuksen kohteitasi ja katsovat aina taustalla sinua kiinnostavaa artikkelia. Zeta Alpha on yksi tällainen työkalu, jota käytän paljon.

Lopuksi, et todellakaan voi aliarvioida sitä hyötyä, että sinulla on samanlaisia kiinnostuksen kohteita. Gretelissä ML-tiimi seuraa tutkimiimme aloihin liittyviä tutkimuspapereita ja kokoontuu usein keskustelemaan mielenkiintoisista kirjoituksista.

Mikä on näkemyksesi koneoppimisen tulevaisuudesta?

Helppo pääsy dataan käynnistää suuren innovaation aikakauden koneoppimisessa, joka sitten turbottaa innovaatioita monilla aloilla, kuten terveydenhuollossa, rahoituksessa, valmistuksessa ja biotieteissä. Historiallisesti monet uraauurtavat edistysaskeleet ML:ssä voidaan johtua suuresta rikkaiden tietojen määrästä. Silti historiallisesti paljon tutkimusta on haitannut kyvyttömyys päästä käsiksi tai jakaa tietoja tietosuojasyistä. Kun työkalut, kuten Kerttu, poistavat tämän esteen, tietojen saatavuus demokratisoituu. Koko koneoppimisyhteisö hyötyy pääsystä runsaisiin, suuriin tietokokonaisuuksiin vain muutaman eliittien megayrityksen sijaan.

Onko jotain muuta, mitä haluaisit jakaa Kerttusta?

Jos rakastat dataa, tulet rakastamaan Kerttua (niin selvästi rakastan Kerttua!). Helppo pääsy dataan on ollut piikki jokaisen tuntemani datatieteilijän kyljessä. Olemme Gretelillä erittäin ylpeitä siitä, että olemme luoneet konsolin ja sovellusliittymiä, jotka tekevät yksityisen, jaettavan tiedon luomisesta mahdollisimman helppoa. Uskomme syvästi, että data on arvokkaampaa, kun sitä jaetaan.

Kiitos mahtavasta haastattelusta ja näkemyksensä jakamisesta, lukijoiden, jotka haluavat tietää lisää, kannattaa käydä Gretel.ai.