Intervjuer
Patricia Thaine, CEO i Private AI – Intervju-serie

Patricia Thaine er medgründer og CEO i Private AI, en PhD-kandidat i datavitenskap ved Universitetet i Toronto, og en postgradert tilknytning ved Vector Institute som gjør forskning på personvernsbeskyttende naturlig språkbehandling, med fokus på anvendt kryptografi. Hun gjør også forskning på komputasjonelle metoder for å tyde tapte språk.
Patricia er mottaker av NSERC Postgraduate Scholarship, RBC Graduate Fellowship, Beatrice “Trixie” Worsley Graduate Scholarship i datavitenskap og Ontario Graduate Scholarship. Hun har åtte års erfaring med forskning og programvareutvikling, inkludert ved McGill Language Development Lab, Universitetet i Torontos Computational Linguistics Lab, Universitetet i Torontos avdeling for lingvistikk og Public Health Agency of Canada.
Hva var det som først tiltalte deg til datavitenskap?
Evnen til å løse problemer og være kreativ samtidig. Det er som et håndverk. Du får se dine produktideer bli virkelighet, nesten som en snekker bygger møbler. Som jeg en gang hørte noen si: programmering er det ultimate kreative verktøyet. Det faktum at produktene du bygger kan skaleres og brukes av mennesker over hele verden, er bare en ekstra bonus.
Kunne du diskutere opphavshistorien bak Private AI og hvordan det oppstod fra din observasjon av at det mangler verktøy som er enkle å integrere for å beskytte personvern?
Gjennom tale og skrift produserer vi noen av våre mest sensitive informasjoner og overfører dem til selskapene hvis tjenester vi bruker. Da vi vurderte hvilke NLP-produkter å bygge, var det et lag med personvern som vi måtte integrere, som enkelt ikke eksisterte på markedet. For å bruke personvernsløsninger, måtte selskapene overføre brukerdata til en tredjepart, bruke underlige åpne kildekodeløsninger som bare ikke er gode nok til å beskytte brukerpersonvern, eller bygge en løsning internt med svært liten ekspertise i personvern. Så vi bestemte oss for å fokusere på å lage de beste produktene mulig for utviklere og AI-team som trenger å ha utdata fra personvernforbedrings-teknologier som enkelt kan brukes for deres behov.
Hvorfor er personvernsviktig AI viktig?
Rundt 80 prosent av informasjonen som produseres er ustrukturert, og AI er den eneste måten å gi mening til all denne dataen på. Den kan brukes til gode formål, som å hjelpe med å oppdage fall hos en eldre befolkning, eller til dårlige formål, som å profilere og spore individer fra underrepresenterte befolkningsgrupper. Å sikre at personvern er bygget inn i programvaren vi lager, gjør det mye vanskeligere for AI å brukes på en skadelig måte.
Hvorfor er personvern en konkurransefordel?
Det er mange grunner, men her er bare noen få:
- Flere og flere brukere bryr seg om personvern, og når forbrukerne blir mer utdannet, vokser denne bekymringen: 70 prosent av forbrukerne er bekymret for personvernet til deres data.
- Det er mye enklere å drive forretning med andre bedrifter hvis du har ordentlige datasikkerhets- og personvernspolitikker og -teknologier på plass.
- Når du har bygget dine produkter på en personvernsvennlig måte, holder du bedre orden på hvor sårbarhetspunktene er i din tjeneste, og spesielt gjennom dataminimering, fjerner du dataene du ikke trenger og som kan få deg i trøbbel når det skjer et cyberangrep.
Kunne du diskutere viktigheten av trening av personvern og hvorfor det er utsatt for reversering?
Dette er et veldig godt spørsmål, og det må være mye mer utdanning på dette. Forenklet kan man si at maskinlæringsmodeller husker informasjon. Jo større modellene er, jo mer husker de hjørnetilfeller. Dette betyr at informasjonen modellene ble trent på, kan bli slått ut i produksjon. Dette er blitt vist i flere forskningsartikler, inkludert The Secret Sharer: Evaluating and Testing Unintended Memorization in Neural Networks og Extracting Training Data from Large Language Models.
Det er også blitt vist at personlige informasjoner kan bli trukket ut fra ordinnlegg, og for de som har noen tvil om at dette er et reelt problem, var det også en skandale i år da en koreansk kjærlighetsbot skrev ut brukeropplysninger i samtaler med andre brukere.
Hva er dine synspunkter på distribuert læring og brukerpersonvern?
Distribuert læring er et veldig godt steg når brukssaken tillater det. Likevel er det fortsatt mulig å trekke ut informasjon om en brukers innputt fra vektoppdateringer sendt over til skyen fra en bestemt brukers enhet, så det er viktig å kombinere distribuert læring med andre personvernforbedrings-teknologier (differensialpersonvern og homomorf kryptering/sikker multiparti beregning). Hver personvernforbedrings-teknologi må velges i henhold til brukssaken – ingen kan brukes som en hammer til å løse alle problemer. Vi går gjennom beslutningstreets her. En stor gevinst er at du aldri sender din rådata utenfor din enhet. En stor ulempe er at hvis du trenger data for å feilsøke et system eller se om det blir trent riktig, blir det mye vanskeligere å få tak i. Distribuert læring er et veldig godt startpunkt med mange uløste problemer som både forskning og industri jobber med.
Private AI gjør det mulig for utviklere å integrere personvernsvurdering med noen få linjer kode for å sikre personvern, hvordan fungerer dette?
Vår teknologi kjører som en REST-API som våre brukere sender POST-forespørsler til med teksten de ønsker å redigere, deidentifisere eller pseudonymisere/forbedre med realistiske data. Noen av våre kunder sender gjennom samtaletranskriber som må redigeres for å være PCI-sammenlignbare, mens andre sender gjennom hele samtaler så de kan bruke informasjonen til å trene chatboter, holdningsanalytikere eller andre NLP-modeller. Våre brukere kan også velge hvilke enheter de trenger å beholde eller bruke som metadata for å spore hvor personlige data lagres. Vi fjerner smerten med å måtte trene opp et nøyaktig system for å oppdage og erstatte personlige informasjoner i veldig ustrukturert data.
Hvorfor er personvern for IoT-enheter et nåværende problem, og hva er dine synspunkter på å løse det?
Ultimat er den beste måten å løse et personvernproblem svært avhengig av brukssaken, og IoT-enheter er ingen unntak. Mens noen brukssaker kan avhenge av kant-utplassering, kant-inferens og personvernsviktig distribuert læring (f.eks. folkemengde i smarte byer), kan andre brukssaker måtte avhenge av dataaggregasjon og anonymisering (f.eks. informasjon om energiforbruk). Uansett sier det seg selv at IoT-enheter er et primært eksempel på hvordan personvern og sikkerhet må gå hånd i hånd. Disse enhetene er notorisk usikre mot cyberangrep, så det er bare så mye personvernforbedrings-teknologier kan gjøre uten å fikse grunnleggende enhetsvulnerabiliteter. På den andre siden, uten å tenke på måter å forbedre brukerpersonvern, kan informasjon samlet inn fra hjemmene våre bli delt, ukontrollert, til ukjente parter, og gjøre det svært vanskelig å garantere sikkerheten til informasjonen. Vi har to fronter å forbedre her, og utkast til lovgivning som blir skrevet av Den europeiske kommisjon om sikkerhet for IoT-enheter, kan ende opp med å være det som får enhetsprodusentene til å ta sin ansvar for sikkerheten og personvernet til forbrukerne alvorlig.
Er det noe annet du ville like å dele om Private AI?
Vi er en gruppe eksperter i personvern, naturlig språk, talt språk, bildebehandling, modellutplassering i lavresursmiljøer, støttet av M12, Microsofts venturefond.
Vi sikrer at produktene vi lager, i tillegg til å være svært nøyaktige, også er komputasjonelt effektive, så du ikke får en stor skyregning på hånden din ved månedsslutt. Og våre kunders data blir aldri overført til oss – alt blir prosessert i deres eget miljø.
Takk for det flotte intervjuet, for å lære mer, besøk Private AI.












