Intervjuer
Patricia Thaine, VD på Private AI – Intervju-serie

Patricia Thaine är medgrundare och VD för Private AI, en doktorand i datavetenskap vid University of Toronto och en postgraduate affiliate vid Vector Institute som bedriver forskning om sekretessbevarande naturlig språkbehandling, med fokus på tillämpad kryptografi. Hon bedriver också forskning om beräkningsmetoder för att tolka förlorade språk.
Patricia är mottagare av NSERC Postgraduate Scholarship, RBC Graduate Fellowship, Beatrice “Trixie” Worsley Graduate Scholarship in Computer Science och Ontario Graduate Scholarship. Hon har åtta års erfarenhet av forskning och programvaruutveckling, inklusive på McGill Language Development Lab, University of Torontos Computational Linguistics Lab, University of Torontos institution för lingvistik och Public Health Agency of Canada.
Vad var det som initialt drog dig till datavetenskap?
Förmågan att lösa problem och vara kreativ samtidigt. Det är som ett hantverk. Du får se dina produktidéer bli verklighet, precis som en snickare bygger möbler. Som jag en gång hörde någon säga: programmering är det ultimata kreativa verktyget. Det faktum att de produkter du bygger kan skalas och användas av människor över hela världen är så kul.
Kan du diskutera ursprunget till Private AI och hur det uppstod från din observation att det saknas verktyg som är lätta att integrera för att bevara sekretess?
Genom tal och skrift produceras och överförs en del av vår mest känsliga information till de företag vars tjänster vi använder. När vi övervägde vilka NLP-produkter vi skulle bygga, fanns det ett lager av sekretess som vi skulle behöva integrera, som helt enkelt inte fanns på marknaden. För att använda sekretesslösningar måste företag antingen överföra sina användares data till en tredje part, använda undermåliga öppen källkods-lösningar som inte riktigt fungerar för att skydda användarnas sekretess, eller bygga en lösning internt med mycket liten expertis inom sekretess. Så vi bestämde oss för att fokusera på att skapa de bästa produkterna möjliga för utvecklare och AI-team som behöver ha utdata från sekretessförbättrande teknologier som fungerar lätt för deras behov.
Varför är sekretessbevarande AI viktigt?
Ungefär 80 procent av all information som produceras är ostrukturerad och AI är det enda sättet att göra sig av med all den datan. Den kan användas för gott, som att hjälpa till att upptäcka fall för en äldre befolkning, eller för ont, som att profilera och spåra individer från underrepresenterade grupper. Att säkerställa att sekretess byggs in i den programvara vi skapar gör det mycket svårare för AI att användas på ett skadligt sätt.
Hur är sekretess en konkurrensfördel?
Det finns många anledningar, men här är några:
- Allt fler användare bryr sig om sekretess och allteftersom konsumenterna blir mer utbildade, växer denna oro: 70 procent av konsumenterna är oroliga för sekretessen för deras data.
- Det är mycket lättare att göra affärer med andra företag om du har ordentliga dataskydds- och datasäkerhetsprotokoll och teknologier på plats.
- När du har byggt dina produkter på ett sekretessbevarande sätt, håller du bättre koll på var sårbarhetspunkterna i din tjänst är och, särskilt genom dataminimering, blir du av med den data du inte behöver och som kan få dig i trubbel när en cyberattack inträffar.
Kan du diskutera vikten av sekretess för utbildningsdata och varför den är känslig för reverse engineering?
Detta är en utmärkt fråga och det behövs så mycket mer utbildning om detta. Förenklat memoriserar maskinlärningsmodeller information. Ju större modellerna är, desto mer memoriserar de hörnfall. Detta innebär att den information som modellerna tränades på kan produceras i produktion. Detta har visats i flera forskningsartiklar, inklusive The Secret Sharer: Evaluating and Testing Unintended Memorization in Neural Networks och Extracting Training Data from Large Language Models.
Det har också visats att personlig information kan extraheras från word embeddings och, för de som har några tvivel om att detta är ett verkligt problem, var det också en skandal i år när en koreansk kärleksbot skrev ut användardetaljer i chattar med andra användare.
Vad är din syn på federerad inlärning och användarsekretess?
Federerad inlärning är ett stort steg när användningsfallet tillåter det. Men det är fortfarande möjligt att extrahera information om en användares indata från viktuppdateringar som skickas till molnet från en viss användares enhet, så det är viktigt att kombinera federerad inlärning med andra sekretessförbättrande teknologier (differential sekretess och homomorf kryptering/säker multipartyberäkning). Varje sekretessförbättrande teknologi måste väljas enligt användningsfallet – ingen kan användas som en hammare för att lösa alla problem. Vi går igenom beslutsprocessen här. En stor vinst är att du aldrig skickar din rådata utanför din enhet. En stor nackdel är att om du behöver data för att felsöka ett system eller se till att det tränas korrekt, blir det mycket svårare att få tag på. Federerad inlärning är ett bra första steg med många olösta problem som forskning och industri arbetar med.
Private AI möjliggör för utvecklare att integrera sekretessanalys med flera rader kod för att säkerställa sekretess, hur fungerar detta?
Vår teknik körs som en REST API som våra användare skickar POST-förfrågningar till med den text de vill sudda, avidentifiera eller pseudonymisera/berika med realistiska data. Vissa av våra kunder skickar genom samtalstranskriptioner som måste suddas för att vara PCI-kompatibla, medan andra skickar genom hela chattar så att de kan använda informationen för att träna chatbots, sentimentanalytiker eller andra NLP-modeller. Våra användare kan också välja vilka entiteter de behöver behålla eller till och med använda som metadata för att spåra var personlig data lagras. Vi tar bort smärtan av att behöva träna upp ett exakt system för att upptäcka och ersätta personlig information i riktigt smutsig data.
Varför är sekretess för IoT-enheter ett aktuellt problem och vad är din syn på att lösa det?
Till slut är det bästa sättet att lösa ett sekretessproblem mycket användningsfallsberoende, och IoT-enheter är inget undantag. Medan vissa användningsfall kanske förlitar sig på edge-utplacering, edge-inferens och sekretessbevarande federerad inlärning (t.ex. crowd sensing i smarta städer), kan andra användningsfall behöva förlita sig på dataaggregering och anonymisering (t.ex. energiförbrukningsinformation). Med det sagt är IoT-enheter ett perfekt exempel på hur sekretess och säkerhet måste gå hand i hand. Dessa enheter är notoriskt osäkra mot cyberattacker, så det finns bara så mycket sekretessförbättrande teknologier kan göra utan att åtgärda grundläggande enhetsvulnerabiliteter. Å andra sidan, utan att tänka på sätt att förbättra användarsekretess, kan information som samlas in från våra hem delas, okontrollerat, till okända parter, vilket gör det extremt svårt att garantera säkerheten för informationen. Vi har två fronter att förbättra här och det utkast till lagstiftning som skrivs av Europeiska kommissionen om IoT-enhetssäkerhet kan bli det som får enhetstillverkare att ta sitt ansvar för konsumenternas säkerhet och sekretess på allvar.
Finns det något annat du vill dela om Private AI?
Vi är en grupp experter inom sekretess, naturlig språkbehandling, talad språkbehandling, bildbehandling, modellutplacering i resursbegränsade miljöer, stödda av M12, Microsofts riskkapitalfond.
Vi ser till att de produkter vi skapar, utöver att vara mycket exakta, också är beräkningsmässigt effektiva så att du inte får en stor molnräkning i slutet av månaden. Dessutom överförs aldrig våra kunders data till oss – allt bearbetas i deras eget miljö.
Tack för den underbara intervjun, för att lära mer besök Private AI.












