rozhovory

Bailey Kacsmar, kandidát PhD na University of Waterloo – série rozhovorů

Zveřejněno

10 měsíci

Června 29, 2023

Bailey Kacsmar je kandidátem na PhD na School of Computer Science at the School of Computer Science Univerzita v Waterloo a nastupující člen fakulty na Univerzita Alberty. Jejím výzkumným zájmem je vývoj uživatelsky uvědomělých technologií zvyšujících soukromí prostřednictvím paralelního studia technických přístupů pro soukromé výpočty spolu s odpovídajícím uživatelským vnímáním, obavami a chápáním těchto technologií. Její práce se zaměřuje na identifikaci potenciálu a omezení soukromí v aplikacích strojového učení.

Vaše výzkumné zájmy se soustředí na vývoj technologií pro zvýšení ochrany soukromí pro uživatele, proč je soukromí v AI tak důležité?

Soukromí v AI je tak důležité, z velké části proto, že AI v našem světě neexistuje bez dat. Data, i když jsou užitečnou abstrakcí, jsou v konečném důsledku něčím, co popisuje lidi a jejich chování. Málokdy pracujeme s údaji o populacích stromů a hladinách vody; takže kdykoli pracujeme s něčím, co může ovlivnit skutečné lidi, musíme si toho být vědomi a rozumět tomu, jak může náš systém dělat dobro nebo škodit. To platí zejména pro umělou inteligenci, kde mnoho systémů těží z obrovského množství dat nebo doufá, že využijí vysoce citlivá data (jako jsou zdravotní data), aby se pokusily vyvinout nové chápání našeho světa.

Jakými způsoby jste viděli, že strojové učení zradilo soukromí uživatelů?

Zrazený je silné slovo. Kdykoli však systém použije informace o lidech bez jejich souhlasu, aniž by je informoval, a aniž by zvážil možné škody, vystavuje se riziku, že zradí normy ochrany soukromí jednotlivce nebo společnosti. V podstatě to má za následek zradu tisíci drobných řezů. Takovými praktikami mohou být školení modelu na e-mailových schránkách uživatelů, školení na textových zprávách uživatelů nebo na zdravotních údajích; to vše bez informování subjektů o údajích.

Mohl byste definovat, co je rozdílné soukromí a jaké jsou vaše názory na něj?

Diferenciální soukromí je definice nebo technika, která se dostala do popředí z hlediska použití pro dosažení technického soukromí. Technické definice soukromí obecně zahrnují dva klíčové aspekty; co je chráněno a před kým. V rámci technického soukromí jsou záruky soukromí ochrany, kterých je dosaženo za předpokladu splnění řady předpokladů. Tyto předpoklady se mohou týkat potenciálních protivníků, složitosti systému nebo statistik. Je to neuvěřitelně užitečná technika, která má širokou škálu aplikací. Je však důležité mít na paměti, že rozdílné soukromí není ekvivalentem soukromí.

Soukromí není omezeno na jednu definici nebo koncept a je důležité si být vědom i dalších pojmů. Například kontextová integrita, což je koncepční pojem soukromí, který odpovídá za věci, jako je to, jak různé aplikace nebo různé organizace mění vnímání soukromí jednotlivce s ohledem na situaci. Existují také právní pojmy soukromí, jako jsou ty, které zahrnují kanadské PIPEDA, evropské GDPR a kalifornský zákon na ochranu spotřebitele (CCPA). To vše znamená, že nemůžeme zacházet s technickými systémy, jako by existovaly ve vzduchoprázdnu bez jiných faktorů ochrany soukromí, i když se používá rozdílné soukromí.

Dalším typem strojového učení zvyšujícího soukromí je federované učení, jak byste definovali, co to je, a jaké jsou vaše názory na to?

Federované učení je způsob provádění strojového učení, když má být model trénován na kolekci datových sad, které jsou distribuovány mezi několika vlastníky nebo umístěními. Ve své podstatě nejde o typ strojového učení zvyšujícího soukromí. Typ strojového učení zvyšujícího soukromí musí formálně definovat, co je chráněno, před kým je chráněn a podmínky, které musí být splněny, aby tato ochrana platila. Když například uvažujeme o jednoduchém diferenciálně soukromém výpočtu, zaručuje to, že někdo, kdo si prohlíží výstup, nebude schopen určit, zda byl určitý datový bod připsán či nikoli.

Rozdílné soukromí navíc tuto záruku neposkytuje, pokud například existuje korelace mezi datovými body. Federované učení tuto funkci nemá; jednoduše trénuje model na sbírce dat, aniž by držitelé těchto dat vyžadovali, aby si své datové sady přímo poskytli navzájem nebo třetí straně. I když to zní jako funkce ochrany osobních údajů, je zapotřebí formální záruka, že se nelze dozvědět chráněné informace s ohledem na zprostředkovatele a výstupy, které budou nedůvěryhodné strany pozorovat. Tato formalita je zvláště důležitá ve federovaném prostředí, kde mezi nedůvěryhodné strany patří každý, kdo poskytuje data pro trénování kolektivního modelu.

Jaká jsou některá ze současných omezení těchto přístupů?

Současná omezení by se dala nejlépe popsat jako povaha kompromisu mezi soukromím a nástrojem. I když uděláte všechno ostatní, sdělíte dopady na soukromí těm, kterých se to týká, vyhodnotíte systém z hlediska toho, co se snažíte udělat atd., stále jde o dosažení dokonalého soukromí, což znamená, že systém nevytváříme my, dosažení dokonalého užitku bude obecně nemají žádnou ochranu soukromí, takže otázkou je, jak určíme, co je „ideální“ kompromis. Jak najdeme správný bod zlomu a postavíme se k němu tak, abychom stále dosahovali požadované funkčnosti a zároveň poskytovali potřebnou ochranu soukromí.

V současné době se zaměřujete na vývoj technologie ochrany soukromí pro uživatele prostřednictvím paralelního studia technických řešení pro soukromé výpočty. Mohl byste uvést podrobnosti o některých z těchto řešení?

Těmito řešeními mám na mysli to, že můžeme, volně řečeno, vyvinout libovolný počet technických systémů ochrany soukromí. Přitom je však důležité určit, zda záruky ochrany soukromí dosahují těch, na které se vztahuje. To může znamenat vytvoření systému po zjištění, jaké druhy ochrany si populace cení. To může znamenat aktualizaci systému po zjištění, jak lidé skutečně používají systém s ohledem na jejich reálné hrozby a rizika. Technickým řešením by mohl být správný systém, který splňuje definici, kterou jsem uvedl dříve. Uživatelsky uvědomělé řešení by navrhlo svůj systém na základě vstupů od uživatelů a dalších, které se týkají zamýšlené aplikační domény.

V současné době hledáte postgraduální studenty se zájmem, abyste mohli začít v září 2024, proč si myslíte, že by se studenti měli zajímat o soukromí AI?

Myslím, že by to studenty mělo zajímat, protože je to něco, co v naší společnosti jen poroste ve své všudypřítomnosti. Abychom měli nějakou představu o tom, jak rychle tyto systémy nehledají dál než k nedávnému rozšíření Chat-GPT prostřednictvím novinových článků, sociálních médií a debat o jeho důsledcích. Žijeme ve společnosti, kde je shromažďování a používání dat natolik zakořeněno v našem každodenním životě, že téměř neustále poskytujeme informace o sobě různým společnostem a organizacím. Tyto společnosti chtějí data využít v některých případech ke zlepšení svých služeb, v jiných k zisku. V tuto chvíli se zdá nereálné si myslet, že se tyto podnikové postupy využívání dat změní. Existence systémů na ochranu soukromí, které chrání uživatele a přitom stále umožňují určité analýzy požadované společnostmi, může pomoci vyvážit kompromis mezi rizikem a odměnami, který se stal tak implicitní součástí naší společnosti.

Děkujeme za skvělý rozhovor, čtenáři, kteří mají zájem dozvědět se více, by měli navštívit Stránka Github Bailey Kacsmar.