stub Trzy techniki uczenia maszynowego chroniące prywatność rozwiązujące najważniejszy problem tej dekady — Unite.AI
Kontakt z nami

Liderzy myśli

Trzy techniki uczenia maszynowego chroniące prywatność rozwiązujące najważniejszy problem tej dekady

mm

Opublikowany

 on

Autor: Amogh Tarcar, badacz uczenia maszynowego i sztucznej inteligencji, Trwałe systemy.

Zdaniem ekspertów z wielu dziedzin, ochrona danych będzie najważniejsza najważniejszą sprawą tej dekady. Jest to szczególnie prawdziwe w przypadku uczenia maszynowego (ML), w którym algorytmy otrzymują ogromne ilości danych.

Tradycyjnie techniki modelowania ML opierały się na centralizacji danych z wielu źródeł w jednym centrum danych. W końcu modele uczenia maszynowego są najskuteczniejsze, gdy mają dostęp do ogromnych ilości danych. Technika ta wiąże się jednak z wieloma wyzwaniami związanymi z prywatnością. Agregowanie różnorodnych danych z wielu źródeł jest obecnie mniej wykonalne ze względu na kwestie regulacyjne, takie jak HIPAA, RODO i CCPA. Ponadto centralizacja danych zwiększa zakres i skalę niewłaściwego wykorzystania danych oraz zagrożeń bezpieczeństwa w postaci wycieków danych.

Aby stawić czoła tym wyzwaniom, opracowano kilka filarów uczenia maszynowego chroniącego prywatność (PPML) obejmujących określone techniki, które zmniejszają ryzyko prywatności i zapewniają w miarę bezpieczne bezpieczeństwo danych. Oto kilka najważniejszych:

1. Sfederowane uczenie się

Sfederowane uczenie się to technika uczenia maszynowego, która odwraca problem agregacji danych do góry nogami. Zamiast agregować dane w celu utworzenia pojedynczego modelu uczenia maszynowego, stowarzyszone uczenie się agreguje samodzielnie modele uczenia maszynowego. Gwarantuje to, że dane nigdy nie opuszczą lokalizacji źródłowej, a także umożliwia wielu stronom współpracę i budowanie wspólnego modelu uczenia maszynowego bez bezpośredniego udostępniania wrażliwych danych.

To działa w ten sposób. Zaczynasz od podstawowego modelu uczenia maszynowego, który jest następnie udostępniany każdemu węzłowi klienta. Węzły te następnie przeprowadzają lokalne szkolenie w zakresie tego modelu, korzystając z własnych danych. Aktualizacje modelu są okresowo udostępniane węzłowi koordynatorowi, który przetwarza te aktualizacje i łączy je w celu uzyskania nowego modelu globalnego. W ten sposób możesz uzyskać szczegółowe informacje z różnych zbiorów danych bez konieczności ich udostępniania.

Źródło: Systemy trwałe

W kontekście opieki zdrowotnej jest to niezwykle potężne i uwzględniające prywatność narzędzie, które zapewnia bezpieczeństwo danych pacjentów, a jednocześnie zapewnia naukowcom mądrość ogółu. Dzięki temu, że dane nie są agregowane, stowarzyszone uczenie się tworzy dodatkową warstwę bezpieczeństwa. Jednak same modele i aktualizacje modeli nadal stanowią zagrożenie dla bezpieczeństwa, jeśli zostaną podatne na ataki.

2. Prywatność różnicowa

Modele uczenia maszynowego są często celem ataków polegających na wnioskowaniu o członkostwie. Załóżmy, że miałeś udostępnić szpitalowi dane dotyczące swojego zdrowia, aby pomóc w opracowaniu szczepionki przeciwnowotworowej. Szpital dba o bezpieczeństwo Twoich danych, ale wykorzystuje stowarzyszone uczenie się do uczenia publicznie dostępnego modelu uczenia maszynowego. Kilka miesięcy później hakerzy wykorzystują atak polegający na wnioskowaniu o członkostwie, aby ustalić, czy Twoje dane zostały wykorzystane w szkoleniu modelu, czy nie. Następnie przekazują swoje spostrzeżenia firmie ubezpieczeniowej, która na podstawie ryzyka zachorowania na raka może podnieść składki.

Prywatność różnicowa gwarantuje, że ataki przeciwnika na modele uczenia maszynowego nie będą w stanie zidentyfikować konkretnych punktów danych używanych podczas szkolenia, zmniejszając w ten sposób ryzyko ujawnienia wrażliwych danych szkoleniowych w uczeniu maszynowym. Odbywa się to poprzez zastosowanie „szumu statystycznego” w celu zakłócenia danych lub parametrów modelu uczenia maszynowego podczas uczenia modeli, co utrudnia przeprowadzanie ataków i ustalanie, czy do uczenia modelu wykorzystano dane konkretnej osoby.

Na przykład niedawno udostępniony Facebook Nieprzezroczysty, szybka biblioteka do uczenia modeli PyTorch przy użyciu algorytmu szkoleniowego uczenia maszynowego opartego na różnicowej prywatności o nazwie Differentially Private Stochastic Gradient Descent (DP-SGD). Poniższy gif pokazuje, jak wykorzystuje szum do maskowania danych.

 

Szum ten jest regulowany przez parametr zwany Epsilon. Jeśli wartość Epsilon jest niska, model charakteryzuje się doskonałą prywatnością danych, ale słabą użytecznością i dokładnością. I odwrotnie, jeśli masz wysoką wartość Epsilon, prywatność danych spadnie, a dokładność wzrośnie. Sztuka polega na znalezieniu równowagi i zoptymalizowaniu obu rozwiązań.

3. Szyfrowanie homomorficzne

Standardowe szyfrowanie jest tradycyjnie niezgodne z uczeniem maszynowym, ponieważ zaszyfrowane dane nie mogą być już zrozumiane przez algorytm ML. Jednak szyfrowanie homomorficzne to specjalny schemat szyfrowania, który pozwala nam kontynuować wykonywanie określonych typów obliczeń.

Źródło: OpenMined

Zaletą tego jest to, że szkolenie może odbywać się w całkowicie zaszyfrowanej przestrzeni. Chroni nie tylko właścicieli danych, ale także właścicieli modeli. Właściciel modelu może wnioskować na podstawie zaszyfrowanych danych, nie widząc ich ani niewłaściwie wykorzystując.

W przypadku zastosowania do uczenia stowarzyszonego fuzja aktualizacji modeli może odbywać się w sposób bezpieczny, ponieważ odbywa się w całkowicie zaszyfrowanym środowisku, co drastycznie zmniejsza ryzyko ataków polegających na wnioskowaniu o członkostwie.

Dekada prywatności

Wkraczamy w rok 2021. Uczenie maszynowe chroniące prywatność staje się wyłaniającą się dziedziną, w której prowadzone są niezwykle aktywne badania. Jeśli ostatnia dekada dotyczyła usuwania danych z silosu, ta dekada będzie dotyczyć usuwania modeli uczenia maszynowego przy jednoczesnym zachowaniu prywatności danych bazowych poprzez uczenie się stowarzyszone, prywatność różnicową i szyfrowanie homomorficzne. Stanowią one obiecujący nowy sposób udoskonalania rozwiązań uczenia maszynowego w sposób dbający o prywatność.

Amogh jest badaczem uczenia maszynowego i członkiem laboratorium badawczego AI pod adresem Trwałe systemy. Jego obecne badania skupiają się na aplikacjach Federated Learning i budowaniu narzędzi NLP do ekstrakcji wiedzy.