Connect with us

Штучний інтелект

Що таке диференціальна приватність?

mm

Ми живемо в епоху великих даних, яка ще більше сфокусувала увагу на темі захисту даних. Люди виробляють неймовірну кількість даних кожну секунду, і компанії використовують ці дані для широкого спектра застосувань. З урахуванням зберігання та обміну даними в безпрецедентному темпі, необхідно застосовувати більше технік захисту приватності.

Диференціальна приватність – це один із підходів до захисту персональних даних, і вона виявилася більш ефективною, ніж багато наших традиційних методів. Її можна визначити як систему публічного обміну інформацією про набір даних шляхом опису закономірностей груп у наборі даних, одночасно утримуючи інформацію про окремих осіб у наборі даних.

Диференціальна приватність дозволяє дослідникам і аналітикам баз даних отримувати цінну інформацію з баз даних без розголошення особистої ідентифікаційної інформації про окремих осіб. Це критично важливо, оскільки багато баз даних містять різноманітну особисту інформацію.

Інший спосіб погляду на диференціальну приватність полягає в тому, що вона створює анонімні дані шляхом введення шуму в набори даних. Введений шум допомагає захистити приватність, одночасно залишаючись достатньо обмеженим, щоб аналітики могли надійно використовувати дані.

У вас можуть бути два майже ідентичні набори даних. Один з вашою особистою інформацією, а інший без неї. З диференціальною приватністю ви можете забезпечити, щоб імовірність того, що статистичний запит видасть певний результат, була однакова незалежно від того, на якому базі даних він виконаний.

Як працює диференціальна приватність? 

Диференціальна приватність працює шляхом введення параметра втрати приватності або бюджету приватності, часто позначеного як епсилон (ε), до набору даних. Ці параметри контролюють, скільки шуму або випадковості додається до сурового набору даних.

Наприклад, уявіть, що у вас є стовпець у наборі даних з відповідями “Так” / “Ні” від окремих осіб.

Тепер припустимо, що ви підкидаєте монету для кожного окремого особи: 

  • Орел: відповідь залишається незмінною.
  • Решка: ви підкидаєте другу монету, записуючи відповідь як “Так”, якщо орел, і “Ні”, якщо решка, незалежно від справжньої відповіді. 

За допомогою цього процесу ви додаєте випадковість до даних. З великою кількістю даних і інформацією з механізму додавання шуму набір даних залишається точним щодо агрегатних вимірювань. Приватність полягає в тому, що кожна окрема особа може плідно заперечувати свою справжню відповідь завдяки процесу рандомізації.

Хоча це простий приклад диференціальної приватності, він забезпечує базове розуміння. У реальних застосунках алгоритми складніші.

Також важливо відзначити, що диференціальну приватність можна реалізувати локально, де шум додається до індивідуальних даних до того, як вони будуть централізовані в базі даних, або глобально, де шум додається до сурових даних після їх збору з окремих осіб.

Приклади диференціальної приватності

Диференціальна приватність застосовується в широкому спектрі застосувань, таких як системи рекомендацій, соціальні мережі та послуги, засновані на місці.

Ось деякі приклади того, як великі компанії покладаються на диференціальну приватність: 

  • Apple використовує цей метод для збору анонімних даних про використання з пристроїв, таких як iPhone та Mac.

  • Facebook використовує диференціальну приватність для збору поведінкових даних, які можна використовувати для цільових рекламних кампаній.

  • Amazon покладається на цю техніку, щоб отримати уявлення про персоналізовані вподобання покупців, одночасно ховаючи чутливу інформацію. 

Apple особливо прозоро повідомила про використання диференціальної приватності для отримання інформації про користувачів, одночасно зберігаючи їх приватність. 

“Apple прийняла і подальше розвинула техніку, відому в академічному світі як локальна диференціальна приватність, щоб зробити щось дуже цікаве: отримати уявлення про те, що роблять багато користувачів Apple, одночасно допомагаючи зберегти приватність окремих користувачів. Це техніка, яка дозволяє Apple дізнатися про спільноту користувачів, не дізнавшись про окремих осіб у цій спільноті. Диференціальна приватність перетворює інформацію, яку обмінюється з Apple, до того, як вона залишить пристрій користувача, так, що Apple ніколи не зможе відтворити справжні дані.”

 – Огляд диференціальної приватності Apple 

Застосування диференціальної приватності

Оскільки ми живемо в цій епохі великих даних, існує багато порушень даних, які загрожують урядам, організаціям і компаніям. Водночас сучасні застосунки машинного навчання залежать від методів навчання, які вимагають великої кількості навчальних даних, часто отриманих від окремих осіб. Дослідницькі установи також використовують і діляться даними з конфіденційною інформацією. Неправильне розголошення цих даних якимось чином може викликати багато проблем як для окремої особи, так і для організації, а в серйозних випадках це може привести до цивільної відповідальності. 

Формальні моделі приватності, такі як диференціальна приватність, вирішують всі ці проблеми. Вони використовуються для захисту особистої інформації, інформації про місце знаходження в реальному часі та іншого.

Використовуючи диференціальну приватність, компанії можуть отримати доступ до великої кількості чутливих даних для дослідження або бізнесу без компрометації даних. Дослідницькі установи також можуть розробити конкретні технології диференціальної приватності для автоматизації процесів приватності в спільнотах обміну в хмарі, які стають все популярнішими. 

Чому використовувати диференціальну приватність? 

Диференціальна приватність пропонує кілька основних властивостей, які роблять її відмінною основою для аналізу приватних даних, одночасно забезпечуючи приватність: 

  • Квантифікація втрати приватності: Механізми та алгоритми диференціальної приватності можуть вимірювати втрату приватності, що дозволяє порівнювати її з іншими техніками.

  • Композиція: Оскільки ви можете квантифікувати втрату приватності, ви також можете аналізувати і контролювати її над кількома обчисленнями, що дозволяє розробляти різні алгоритми.

  • Груповий захист приватності: Крім індивідуального рівня, диференціальна приватність дозволяє аналізувати і контролювати втрату приватності серед більших груп.

  • Безпека після обробки: Диференціальна приватність не може бути пошкоджена після обробки. Наприклад, аналітик даних не може обчислити функцію виводу алгоритму диференціальної приватності і зробити його менш диференційно приватним. 

Переваги диференціальної приватності

Як ми вже згадували, диференціальна приватність краща, ніж багато традиційних технік приватності. Наприклад, якщо вся доступна інформація є ідентифікованою інформацією, диференціальна приватність робить її легшою для ідентифікації всіх елементів даних. Вона також стійка до атак на приватність, заснованих на допоміжній інформації, що запобігає атакам, які можуть бути здійснені на деідентифіковані дані. 

Однією з найбільших переваг диференціальної приватності є те, що вона є композиційною, тобто ви можете обчислити втрату приватності проведення двох різних диференційно приватних аналізів над одними й тими ж даними. Це робиться шляхом сумування індивідуальних втрат приватності для двох аналізів. 

Хоча диференціальна приватність є новим інструментом і може бути складною для реалізації поза дослідницькими спільнотами, легші у реалізації рішення для захисту даних стають все більш доступними. У найближчому майбутньому ми повинні побачити зростаючу кількість цих рішень, доступних широкій громадськості. 

Алекс Макфарленд - журналіст та письменник з питань штучного інтелекту, який досліджує останні розробки в галузі штучного інтелекту. Він співпрацював з численними стартапами та виданнями з штучного інтелекту у світі.