заглушки Що таке диференціальна конфіденційність? - Об'єднуйтесь.AI
Зв'язатися з нами

Штучний Інтелект

Що таке диференціальна конфіденційність? 

оновлений on

Ми живемо в епоху великих даних, яка привернула ще більше уваги до теми конфіденційності даних. Люди створюють неймовірну кількість даних щосекунди, і компанії використовують ці дані для широкого спектру застосувань. У зв’язку з безпрецедентними темпами зберігання та обміну даними, має бути більше методів захисту конфіденційності. 

Диференційована конфіденційність є одним із таких підходів до захисту особистих даних, і він виявився ефективнішим, ніж багато наших традиційних методів. Його можна визначити як систему публічного обміну інформацією про набір даних шляхом опису моделей груп у наборі даних, приховуючи інформацію про осіб у наборі даних. 

Диференційована конфіденційність дозволяє дослідникам і аналітикам баз даних отримувати цінну інформацію з баз даних, не розголошуючи особисту ідентифікаційну інформацію про людей. Це дуже важливо, оскільки багато баз даних містять різноманітну особисту інформацію. 

Інший спосіб розгляду диференціальної конфіденційності полягає в тому, що вона створює анонімні дані шляхом введення шуму в набори даних. Введений шум допомагає захистити конфіденційність, але все ще є досить обмеженим, щоб аналітики могли надійно використовувати дані. 

Ви можете мати два майже ідентичні набори даних. Один із вашою особистою інформацією, інший без неї. Завдяки диференціальній конфіденційності ви можете переконатися, що ймовірність того, що статистичний запит дасть певний результат, буде однаковою незалежно від того, у якій базі даних він виконується.

Як працює диференційована конфіденційність? 

Диференціальна конфіденційність працює шляхом введення в набір даних втрати конфіденційності або параметра бюджету конфіденційності, який часто позначається як епсилон (ε). Ці параметри контролюють, скільки шуму або випадковості додається до необробленого набору даних. 

Наприклад, уявіть, що у наборі даних є стовпець із відповідями окремих осіб «Так»/«Ні». 

А тепер припустімо, що ви кидаєте монету за кожного: 

  • Голови: відповідь залишаємо як є.
  • Хвости: ви повертаєте другий раз, записуючи відповідь як «Так», якщо орли, і «Ні», якщо решки, незалежно від справжньої відповіді. 

Використовуючи цей процес, ви додаєте дані випадковості. З великою кількістю даних та інформацією з механізму додавання шуму набір даних залишатиметься точним з точки зору сукупних вимірювань. Конфіденційність забезпечується завдяки процесу рандомізації, що дозволяє кожній окремій людині правдоподібно заперечувати свою справжню відповідь. 

Хоча це спрощений приклад диференціальної конфіденційності, він забезпечує базовий рівень розуміння. У реальних програмах алгоритми складніші. 

Важливо також відзначити, що диференціальна конфіденційність може бути реалізована локально, коли шум додається до індивідуальних даних перед тим, як вони будуть централізовані в базі даних, або глобально, коли шум додається до необроблених даних після того, як вони зібрані від окремих осіб. 

Приклади диференціальної конфіденційності

Диференційована конфіденційність застосовується до широкого спектру програм, таких як системи рекомендацій, соціальні мережі та служби на основі місцезнаходження. 

Ось кілька прикладів того, як великі компанії покладаються на диференційовану конфіденційність: 

  • Apple використовує цей метод для збору анонімних даних про використання таких пристроїв, як iPhone та Mac.

  • Facebook використовує диференціальну конфіденційність для збору поведінкових даних, які можна використовувати для цільових рекламних кампаній.

  • Amazon покладається на техніку, щоб отримати інформацію про персоналізовані переваги покупок, приховуючи конфіденційну інформацію. 

Apple була особливо прозорою щодо використання диференційованої конфіденційності, щоб отримати інформацію про користувачів, зберігаючи їх конфіденційність. 

«Apple прийняла та розвинула техніку, відому в академічному світі як локальна диференційна конфіденційність щоб зробити щось справді захоплююче: отримати уявлення про те, що роблять багато користувачів Apple, допомагаючи при цьому зберегти конфіденційність окремих користувачів. Це техніка, яка дозволяє Apple дізнаватися про спільноту користувачів, не вивчаючи окремих людей у ​​спільноті. Диференційована конфіденційність перетворює інформацію, якою ділиться Apple, перш ніж вона покине пристрій користувача, таким чином Apple ніколи не зможе відтворити справжні дані».

 - Диференціальний огляд конфіденційності Apple 

Застосування диференціальної конфіденційності

Оскільки ми живемо в епоху великих даних, існує багато витоків даних, які загрожують урядам, організаціям і компаніям. У той же час сучасні програми машинного навчання покладаються на методи навчання, які вимагають великих обсягів навчальних даних, які часто надходять від окремих людей. Дослідницькі установи також використовують та обмінюються даними з конфіденційною інформацією. Неналежне розголошення цих даних у будь-який спосіб може спричинити багато проблем як для особи, так і для організації, а в серйозних випадках це може призвести до цивільної відповідальності. 

Формальні моделі конфіденційності, такі як диференційована конфіденційність, вирішують усі ці проблеми. Вони використовуються для захисту особистої інформації, визначення місцезнаходження в реальному часі тощо. 

Використовуючи диференціальну конфіденційність, компанії можуть отримати доступ до великої кількості конфіденційних даних для досліджень або бізнесу без шкоди для даних. Науково-дослідні установи також можуть розробити спеціальні диференційовані технології конфіденційності для автоматизації процесів конфіденційності в хмарних спільнотах, які стають все більш популярними. 

Навіщо використовувати диференціальну конфіденційність? 

Диференціальна конфіденційність пропонує кілька основних властивостей, які роблять її чудовою платформою для аналізу приватних даних із забезпеченням конфіденційності: 

  • Кількісна оцінка втрати конфіденційності: Диференційовані механізми та алгоритми конфіденційності можуть вимірювати втрату конфіденційності, що дає змогу порівнювати їх з іншими методами.

  • Склад: Оскільки ви можете кількісно оцінити втрату конфіденційності, ви також можете аналізувати та контролювати її за допомогою кількох обчислень, уможливлюючи розробку різних алгоритмів.

  • Конфіденційність групи: Окрім індивідуального рівня, диференціальна конфіденційність дає змогу аналізувати та контролювати втрату конфіденційності серед великих груп.

  • Безпека в постобробці: Постобробка не може завдати шкоди диференціальній конфіденційності. Наприклад, аналітик даних не може обчислити функцію результату диференціального приватного алгоритму та зробити його менш диференціально приватним. 

Переваги диференціальної конфіденційності

Як ми вже згадували раніше, диференційована конфіденційність краща за багато традиційних методів конфіденційності. Наприклад, якщо вся доступна інформація є ідентифікованою інформацією, диференціальна конфіденційність полегшує ідентифікацію всіх елементів даних. Він також стійкий до атак на конфіденційність на основі допоміжної інформації, запобігаючи атакам, які можуть бути здійснені на деідентифіковані дані. 

Одна з найбільших переваг диференціальної конфіденційності полягає в тому, що вона композиційна, тобто ви можете обчислити втрату конфіденційності в результаті проведення двох різносторонніх приватних аналізів тих самих даних. Це робиться шляхом підсумовування індивідуальних втрат конфіденційності для двох аналізів. 

Хоча диференційована конфіденційність є новим інструментом і може бути важко досягнута за межами дослідницьких спільнот, прості у реалізації рішення для конфіденційності даних стають доступнішими. Найближчим часом ми побачимо все більше таких рішень, доступних для широкої громадськості. 

Алекс МакФарланд — журналіст і письменник, що займається штучним інтелектом, досліджує останні розробки в галузі штучного інтелекту. Він співпрацював з численними стартапами та публікаціями зі штучного інтелекту по всьому світу.