Connect with us

Искусственный интеллект

Что такое дифференциальная конфиденциальность?

mm

Мы живем в эпоху больших данных, которая еще больше привлекла внимание к теме конфиденциальности данных. Люди производят невероятное количество данных каждую секунду, и компании используют эти данные для широкого спектра приложений. С хранением и обменом данных в беспрецедентном темпе, необходимы более эффективные методы защиты конфиденциальности.

Дифференциальная конфиденциальность – это один из подходов к защите персональных данных, и он оказался более эффективным, чем многие традиционные методы. Его можно определить как систему для публичного обмена информацией о наборе данных, описывая закономерности групп внутри набора данных, при этом скрывая информацию об отдельных лицах в наборе данных.

Дифференциальная конфиденциальность позволяет исследователям и аналитикам баз данных получать ценную информацию из баз данных без раскрытия личной идентификационной информации об отдельных лицах. Это крайне важно, поскольку многие базы данных содержат разнообразную личную информацию.

Другой способ рассматривать дифференциальную конфиденциальность – это создание анонимных данных путем введения шума в наборы данных. Введенный шум помогает защитить конфиденциальность, при этом ограничивая возможность аналитиков использовать данные.

У вас могут быть два почти идентичных набора данных. Один с вашей личной информацией и один без нее. С дифференциальной конфиденциальностью вы можете обеспечить, чтобы вероятность того, что статистический запрос произведет определенный результат, была одинаковой независимо от того, в какой базе данных он выполняется.

Как работает дифференциальная конфиденциальность?

Дифференциальная конфиденциальность работает путем введения параметра потери конфиденциальности или бюджета конфиденциальности, который часто обозначается как эпсилон (ε), в набор данных. Эти параметры контролируют, сколько шума или случайности добавляется к сырым данным.

Например, представьте, что у вас есть столбец в наборе данных с ответами “Да”/”Нет” от отдельных лиц.

Теперь предположим, что вы подбрасываете монету для каждого отдельного лица:

  • Орёл: ответ остается без изменений.
  • Решка: вы подбрасываете монету еще раз, записывая ответ как “Да”, если орёл, и “Нет”, если решка, независимо от реального ответа.

Используя этот процесс, вы добавляете случайность к данным. С большим количеством данных и информацией из механизма добавления шума, набор данных останется точным в плане агрегированных измерений. Конфиденциальность обеспечивается путем предоставления каждому отдельному лицу возможности плausibly отрицать свой реальный ответ благодаря процессу рандомизации.

Хотя это простой пример дифференциальной конфиденциальности, он обеспечивает базовый уровень понимания. В реальных приложениях алгоритмы более сложны.

Также важно отметить, что дифференциальная конфиденциальность может быть реализована локально, где шум добавляется к индивидуальным данным до их централизации в базе данных, или глобально, где шум добавляется к сырым данным после их сбора от отдельных лиц.

Примеры дифференциальной конфиденциальности

Дифференциальная конфиденциальность применяется в широком спектре приложений, таких как системы рекомендаций, социальные сети и сервисы, основанные на местоположении.

Вот некоторые примеры того, как крупные компании полагаются на дифференциальную конфиденциальность:

  • Apple использует этот метод для сбора анонимных сведений об использовании устройств, таких как iPhone и Mac.

  • Facebook использует дифференциальную конфиденциальность для сбора поведенческих данных, которые можно использовать для целевых рекламных кампаний.

  • Amazon полагается на эту технику, чтобы получить представление о персонализированных предпочтениях покупателей, скрывая при этом чувствительную информацию.

Apple была особенно прозрачна в отношении использования дифференциальной конфиденциальности для получения информации о пользователях, сохраняя при этом их конфиденциальность.

“Apple приняла и дальше разработала технику, известную в академическом мире как локальная дифференциальная конфиденциальность, чтобы сделать что-то действительно интересное: получить представление о том, что делают многие пользователи Apple, помогая при этом сохранить конфиденциальность отдельных пользователей. Это техника, которая позволяет Apple узнать о сообществе пользователей, не узнавая об отдельных лицах в этом сообществе. Дифференциальная конфиденциальность преобразует информацию, обменуемую с Apple, до того, как она покинет устройство пользователя, так, что Apple никогда не сможет воспроизвести истинные данные.”

Обзор дифференциальной конфиденциальности Apple

Применения дифференциальной конфиденциальности

Поскольку мы живем в эпоху больших данных, существует много утечек данных, которые угрожают правительствам, организациям и компаниям. В то же время современные приложения машинного обучения полагаются на методы обучения, которые требуют больших объемов обучающих данных, часто поступающих от отдельных лиц. Исследовательские учреждения также используют и делятся данными с конфиденциальной информацией. Неправильное раскрытие этих данных любым способом может вызвать много проблем как для отдельных лиц, так и для организаций, и в тяжелых случаях может привести к гражданской ответственности.

Формальные модели конфиденциальности, такие как дифференциальная конфиденциальность, решают все эти проблемы. Они используются для защиты персональной информации, реального местоположения и многое другое.

Используя дифференциальную конфиденциальность, компании могут получить доступ к большому количеству чувствительных данных для исследований или бизнеса без компрометации данных. Исследовательские учреждения также могут разработать конкретные технологии дифференциальной конфиденциальности для автоматизации процессов конфиденциальности в облачных сообществах, которые становятся все более популярными.

Почему использовать дифференциальную конфиденциальность?

Дифференциальная конфиденциальность предлагает несколько основных свойств, которые делают ее отличной основой для анализа частных данных, обеспечивая при этом конфиденциальность:

  • Количественная оценка потери конфиденциальности: механизмы и алгоритмы дифференциальной конфиденциальности могут измерять потерю конфиденциальности, что позволяет сравнивать ее с другими методами.

  • Композиция: поскольку можно количественно оценить потерю конфиденциальности, можно также анализировать и контролировать ее при нескольких вычислениях, что позволяет разрабатывать различные алгоритмы.

  • Групповая конфиденциальность: помимо индивидуального уровня, дифференциальная конфиденциальность позволяет анализировать и контролировать потерю конфиденциальности среди более крупных групп.

  • Безопасность в постобработке: дифференциальная конфиденциальность не может быть скомпрометирована постобработкой. Например, аналитик данных не может вычислить функцию вывода алгоритма дифференциальной конфиденциальности и сделать его менее дифференциально конфиденциальным.

Преимущества дифференциальной конфиденциальности

Как мы упоминали ранее, дифференциальная конфиденциальность лучше, чем многие традиционные методы конфиденциальности. Например, если вся доступная информация является идентифицируемой информацией, дифференциальная конфиденциальность делает ее проще определить все элементы данных. Она также устойчива к атакам на конфиденциальность на основе вспомогательной информации, предотвращая атаки, которые могут быть совершены на деидентифицированных данных.

Одним из величайших преимуществ дифференциальной конфиденциальности является то, что она является композиционной, то есть можно вычислить потерю конфиденциальности при проведении двух различных анализов дифференциальной конфиденциальности над одними и теми же данными. Это делается путем суммирования индивидуальных потерь конфиденциальности для двух анализов.

Хотя дифференциальная конфиденциальность является новым инструментом и может быть трудна для достижения вне исследовательских сообществ, простые в реализации решения для защиты данных становятся все более доступными. В ближайшем будущем мы должны увидеть растущее количество этих решений, доступных более широкой общественности.

Алекс Макфарленд - журналист и писатель в области искусственного интеллекта, исследующий последние разработки в этой области. Он сотрудничал с многочисленными стартапами и изданиями в области искусственного интеллекта во всем мире.