заглушки Что такое дифференциальная конфиденциальность? - Unite.ИИ
Свяжитесь с нами:

Artificial Intelligence

Что такое дифференциальная конфиденциальность? 

обновленный on

Мы живем в эпоху больших данных, которая привлекла еще больше внимания к теме конфиденциальности данных. Люди производят невероятное количество данных каждую секунду, и компании используют эти данные для самых разных приложений. С беспрецедентным темпом хранения и обмена данными должно быть больше методов защиты конфиденциальности. 

Дифференциальная конфиденциальность — один из таких подходов к защите персональных данных, и он оказался более эффективным, чем многие из наших традиционных методов. Его можно определить как систему публичного обмена информацией о наборе данных путем описания шаблонов групп в наборе данных при сокрытии информации об отдельных лицах в наборе данных. 

Дифференциальная конфиденциальность позволяет исследователям и аналитикам баз данных получать ценную информацию из баз данных без разглашения личной идентификационной информации о лицах. Это очень важно, так как многие базы данных содержат разнообразную личную информацию. 

Другой взгляд на дифференциальную конфиденциальность заключается в том, что она создает анонимные данные путем добавления шума в наборы данных. Введенный шум помогает защитить конфиденциальность, оставаясь при этом достаточно ограниченным, чтобы аналитики могли надежно использовать данные. 

У вас может быть два почти идентичных набора данных. Один с вашей личной информацией и один без нее. Благодаря дифференциальной конфиденциальности вы можете гарантировать, что вероятность того, что статистический запрос даст заданный результат, одинакова, независимо от того, в какой базе данных он выполняется.

Как работает дифференциальная конфиденциальность? 

Дифференциальная конфиденциальность работает путем введения в набор данных параметра потери конфиденциальности или бюджета конфиденциальности, который часто обозначается как эпсилон (ε). Эти параметры контролируют, сколько шума или случайностей добавляется к необработанному набору данных. 

Например, представьте, что у вас есть столбец в наборе данных с ответами «Да»/«Нет» от отдельных лиц. 

Теперь предположим, что вы подбрасываете монетку для каждого человека: 

  • Руководители: ответ оставлен как есть.
  • Хвосты: вы переворачиваете второй раз, записывая ответ как «Да», если решка, и «Нет», если решка, независимо от реального ответа. 

Используя этот процесс, вы добавляете случайность к данным. При большом объеме данных и информации от механизма добавления шума набор данных будет оставаться точным с точки зрения совокупных измерений. Конфиденциальность обеспечивается тем, что каждый человек может правдоподобно отрицать свой реальный ответ благодаря процессу рандомизации. 

Хотя это упрощенный пример дифференциальной конфиденциальности, он обеспечивает базовый уровень понимания. В реальных приложениях алгоритмы более сложны. 

Также важно отметить, что дифференциальная конфиденциальность может быть реализована локально, когда помехи добавляются к отдельным данным до того, как они будут централизованы в базе данных, или глобально, когда помехи добавляются к необработанным данным после того, как они получены от отдельных лиц. 

Примеры дифференциальной конфиденциальности

Дифференциальная конфиденциальность применяется в широком спектре приложений, таких как системы рекомендаций, социальные сети и службы на основе местоположения. 

Вот несколько примеров того, как крупные компании полагаются на дифференциальную конфиденциальность: 

  • Apple использует этот метод для сбора анонимной информации об использовании таких устройств, как iPhone и Mac.

  • что его цель использует дифференциальную конфиденциальность для сбора поведенческих данных, которые можно использовать для целевых рекламных кампаний.

  • Amazon полагается на технику, чтобы получить представление о персонализированных покупательских предпочтениях, скрывая при этом конфиденциальную информацию. 

Apple была особенно прозрачна в использовании дифференцированной конфиденциальности, чтобы получить представление о пользователях, сохраняя при этом их конфиденциальность. 

«Apple приняла и усовершенствовала технику, известную в академическом мире как локальная дифференциальная конфиденциальность сделать что-то действительно захватывающее: получить представление о том, что делают многие пользователи Apple, помогая сохранить конфиденциальность отдельных пользователей. Это метод, который позволяет Apple узнавать о сообществе пользователей, не узнавая об отдельных людях в сообществе. Дифференциальная конфиденциальность преобразует информацию, передаваемую Apple, еще до того, как она покинет устройство пользователя, так что Apple никогда не сможет воспроизвести истинные данные».

 – Дифференциальный обзор конфиденциальности Apple 

Приложения дифференциальной конфиденциальности

Поскольку мы живем в эпоху больших данных, существует множество утечек данных, которые угрожают правительствам, организациям и компаниям. В то же время современные приложения машинного обучения полагаются на методы обучения, требующие больших объемов обучающих данных, часто поступающих от отдельных лиц. Исследовательские учреждения также используют и обмениваются данными с конфиденциальной информацией. Неправильное раскрытие этих данных каким-либо образом может вызвать множество проблем как для физического лица, так и для организации, а в тяжелых случаях может привести к гражданской ответственности. 

Формальные модели конфиденциальности, такие как дифференциальная конфиденциальность, решают все эти проблемы. Они используются для защиты личной информации, определения местоположения в реальном времени и многого другого. 

Используя дифференциальную конфиденциальность, компании могут получить доступ к большому количеству конфиденциальных данных для исследований или бизнеса без ущерба для данных. Исследовательские учреждения также могут разрабатывать специальные технологии дифференциальной конфиденциальности для автоматизации процессов конфиденциальности в сообществах, использующих облачные ресурсы, которые становятся все более популярными. 

Зачем использовать дифференциальную конфиденциальность? 

Дифференциальная конфиденциальность предлагает несколько основных свойств, которые делают ее отличной основой для анализа личных данных при обеспечении конфиденциальности: 

  • Количественная оценка потери конфиденциальности: Механизмы и алгоритмы дифференциальной конфиденциальности могут измерять потерю конфиденциальности, что позволяет сравнивать их с другими методами.

  • Состав: Поскольку вы можете количественно оценить потерю конфиденциальности, вы также можете анализировать и контролировать ее с помощью нескольких вычислений, что позволяет разрабатывать различные алгоритмы.

  • Групповая конфиденциальность: Помимо индивидуального уровня, дифференциальная конфиденциальность позволяет анализировать и контролировать потерю конфиденциальности среди более крупных групп.

  • Безопасность в постобработке: Постобработка не может повредить дифференциальной конфиденциальности. Например, аналитик данных не может вычислить функцию выходных данных дифференциального частного алгоритма и сделать ее менее дифференциальной частной. 

Преимущества дифференциальной конфиденциальности

Как мы упоминали ранее, дифференциальная конфиденциальность лучше, чем многие традиционные методы конфиденциальности. Например, если вся доступная информация является идентифицированной, дифференциальная конфиденциальность упрощает идентификацию всех элементов данных. Он также устойчив к атакам на конфиденциальность на основе вспомогательной информации, предотвращая атаки, которые могут быть выполнены на деидентифицированных данных. 

Одним из самых больших преимуществ дифференциальной конфиденциальности является то, что она композиционна, что означает, что вы можете вычислить потерю конфиденциальности при проведении двух дифференциально конфиденциальных анализов одних и тех же данных. Это делается путем суммирования индивидуальных потерь конфиденциальности для двух анализов. 

В то время как дифференциальная конфиденциальность является новым инструментом, и его может быть трудно реализовать за пределами исследовательских сообществ, простые в реализации решения для конфиденциальности данных становятся все более доступными. В ближайшем будущем мы должны увидеть все большее число таких решений, доступных для широкой публики. 

Алекс МакФарланд — журналист и писатель, занимающийся искусственным интеллектом. Он сотрудничал с многочисленными стартапами и публикациями в области искусственного интеллекта по всему миру.