заглушки Бейли Качмар, аспирант Университета Ватерлоо — серия интервью — Unite.AI
Свяжитесь с нами:

Интервью

Бейли Качмар, аспирант Университета Ватерлоо – серия интервью

mm

опубликованный

 on

Бейли Качмар — кандидат наук в Школе компьютерных наук Университета Университет Ватерлоо и новый преподаватель в Университет Альберты. Ее исследовательские интересы заключаются в разработке технологий повышения конфиденциальности, ориентированных на пользователей, путем параллельного изучения технических подходов к частным вычислениям наряду с соответствующим восприятием, проблемами и пониманием этих технологий пользователей. Ее работа направлена ​​на выявление потенциала и ограничений конфиденциальности в приложениях машинного обучения.

Ваши исследовательские интересы связаны с разработкой технологий повышения конфиденциальности, ориентированных на пользователя. Почему конфиденциальность в ИИ так важна?

Конфиденциальность в ИИ так важна, во многом потому, что ИИ в нашем мире не существует без данных. Данные, хотя и являются полезной абстракцией, в конечном счете представляют собой то, что описывает людей и их поведение. Мы редко работаем с данными о популяции деревьев и уровне воды; поэтому каждый раз, когда мы работаем с чем-то, что может повлиять на реальных людей, мы должны осознавать это и понимать, как наша система может принести пользу или вред. Это особенно верно для ИИ, где многие системы извлекают выгоду из огромных объемов данных или надеются использовать очень конфиденциальные данные (например, данные о здоровье), чтобы попытаться разработать новое понимание нашего мира.

Как вы видели, как машинное обучение предало конфиденциальность пользователей?

Предали — это сильно сказано. Однако каждый раз, когда система использует информацию о людях без их согласия, без их информирования и без учета потенциального вреда, она рискует нарушить нормы конфиденциальности отдельных лиц или общества. По сути, это приводит к предательству тысячей крошечных порезов. Такими практиками могут быть обучение модели на почтовых ящиках пользователей, обучение текстовым сообщениям пользователей или данным о состоянии здоровья; все без информирования субъектов данных.

Не могли бы вы определить, что такое дифференциальная конфиденциальность и каковы ваши взгляды на нее?  

Дифференциальная конфиденциальность — это определение или метод, получивший известность с точки зрения использования для достижения технической конфиденциальности. Технические определения конфиденциальности, вообще говоря, включают два ключевых аспекта; что охраняется и от кого. В рамках технической конфиденциальности гарантии конфиденциальности — это средства защиты, которые достигаются при соблюдении ряда предположений. Эти предположения могут касаться потенциальных противников, системных сложностей или статистических данных. Это невероятно полезная техника, которая имеет широкий спектр применения. Однако важно помнить, что дифференциальная конфиденциальность не эквивалентна конфиденциальности.

Конфиденциальность не ограничивается одним определением или концепцией, и важно знать о других понятиях. Например, контекстуальная целостность, которая представляет собой концептуальное понятие конфиденциальности, учитывающее такие вещи, как то, как разные приложения или разные организации изменяют восприятие конфиденциальности человека в зависимости от ситуации. Существуют также юридические понятия конфиденциальности, такие как те, которые включены в канадский PIPEDA, европейский GDPR и калифорнийский закон о защите прав потребителей (CCPA). Все это говорит о том, что мы не можем относиться к техническим системам так, как будто они существуют в вакууме, свободном от других факторов конфиденциальности, даже если используется дифференциальная конфиденциальность.

Еще один тип машинного обучения, повышающий конфиденциальность, — это федеративное обучение. Как бы вы определили, что это такое и как вы к этому относитесь?

Федеративное обучение — это способ машинного обучения, когда модель должна обучаться на наборе наборов данных, распределенных между несколькими владельцами или местоположениями. По сути, это не тип машинного обучения, повышающий конфиденциальность. Тип машинного обучения, повышающий конфиденциальность, должен формально определять, что и от кого защищается, а также условия, которые должны быть соблюдены, чтобы эта защита сохранялась. Например, когда мы думаем о простом дифференциально-частном вычислении, это гарантирует, что кто-либо, просматривающий выходные данные, не сможет определить, была ли предоставлена ​​определенная точка данных или нет.

Кроме того, дифференциальная конфиденциальность не дает такой гарантии, если, например, существует корреляция между точками данных. Федеративное обучение не имеет этой функции; он просто обучает модель набору данных, не требуя от держателей этих данных прямого предоставления своих наборов данных друг другу или третьей стороне. Хотя это звучит как функция конфиденциальности, необходима формальная гарантия того, что никто не может узнать защищенную информацию, учитывая посредников и результаты, которые будут наблюдать недоверенные стороны. Эта формальность особенно важна в федеративной среде, где ненадежными сторонами являются все, кто предоставляет данные для обучения коллективной модели.

Каковы некоторые из текущих ограничений этих подходов?

Текущие ограничения лучше всего можно описать как характер компромисса между конфиденциальностью и полезностью. Даже если вы делаете все остальное, сообщаете о последствиях для конфиденциальности тем, кого это касается, оцениваете систему на предмет того, что вы пытаетесь сделать, и т. д., все равно это сводится к достижению идеальной конфиденциальности, что означает, что мы не делаем систему, достижение идеальной полезности, как правило, не имеют никакой защиты конфиденциальности, поэтому вопрос в том, как определить, что является «идеальным» компромиссом. Как нам найти правильный переломный момент и двигаться к нему, чтобы мы по-прежнему достигали желаемой функциональности, обеспечивая при этом необходимую защиту конфиденциальности.

В настоящее время вы стремитесь разработать технологию конфиденциальности, учитывающую интересы пользователей, путем параллельного изучения технических решений для частных вычислений. Не могли бы вы рассказать о некоторых из этих решений?

Что я имею в виду под этими решениями, так это то, что мы можем, грубо говоря, разработать любое количество технических систем конфиденциальности. Однако при этом важно определить, доходят ли гарантии конфиденциальности до тех, на кого они воздействуют. Это может означать разработку системы после выяснения того, какие виды защиты ценит население. Это может означать обновление системы после того, как выяснится, как люди на самом деле используют систему, учитывая их реальные угрозы и риски. Техническим решением может быть правильная система, удовлетворяющая определению, которое я упомянул ранее. Решение, ориентированное на пользователя, будет проектировать свою систему на основе входных данных от пользователей и других лиц, влияющих на предполагаемую область применения.

В настоящее время вы ищете заинтересованных аспирантов, которые начнут работу в сентябре 2024 года. Как вы думаете, почему студенты должны быть заинтересованы в конфиденциальности ИИ?

Я думаю, студенты должны быть заинтересованы, потому что это то, что будет только расти в своем распространении в нашем обществе. Чтобы иметь некоторое представление о том, как быстро эти системы не выходят за рамки недавнего усиления Chat-GPT через новостные статьи, социальные сети и дебаты о его последствиях. Мы существуем в обществе, где сбор и использование данных настолько прочно вошли в нашу повседневную жизнь, что мы почти постоянно предоставляем информацию о себе различным компаниям и организациям. Эти компании хотят использовать данные в одних случаях для улучшения своих услуг, в других — для получения прибыли. На данный момент кажется нереальным думать, что эти корпоративные методы использования данных изменятся. Тем не менее, существование систем сохранения конфиденциальности, которые защищают пользователей, но в то же время позволяют проводить определенный анализ, желаемый компаниями, может помочь сбалансировать компромисс между риском и вознаграждением, который стал такой неявной частью нашего общества.

Спасибо за отличное интервью, читатели, которым интересно узнать больше, должны посетить Страница Бэйли Качмар на Github.

Партнер-основатель unite.AI и член Технологический совет Форбс, Антуан - это футурист который увлечен будущим искусственного интеллекта и робототехники.

Он также является основателем Ценные бумаги.io, веб-сайт, посвященный инвестициям в прорывные технологии.