Connect with us

Существует ли четкое решение проблем с конфиденциальностью, создаваемых генеративным ИИ?

Лидеры мнений

Существует ли четкое решение проблем с конфиденциальностью, создаваемых генеративным ИИ?

mm

Риски для конфиденциальности, создаваемые генеративным ИИ, очень реальны. От увеличения слежки и раскрытия до более эффективных фишинговых и вишинговых кампаний, чем когда-либо прежде, генеративный ИИ подрывает конфиденциальность массово, безразлично, предоставляя злоумышленникам, будь то преступники, спонсируемые государством или правительством, инструменты, необходимые для нацеливания на отдельных лиц и группы.

Самое ясное решение этой проблемы заключается в том, что потребители и пользователи коллективно отвергают ажиотаж вокруг ИИ, требуют прозрачности от тех, кто разрабатывает или реализует так называемые функции ИИ, и эффективного регулирования со стороны правительственных органов, которые контролируют их деятельность. Хотя это стоит стремиться к этому, вряд ли это произойдет в ближайшее время.

Что остается, так это разумные, даже если и необходимо неполные, подходы к смягчению рисков для конфиденциальности, создаваемых генеративным ИИ. Долгосрочный, гарантированный, но скучный прогноз заключается в том, что чем больше общественность становится осведомленной о конфиденциальности данных в целом, тем меньше риски для конфиденциальности, создаваемые массовым внедрением генеративного ИИ.

Понимаем ли мы все концепцию генеративного ИИ правильно?

Ажиотаж вокруг ИИ так повсеместен, что опрос того, что люди подразумевают под генеративным ИИ, едва ли необходим. Конечно, ни одна из этих «функций ИИ», возможностей и продуктов на самом деле не представляет собой примеры истинного искусственного интеллекта, как бы он ни выглядел. Скорее, они в основном представляют собой примеры машинообразного обучения (ML), глубокого обучения (DL) и больших языковых моделей (LLM).

Генеративный ИИ, как следует из названия, может генерировать новый контент – будь то текст (включая языки программирования), аудио (включая музыку и голоса, похожие на человеческие) или видео (с звуком, диалогами, монтажом и сменой камер). Все это достигается путем обучения LLM выявлять, сопоставлять и воспроизводить закономерности в контенте, созданном человеком.

Давайте рассмотрим ChatGPT в качестве примера. Как и многие LLM, он обучается в трех широких этапах:

  • Предварительное обучение: На этом этапе LLM «питается» текстовым материалом из интернета, книг, академических журналов и всего, что содержит потенциально актуальный или полезный текст.
  • Обучение с учителем с тонкой настройкой: Модели обучаются отвечать более связно на инструкции, используя высококачественные пары инструкций и ответов, обычно полученные от людей.
  • Обучение с подкреплением от обратной связи человека (RLHF): LLM, такие как ChatGPT, часто проходят этот дополнительный этап обучения, на котором взаимодействия с человеческими пользователями используются для уточнения соответствия модели типичным случаям использования.

Все три этапа процесса обучения включают данные, будь то огромные запасы предварительно собранных данных (как те, которые используются на этапе предварительного обучения) или данные, собранные и обработанные почти в реальном времени (как те, которые используются на этапе RLHF). Именно эти данные несут основную часть рисков для конфиденциальности, создаваемых генеративным ИИ.

Каковы риски для конфиденциальности, создаваемые генеративным ИИ?

Конфиденциальность нарушается, когда личная информация, касающаяся отдельного лица (субъекта данных), становится доступной другим лицам или организациям без согласия субъекта данных. LLM обучаются и уточняются на чрезвычайно широком диапазоне данных, которые могут и часто содержат личные данные. Эти данные обычно собираются из публично доступных источников, но не всегда.

Даже когда эти данные берутся из публично доступных источников, их агрегация и обработка LLM, а затем по сути сделать их доступными через интерфейс LLM, можно рассматривать как дальнейшее нарушение конфиденциальности.

Этап обучения с подкреплением от обратной связи человека (RLHF) усложняет дело. На этом этапе обучения реальные взаимодействия с человеческими пользователями используются для итеративного исправления и уточнения ответов LLM. Это означает, что взаимодействия пользователя с LLM могут быть просмотрены, обменены и распространены кем-либо, кто имеет доступ к данным обучения.

В большинстве случаев это не является нарушением конфиденциальности, учитывая, что большинство разработчиков LLM включают политики конфиденциальности и условия использования, которые требуют от пользователей согласия перед взаимодействием с LLM. Риск для конфиденциальности здесь заключается скорее в том, что многие пользователи не осознают, что они согласились на такую сбор и использование данных. Такие пользователи, скорее всего, раскроют конфиденциальную и чувствительную информацию во время взаимодействия с этими системами, не осознавая, что эти взаимодействия не являются ни конфиденциальными, ни частными.

Таким образом, мы приходим к трем основным способам, которыми генеративный ИИ создает риски для конфиденциальности:

  • Большие запасы предварительно обучающих данных, потенциально содержащие личную информацию, уязвимы для компрометации и эксфильтрации.
  • Личная информация, включенная в предварительно обучающие данные, может быть раскрыта другим пользователям того же LLM через его ответы на запросы и инструкции.
  • Личная и конфиденциальная информация, предоставленная во время взаимодействия с LLM, оказывается у сотрудников LLM и, возможно, у подрядчиков третьих сторон, откуда ее можно просмотреть или раскрыть.

Это все риски для конфиденциальности пользователей, но шансы того, что личная идентифицирующая информация (PII) окажется в неправильных руках, все еще кажутся относительно низкими. Это, по крайней мере, до тех пор, пока в дело не вступают брокеры данных. Эти компании специализируются на поиске PII и сборе, агрегации и распространении, если не прямом вещании ее.

С учетом того, что PII и другие личные данные стали своего рода товаром, а отрасль брокеров данных возникла, чтобы извлечь из этого прибыль, любая личная информация, которая «попадает туда», слишком вероятно будет собрана брокерами данных и распространена далеко и широко.

Риски для конфиденциальности генеративного ИИ в контексте

Прежде чем рассматривать риски, которые генеративный ИИ создает для конфиденциальности пользователей в контексте конкретных продуктов, услуг и корпоративных партнерств, давайте отступим и рассмотрим полную палитру рисков генеративного ИИ. Написав для IAPP, Moraes и Previtali использовали подход, основанный на данных, для уточнения «Таксономии конфиденциальности» Solove 2006 года, сократив 16 рисков для конфиденциальности, описанных в ней, до 12 специфических для ИИ рисков для конфиденциальности.

Это 12 рисков для конфиденциальности, включенных в пересмотренную таксономию Moraes и Previtali:

  • Слежка: ИИ усугубляет риски слежки, увеличивая масштаб и повсеместность сбора личных данных.
  • Идентификация: Технологии ИИ позволяют автоматически связывать идентификацию через различные источники данных, увеличивая риски, связанные с раскрытием личной идентификации.
  • Агрегация: ИИ объединяет различные части информации о человеке, чтобы сделать выводы, создавая риски вторжения в конфиденциальность.
  • Френология и физиогномия: ИИ делает выводы о личности или социальных атрибутах из физических характеристик, новая категория рисков, не входящая в таксономию Solove.
  • Вторичное использование: ИИ усугубляет использование личных данных для целей, отличных от тех, для которых они были изначально предназначены, путем перенаправления данных.
  • Исключение: ИИ делает неинформированность или отсутствие контроля со стороны пользователей над тем, как используются их данные, хуже через непрозрачные практики обработки данных.
  • Небезопасность: Требования ИИ к данным и практики хранения данных создают риск утечки данных и неправомерного доступа.
  • Раскрытие: ИИ может раскрыть чувствительную информацию, например, с помощью методов генеративного ИИ.
  • Искажение: Способность ИИ генерировать реалистичный, но фальшивый контент, усиливает распространение ложной или вводящей в заблуждение информации.
  • Раскрытие: ИИ может привести к неправомерному обмену данными, когда он делает выводы о дополнительной чувствительной информации из сырых данных.
  • Увеличенная доступность: ИИ делает чувствительную информацию более доступной для более широкой аудитории, чем предполагалось.
  • Вторжение: Технологии ИИ вторгаются в личное пространство или уединение, часто через меры слежки.

Это довольно тревожное чтение. Важно отметить, что эта таксономия, к ее заслуге, учитывает тенденцию генеративного ИИ галлюцинировать – генерировать и уверенно представлять фактически неточную информацию. Это явление, хотя оно редко раскрывает реальную информацию, также является риском для конфиденциальности. Распространение ложной и вводящей в заблуждение информации влияет на конфиденциальность субъекта способами, которые более тонкие, чем в случае точной информации, но она влияет на нее тем не менее.

Давайте рассмотрим некоторые конкретные примеры того, как эти риски для конфиденциальности вступают в силу в контексте реальных продуктов ИИ.

Прямые взаимодействия с текстовыми генеративными системами ИИ

Самый простой случай – это тот, который включает взаимодействие пользователя напрямую с генеративной системой ИИ, такой как ChatGPT, Midjourney или Gemini. Взаимодействия пользователя с многими из этих продуктов регистрируются, хранятся и используются для RLHF (обучения с подкреплением от обратной связи человека), обучения с учителем с тонкой настройкой и даже предварительного обучения других LLM.

Анализ политики конфиденциальности многих таких услуг также показывает другие виды обмена данными, обусловленные совершенно khácными целями, такими как маркетинг и брокеридж данных. Это другой тип риска для конфиденциальности, создаваемый генеративным ИИ: эти системы можно охарактеризовать как огромные воронки данных, собирающие данные, предоставленные пользователями, а также те, которые генерируются через их взаимодействия с основным LLM.

Взаимодействия с встроенными генеративными системами ИИ

Некоторые пользователи могут взаимодействовать с интерфейсами генеративного ИИ, встроенными в тот продукт, который они, по-видимому, используют. Пользователь может знать, что он использует «функцию ИИ», но он менее вероятно знает, что это означает в плане рисков для конфиденциальности данных. То, что выходит на первый план с встроенными системами, – это отсутствие понимания того факта, что личные данные, обмененные с LLM, могут оказаться в руках разработчиков и брокеров данных.

Есть два уровня отсутствия осведомленности здесь: некоторые пользователи осознают, что они взаимодействуют с продуктом генеративного ИИ; и некоторые считают, что они используют тот продукт, в который встроен или доступен через генеративный ИИ. В любом случае пользователь, скорее всего, уже (и, вероятно, действительно) согласился на условия и положения, связанные с его взаимодействием с встроенной системой.

Другие партнерства, которые подвергают пользователей системам генеративного ИИ

Некоторые компании встраивают или иначе включают интерфейсы генеративного ИИ в свое программное обеспечение способами, которые менее очевидны, оставляя пользователей взаимодействующими – и обменивающимися информацией – с третьими сторонами, не осознавая этого. К счастью, «ИИ» стал таким эффективным маркетинговым инструментом, что вряд ли компания будет скрывать такие реализации.

Другое явление в этом контексте – растущая негативная реакция, которую такие компании испытывают после попыток обмена данными пользователей с компаниями генеративного ИИ, такими как OpenAI. Компания по удалению данных Optery, например, недавно отменила решение обменять данные пользователей с OpenAI на основе опт-аут, то есть пользователи были включены в программу по умолчанию.

Не только клиенты быстро выразили свое разочарование, но служба удаления данных компании была немедленно исключена из списка рекомендуемых служб удаления данных Privacy Guides. К заслуге Optery, она быстро и прозрачно отменила свое решение, но именно общая негативная реакция здесь значима: люди начинают понимать риски, связанные с обменом данными с «ИИ»-компаниями.

Случай Optery является хорошим примером здесь, потому что ее пользователи, в некотором смысле, находятся на переднем крае растущего скептицизма вокруг так называемых реализаций ИИ. Люди, которые выбирают службу удаления данных, также, как правило, те, кто будет обращать внимание на изменения в условиях использования и политике конфиденциальности.

Доказательства растущей негативной реакции против использования данных генеративного ИИ

Потребители, осведомленные о конфиденциальности, не были единственными, кто выразил обеспокоенность по поводу систем генеративного ИИ и связанных с ними рисков для конфиденциальности данных. На законодательном уровне Закон об искусственном интеллекте ЕС классифицирует риски по их тяжести, с конфиденциальностью данных в качестве явно или косвенно заявленного критерия для присвоения тяжести в большинстве случаев. Закон также решает проблемы информированного согласия, которые мы обсуждали ранее.

США, известные своей медленной адаптацией к комплексному федеральному законодательству о конфиденциальности данных, имеют, по крайней мере, некоторые ограничения благодаря Исполнительному приказу 14110. Опять же, проблемы конфиденциальности данных находятся на переднем плане целей, заявленных в Приказе: «безответственное использование [технологий ИИ] может усугубить социальные вреды, такие как мошенничество, дискриминация, предвзятость и дезинформация» – все связаны с доступностью и распространением личных данных.

Возвращаясь к потребительскому уровню, это не только потребители, осведомленные о конфиденциальности, которые были разочарованы вторжениями в конфиденциальность, реализованными генеративным ИИ. «Функция ИИ» Microsoft Recall, предназначенная для операционной системы Windows 11, является ярким примером. Как только была раскрыта степень рисков для конфиденциальности и безопасности, негативная реакция была достаточной, чтобы заставить технологического гиганта отступить. К сожалению, Microsoft, кажется, не отказался от этой идеи, но первоначальная публичная реакция тем не менее обнадеживает.

Оставаясь с Microsoft, ее программа Copilot была широко раскритикована за проблемы как с конфиденциальностью данных, так и с безопасностью данных. Поскольку Copilot был обучен на данных GitHub (в основном исходном коде), также возникли споры вокруг предполагаемых нарушений Microsoft лицензионных соглашений программного обеспечения разработчиков и программистов. Это те случаи, когда границы между конфиденциальностью данных и правами интеллектуальной собственности начинают стираться, придавая последней денежную стоимость – что не так легко сделать.

Возможно, самое большое указание на то, что ИИ становится красным флагом в глазах потребителей, – это сдержанная, если не прямо отрицательная, публичная реакция Apple на свой первоначальный запуск ИИ, в частности, в отношении соглашений об обмене данными с OpenAI.

Пiecemeal решения

Существуют шаги, которые законодатели, разработчики и компании могут предпринять, чтобы смягчить некоторые риски, создаваемые генеративным ИИ. Это специализированные решения конкретных аспектов общей проблемы, ни одно из этих решений не ожидается быть достаточным, но все они, работающие вместе, могли бы сделать реальную разницу.

  • Минимизация данных. Минимизация количества собираемых и хранящихся данных является разумной целью, но она прямо противоположна желанию разработчиков генеративного ИИ иметь обучающие данные.
  • Прозрачность. Учитывая текущее состояние искусства в ML, это может не быть даже технически возможно во многих случаях. Взгляд на то, какие данные обрабатываются и как при генерации данного вывода, – это один из способов обеспечить конфиденциальность в взаимодействиях с генеративным ИИ.
  • Анонимизация. Любая PII, которую нельзя исключить из обучающих данных (через минимизацию данных), должна быть анонимизирована. Проблема заключается в том, что многие популярные методы анонимизации и псевдонимизации легко обходятся.
  • Согласие пользователя. Требование от пользователей согласия на сбор и обмен их данными является важным, но слишком открытым для злоупотреблений и слишком склонным к потребительской самодовольству, чтобы быть эффективным. Это информированное согласие, которое здесь необходимо, и большинство потребителей, должным образом проинформированные, не согласились бы на такой обмен данными, поэтому стимулы не выровнены.
  • Защита данных при передаче и хранении. Другой фундамент как конфиденциальности данных, так и безопасности данных, защита данных с помощью криптографических и других средств может всегда быть сделана более эффективной. Однако системы генеративного ИИ склонны утечкам данных через свои интерфейсы, что делает это только частью решения.
  • Принудительное соблюдение авторского права и законодательства об интеллектуальной собственности в контексте так называемого ИИ. ML может работать в «черном ящике», что делает трудным, если не невозможно, отслеживать, какая защищенная авторским правом информация и интеллектуальная собственность окажется в каком выводе генеративного ИИ.
  • Аудиты. Другая важная мера предосторожности, сорванная «черным ящиком» LLM и поддерживаемых ими систем генеративного ИИ. Усугубляя это врожденное ограничение, есть закрытый характер большинства продуктов генеративного ИИ, который ограничивает аудиты только теми, которые проводятся на усмотрение разработчика.

Все эти подходы к проблеме действительны и необходимы, но ни один из них не достаточен. Они все требуют законодательной поддержки, чтобы иметь какой-либо эффект, что означает, что они обречены быть отсталыми, пока эта динамичная область продолжает развиваться.

Ясное решение

Решение проблем с конфиденциальностью, создаваемых генеративным ИИ, не является революционным и не является интересным, но, доведенное до логического вывода, его результаты могут быть и тем, и другим. Ясное решение заключается в том, что повседневные потребители становятся осведомленными о ценности своих данных для компаний и бесценности конфиденциальности данных для себя.

Потребители являются источниками и движущими силами за личной информацией, которая питает так называемую современную экономику слежки. Как только критическая масса потребителей начинает сдерживать поток частных данных в публичную сферу и начинает требовать ответственности от компаний, которые занимаются личными данными, система должна будет самокорректироваться.

Поощряющим моментом в отношении генеративного ИИ является то, что, в отличие от текущих моделей рекламы и маркетинга, он не должен включать личную информацию на любом этапе. Предварительное обучение и уточнение данных не должны включать PII или другие личные данные, и пользователям не нужно раскрывать их во время взаимодействия с системами генеративного ИИ.

Чтобы удалить свою личную информацию из обучающих данных, люди могут пойти прямо к источнику и удалить свои профили из различных брокеров данных (включая сайты поиска людей), которые агрегируют публичные записи, выводя их в обращение на открытом рынке. Службы удаления личных данных автоматизируют процесс, делая его быстрым и простым. Конечно, удаление личных данных из баз данных этих компаний имеет много других преимуществ и не имеет недостатков.

Люди также генерируют личные данные при взаимодействии с программным обеспечением, включая генеративный ИИ. Чтобы сдержать поток этих данных, пользователям придется быть более осведомленными о том, что их взаимодействия записываются, просматриваются, анализируются и обмениваются. Их варианты для избежания этого сводятся к ограничению того, что они раскрывают онлайн-системам, и использованию локальных, открытых LLM, где это возможно. Люди, в целом, уже делают хорошую работу по модуляции того, о чем они говорят в публичных местах – нам просто нужно расширить эти инстинкты на область генеративного ИИ.

Дэвид Балабан - исследователь компьютерной безопасности с более чем 17-летним опытом в области анализа вредоносного ПО и оценки антивирусного программного обеспечения. Дэвид управляет проектами MacSecurity.net и Privacy-PC.com, которые представляют собой экспертные мнения по современным вопросам информационной безопасности, включая социальную инженерию, вредоносное ПО, тестирование на проникновение, интеллект угроз, онлайн-приватность и белую хакерскую атаку. Дэвид имеет сильный опыт в решении проблем с вредоносным ПО, с недавним акцентом на противодействии программам-вымогателям.