Свяжитесь с нами:

Всё чаще закон HIPAA не может помешать искусственному интеллекту деанонимизировать данные пациентов.

Угол Андерсона

Всё чаще закон HIPAA не может помешать искусственному интеллекту деанонимизировать данные пациентов.

mm
Изображение, созданное с помощью ИИ, на котором запечатлена толпа бизнесменов, собравшихся вокруг больничной койки пациента в маске, пытающегося снять с себя маску. Z-Image Turbo + Qwen Edit V1, через Krita AI Diffusion.

Даже после удаления имен и почтовых индексов из больниц, современный искусственный интеллект иногда все еще может определить, кто есть кто из пациентов. Отличная новость для страховых компаний; не очень хорошая для получателей медицинских услуг.

 

Новое исследование Нью-Йоркского университета показало, что медицинские карты американских пациентов, лишенные имен и другой информации, были подвергнуты проверке. Идентификаторы HIPAAможет подвергать пациентов воздействию повторная идентификацияБлагодаря обучению языковых моделей ИИ на большом корпусе реальных, нецензурированных медицинских записей пациентов, сохраняются детали, определяющие личность, — в некоторых случаях это позволяет сделать вывод о районе проживания пациента. только диагноз.

Новое исследование рассматривает этот риск в контексте прибыльный рынок в обезличенных медицинских данных, где больницы и брокеры данных регулярно продают или лицензируют очищенные клинические записи фармацевтическим компаниям, страховым компаниям и разработчикам ИИ.

Авторы нового исследования ставят под сомнение даже саму концепцию «деидентификации», закрепленную в законах о защите пациентов, принятых в соответствии с... HIPAA после того, как губернатор Массачусетса Уильям Уэлд получил его медицинские данные деанонимизирован в 1997 году:

«Даже при идеальном соблюдении принципов «безопасной гавани» обезличенные записи статистически остаются связанными с личностью через те самые корреляции, которые подтверждают их клиническую полезность. Конфликт носит структурный, а не технический характер».

Исследователи утверждают, что существующие, соответствующие требованиям HIPAA, системы обезличивания данных оставляют два лазейки для «атак с установлением связи»:

В новой статье представлена ​​причинно-следственная диаграмма, иллюстрирующая, как деидентификация в стиле HIPAA удаляет явно конфиденциальные атрибуты, сохраняя при этом корреляции, связанные с идентификацией, что позволяет определять личность пациента на основе неконфиденциальной и медицинской информации. Источник - https://arxiv.org/pdf/2602.08997

В новой статье представлена ​​причинно-следственная диаграмма, иллюстрирующая, как деидентификация в соответствии с требованиями HIPAA удаляет явно конфиденциальные атрибуты, сохраняя при этом нетронутыми корреляции, связанные с идентификацией, что позволяет определять личность пациента на основе неконфиденциальной и медицинской информации. Источник

В приведенном выше примере мы видим не только то, что пациентка беременна — это самый простой способ деидентификации, поскольку он однозначно устанавливает биологический пол, — но и то, что ей нравится хобби, не ассоциирующееся с группами населения с низким уровнем дохода, как утверждают исследователи:

«Хотя засекреченные данные (дата рождения и почтовый индекс) скрыты, мы все же можем предположить, что пациентка — взрослая женщина, судя по беременности, и проживает в обеспеченном районе, учитывая ее увлечение выездкой».

В одном эксперименте, даже после удаления идентификаторов пациентов, более 220 000 клинических записей от 170 000 пациентов NYU Langone все еще содержали достаточно информации, чтобы позволить сделать выводы о демографических характеристиках.

Бурение вниз

A БЕРТМодель на основе была доработаны В статье отмечается, что система смогла предсказать шесть атрибутов на основе обезличенных записей и превзошла случайные предположения, используя всего 1,000 обучающих примеров. Биологический пол был определен с точностью более 99.7%, а даже такие менее значимые признаки, как месяц, в котором были сделаны записи, были предсказаны с точностью выше случайной.

В экспериментальных целях эти выведенные признаки затем были использованы в атаке на базу данных Лангоне, в результате чего максимальный риск уникальной повторной идентификации составил 0.34% — примерно в 37 раз выше, чем при использовании простого базового класса большинства. Применительно к населению США, только эта атака позволила бы обезличить 800 000 пациентов.

Авторы формулируют проблему как «парадокс», поскольку то, что остается в обезличенных медицинских записях пациентов, соответствующих требованиям HIPAA, представляет собой вполне реальную основу для атак с целью обезличивания данных:

«Подавляющее большинство рисков повторной идентификации связано не с защищенной медицинской информацией, а с неконфиденциальным и медицинским контентом, который мы считаем безопасным для распространения».

Карты Нью-Йорка на уровне районов города, показывающие показатели внутрибольничной смертности, среднюю продолжительность пребывания в больнице и доход на душу населения, демонстрирующие, как клинические исходы и социально-экономические переменные группируются географически и создают связанные с идентичностью закономерности в обезличенных медицинских записях.

Карты районов Нью-Йорка, демонстрирующие различия в показателях смертности в больницах, средней продолжительности пребывания и уровне доходов, иллюстрируют, как показатели здоровья и благосостояния различаются в зависимости от района и могут оставлять подсказки, связанные с местоположением, даже в обезличенных медицинских записях. Дополнительные примеры см. в исходном документе.

В статье утверждается, что правила «безопасной гавани» HIPAA больше не работают так, как задумывали разработчики закона: удаление 18 идентификаторов Хотя это и соответствует букве закона, по мнению авторов, это не препятствует определению личности с помощью современных языковых моделей. Они рассматривают саму систему как построенную на устаревших предположениях относительно того, что языковые модели могут и чего не могут выводить из обычного медицинского текста.

В работе также предполагается, что выгоду от указанных недостатков, скорее всего, получат крупные корпорации, связанные с медицинским страхованием, а не традиционно определяемые преступные группировки (такие как хакеры, шантажисты или специалисты по социальной инженерии)*:

«Сохранение функции Safe Harbor, несмотря на известные ограничения, — это не ошибка, а особенность системы».оптимизировано для обеспечения ликвидности данных. вместо защиты пациентовОбезличенные клинические записи представляют собой многомиллиардный рынокэто создает структурные препятствия для медицинских учреждений в использовании альтернативных методов, обеспечивающих конфиденциальность, которые могут снизить полезность данных или потребовать дорогостоящих инвестиций в инфраструктуру.

«Необходимо срочно тщательно изучить, понять и устранить этот фактор, препятствующий развитию».

Это программный документ, не содержащий четких ответов; однако авторы предполагают, что исследования в области деидентификации должны сместиться в сторону социальных договоров и правовых последствий их нарушения, а не технических решений (что, возможно, является наиболее важным аспектом). такой же подход используется Законом об авторском праве в цифровую эпоху (DMCA) для ограничения копирования произведений, защищенных интеллектуальной собственностью, когда технические решения не удалось).

Новый документ называется Парадокс деидентификации: критика «безопасной гавани» HIPAA в эпоху магистров права.Эта работа подготовлена ​​четырьмя исследователями из Нью-Йоркского университета в сотрудничестве с больницей NYU Langone.

Способ доставки

Для проверки своей теории авторы разработали двухэтапный метод. атака на связь На основе 222 949 выявленных клинических записей от 170 283 пациентов, проходивших лечение в медицинском центре NYU Langone, были собраны все данные. распределяли Разделение выборки по пациентам на 80% для обучения, 10% для валидации и 10% для тестирования, чтобы предотвратить перекрестное загрязнение.

Для сравнения, эта коллекция в 3.34 раза больше, чем... набор данных MIMIC-IVЭто крупнейшая общедоступная коллекция электронных медицинских карт (ЭМК). По соображениям конфиденциальности набор данных Langone не будет предоставлен ни в каком виде, хотя пользователи могут экспериментировать с принципами проекта. через репозиторий GitHub генерирует синтетические данные.

Для аппроксимации классической тройки признаков, выявленной при повторной идентификации, были отобраны шесть демографических характеристик. влиятельные предыдущие работы: биологический пол; окрестности; год примечания; примечание месяц; доход районаи тип страхования:

Демографические характеристики, полученные из клинических записей NYU Langone, хранящихся в UCSF и идентифицированных с помощью philter-de, включают биологический пол, район проживания, год и месяц записи, доход в данном районе и тип страхования. Эти характеристики были выбраны для аппроксимации уникальной триады идентификаторов, описанной в статье «Простые демографические данные часто позволяют однозначно идентифицировать людей» — https://dataprivacylab.org/projects/identifiability/paper1.pdf

Демографические характеристики, полученные из обезличенных клинических записей NYU Langone, включающие биологический пол, район проживания, год и месяц записи, доход в данном районе и тип страхования, были выбраны для аппроксимации уникальной триады идентификаторов, описанной в «Простые демографические данные часто позволяют однозначно идентифицировать людей».

Данные были обезличены с помощью UCSF philter перед моделированием.

A БЕРТ-база-необработанный Модель со 110 миллионами параметров, предварительно обученная на текстах общего назначения, чтобы избежать предварительного ознакомления с клиническими данными, была дообучена отдельно для каждого атрибута с использованием восьми графических процессоров NVIDIA A100 с 40 ГБ памяти или H100 с 80 ГБ памяти, всего до десяти. эпохи. Использованная оптимизация АдамВ, С скорость обучения 2×10−5, и эффективный размер партии из 256

Обобщение Оценка на отложенном тестовом наборе проводилась с использованием Точность подачи и взвешенный ОКР-АУКпоследний вариант был выбран для учета классовой принадлежности. дисбаланс по всем атрибутам.

Чтобы сделать атаку более реалистичной, предсказания модели не рассматривались как единственные однозначные ответы. Вместо этого для каждого атрибута... ная k Были сохранены наиболее вероятные значения, а база данных пациентов была отфильтрована таким образом, чтобы включить всех, кто соответствовал этим прогнозируемым признакам. Это позволило получить краткий список возможных личностей для каждой записи, а не единственную догадку.

Оценка риска

Риск повторной идентификации рассчитывался в два этапа: измерялась частота появления реального пациента в отобранной группе и оценивалась вероятность выбора правильного человека из этой группы.

Поскольку на последнем этапе предполагалось, что кто-то просто выбрал имя случайным образом из возможных совпадений, указанное число является осторожной оценкой, и целеустремленный злоумышленник, вероятно, смог бы добиться лучших результатов.

Эксперимент предполагал доступ ко всей информации о пациентах во внешней базе данных. Это отражает наихудший, но реалистичный сценарий, в котором крупное учреждение или брокер данных, обладающий широким охватом медицинских записей пациентов, пытается установить связь, а не отдельный человек, действующий с ограниченной информацией, что еще раз подчеркивает характер угрозы, которую авторы рассматривают в своей работе.

Результаты

Риск оценивался на трех уровнях: показатель успешности повторной идентификации группы Было зафиксировано, как часто реальный пациент появлялся в списке кандидатов, отобранных моделью, на основе правильного выбора. k прогнозы по всем параметрам; повторная идентификация личности из группы измерялась вероятность выбора нужного человека после того, как эта группа была определена; и вероятность уникальной повторной идентификации умножив эти два значения, получаем общую вероятность однозначной идентификации пациента по обезличенным записям:

Точность прогнозирования биологического пола, района проживания, года, месяца, дохода и типа страхования показывает, что BERT-base-uncased, обученный на записках NYU Langone, идентифицированных с помощью philter-de-identified, превосходит случайное угадывание даже при 1,000 обучающих примерах, при этом точность неуклонно повышается по мере роста набора данных до 178 000 образцов.

Точность прогнозирования биологического пола, района проживания, года, месяца, дохода и типа страхования показывает, что BERT-base-uncased, обученный на записках NYU Langone, идентифицированных с помощью philter-de-identified, превосходит случайное угадывание даже при 1,000 обучающих примерах, при этом точность неуклонно повышается по мере роста набора данных до 178 000 образцов.

Авторы отмечают, что, комментируя эти предварительные результаты, можно выделить следующее:

Как показано [выше], обезличенные клинические записи остаются уязвимыми для прогнозирования атрибутов. По всем шести атрибутам и всем режимам данных (от 1 до 177 примеров) языковая модель (красный цвет) неизменно превосходит случайные базовые модели (серый цвет).

«Эти результаты эмпирически подтверждают, что процесс деидентификации сохраняет сигналы, пригодные для использования, в двух путях обхода защиты».

«Риск нарушения конфиденциальности возникает незамедлительно: модели демонстрируют результаты выше случайных даже при использовании всего 1,000 обучающих примеров. Хотя биологический пол является наиболее уязвимым признаком (его восстанавливают с точностью более 99.7%), даже самые тонкие сигналы (например, месяц) предсказываются с точностью выше случайной».

На втором графике результатов ниже одна сторона показывает, как часто модель включает реального пациента в свой короткий список, а другая — насколько мал этот короткий список:

Зависимость частоты попадания реального пациента в список кандидатов, составленный моделью, от того, насколько легко выбрать нужного человека из этого списка, показывает, что языковая модель создает более высокий общий риск повторной идентификации, чем простое угадывание, достигая 0.34% по сравнению с 0.0091% для наиболее сильного базового показателя.

Зависимость частоты попадания реального пациента в список кандидатов, составленный моделью, от того, насколько легко выбрать нужного человека из этого списка, показывает, что языковая модель создает более высокий общий риск повторной идентификации, чем простое угадывание, достигая 0.34% по сравнению с 0.0091% для наиболее сильного базового показателя.

Чем чаще появляется реальный пациент и чем меньше список кандидатов, тем выше риск. Разработанная авторами языковая модель превзошла простую модель определения большинства по обоим показателям, достигнув пика в 0.34% вероятности однозначной идентификации пациента — примерно в 37 раз выше, чем у самого надежного базового варианта.

Авторы отмечают, что для пациентов с необычным анамнезом или маргинализированной идентичностью риски деидентификации выше, и в заключение рекомендуют серьезно пересмотреть стандарт HIPAA Safe Harbor:

«Стандарт HIPAA Safe Harbor основан на бинарном определении конфиденциальности: данные либо «идентифицированы», либо «обезличены». HIPAA предполагает, что удаление статического списка токенов делает данные «безопасными», фактически отделяя клиническое описание от личности пациента».

Однако наш анализ причинно-следственных связей и эмпирические результаты показывают, что это расхождение является миражем.

«Клинические записи неразрывно связаны с идентичностью. Медицинский диагноз пациента и не отредактированные рассказы являются прямым результатом его уникальной жизненной траектории, создавая многомерную сигнатуру, которую можно соотнести с конкретным человеком».

Авторы также подчеркивают, что существующие правила деидентификации сосредоточены на удалении фиксированного списка идентификаторов, игнорируя при этом закономерности, оставшиеся в оставшемся тексте. Крупные языковые модели, отмечают они, созданы для обнаружения и объединения таких закономерностей, а это значит, что обычные клинические данные могут начать функционировать как «косвенные идентификаторы».

В заключение статьи приводится ряд рекомендаций, в том числе призыв прекратить тонкую настройку моделей на синтетические данныеили «рассекреченные» данные, начиная с первого сохраняет риски нарушения конфиденциальности что касается реальных данных, использованных для его обоснования; а второй вариант предполагает, что прежний стандарт защиты, действовавший в эпоху HIPAA, по-прежнему эффективен.

Заключение

Поскольку подобные «лазейки» явно приносят наибольшую выгоду крупным организациям, таким как страховые компании, которые, предположительно, будут использовать их тайно и без раскрытия информации, возникает необходимость в «юридическом блоке» в стиле DCMA (где действовать Обход средств защиты (сам по себе запрещен, независимо от используемых технологий) является неэффективным подходом.

Это известный что страховые компании хотели бы получить доступ к информации такого рода, и что, напрямую или через посредников в предоставлении данных, они обладают исключительным доступом к частным медицинским записям; и чем крупнее компания, тем больше будет ее собственная база данных клиентов.

Поэтому, если строгие правила и гарантии HIPAA все больше превращаются в «джентльменское соглашение», чем в эффективный барьер для корпоративной эксплуатации, то их пересмотр представляется весьма своевременным.

 

* Мое преобразование встроенных ссылок на работы авторов в гиперссылки.

Впервые опубликовано в среду, 11 февраля 2026 года.

Автор статей о машинном обучении, специалист по синтезу человеческих изображений. Бывший руководитель исследовательского контента в Metaphysic.ai.
Личный сайт: Мартинандерсон.ай
Контактное лицо: [электронная почта защищена]
Твиттер: @manders_ai