Взгляд Anderson

Все чаще HIPAA не может предотвратить деанонимизацию данных пациентов с помощью ИИ

Published February 11, 2026

Updated May 16, 2026

Martin Anderson

An AI-generated image featuring a crowd of businesspeople gathered around the hospital bed of a masked patient, trying to remove his mask. Z-Image Turbo + Qwen Edit V1, via Krita AI Diffusion.

Даже после того, как больницы удаляют имена и почтовые индексы, современный ИИ иногда все равно может определить, кто такие пациенты. Хорошая новость для страховых компаний; не так много для получателей медицинской помощи.

Новое исследование Нью-Йоркского университета показывает, что медицинские записи пациентов в США, очищенные от имен и других идентификаторов HIPAA, могут подвергать пациентов риску деанонимизации. Обучая языковые модели ИИ на большом корпусе реальных, нецензурированных записей пациентов, остаются детали, определяющие личность, – в некоторых случаях позволяет сделать вывод о районе проживания пациента только по диагнозу.

Новое исследование ставит этот риск в контекст рынка деанонимизированных данных о здоровье, где больницы и посредники данных регулярно продают или лицензируют очищенные клинические записи фармацевтическим фирмам, страховщикам и разработчикам ИИ.

Авторы нового исследования оспаривают даже саму концепцию “деанонимизации”, закрепленную в защите пациентов, установленной HIPAA после того, как губернатор Массачусетса Уильям Уэлд был деанонимизирован в 1997 году:

‘[Даже] при идеальном соблюдении требований Safe Harbor “деанонимизированные” записи остаются статистически связаны с личностью через корреляции, подтверждающие их клиническую полезность. Конфликт носит структурный, а не технический характер.’

Исследователи утверждают, что текущие, соответствующие HIPAA, рамки деанонимизации оставляют две задние двери для “атак на связывание”:

Из нового документа, причинно-следственная диаграмма, иллюстрирующая, как деанонимизация в стиле HIPAA удаляет явные чувствительные атрибуты, оставляя корреляции, связанные с личностью, позволяя определить личность пациента через нечувствительную и медицинскую информацию. Источник

В приведенном выше примере мы видим не только то, что пациентка беременна – самая низкая из возможных задач деанонимизации, поскольку она устанавливает биологический пол безусловно, – но также то, что она любит такое хобби, которое не ассоциируется с низкодоходными группами, согласно исследователям:

‘Хотя защищенные атрибуты (дата рождения и почтовый индекс) удалены, мы все равно можем сделать вывод, что пациентка – взрослая женщина на основе беременности, и проживает в богатом районе, учитывая хобби верховой езды.’

В одном эксперименте даже после удаления идентификаторов пациентов более 220 000 клинических записей от 170 000 пациентов NYU Langone все равно несли достаточно сигнала, чтобы позволить сделать вывод о демографических характеристиках.

Более подробное изучение

Модель на основе BERT была настроена для прогнозирования шести атрибутов из деанонимизированных записей, и, как отмечается в документе, превзошла случайные догадки с как мало, как 1 000 обучающих примеров. Биологический пол был восстановлен с точностью более 99,7%, и даже более слабые сигналы, такие как месяц, когда были сделаны записи, были предсказаны с лучшей, чем случайной, точностью.

Для экспериментальных целей эти выводимые характеристики затем использовались в атаке на связывание против базы данных Langone, что дало максимальный уникальный риск деанонимизации в 0,34% – примерно в 37 раз выше, чем простой базовый уровень.

Авторы формулируют проблему как “парадокс”, потому что то, что остается в деанонимизированных записях пациентов, соответствующих HIPAA, явно является жизнеспособной основой для атак деанонимизации:

‘[Большинство] риска деанонимизации исходит не из защищенной информации о здоровье, а из нечувствительной и медицинской информации, которую мы считаем безопасной для обмена.’

Карты районов Нью-Йорка, показывающие, как показатели смертности в больницах, средняя продолжительность пребывания в больнице и доход на душу населения варьируются географически и создают закономерности, связанные с личностью, внутри деанонимизированных записей.

Документ утверждает, что правила Safe Harbor HIPAA больше не работают так, как намеревались политики:

Исследование также предполагает, что те, кто, вероятно, выиграет от слабостей, заявленных в документе, – это крупные корпорации, связанные со страхованием здоровья, а не традиционно определенные преступные сущности (такие как хакеры, вымогатели или социальные инженеры):

‘Устойчивость Safe Harbor, несмотря на известные ограничения, не является упущением, а особенностью системы, оптимизированной для ликвидности данных, а не для защиты пациентов. Деанонимизированные клинические записи представляют собой мультимиллиардный рынок, создавая структурные дисинцентивы для медицинских учреждений, чтобы принять альтернативы, сохраняющие конфиденциальность, которые могут уменьшить полезность данных или требовать дорогостоящих инвестиций в инфраструктуру.

‘Есть срочная необходимость тщательно расследовать, понять и устранить этот дисинцентив.’

Это позиционная статья, в которой не предлагаются четкие ответы; однако, авторы предлагают, что исследования по деанонимизации должны сместить фокус в сторону социальных контрактов и юридических последствий нарушения, а не технических решений (по сути, тот же подход, который используется DMCA для ограничения копирования защищенных авторским правом работ, когда технические решения не удалось).

Новая статья озаглавлена Парадокс деанонимизации: критика Safe Harbour HIPAA в эпоху ИИ и исходит от четырех исследователей Нью-Йоркского университета, в сотрудничестве с больницей NYU Langone.

Метод

Чтобы проверить свою теорию, авторы разработали двухэтапную атаку на связывание с использованием 222 949 идентифицированных клинических записей от 170 283 пациентов, лечившихся в NYU Langone, с всеми записями разделенными по пациентам на 80% обучающих, 10% проверочных и 10% тестовых наборов, чтобы предотвратить перекрестное загрязнение.

Для контекста, этот сбор больше в 3,34 раза, чем MIMIC-IV набор данных, который является крупнейшим публично доступным набором электронных медицинских записей (EHR). По причинам конфиденциальности, набор данных Langone не будет доступен в какой-либо форме, хотя пользователи могут экспериментировать с принципами проекта через репозиторий GitHub, который генерирует синтетические данные.

Шесть демографических атрибутов были отобраны для приближения к классическому трио деанонимизации, определенного в влиятельной предыдущей работе: биологический пол; район; год записи; месяц записи; доход района; и тип страхования:

Демографические атрибуты, выводимые из деанонимизированных записей NYU Langone, включающие биологический пол, район, год записи, месяц записи, доход района и тип страхования, выбранные для приближения к уникальному идентификатору, описанному в ‘Простые демографические данные часто уникально идентифицируют людей’.

Записи были деанонимизированы с помощью UCSF philter перед моделированием.

Модель BERT-base-uncased с 110 миллионами параметров, предварительно обученная на общем тексте, чтобы избежать предыдущего воздействия клинических данных, была настроена отдельно для каждого атрибута, используя восемь NVIDIA A100 GPU с 40 ГБ памяти или H100 GPU с 80 ГБ памяти, до десяти эпох. Оптимизация использовала AdamW, с скоростью обучения 2×10−5 и эффективным размером партии 256

Обобщение на тестовом наборе было оценено с помощью точности и взвешенного ROC-AUC, последний был выбран для учета класса несбалансированности по атрибутам.

Чтобы сделать атаку более реалистичной, прогнозы модели не рассматривались как единственные окончательные ответы. Вместо этого для каждого атрибута сохранялись top k наиболее вероятных значений, и база данных пациентов фильтровалась для включения всех, кто соответствовал этим прогнозируемым характеристикам. Это дало короткий список возможных идентификаторов для каждой записи, а не единственную догадку.

Оценка риска

Риск деанонимизации затем рассчитывался в два этапа: измерение того, как часто реальный пациент появляется внутри этого короткого списка; и оценка вероятности выбора правильного человека из этого списка.

Поскольку последний шаг предполагал, что кто-то просто выбрал имя случайно из возможных совпадений, сообщаемая цифра является осторожной оценкой, и решительный атакующий, вероятно, сможет сделать лучше.

Эксперимент предполагал доступ к полному населению пациентов в внешней базе данных. Это отражает худший, но реалистичный сценарий, в котором большая организация или посредник данных, имеющий широкое покрытие записей пациентов, попытается связывание, а не отдельный человек, действующий с ограниченной информацией, что еще больше подкрепляет природу угрозы, которую авторы решают в работе.

Результаты

Риск был измерен на трех уровнях: успешность групповой деанонимизации захватил, как часто реальный пациент появлялся внутри короткого списка модели, основанного на правильных прогнозах top k по всем атрибутам; индивидуальная деанонимизация из группы измерял вероятность выбора правильного человека, как только группа была определена; и вероятность уникальной деанонимизации умножал эти два, давая общую вероятность уникальной идентификации пациента из деанонимизированных записей:

Точность прогнозирования биологического пола, района, года, месяца, дохода и типа страхования, показывающая, что BERT-base-uncased, обученная на деанонимизированных записях NYU Langone, превосходит случайные догадки даже с 1 000 обучающих примеров, с точностью, улучшающейся устойчиво, когда набор данных растет до 178 000 образцов.

Из этих первоначальных результатов авторы отмечают:

‘Как показано [выше], деанонимизированные клинические записи остаются уязвимыми для прогнозирования атрибутов. На всех шести атрибутах и всех режимах данных (1к до 177к примеров) языковая модель (красная) последовательно [превосходит] случайные базовые значения (серые).

‘Эти результаты эмпирически [подтверждают] что процесс деанонимизации сохраняет эксплуатируемые сигналы в двух задних дверях.

‘Риск конфиденциальности непосредственный: модели достигают выше-случайной производительности с как мало, как 1 000 обучающих примеров. Хотя биологический пол является наиболее открытой характеристикой (восстановленной с точностью более 99,7%), даже самые слабые сигналы (месяц записи) прогнозируются с лучшей, чем случайной, точностью.’

На второй графике результатов ниже одна направление показывает, как часто модель включает реального пациента в свой короткий список. другое – как маленький этот короткий список:

Как часто модель включает реального пациента в свой короткий список, отображаемое против того, насколько легко выбрать правильного человека из этого короткого списка – показывая, что языковая модель создает более высокий общий риск деанонимизации, чем простая догадка, достигая 0,34%, по сравнению с 0,0091% для сильнейшего базового значения.

Чем чаще реальный пациент появляется, и чем меньше короткий список, тем выше риск. Языковая модель авторов превзошла простую догадку на обоих фронтах, на пике переводя это в 0,34% вероятность уникальной идентификации пациента – примерно в 37 раз выше, чем сильнейшее базовое значение.

Авторы отмечают, что для пациентов с необычными медицинскими историями или маргинализированными идентификаторами риски деанонимизации выше, и заключают с рекомендацией серьезно пересмотреть стандарт Safe Harbor HIPAA:

‘[Стандарт] HIPAA Safe Harbor работает на бинарном определении конфиденциальности: данные либо “идентифицированы”, либо “деанонимизированы”. HIPAA предполагает, что удаление статического списка токенов делает данные “безопасными”, эффективно разъединяя клинический нарратив от личности пациента.

‘Однако, наш анализ причинно-следственной связи и эмпирические результаты показывают, что это разъединение является миражом.

‘Клинические записи внутренне связаны с личностью. Медицинский диагноз и нередактированные нарративы являются прямыми продуктами уникальной жизненной траектории пациента, создавая высокоразмерную сигнатуру, которая может быть отображена обратно на человека.’

Авторы дальше подчеркивают, что текущие правила деанонимизации фокусируются на удалении фиксированного списка идентификаторов, игнорируя закономерности, оставленные в остальной части текста. Большие языковые модели, отмечают они, предназначены для обнаружения и объединения таких закономерностей – что означает, что обычные клинические детали могут начать функционировать как “косвенные идентификаторы”.

Статья завершается рядом рекомендаций, включая призыв прекратить настройку моделей на синтетические данные, или “деанонимизированные” данные, поскольку первое сохраняет риски конфиденциальности в отношении реальных данных, использованных для его информирования; и второе предполагает, что предыдущий стандарт защиты HIPAA все еще эффективен.

Заключение

Поскольку “задние двери” такого рода являются наиболее полезными для крупных организаций, таких как страховые компании – которые, вероятно, будут использовать их в тайне, без раскрытия – подход DMCA-стиля “юридического барьера” (где сам акт обхода защиты запрещен, независимо от используемых технологий) является неэффективным.

Известно, что страховые компании хотели бы получить доступ к информации такого рода, и что, напрямую или через ассоциацию с посредниками данных, они имеют необычайный уровень доступа к частным медицинским записям; и чем крупнее компания, тем больше их родная база данных клиентов будет.

Следовательно, если ограничения и гарантии HIPAA становятся более “джентльменским соглашением”, чем эффективным барьером против корпоративной эксплуатации, пересмотр, безусловно, кажется своевременным.

* Мое преобразование встроенных цитат авторов в гиперссылки.

Опубликовано впервые в среду, 11 февраля 2026 года