Погляд Anderson
Все частіше HIPAA не може зупинити ШІ від деанонімізації даних пацієнтів

Навіть після того, як лікарні видаляють імена та поштові індекси, сучасний ШІ іноді все ще може з’ясувати, ким є пацієнти. Чудові новини для страхових компаній; не так вже й добре для отримувачів медичної допомоги.
Нове дослідження Нью-Йоркського університету виявляє, що медичні записи пацієнтів у США, позбавлені імен та інших ідентифікаторів HIPAA, можуть піддавати пацієнтів ризику реідентифікації. Навчаючи мовні моделі ШІ на великому корпусі реальних, нецензурованих записів пацієнтів, деталі, що визначають особу, залишаються – у деяких випадках дозволяючи визначити район проживання пацієнта лише на основі діагнозу.
Нове дослідження розглядає цей ризик у контексті прибуткового ринку деідентифікованих медичних даних, де лікарні та брокери даних регулярно продають або ліцензують очищені клінічні записи фармацевтичним компаніям, страховикам та розробникам ШІ.
Автори нового дослідження ставлять під сумнів навіть саме поняття ‘деідентифікації’, закріплене в захисті прав пацієнтів, встановленому HIPAA після того, як медичні дані губернатора Массачусетса Вільяма Велда були деанонімізовані в 1997 році:
‘[Навіть] при ідеальному дотриманні Safe Harbor, “деідентифіковані” записи статистично залишаються прив’язаними до особи через самі кореляції, що підтверджують їхню клінічну корисність. Конфлікт є структурним, а не технічним.’
Дослідники стверджують, що нинішні рамки деідентифікації, що відповідають HIPAA, залишають два бекдора доступними для ‘атак зв’язування’:

З нової статті, причинно-наслідкова діаграма, що ілюструє, як деідентифікація на зразок HIPAA видаляє явні чутливі атрибути, залишаючи кореляції, пов’язані з особою, недоторканими, дозволяючи визначити особу пацієнта через нечутливу та медичну інформацію. Джерело
У наведеному вище прикладі ми бачимо не лише те, що пацієнтка вагітна – найлегша здобич для деідентифікації, оскільки це однозначно встановлює біологічну стать – але й те, що їй подобається хобі, не пов’язане з групами з низьким доходом, за словами дослідників:
‘Хоча захищені атрибути (дата народження та ZIP-код) вилучені, ми все ще можемо зробити висновок, що пацієнт – доросла жінка на основі вагітності, і проживає в заможному районі, враховуючи хобі – виїздку.’
В одному експерименті, навіть після видалення ідентифікаторів пацієнтів, понад 220 000 клінічних записів від 170 000 пацієнтів NYU Langone все ще несли достатньо сигналу, щоб дозволити визначити демографічні характеристики.
Детальний аналіз
Модель на основі BERT була доопрацьована для прогнозування шести атрибутів із деідентифікованих записів, і, як зазначається в статті, перевершила випадкові здогадки вже за 1000 навчальних прикладів. Біологічну стать було відновлено з точністю понад 99,7%, і навіть слабші ознаки, такі як місяць взяття записів, прогнозувалися вище за рівень випадковості.
Для експериментальних цілей ці виведені характеристики були потім використані в атаці зв’язування на базу даних Langone, що призвело до максимального унікального ризику реідентифікації в 0,34% – приблизно в 37 разів вище, ніж простий базовий рівень більшості класів. Застосована до населення США, лише ця атака деідентифікувала б 800 000 пацієнтів.
Автори описують проблему як ‘парадокс’, тому що те, що залишається в деідентифікованих записах пацієнтів, що відповідають HIPAA, явно є життєздатною основою для атак деідентифікації:
‘[Переважна] більшість ризику реідентифікації походить не від Захищеної медичної інформації, а від нечутливого та медичного вмісту, який ми вважаємо безпечним для обміну.’

Мапи районів Нью-Йорка, що показують відмінності в рівнях смертності в лікарнях, середній тривалості перебування та рівнях доходу, ілюструючи, як результати здоров’я та багатство різняться за районами і можуть залишати пов’язані з місцем розташування підказки навіть у деідентифікованих медичних записах. Будь ласка, зверніться до вихідної статті для додаткових прикладів
У статті стверджується, що правила Safe Harbor HIPAA більше не працюють так, як задумували політики: видалення 18 ідентифікаторів може задовольняти букву закону, але, на думку авторів, це не запобігає визначенню особи сучасними мовними моделями. Вони описують саму систему як побудовану на застарілих припущеннях щодо того, що ВММ можуть і не можуть вивести зі звичайного медичного тексту.
Робота також припускає, що ті, хто, ймовірно, отримає вигоду від заявлених слабкостей, – це великі корпорації, пов’язані з медичним страхуванням, а не традиційно визначені кримінальні суб’єкти (такі як хакери, шантажисти або соціальні інженери)*:
‘Стійкість Safe Harbor, незважаючи на відомі обмеження, не є недоглядом, а особливістю системи, оптимізованої для ліквідності даних, а не для захисту пацієнтів. Деідентифіковані клінічні записи представляють собою багатомільярдний ринок, створюючи структурні демотивації для медичних установ приймати альтернативи, що зберігають конфіденційність, які можуть зменшити корисність даних або вимагати дорогих інвестицій в інфраструктуру.
‘Існує нагальна потреба ретельно дослідити, зрозуміти та вирішити цю демотивацію.’
Це позиційна стаття, в якій не пропонується чітких відповідей; однак автори пропонують, щоб дослідження деідентифікації зосередилися на соціальних контрактах та юридичних наслідках порушення, а не на технічних рішеннях (ймовірно, такий самий підхід, який використовувався DMCA для обмеження копіювання захищеної ІВ роботи, коли технічні рішення зазнали невдачі).
Нова стаття має назву Paradox of De-identification: A Critique of HIPAA Safe Harbour in the Age of LLMs і належить чотирьом дослідникам з Нью-Йоркського університету у співпраці з лікарнею NYU Langone.
Метод
Щоб перевірити свою теорію, автори розробили двоетапну атаку зв’язування, використовуючи 222 949 ідентифікованих клінічних записів від 170 283 пацієнтів, які лікувалися в NYU Langone, причому всі записи були розділені за пацієнтом на 80% навчальних, 10% валідаційних та 10% тестових наборів, щоб запобігти перехресному забрудненню.
Для контексту, ця колекція в 3,34 рази більша за набір даних MIMIC-IV, найбільшу публічно доступну колекцію електронних медичних записів (EHR). З міркувань конфіденційності набір даних Langone не буде опублікований у жодній формі, хоча користувачі можуть експериментувати з принципами проекту через репозиторій GitHub, який генерує синтетичні дані.
Шість демографічних атрибутів були відібрані для наближення до класичного тріо реідентифікації, визначеного в впливовій попередній роботі: біологічна стать; район; рік запису; місяць запису; дохід у районі; та тип страхування:













