Andersons Blickwinkel
HIPAA kann zunehmend nicht verhindern, dass KI Patientendaten de-anonymisiert.

Selbst nachdem KrankenhĂ€user Namen und Postleitzahlen entfernt haben, kann moderne KI manchmal immer noch die IdentitĂ€t von Patienten ermitteln. Gute Nachrichten fĂŒr Versicherungen; weniger gut fĂŒr Patienten.
Neue Forschungsergebnisse der New York University zeigen, dass die Krankenakten von US-Patienten, denen Namen und andere Informationen fehlen, ⊠HIPAA-Kennungen, kann Patienten aussetzen NeuidentifizierungDurch das Training von KI-Sprachmodellen mit einem groĂen Korpus realer, unzensierter Patientendaten bleiben identitĂ€tsbestimmende Details erhalten â in einigen FĂ€llen ermöglichen sie sogar RĂŒckschlĂŒsse auf die Wohngegend eines Patienten. alleinige Diagnose.
Die neue Studie stellt dieses Risiko in den Kontext einer lukrativer Markt in anonymisierten Gesundheitsdaten, wo KrankenhĂ€user und Datenbroker routinemĂ€Ăig bereinigte klinische Aufzeichnungen an Pharmaunternehmen, Versicherer und KI-Entwickler verkaufen oder lizenzieren.
Die Autoren der neuen Studie stellen sogar das Konzept der âAnonymisierungâ in Frage, das in den von ihnen etablierten Patientenschutzbestimmungen verankert ist. HIPAA nachdem der Gouverneur von Massachusetts, William Weld, seine medizinischen Daten erhalten hat 1997 de-anonymisiert:
âSelbst bei vollstĂ€ndiger Einhaltung der Safe-Harbor-Bestimmungen bleiben anonymisierte Notizen statistisch mit der IdentitĂ€t verknĂŒpft, und zwar durch eben jene Korrelationen, die ihren klinischen Nutzen bestĂ€tigen. Der Konflikt ist struktureller und nicht technischer Natur.â
Die Forscher argumentieren, dass die derzeitigen, HIPAA-konformen Anonymisierungsframeworks zwei HintertĂŒren fĂŒr sogenannte âVerknĂŒpfungsangriffeâ offenlassen:

In der neuen Studie wird ein Kausaldiagramm vorgestellt, das veranschaulicht, wie die Anonymisierung nach HIPAA-Vorschriften explizit sensible Attribute entfernt, wÀhrend identitÀtsbezogene Korrelationen erhalten bleiben, sodass die IdentitÀt des Patienten anhand nicht-sensibler und medizinischer Informationen abgeleitet werden kann. Quelle
Im obigen Beispiel sehen wir nicht nur, dass die Patientin schwanger ist â was bei der Anonymisierung am einfachsten ist, da dadurch das biologische Geschlecht eindeutig festgestellt wird â, sondern auch, dass sie ein Hobby pflegt, das laut den Forschern nicht mit einkommensschwĂ€cheren Bevölkerungsgruppen in Verbindung gebracht wird:
âObwohl die geschĂŒtzten Merkmale (Geburtsdatum und Postleitzahl) geschwĂ€rzt sind, lĂ€sst sich aufgrund der Schwangerschaft dennoch schlieĂen, dass es sich bei der Patientin um eine erwachsene Frau handelt, die angesichts ihres Hobbys Dressurreiten in einer wohlhabenden Gegend wohnt.â
In einem Experiment enthielten selbst nach dem Entfernen der Patientenidentifikatoren mehr als 220,000 klinische Aufzeichnungen von 170,000 Patienten des NYU Langone noch genĂŒgend Informationen, um RĂŒckschlĂŒsse auf demografische Merkmale zu ermöglichen.
Bohren nach unten
A BERT-basiertes Modell war fein abgestimmt Die Methode diente dazu, sechs Merkmale anhand der anonymisierten DatensĂ€tze vorherzusagen und ĂŒbertraf, wie die Studie feststellt, bereits mit nur 1,000 Trainingsbeispielen die Zufallsgenauigkeit. Das biologische Geschlecht wurde mit einer Genauigkeit von ĂŒber 99.7 % ermittelt, und selbst schwĂ€chere Hinweise wie der Monat der Aufzeichnung wurden mit ĂŒberdurchschnittlicher Treffsicherheit vorhergesagt.
Zu experimentellen Zwecken wurden diese abgeleiteten Merkmale anschlieĂend in einem Linkage-Angriff auf die Langone-Datenbank verwendet. Das maximale Risiko einer eindeutigen Reidentifizierung lag bei 0.34 % â etwa 37-mal höher als bei einer einfachen Mehrheitsklassen-Basislinie. Angewendet auf die US-Bevölkerung, wĂŒrde dieser Angriff allein 800,000 Patienten anonymisieren.
Die Autoren bezeichnen das Problem als ein âParadoxonâ, da das, was in HIPAA-konformen, anonymisierten PatientendatensĂ€tzen zurĂŒckbleibt, eindeutig eine praktikable Grundlage fĂŒr Anonymisierungsangriffe darstellt:
âDer ĂŒberwiegende Teil des Risikos der Reidentifizierung geht nicht von geschĂŒtzten Gesundheitsdaten aus, sondern von nicht sensiblen und medizinischen Inhalten, die wir als unbedenklich fĂŒr die Weitergabe einstufen.â

Karten der New Yorker Stadtbezirke zeigen Unterschiede in den Sterberaten in KrankenhÀusern, der durchschnittlichen Verweildauer und dem Einkommensniveau. Sie veranschaulichen, wie sich Gesundheitsergebnisse und Wohlstand je nach Gebiet unterscheiden und selbst in anonymisierten Krankenakten ortsbezogene Hinweise hinterlassen können. Weitere Beispiele finden Sie in der Originalpublikation.
In dem Artikel wird argumentiert, dass die Safe-Harbor-Regeln des HIPAA nicht mehr so ââfunktionieren, wie es die politischen EntscheidungstrĂ€ger beabsichtigt hatten: 18 Kennungen entfernen Das System mag zwar formal den gesetzlichen Anforderungen genĂŒgen, doch laut den Autoren verhindert es nicht, dass die IdentitĂ€t mithilfe gĂ€ngiger Sprachmodelle abgeleitet werden kann. Sie argumentieren, dass das System selbst auf ĂŒberholten Annahmen darĂŒber beruht, was Sprachwissenschaftler aus gewöhnlichen medizinischen Texten ableiten können und was nicht.
Die Arbeit legt auĂerdem nahe, dass diejenigen, die von den genannten SchwĂ€chen profitieren dĂŒrften, groĂe Unternehmen aus dem Bereich der Krankenversicherung sind und nicht herkömmlich definierte kriminelle Organisationen (wie Hacker, Erpresser oder Social Engineers)*:
âDas Fortbestehen des Safe Harbor trotz bekannter EinschrĂ€nkungen ist kein Versehen, sondern ein Merkmal eines Systems.âoptimiert fĂŒr DatenliquiditĂ€t statt PatientenschutzAnonymisierte klinische Notizen stellen eine Multi-Milliarden-Dollar-MarktDadurch entstehen strukturelle Fehlanreize fĂŒr Gesundheitseinrichtungen, datenschutzfreundliche Alternativen einzufĂŒhren, die den Nutzen der Daten verringern oder kostspielige Infrastrukturinvestitionen erfordern könnten.
âEs ist dringend notwendig, diesen Hemmfaktor sorgfĂ€ltig zu untersuchen, zu verstehen und ihm entgegenzuwirken.â
Dies ist ein Positionspapier, das keine eindeutigen Antworten bietet; die Autoren schlagen jedoch vor, dass sich die Forschung zur Anonymisierung eher auf soziale VertrĂ€ge und die rechtlichen Folgen von VertragsbrĂŒchen als auf technische Lösungen konzentrieren sollte (möglicherweise die gleiche Vorgehensweise wird vom DMCA verwendet, um das Kopieren von urheberrechtlich geschĂŒtzten Werken einzuschrĂ€nken, wenn technische Lösungen gescheitert).
Die neues Papier ist betitelt Das Paradoxon der Anonymisierung: Eine Kritik des HIPAA Safe Harbour im Zeitalter der LLM-Absolventenund stammt von vier Forschern der New York University in Zusammenarbeit mit dem NYU Langone Krankenhaus.
Methodik
Um ihre Theorie zu testen, entwickelten die Autoren ein zweistufiges Verfahren. VerknĂŒpfungsangriff unter Verwendung von 222,949 identifizierten klinischen Notizen von 170,283 Patienten, die im NYU Langone behandelt wurden, wobei alle Notizen partitioniert Um Kreuzkontaminationen zu vermeiden, werden die Patientendaten in 80 % Trainings-, 10 % Validierungs- und 10 % Testdaten aufgeteilt.
Zum Vergleich: Diese Sammlung ist 3.34-mal gröĂer als die MIMIC-IV-DatensatzEs handelt sich um die gröĂte öffentlich zugĂ€ngliche Sammlung elektronischer Patientenakten (EHR). Aus DatenschutzgrĂŒnden wird der Langone-Datensatz in keiner Form veröffentlicht, Nutzer können jedoch mit den Projektprinzipien experimentieren. ĂŒber ein GitHub-Repository das synthetische Daten erzeugt.
Sechs demografische Merkmale wurden ausgewÀhlt, um das klassische Re-Identifizierungs-Trio, das in einem einflussreiche Vorarbeiten: biologisches Geschlecht; Gegend; Jahr der Notiz; Notizmonat; Gebietseinkommeneschriebenen Art und Weise; und Versicherungsart:

Demografische Merkmale, die aus anonymisierten klinischen Notizen von NYU Langone abgeleitet wurden und biologisches Geschlecht, Wohngegend, Jahr und Monat der Notiz, Einkommen in der Region und Versicherungsart umfassen, wurden so ausgewĂ€hlt, dass sie dem in [Referenz einfĂŒgen] beschriebenen eindeutigen Identifikationstrio möglichst nahekommen. âEinfache demografische Daten identifizieren Menschen oft auf einzigartige Weise.â
Die Notizen wurden anonymisiert mithilfe von UCSF-FlĂŒsterer vor der Modellierung.
A BERT-Base-ohne GehĂ€use Ein Modell mit 110 Millionen Parametern, das anhand allgemeiner Texte vortrainiert wurde, um den vorherigen Kontakt mit klinischen Daten zu vermeiden, wurde fĂŒr jedes Attribut separat feinabgestimmt. Dabei kamen acht NVIDIA A100 GPUs mit 40 GB Speicher oder H100 GPUs mit 80 GB Speicher zum Einsatz, und zwar fĂŒr bis zu zehn... Epochen. Optimierung verwendet AdamW, Mit Lernrate von 2Ă10â5 und einem effektiven LosgröĂe von 256
Verallgemeinerung Die Auswertung des zurĂŒckgehaltenen Testdatensatzes erfolgte mit Genauigkeit und gewichtet ROC-AUCLetztere wurde gewĂ€hlt, um der Klasse Rechnung zu tragen. Unausgewogenheit ĂŒber alle Attribute hinweg.
Um den Angriff realistischer zu gestalten, wurden die Vorhersagen des Modells nicht als endgĂŒltige Antworten betrachtet. Stattdessen wurde fĂŒr jedes Attribut Folgendes ermittelt: Top k Die wahrscheinlichsten Werte wurden beibehalten und die Patientendatenbank so gefiltert, dass alle Personen berĂŒcksichtigt wurden, die diesen vorhergesagten Merkmalen entsprachen. Dadurch entstand fĂŒr jeden Eintrag eine Auswahlliste möglicher IdentitĂ€ten anstelle einer einzelnen Vermutung.
Risikobewertung
Das Risiko der Reidentifizierung wurde dann in zwei Schritten berechnet: Erstens wurde gemessen, wie oft der tatsÀchliche Patient in der engeren Auswahl auftauchte; zweitens wurde die Wahrscheinlichkeit geschÀtzt, die richtige Person aus dieser Gruppe auszuwÀhlen.
Da im letzten Schritt davon ausgegangen wurde, dass jemand einfach zufĂ€llig einen Namen aus den möglichen Ăbereinstimmungen auswĂ€hlt, handelt es sich bei der angegebenen Zahl um eine vorsichtige SchĂ€tzung, und ein entschlossener Angreifer könnte wahrscheinlich ein besseres Ergebnis erzielen.
Das Experiment ging von einem Zugriff auf die gesamte Patientenpopulation in der externen Datenbank aus. Dies spiegelt ein realistisches Worst-Case-Szenario wider, in dem eine groĂe Institution oder ein Datenbroker mit umfassenden Patientendaten die VerknĂŒpfung versucht, anstatt einer Einzelperson mit begrenzten Informationen. Dies unterstreicht die Art der Bedrohung, die die Autoren in ihrer Arbeit thematisieren.
Ergebnisse
Das Risiko wurde auf drei Ebenen gemessen: Erfolgsrate der Gruppenwiederidentifizierung Erfasst wurde, wie hĂ€ufig der reale Patient in der vom Modell in die engere Wahl gekommenen Kandidatenliste auftauchte, basierend auf korrekten Top-Werten. k Vorhersagen ĂŒber alle Attribute hinweg; individuelle Reidentifizierung aus der Gruppe Die Wahrscheinlichkeit, die richtige Person auszuwĂ€hlen, wurde gemessen, sobald diese Gruppe identifiziert war; und Wahrscheinlichkeit der eindeutigen Wiederidentifizierung Multipliziert man die beiden Werte, erhĂ€lt man die Gesamtwahrscheinlichkeit, einen Patienten anhand anonymisierter Notizen eindeutig zu identifizieren:

Die Vorhersagegenauigkeit fĂŒr biologisches Geschlecht, Nachbarschaft, Jahr, Monat, Einkommen und Versicherungsart zeigt, dass BERT-base-uncased, trainiert auf UCSF philter-de-identified NYU Langone Notes, selbst bei 1,000 Trainingsbeispielen das zufĂ€llige Raten ĂŒbertrifft, wobei sich die Genauigkeit stetig verbessert, wenn der Datensatz auf 178,000 Beispiele anwĂ€chst.
Zu diesen ersten Ergebnissen merken die Autoren Folgendes an:
Wie oben dargestellt, bleiben anonymisierte klinische Notizen anfĂ€llig fĂŒr Attributvorhersagen. Ăber alle sechs Attribute und alle Datenregime (1 bis 177 Beispiele) hinweg ist das Sprachmodell (rot) den zufĂ€lligen Vergleichsmodellen (grau) durchweg ĂŒberlegen.
âDiese Ergebnisse unterstĂŒtzen empirisch, dass der De-Identifizierungsprozess in den beiden HintertĂŒrpfaden ausnutzbare Signale beibehĂ€lt.â
âDas Datenschutzrisiko ist unmittelbar: Modelle erzielen bereits mit nur 1,000 Trainingsbeispielen eine ĂŒberzufĂ€llige Leistung. WĂ€hrend das biologische Geschlecht das am stĂ€rksten exponierte Merkmal ist (mit einer Genauigkeit von > 99.7 % wiederhergestellt), werden selbst subtilste Signale (z. B. der Geburtsmonat) mit einer ĂŒberzufĂ€lligen Genauigkeit vorhergesagt.â
Im zweiten Ergebnisdiagramm unten zeigt die eine Richtung, wie oft das Modell den realen Patienten in seine Auswahlliste aufnimmt, die andere, wie klein diese Auswahlliste ist:

Wie oft die Auswahlliste des Modells den tatsĂ€chlichen Patienten enthĂ€lt, im Vergleich dazu, wie einfach es ist, die richtige Person aus dieser Auswahlliste auszuwĂ€hlen â was zeigt, dass das Sprachmodell ein höheres Gesamtrisiko der Reidentifizierung erzeugt als einfaches Raten, das 0.34 % erreicht, verglichen mit 0.0091 % fĂŒr die stĂ€rkste Vergleichsbasis.
Je hĂ€ufiger der tatsĂ€chliche Patient auftaucht und je kĂŒrzer die Auswahlliste ist, desto höher ist das Risiko. Das Sprachmodell der Autoren ĂŒbertraf eine einfache MehrheitsklassenschĂ€tzung in beiden Bereichen und erreichte im besten Fall eine Wahrscheinlichkeit von 0.34 %, einen Patienten eindeutig zu identifizieren â etwa 37-mal höher als die beste Vergleichsmethode.
Die Autoren weisen darauf hin, dass bei Patienten mit ungewöhnlichen Krankengeschichten oder marginalisierten IdentitĂ€ten die Risiken der Anonymisierung höher sind, und schlieĂen mit der Empfehlung zu einer ernsthaften Neubewertung des HIPAA Safe Harbor-Standards:
Der HIPAA Safe Harbor-Standard basiert auf einer binĂ€ren Definition von Datenschutz: Daten sind entweder âidentifiziertâ oder âanonymisiertâ. HIPAA geht davon aus, dass das Entfernen einer statischen Liste von Tokens die Daten âsicherâ macht und somit die klinische Darstellung effektiv von der IdentitĂ€t des Patienten entkoppelt.
âUnsere Kausaldiagrammanalyse und empirischen Ergebnisse legen jedoch nahe, dass diese Entkopplung eine Illusion ist.â
âKlinische Befunde sind untrennbar mit der IdentitĂ€t verbunden. Die medizinische Diagnose eines Patienten und seine ungeschwĂ€rzten ErzĂ€hlungen sind direkte Produkte seines einzigartigen Lebensweges und erzeugen eine hochdimensionale Signatur, die auf das Individuum zurĂŒckgefĂŒhrt werden kann.â
Die Autoren betonen weiterhin, dass sich die aktuellen Anonymisierungsregeln auf das Entfernen einer festen Liste von Identifikatoren konzentrieren, wĂ€hrend die im verbleibenden Text verbleibenden Muster ignoriert werden. GroĂe Sprachmodelle, so merken sie an, sind darauf ausgelegt, solche Muster zu erkennen und zu kombinieren â was bedeutet, dass gewöhnliche klinische Details als âindirekte Identifikatorenâ fungieren können.
Die Studie schlieĂt mit einer Reihe von Empfehlungen, darunter der Appell, die Feinabstimmung von Modellen einzustellen. synthetische Datenoder âdeklassifizierteâ Daten, da die erste birgt Datenschutzrisiken in Bezug auf die realen Daten, die zur BegrĂŒndung verwendet wurden; und die zweite Annahme setzt voraus, dass der bisherige Standard des Datenschutzes aus der HIPAA-Ăra weiterhin wirksam ist.
Fazit
Da solche âHintertĂŒrenâ eindeutig vor allem groĂen Organisationen wie Versicherungsunternehmen zugutekommen â die sie vermutlich heimlich und ohne Offenlegung nutzen werden â, wĂ€re eine ârechtliche Blockadeâ nach dem Vorbild des DCMA (bei der die handeln Die Umgehung von SchutzmaĂnahmen ist an sich verboten, unabhĂ€ngig von den verwendeten Technologien, und stellt daher einen ineffektiven Ansatz dar.
bekannt dass Versicherungsunternehmen Zugang zu solchen Informationen erhalten möchten und dass sie direkt oder ĂŒber Verbindungen zu Datenbrokern einen auĂergewöhnlichen Zugang zu privaten Gesundheitsdaten haben; und je gröĂer das Unternehmen ist, desto gröĂer ist auch seine eigene Kundendatenbank.
Wenn die Bestimmungen und Schutzmechanismen des HIPAA also eher zu einer Art Gentlemen's Agreement werden als zu einem wirksamen Schutzwall gegen die Ausbeutung durch Unternehmen, erscheint eine ĂberprĂŒfung sicherlich angebracht.
* Meine Konvertierung der Inline-Zitate der Autoren in Hyperlinks.
Erstveröffentlichung: Mittwoch, 11. Februar 2026












