Andersons Blickwinkel
Immer öfter kann HIPAA nicht verhindern, dass KI Patientendaten de-anonymisiert

Sogar nachdem Krankenhäuser Namen und Postleitzahlen entfernt haben, kann moderne KI manchmal immer noch herausfinden, wer die Patienten sind. Gute Nachrichten für Versicherungsgesellschaften; nicht so sehr für die Empfänger von Gesundheitsleistungen.
Neue Forschungsergebnisse der New York University zeigen, dass die medizinischen Notizen von US-Patienten, von denen Namen und andere HIPAA-Identifikatoren entfernt wurden, Patienten der Wieder-Identifizierung aussetzen können. Durch das Trainieren von KI-Sprachmodellen auf einer großen Sammlung von realen, unzensierten Patientenakten bleiben identitätsdefinierende Details erhalten – in einigen Fällen kann sogar das Viertel eines Patienten allein anhand der Diagnose abgeleitet werden.
Die neue Studie setzt dieses Risiko in den Kontext eines lukrativen Marktes für de-identifizierte Gesundheitsdaten, in dem Krankenhäuser und Datenhändler routinemäßig gereinigte klinische Notizen an Pharmazeutikaunternehmen, Versicherer und KI-Entwickler verkaufen oder lizenzieren.
Die Autoren der neuen Studie fordern sogar das Konzept der “De-Identifizierung” heraus, das in den Patientenschutzbestimmungen von HIPAA verankert ist, nachdem der Gouverneur von Massachusetts, William Weld, seine medizinischen Daten de-anonymisiert hatte:
‘[Selbst] unter perfekter Einhaltung der Safe-Harbor-Bestimmungen bleiben “de-identifizierte” Notizen statistisch mit der Identität verbunden durch die Korrelationen, die ihre klinische Nützlichkeit bestätigen. Der Konflikt ist strukturell und nicht technisch.’
Die Forscher behaupten, dass die aktuellen, HIPAA-konformen De-Identifizierungsrahmen zwei Hintertüren für “Linkage-Angriffe” offen lassen:

Aus der neuen Studie, ein kausales Diagramm, das zeigt, wie HIPAA-ähnliche De-Identifizierung explizite sensible Attribute entfernt, während identitätsverknüpfte Korrelationen intakt bleiben, was es ermöglicht, die Patientenidentität durch nicht-sensible und medizinische Informationen abzuleiten. Quelle
Im obigen Beispiel sehen wir nicht nur, dass der Patient schwanger ist – die einfachste Frucht in der De-Identifizierung, da sie das biologische Geschlecht eindeutig festlegt –, sondern auch, dass sie eine Freizeitaktivität hat, die nicht mit niedrigen Einkommensgruppen in Verbindung gebracht wird, wie die Forscher feststellen:
‘Obwohl die geschützten Attribute (Geburtsdatum und Postleitzahl) schwärzbar sind, können wir immer noch ableiten, dass der Patient eine erwachsene Frau ist, basierend auf der Schwangerschaft, und in einem wohlhabenden Viertel wohnt, angesichts des Hobbys Reiten.’
In einem Experiment konnten noch mehr als 220.000 klinische Notizen von 170.000 NYU Langone-Patienten, nachdem Patienten-Identifikatoren entfernt worden waren, immer noch genug Signal aufweisen, um demografische Merkmale abzuleiten.
Genauer betrachtet
Ein BERT-basiertes Modell wurde fein abgestimmt, um sechs Attribute aus den de-identifizierten Aufzeichnungen vorherzusagen, und, wie die Studie feststellt, übertraf es zufällige Vermutungen mit so wenigen wie 1.000 Trainingsbeispielen. Biologisches Geschlecht wurde mit über 99,7% Genauigkeit wiederhergestellt, und sogar schwache Hinweise wie der Monat, in dem die Notizen aufgenommen wurden, wurden mit besser als zufälliger Genauigkeit vorhergesagt.
Für experimentelle Zwecke wurden die abgeleiteten Merkmale dann in einem Linkage-Angriff gegen die Langone-Datenbank verwendet, was ein maximales einzigartiges Wieder-Identifizierungsrisiko von 0,34% ergab – etwa 37 Mal höher als eine einfache Mehrheitsklasse-Baseline. Angewendet auf die US-Bevölkerung würde dieser Angriff allein 800.000 Patienten de-anonymisieren.
Die Autoren stellen das Problem als ein “Paradoxon” dar, weil das, was in HIPAA-konformen de-identifizierten Patientenakten übrig bleibt, offensichtlich eine tragfähige Grundlage für De-Identifizierungsangriffe ist:
‘[Die] überwiegende Mehrheit des Wieder-Identifizierungsrisikos stammt nicht von Protected Health Information, sondern von dem nicht-sensiblen und medizinischen Inhalt, den wir als sicher zum Teilen betrachten.’
… (rest of the translation remains the same, following the exact same structure and formatting as the original)












