ますます、HIPAAはAIによる患者データの匿名化解除を止められない
病院が名前や郵便番号を削除した後でも、現代のAIは時として患者が誰であるかを特定できる。保険会社にとっては朗報だが、医療の受け手にとってはあまり良いニュースではない。 ニューヨーク大学による新しい研究は、米国の患者の医療記録から名前やその他のHIPAA識別子を除去しても、患者が再識別されるリスクにさらされる可能性があることを明らかにした。現実世界の検閲されていない大量の患者記録を用いてAI言語モデルを訓練することで、個人を特定する詳細情報が残存する場合があり、診断名だけから患者の居住地域を推測できるケースさえある。この新しい研究は、このリスクを、病院やデータブローカーが製薬会社、保険会社、AI開発者に匿名化処理された臨床記録を日常的に販売またはライセンス供与している、匿名化医療データの巨大な市場という文脈に位置づけている。新しい研究の著者らは、マサチューセッツ州知事ウィリアム・ウェルドの医療データが1997年に匿名化解除された後にHIPAAによって確立された患者保護に謳われている「匿名化」という概念そのものに疑問を投げかけている:「[たとえ] 完全なセーフハーバー準拠の下でも、『匿名化された』記録は、その臨床的有用性を確認するまさにその相関関係を通じて、統計的に個人と結びついたままである。この矛盾は技術的なものではなく、構造的なものである。」研究者らは、現在のHIPAA準拠の匿名化フレームワークが、「リンケージ攻撃」に対して2つのバックドアを残していると主張する:上記の例では、患者が妊娠していること(生物学的性別を明確に示すため、匿名化において最も容易に推測可能な情報)だけでなく、研究者によれば、彼女が低所得層とは関連付けられない趣味を持っていることもわかる:「保護された属性(生年月日と郵便番号)は編集されていますが、妊娠に基づいて患者が成人女性であること、そして馬術という趣味から裕福な地域に住んでいることを推測できます。」ある実験では、患者識別子が除去された後でも、17万人のNYUランゴーン患者からの22万件以上の臨床記録には、人口統計学的特性を推測するのに十分な情報が残されていた。詳細な分析BERTベースのモデルが、匿名化された記録から6つの属性を予測するようにファインチューニングされ、論文によれば、わずか1,000のトレーニング例でランダム推測を上回った。生物学的性別は99.7%以上の精度で復元され、記録が取られた月といったより弱い手がかりでさえ、偶然の確率を上回るレベルで予測された。実験目的で、これらの推測された特性はランゴーンのデータベースに対するリンケージ攻撃に使用され、最大0.34%のユニークな再識別リスクを生み出した。これは単純な多数派クラスベースラインの約37倍高い。この攻撃を米国人口に適用するだけで、80万人の患者が匿名化解除されることになる。著者らはこの問題を「パラドックス」と位置づける。なぜなら、HIPAA準拠の匿名化患者記録に残されているものは、明らかに匿名化解除攻撃の実行可能な基盤だからである:「再識別リスクの大部分は、保護医療情報からではなく、共有しても安全とみなされる非機密および医療コンテンツに由来する。」この論文は、HIPAAのセーフハーバー規則が政策立案者の意図した通りには機能しなくなったと主張する:18の識別子を除去することは法律の条文を満たすかもしれないが、著者らによれば、現在の言語モデルによる個人の推測を防ぐことはできない。彼らは、このシステム自体が、LLMが通常の医療テキストから何を推論でき、何を推論できないかについての時代遅れの前提に基づいて構築されていると位置づける。この研究はまた、述べられた弱点から利益を得る可能性が高いのは、従来定義される犯罪組織(ハッカー、恐喝者、ソーシャルエンジニアなど)ではなく、医療保険に関連する大企業であることを示唆している*:「既知の限界にもかかわらずセーフハーバーが存続しているのは、見落としではなく、患者保護よりもデータの流動性を最適化したシステムの特徴である。匿名化された臨床記録は数十億ドル規模の市場を形成しており、データの有用性を低下させたり、高額なインフラ投資を必要とする可能性のあるプライバシー保護の代替手段を医療機関が採用することを構造的に阻害している。「この阻害要因を注意深く調査し、理解し、対処することには緊急性がある。」これは立場表明論文であり、明確な答えは提示されていない。しかし、著者らは、匿名化に関する研究は、技術的解決策(技術的解決策が失敗した際にDMCAが知的財産保護作品の複製を制限するために用いた同じアプローチ)ではなく、社会的契約と違反の法的結果に向けて軸足を移すべきだと提案している。新しい論文は、Paradox of De-identification: A Critique of HIPAA Safe Harbour in the Age of LLMsと題され、ニューヨーク大学の4人の研究者から、NYUランゴーン病院との協力で発表された。手法彼らの理論を検証するため、著者らはNYUランゴーンで治療を受けた170,283人の患者からの222,949件の識別可能な臨床記録を用いた二段階のリンケージ攻撃を開発した。すべての記録は患者ごとに80%トレーニング、10%検証、10%テストに分割され、交差汚染を防いだ。参考までに、このコレクションは、公開されている最大の電子健康記録(EHR)コレクションであるMIMIC-IVデータセットの3.34倍の規模である。プライバシーの理由から、ランゴーンデータセットはどのような形式でも公開されないが、ユーザーは合成データを生成するGitHubリポジトリを通じてプロジェクトの原理を実験できる。6つの人口統計的属性は、影響力のある先行研究で特定された古典的な再識別の三要素を近似するように選定された:生物学的性別;居住地域;記録年;記録月;地域所得;保険種類:記録はモデリング前にUCSF philterを使用して匿名化された。1億1,000万パラメータを持つBERT-base-uncasedモデル(臨床データへの事前曝露を避けるため一般領域テキストで事前学習済み)が、各属性ごとに別々にファインチューニングされた。8基のNVIDIA A100 GPU(40GBメモリ)またはH100 GPU(80GBメモリ)を使用し、最大10エポックまで学習した。最適化にはAdamWを使用し、学習率は2×10−5、実効バッチサイズは256であった。汎化性能は、ホールドアウトされたテストセット上で、Accuracyと加重ROC-AUCを用いて評価された。後者は属性間のクラス不均衡を考慮するために選択された。攻撃をより現実的にするため、モデルの予測は単一の決定的な答えとして扱われなかった。代わりに、各属性について、最も可能性の高い上位k個の値が保持され、患者データベースはそれらの予測特性に一致する人物を含むようにフィルタリングされた。これにより、各記録に対して単一の推測ではなく、可能性のある個人のショートリストが生成された。リスク評価再識別リスクは、その後2段階で計算された:実際の患者がそのショートリストグループ内に現れる頻度を測定すること;そしてそのグループ内から正しい人物を選択する確率を推定すること。最後のステップでは、誰かが単に可能な一致者からランダムに名前を選ぶと仮定したため、報告された数値は控えめな推定値であり、決意のある攻撃者はおそらくより良い結果を得られるだろう。この実験は、外部データベース内の全患者集団へのアクセスを仮定している。これは、限られた情報で行動する個人ではなく、患者記録を広範囲にカバーする大規模な機関やデータブローカーがリンケージを試みる、最悪だが現実的なシナリオを反映しており、著者らがこの研究で取り組んでいる脅威の性質をさらに強調している。結果リスクは3つのレベルで測定された:グループ再識別成功率は、すべての属性にわたる正しい上位k予測に基づき、実際の患者がモデルのショートリスト候補セット内に現れる頻度を捉えた;グループからの個人再識別は、そのグループが特定された後、正しい人物を選択する確率を測定した;そしてユニークな再識別の確率はこの2つを乗算し、匿名化された記録から患者を一意に識別する全体的な可能性を算出した:<img class=" wp-image-252117" src="https://www.unite.ai/wp-content/uploads/2026/02/figure-4-1.jpg" alt="生物学的性別、居住地域、年、月、所得、保険種類の予測精度。UCSF philterで匿名化されたNYUランゴーン記録で学習したBERT-base-uncasedは、1,000のトレーニング例でも