Anderson 视角

人工智能越来越能突破HIPAA的匿名化患者数据保护

mm
An AI-generated image featuring a crowd of businesspeople gathered around the hospital bed of a masked patient, trying to remove his mask. Z-Image Turbo + Qwen Edit V1, via Krita AI Diffusion.

即使医院移除了姓名和邮政编码,现代人工智能仍然可以通过医疗记录推断出患者的身份。对于保险公司来说,这是好消息;但对于医疗服务的接受者来说,这并不是什么好消息。

 

纽约大学的新研究发现,美国患者的医疗记录,即使去掉了姓名和其他HIPAA标识符,仍然可能将患者暴露于重新识别的风险之中。通过在大量现实世界的未经审查的患者记录上训练人工智能语言模型,身份定义的细节仍然存在——在某些情况下,仅凭诊断就可以推断出患者的居住地。

该研究将这种风险置于一个利润丰厚的去识别健康数据市场的背景下,在这个市场中,医院和数据经纪人通常会出售或许可清除个人信息的临床笔记给制药公司、保险公司和人工智能开发者。

研究作者对去识别的概念提出质疑,这一概念植根于HIPAA建立的患者保护措施。他们指出,即使在完美的安全港遵从性下,“去识别”的笔记仍然通过与身份相关的关联与身份相关联。这种冲突是结构性的,而不是技术性的。

研究人员认为,当前的HIPAA兼容的去识别框架留下了两个后门,允许进行“链接攻击”。

来自新论文的因果图,说明HIPAA风格的去识别如何去除明确的敏感属性,同时保留身份相关的关联,允许通过非敏感和医疗信息推断患者身份。来源 - https://arxiv.org/pdf/2602.08997

来自新论文的因果图,说明HIPAA风格的去识别如何去除明确的敏感属性,同时保留身份相关的关联,允许通过非敏感和医疗信息推断患者身份。 来源

在上面的例子中,我们不仅可以看出患者是孕妇——去识别的最简单的情况,因为它明确地确定了生物性别——而且还可以看出患者喜欢一种与低收入群体无关的爱好,根据研究人员的说法:

“虽然受保护的属性(出生日期和邮政编码)被编辑掉了,我们仍然可以推断出患者是一名成年女性,基于怀孕情况,并且居住在一个富裕的社区,考虑到马术爱好。”

在一个实验中,即使患者标识符被移除,超过22万份来自17万名纽约大学朗格尼患者的临床笔记仍然保留了足够的信号,允许推断人口统计特征。

深入探讨

基于BERT的模型被微调以预测从去识别记录中提取的六个属性,并且,论文指出,超过随机猜测的准确率,即使只有1000个训练样本。生物性别以超过99.7%的准确率恢复,而甚至更微妙的信号(笔记的月份)也以更好的随机准确率预测。

为了进行实验,推断出的特征被用于对朗格尼数据库进行链接攻击,产生了最大唯一重新识别风险的0.34%——大约是简单多数类基线的37倍。

作者将问题框定为一个“悖论”,因为去识别的患者记录中保留的内容明显是重新识别攻击的可行基础:

“大多数重新识别风险不来源于受保护的健康信息,而是我们认为安全共享的非敏感和医疗内容。”

纽约市各区的住院死亡率、平均住院时间和人均收入地图,展示了临床结果和社会经济变量如何地理聚类并在去识别笔记中创建身份相关模式。请参阅源论文以获取更多示例

纽约市各区的住院死亡率、平均住院时间和人均收入地图,展示了临床结果和社会经济变量如何地理聚类并在去识别笔记中创建身份相关模式。请参阅源论文以获取更多示例

该论文认为HIPAA的安全港规则不再按照政策制定者最初的意图发挥作用:去除18个标识符可能满足法律的要求,但根据作者的说法,这并不能防止身份被当前的语言模型推断出来。他们将整个系统视为建立在关于大型语言模型可以和不能够从普通的医疗文本中推断出的内容的过时假设之上。

该工作还表明,可能从这些弱点中受益的往往是与医疗保险相关的大型公司,而不是传统意义上的犯罪实体(例如黑客、勒索者或社会工程师):

“安全港的持续存在尽管其局限性众所周知,并不是疏忽,而是一个特征,这个系统是为数据流动性而优化的,而不是为患者保护而设计的。去识别的临床笔记代表着一个数十亿美元的市场,这创造了结构性的激励,使得医疗机构不愿意采用可能降低数据实用性或需要昂贵基础设施投资的保护隐私的替代方案。”

“有必要仔细调查、了解并解决这个激励。”

这是一个立场文件,没有提供明确的答案;然而,作者建议重新识别的研究应该转向社会契约和违反协议的法律后果,而不是技术解决方案(可以说,这与DMCA用来限制受知识产权保护的作品复制的方法相同,当技术解决方案失败时)。

该论文题为去识别的悖论:对HIPAA安全港的批判,在大型语言模型的时代,由四位来自纽约大学的研究人员撰写,与纽约大学朗格尼医院合作。

方法

为了测试他们的理论,作者开发了一个两阶段的链接攻击,使用了来自17万283名患者的22万949份已识别的临床笔记,所有笔记都被分割为80%的训练集、10%的验证集和10%的测试集,以防止交叉污染。

为了提供背景,这个集合比MIMIC-IV数据集大3.34倍,MIMIC-IV数据集是最大的公开可用的电子健康记录(EHR)集合。由于隐私原因,朗格尼数据集不会以任何形式公开,但用户可以通过GitHub仓库实验该项目的原理,该仓库生成合成数据。

六个人口统计属性被策划出来,以近似经典的重新识别三元组,正如在一个有影响力的前期工作中确定的那样:生物性别社区笔记年份笔记月份区域收入;以及保险类型

从UCSF philter去识别的NYU Langone临床笔记中推断出的人口统计属性,包括生物性别、社区、笔记年份、笔记月份、区域收入和保险类型,选择这些属性是为了近似在'Simple Demographics Often Identify People Uniquely'中描述的唯一标识符三元组 - https://dataprivacylab.org/projects/identifiability/paper1.pdf

从去识别的NYU Langone临床笔记中推断出的人口统计属性,包括生物性别、社区、笔记年份、笔记月份、区域收入和保险类型,选择这些属性是为了近似在’Simple Demographics Often Identify People Uniquely’中描述的唯一标识符三元组。

笔记被使用UCSF philter去识别,然后进行建模。

一个BERT-base-uncased模型,具有1.1亿个参数,预训练在通用领域文本上,以避免之前对临床数据的暴露,对于每个属性进行了单独的微调,使用八个NVIDIA A100 GPU,具有40GB的内存,或者H100 GPU,具有80GB的内存,训练时间最长为十个epoch。优化使用AdamW,学习率为2×10−5,有效批大小为256

泛化在保留的测试集上使用准确率和加权ROC-AUC进行评估,后者被选用以考虑类别不平衡

为了使攻击更现实,模型的预测并没有被视为单一的确定性答案。相反,对于每个属性,保留了最可能的前k个值,并且患者数据库被过滤以包括任何与这些预测特征相匹配的人。这产生了每个笔记的可能身份的候选名单,而不是单一的猜测。

风险评估

重新识别风险随后在两个阶段计算:测量真实患者出现在候选名单中的频率;以及估计从该名单中选择正确的人的机会。

因为最后一步假设有人简单地从可能的匹配中随机选择一个名字,所以报告的数字是一个谨慎的估计,一个决心的攻击者可能会做得更好。

实验假设攻击者可以访问外部数据库中的全部患者人口。这反映了一个最坏的情况,但却是现实的场景,即一个大型机构或数据经纪人拥有大量患者记录的广泛覆盖,试图进行链接攻击,而不是一个拥有有限信息的个人。

结果

风险以三个层次衡量:组重新识别成功率捕捉了真实患者在模型的候选名单中出现的频率,基于正确的前k个预测,跨所有属性;从组中个体重新识别衡量了一旦组被识别,选择正确的人的机会;以及唯一重新识别的概率将这两个概率相乘,得出重新识别患者的总体可能性:

生物性别、社区、年份、月份、收入和保险类型的预测准确率,展示了BERT-base-uncased在UCSF philter去识别的NYU Langone笔记上超过随机猜测的准确率,即使只有1000个训练样本,随着数据集的增长到178,000个样本,准确率也逐渐提高。

生物性别、社区、年份、月份、收入和保险类型的预测准确率,展示了BERT-base-uncased在UCSF philter去识别的NYU Langone笔记上超过随机猜测的准确率,即使只有1000个训练样本,随着数据集的增长到178,000个样本,准确率也逐渐提高。

关于这些初始结果,作者指出:

“如上所示,去识别的临床笔记仍然容易受到属性预测的攻击。跨所有六个属性和所有数据方案(1k到177k个样本),语言模型(红色)始终超过随机基线(灰色)。”

“这些结果从经验上支持去识别过程保留了两个后门路径中的可利用信号。”

“隐私风险是即刻的:模型在仅有1000个训练样本的情况下就超过了随机性能。虽然生物性别是最容易暴露的属性(以超过99.7%的准确率恢复),但甚至最微妙的信号(笔记的月份)也以更好的随机准确率预测。”

在第二个结果图中,一个方向显示了模型多常将真实患者包含在其候选名单中,另一个方向显示了候选名单有多小:

模型的候选名单包含真实患者的频率,绘制在从候选名单中选择正确的人的难易程度图上,显示语言模型比简单猜测创建了更高的重新识别风险,达到0.34%,与最强基线的0.0091%相比。

模型的候选名单包含真实患者的频率,绘制在从候选名单中选择正确的人的难易程度图上,显示语言模型比简单猜测创建了更高的重新识别风险,达到0.34%,与最强基线的0.0091%相比。

真实患者出现在候选名单中的频率越高,候选名单越小,风险就越高。作者的语言模型在两个方面都超过了简单的多数类别猜测,在其峰值时相当于0.34%的重新识别机会,大约是最强基线的37倍。

作者指出,对于具有不寻常的医疗史或边缘化身份的患者,重新识别的风险更高,并得出结论,建议对HIPAA安全港标准进行严肃的重新评估:

“HIPAA安全港标准以二元的隐私定义运作:数据要么是‘识别的’,要么是‘去识别的’。HIPAA假设删除静态标记符列表就能使数据‘安全’,有效地将临床叙述与患者的身份分离。”

“然而,我们的因果图分析和经验结果表明,这种分离是一种幻觉。”

“临床笔记本质上与身份相关。患者的医疗诊断和未编辑的叙述是他们独特的生命轨迹的直接产物,创造了一个可以映射回个人的高维签名。”

作者进一步强调,当前的去识别规则专注于删除固定标识符列表,同时忽略了剩余文本中留下的模式。他们指出,大型语言模型的设计目的是检测和组合这些模式,这意味着普通的临床细节可以开始作为“间接标识符”发挥作用。

该论文得出结论,提出了一系列建议,包括停止在合成数据上微调模型的建议,因为第一种方法保留了对用于生成合成数据的真实数据的隐私风险;第二种方法假设HIPAA时代的先前保护标准仍然有效。

结论

由于这种“后门”的益处主要归于大型组织,如保险公司——它们可能会以隐秘的方式使用这些后门,并且不会披露——因此,类似于DMCA的“法律阻塞”(即保护规避行为本身被禁止,无论使用什么技术)是一种无效的方法。

众所周知,保险公司希望能够获取此类信息,并且他们直接或通过与数据经纪人的关联,已经对私人医疗记录拥有了令人惊讶的访问权限;而且,公司越大,其本地客户数据库就会越大。

因此,如果HIPAA的严格规定和保障措施变得更像是一种“绅士协议”,而不是对企业剥削的有效屏障,那么进行审查似乎是及时的。

 

* 我将作者的内联引用转换为超链接。

首次发表于2026年2月11日星期三

机器学习作家,人类图像合成领域专家。曾任 Metaphysic.ai 研究内容负责人。
个人网站: martinanderson.ai
联系: [email protected]
Twitter:@manders_ai