日益地,HIPAA 已无法阻止人工智能对患者数据进行去匿名化
即使医院删除了姓名和邮政编码,现代人工智能有时仍能推断出患者是谁。这对保险公司来说是个好消息;但对医疗保健接受者来说就不那么好了。 纽约大学的新研究发现,美国患者的医疗记录在删除了姓名和其他HIPAA标识符后,仍可能使患者面临重新识别的风险。通过在大量真实世界、未经审查的患者记录上训练人工智能语言模型,那些定义身份的细节仍然存在——在某些情况下,仅凭诊断就能推断出患者所在的社区。这项新研究将这种风险置于一个利润丰厚的去标识化健康数据市场背景下,在这个市场中,医院和数据经纪人常规性地向制药公司、保险公司和人工智能开发者出售或授权经过清理的临床记录。这项新研究的作者甚至对“去标识化”这一概念本身提出了挑战,该概念在马萨诸塞州州长威廉·韦尔德的医疗数据于1997年被去匿名化后,被确立在HIPAA制定的患者保护条款中:“即使在完全遵守安全港规则的情况下,‘去标识化’的记录通过那些确认其临床实用性的相关性,在统计上仍然与身份绑定。这种冲突是结构性的,而非技术性的。”研究人员认为,当前符合HIPAA标准的去标识化框架留下了两个可供“链接攻击”利用的后门:在上面的例子中,我们不仅看到患者怀孕——这是去标识化中最容易暴露的信息,因为它明确地确立了生物性别——而且根据研究人员的说法,她还喜欢一项与低收入群体无关的消遣活动:“尽管受保护的属性(出生日期和邮政编码)被编辑了,我们仍然可以基于怀孕推断患者是一名成年女性,并根据盛装舞步这一爱好推断她居住在高档社区。”在一项实验中,即使患者标识符被剥离,来自17万名纽约大学朗格尼医院患者的超过22万份临床记录仍然携带了足够的信息,可以推断出人口统计学特征。深入分析一个基于BERT的模型被微调,用于从去标识化的记录中预测六个属性,并且论文指出,仅用1000个训练样本,其预测就超过了随机猜测。生物性别的恢复准确率超过99.7%,即使是较弱的线索,如记录生成的月份,其预测准确率也高于随机水平。出于实验目的,这些推断出的特征随后被用于对朗格尼数据库进行链接攻击,产生了0.34%的最大唯一重新识别风险——大约是简单多数类基线的37倍。如果应用于美国人口,仅此攻击就能识别出80万名患者。作者将这个问题框定为一种“悖论”,因为在符合HIPAA标准的去标识化患者记录中留下的内容,显然是进行去标识化攻击的可行基础:“绝大多数重新识别风险并非来自受保护的健康信息,而是来自我们认为可以安全共享的非敏感和医疗内容。”论文认为,HIPAA的安全港规则已不再像政策制定者预期的那样有效:移除18个标识符可能满足了法律的字面要求,但根据作者的说法,这并不能防止当前的语言模型推断出身份。他们认为,该系统本身建立在关于LLM能从普通医疗文本中推断出什么和不能推断出什么的过时假设之上。该研究还表明,可能从所述弱点中受益的是与医疗保险相关的大型企业,而非传统定义的犯罪实体(如黑客、勒索者或社会工程师)*:“安全港规则在已知局限下仍然存在,这不是疏忽,而是一个为数据流动性而非患者保护而优化的系统的特征。去标识化的临床记录代表着一个价值数十亿美元的市场,这为医疗机构采用可能降低数据效用或需要昂贵基础设施投资的隐私保护替代方案创造了结构性阻力。“迫切需要仔细调查、理解并解决这种阻力。”这是一篇立场论文,没有提供明确的答案;然而,作者建议,关于去标识化的研究应转向社会契约和违规的法律后果,而非技术解决方案(可以说是与DMCA在技术解决方案失败后用于限制受知识产权保护作品复制的方法相同)。这篇新论文题为Paradox of De-identification: A Critique of HIPAA Safe Harbour in the Age of LLMs,来自纽约大学的四位研究人员,并与纽约大学朗格尼医院合作。方法为了验证他们的理论,作者开发了一种两阶段的链接攻击,使用了来自纽约大学朗格尼医院治疗的170,283名患者的222,949份已标识的临床记录,所有记录按患者划分为80%训练集、10%验证集和10%测试集,以防止交叉污染。作为背景,这个集合的规模是最大的公开可用电子健康记录(EHR)集合——MIMIC-IV数据集的3.34倍。出于隐私原因,朗格尼数据集不会以任何形式公开,不过用户可以通过一个生成合成数据的GitHub仓库来试验该项目的原理。研究人员整理了六个人口统计学属性,以近似于一项有影响力的先前研究中确定的经典重新识别三元组:生物性别;社区;记录年份;记录月份;地区收入;以及保险类型:在建模之前,这些记录使用UCSF philter进行了去标识化处理。一个拥有1.1亿参数、在通用领域文本上预训练以避免先前接触临床数据的BERT-base-uncased模型,针对每个属性分别进行了微调,使用了八个内存为40GB的NVIDIA A100 GPU,或内存为80GB的H100 GPU,最多进行十个训练周期。优化使用了AdamW,学习率为2×10−5,有效批大小为256。在留出的测试集上的泛化能力使用准确率和加权ROC-AUC进行评估,选择后者是为了考虑不同属性间的类别不平衡。为了使攻击更贴近现实,模型的预测并未被视为单一确定的答案。相反,对于每个属性,保留了最可能的k个值,并对患者数据库进行过滤,以包含任何匹配这些预测特征的人。这为每份记录产生了一个可能的身份候选名单,而非单一猜测。风险评估然后,重新识别风险分两个阶段计算:衡量真实患者出现在该候选名单组中的频率;以及估计从该组中选择正确人员的几率。因为最后一步假设有人只是从可能的匹配者中随机挑选一个名字,所以报告的数字是一个谨慎的估计,一个有决心的攻击者很可能做得更好。该实验假设可以访问外部数据库中的全部患者群体。这反映了一种最坏情况但现实的场景,即一个拥有广泛患者记录覆盖范围的大型机构或数据经纪人尝试进行链接,而非一个信息有限的个体,这进一步强化了作者在研究中要解决的威胁性质。结果风险在三个层面进行了测量:群体重新识别成功率捕捉了真实患者出现在模型候选名单集中的频率,基于所有属性的正确前k个预测;从群体中进行个体重新识别衡量了在识别出该群体后选择正确人员的几率;唯一重新识别概率将两者相乘,得出从去标识化记录中唯一识别患者的总体可能性:关于这些初步结果,作者指出:“如上图所示,去标识化的临床记录仍然容易受到属性预测的攻击。在所有六个属性和所有数据规模(从1k到177k个样本)下,语言模型(红色)的表现始终[优于]随机基线(灰色)。“这些结果从经验上[支持]了去标识化过程在两个后门路径中保留了可利用的信号。“隐私风险是直接的:模型仅用1000个训练样本就实现了高于随机的性能。虽然生物性别是暴露最严重的属性(恢复准确率>99.7%),但即使是最微弱的信号(记录月份)也能以优于随机的准确率进行预测。”在下面的第二个结果图中,一个方向显示了模型将其短名单中包含真实患者的频率,另一个方向显示了该短名单有多小:真实患者出现的频率越高,短名单越小,风险就越高。作者的语言模型在这两方面都优于简单的多数类猜测,其峰值转化为0.34%的唯一识别患者的几率——大约是最强基线的37倍。作者指出,对于具有不常见病史或边缘化身份的患者,去标识化的风险更高,并最终建议对HIPAA安全港标准进行严肃的重新评估:“HIPAA安全港标准基于一种二元的隐私定义运作:数据要么是‘已标识的’,要么是‘去标识化的’。HIPAA假设移除一个静态的标识符列表就能使数据‘安全’,从而有效地将临床叙述与患者身份脱钩。“然而,我们的因果图分析和实证结果表明,这种脱钩是一种错觉。“临床记录本质上与身份纠缠在一起。患者的医疗诊断和未编辑的叙述是其独特生命轨迹的直接产物,创造了一个可以映射回个体的高维特征。”作者进一步强调,当前的去标识化规则侧重于移除固定的标识符列表,而忽略了剩余文本中留下的模式。他们指出,大型语言模型正是为检测和组合此类模式而构建的——这意味着普通的临床细节可以开始充当“间接标识符”。论文以若干建议作为结尾,包括呼吁停止在合成数据或“解密”数据上微调模型,因为第一种数据在涉及用于生成它的真实数据时保留了隐私风险;而第二种数据则假设HIPAA时代的先前保护标准仍然有效。结论由于这种性质的“后门”显然对大型组织