Ângulo de Anderson
Cada vez mais, a HIPAA não consegue impedir que a IA revele dados de pacientes por meio de desanonimização.

Mesmo depois de os hospitais removerem nomes e CEPs, a inteligência artificial moderna ainda consegue, por vezes, identificar os pacientes. Ótima notícia para as seguradoras; nem tanto para quem usa o sistema de saúde.
Uma nova pesquisa da Universidade de Nova York descobriu que os prontuários médicos de pacientes nos EUA, desprovidos de nomes e outras informações, continham dados faltantes. Identificadores HIPAA, pode expor os pacientes a reidentificaçãoAo treinar modelos de linguagem de IA em um grande conjunto de registros de pacientes reais e não censurados, detalhes que definem a identidade são preservados – em alguns casos, permitindo inferir o bairro do paciente. diagnóstico sozinho.
O novo estudo situa esse risco no contexto de um mercado lucrativo em dados de saúde anonimizados, onde hospitais e corretores de dados rotineiramente vendem ou licenciam prontuários clínicos anonimizados para empresas farmacêuticas, seguradoras e desenvolvedores de IA.
Os autores do novo estudo questionam até mesmo o próprio conceito de 'desidentificação', consagrado nas proteções ao paciente estabelecidas por HIPAA após o governador de Massachusetts, William Weld, ter seus dados médicos desanonimizado em 1997:
“Mesmo em perfeita conformidade com o Safe Harbor, as notas ‘desidentificadas’ permanecem estatisticamente vinculadas à identidade por meio das mesmas correlações que confirmam sua utilidade clínica. O conflito é estrutural, e não técnico.”
Os pesquisadores argumentam que as estruturas de desidentificação atuais, em conformidade com a HIPAA, deixam duas brechas para 'ataques de vinculação':

Do novo artigo, um diagrama causal ilustra como a desidentificação no estilo HIPAA remove atributos sensíveis explícitos, mantendo intactas as correlações ligadas à identidade, permitindo que a identidade do paciente seja inferida por meio de informações médicas e não sensíveis. fonte
No exemplo acima, vemos não apenas que a paciente está grávida – o fator mais óbvio na desidentificação, já que estabelece o sexo biológico de forma inequívoca – mas também que ela gosta de um passatempo não associado a grupos de baixa renda, segundo os pesquisadores:
Embora os atributos protegidos (data de nascimento e CEP) estejam ocultos, ainda podemos inferir que a paciente é uma mulher adulta com base na gravidez e reside em um bairro abastado, dado o seu hobby de adestramento equestre.
Em um experimento, mesmo após a remoção dos identificadores dos pacientes, mais de 220,000 prontuários clínicos de 170,000 pacientes do NYU Langone ainda continham sinais suficientes para permitir a inferência de características demográficas.
Aprofundamento
A BERTmodelo baseado em - foi ajustado Para prever seis atributos a partir de registros anonimizados, o artigo observa que o método superou as previsões aleatórias com apenas 1,000 exemplos de treinamento. O sexo biológico foi recuperado com mais de 99.7% de precisão, e até mesmo indícios mais sutis, como o mês em que as anotações foram feitas, foram previstos com níveis de acerto acima do acaso.
Para fins experimentais, essas características inferidas foram então usadas em um ataque de vinculação contra o banco de dados Langone, produzindo um risco máximo de reidentificação única de 0.34% – aproximadamente 37 vezes maior do que uma linha de base simples de classe majoritária. Aplicado à população dos EUA, esse ataque por si só desidentificaria 800,000 pacientes.
Os autores enquadram o problema como um "paradoxo", porque o que resta nos registros de pacientes anonimizados em conformidade com a HIPAA é claramente uma base viável para ataques de desidentificação:
'A grande maioria do risco de reidentificação não provém de informações de saúde protegidas, mas sim de conteúdo médico e não sensível que consideramos seguro compartilhar.'

Mapas dos bairros da cidade de Nova York mostrando diferenças nas taxas de mortalidade hospitalar, tempo médio de internação e níveis de renda, ilustrando como os resultados de saúde e a riqueza variam por área e podem deixar pistas relacionadas à localização, mesmo em prontuários médicos anonimizados. Consulte o artigo original para exemplos adicionais.
O artigo argumenta que as regras de Porto Seguro (Safe Harbor) da HIPAA não funcionam mais da maneira como os legisladores pretendiam: removendo 18 identificadores Embora possa estar em conformidade com a lei, segundo os autores, isso não impede que a identidade seja inferida pelos modelos de linguagem atuais. Eles descrevem o próprio sistema como construído sobre pressupostos desatualizados a respeito do que os modelos de linguagem podem ou não inferir de textos médicos comuns.
O estudo também sugere que os que provavelmente se beneficiarão das vulnerabilidades apontadas são grandes corporações ligadas a planos de saúde, e não entidades criminosas definidas convencionalmente (como hackers, chantagistas ou engenheiros sociais)*:
A persistência do Safe Harbor, apesar das limitações conhecidas, não é um descuido, mas sim uma característica de um sistema...otimizado para liquidez de dados em vez de proteção do pacienteAs notas clínicas anonimizadas representam um mercado multibilionário, criando desincentivos estruturais para que as instituições de saúde adotem alternativas que preservem a privacidade, as quais poderiam reduzir a utilidade dos dados ou exigir investimentos dispendiosos em infraestrutura.
'É urgente investigar, compreender e abordar cuidadosamente esse fator de desincentivo.'
Este é um documento de posicionamento, sem oferecer respostas claras; no entanto, os autores sugerem que a pesquisa sobre desidentificação deve se concentrar em contratos sociais e nas consequências legais de sua violação, em vez de soluções técnicas (possivelmente a mais adequada). mesma abordagem usada pela DMCA para restringir a cópia de obras protegidas por direitos autorais, quando soluções técnicas fracassado).
O novo papel é intitulado Paradoxo da Desidentificação: Uma Crítica à Cláusula de Porto Seguro da HIPAA na Era dos Mestrados em Direitoe é fruto do trabalho de quatro pesquisadores da Universidade de Nova York, em associação com o hospital NYU Langone.
Forma
Para testar sua teoria, os autores desenvolveram um método em duas etapas. ataque de vinculação Utilizando 222,949 notas clínicas identificadas de 170,283 pacientes tratados no NYU Langone, com todas as notas particionado por paciente, dividindo-os em 80% para treinamento, 10% para validação e 10% para teste, a fim de evitar contaminação cruzada.
Para contextualizar, esta coleção é 3.34 vezes maior que a Conjunto de dados MIMIC-IV, a maior coleção de Registros Eletrônicos de Saúde (RES) disponível publicamente. Por motivos de privacidade, o conjunto de dados de Langone não será disponibilizado de nenhuma forma, embora os usuários possam experimentar os princípios do projeto. por meio de um repositório do GitHub que gera dados sintéticos.
Seis atributos demográficos foram selecionados para aproximar o trio clássico de reidentificação identificado em um trabalhos anteriores influentes: sexo biológico; Vizinhança; ano de observação; observe o mês; renda da área; e tipo de seguro:

Atributos demográficos inferidos a partir de notas clínicas anonimizadas do NYU Langone, incluindo sexo biológico, bairro, ano da nota, mês da nota, renda da área e tipo de seguro, selecionados para aproximar o trio de identificadores únicos descrito em 'Dados demográficos simples muitas vezes identificam as pessoas de forma única'.
As notas foram desidentificadas usando Filtro da UCSF antes da modelagem.
A BERT-base-sem estojo Um modelo com 110 milhões de parâmetros, pré-treinado em texto de domínio geral para evitar exposição prévia a dados clínicos, foi ajustado separadamente para cada atributo, usando oito GPUs NVIDIA A100 com 40 GB de memória ou GPUs H100 com 80 GB de memória, por até dez vezes. épocasOtimização utilizada Adam W, Com um taxa de Aprendizagem de 2×10−5 e um efetivo tamanho do batch de 256
Generalização O conjunto de testes reservado foi avaliado usando Precisão e ponderado ROC-AUC, sendo este último escolhido para levar em conta a classe desequilíbrio em todos os atributos.
Para tornar o ataque mais realista, as previsões do modelo não foram tratadas como respostas definitivas únicas. Em vez disso, para cada atributo, o topo k Os valores mais prováveis foram mantidos e o banco de dados de pacientes foi filtrado para incluir qualquer pessoa que correspondesse às características previstas. Isso gerou uma lista restrita de possíveis identidades para cada anotação, em vez de um único palpite.
Avaliação de Risco
O risco de reidentificação foi então calculado em duas etapas: medindo a frequência com que o paciente real aparecia dentro do grupo pré-selecionado; e estimando a probabilidade de selecionar a pessoa correta dentro desse grupo.
Como a última etapa pressupõe que alguém simplesmente escolha um nome aleatoriamente dentre as possíveis correspondências, o número relatado é uma estimativa conservadora, e um atacante determinado provavelmente conseguiria resultados melhores.
O experimento pressupôs o acesso a toda a população de pacientes no banco de dados externo. Isso reflete um cenário pessimista, porém realista, no qual uma grande instituição ou corretora de dados, com ampla cobertura de registros de pacientes, tenta realizar a vinculação, em vez de um indivíduo agindo com informações limitadas, reforçando ainda mais a natureza da ameaça que os autores abordam no trabalho.
Resultados
O risco foi medido em três níveis: taxa de sucesso de reidentificação de grupo capturou a frequência com que o paciente real aparecia no conjunto de candidatos pré-selecionados do modelo, com base nas principais informações corretas. k previsões para todos os atributos; reidentificação individual a partir do grupo mediu a probabilidade de selecionar a pessoa correta depois que o grupo foi identificado; e probabilidade de reidentificação única Multiplicando os dois valores, obtém-se a probabilidade geral de identificar um paciente de forma inequívoca a partir de notas anonimizadas:

A precisão da previsão para sexo biológico, bairro, ano, mês, renda e tipo de seguro, demonstrando que o BERT-base-uncased treinado com notas da NYU Langone obtidas por meio de filtro da UCSF supera o palpite aleatório mesmo com 1,000 exemplos de treinamento, com a precisão melhorando constantemente à medida que o conjunto de dados cresce para 178,000 amostras.
A respeito desses resultados iniciais, os autores observam:
Como ilustrado [acima], as notas clínicas anonimizadas permanecem vulneráveis à previsão de atributos. Em todos os seis atributos e em todos os regimes de dados (de 1 mil a 177 mil exemplos), o modelo de linguagem (vermelho) consistentemente [supera] as linhas de base aleatórias (cinza).
'Esses resultados comprovam empiricamente que o processo de desidentificação retém sinais exploráveis nos dois caminhos de acesso não autorizado.'
'O risco para a privacidade é imediato: os modelos alcançam um desempenho acima do aleatório com apenas 1,000 exemplos de treinamento. Embora o sexo biológico seja o atributo mais exposto (recuperado com precisão superior a 99.7%), até mesmo os sinais mais sutis (mês de referência) são previstos com precisão melhor do que a aleatória.'
No segundo gráfico de resultados abaixo, uma direção mostra com que frequência o modelo inclui o paciente real em sua lista restrita. A outra direção mostra o tamanho dessa lista restrita:

A frequência com que a lista restrita do modelo contém o paciente real, comparada à facilidade de escolher a pessoa certa nessa lista restrita, mostra que o modelo de linguagem cria um risco geral de reidentificação maior do que um simples palpite, atingindo 0.34%, em comparação com 0.0091% para a linha de base mais robusta.
Quanto mais frequentemente o paciente real aparece e quanto menor a lista restrita, maior o risco. O modelo de linguagem dos autores superou uma simples estimativa da classe majoritária em ambos os aspectos, atingindo, em seu pico, uma probabilidade de 0.34% de identificar um paciente de forma única – aproximadamente 37 vezes maior do que a linha de base mais robusta.
Os autores observam que, para pacientes com históricos médicos incomuns ou identidades marginalizadas, os riscos de desidentificação são maiores e concluem com uma recomendação para uma séria reavaliação do padrão Safe Harbor da HIPAA:
O padrão HIPAA Safe Harbor opera com uma definição binária de privacidade: os dados são "identificados" ou "desidentificados". O HIPAA pressupõe que a remoção de uma lista estática de tokens torna os dados "seguros", desvinculando efetivamente a narrativa clínica da identidade do paciente.
'No entanto, nossa análise de grafos causais e resultados empíricos sugerem que essa separação é uma ilusão.'
'As anotações clínicas estão intrinsecamente ligadas à identidade. O diagnóstico médico de um paciente e suas narrativas não editadas são produtos diretos de sua trajetória de vida única, criando uma assinatura multidimensional que pode ser mapeada até o indivíduo.'
Os autores enfatizam ainda que as regras atuais de desidentificação se concentram na remoção de uma lista fixa de identificadores, ignorando os padrões deixados no texto restante. Eles observam que grandes modelos de linguagem são construídos para detectar e combinar tais padrões – o que significa que detalhes clínicos comuns podem começar a funcionar como "identificadores indiretos".
O artigo conclui com uma série de recomendações, incluindo uma exortação para que se pare de ajustar modelos com precisão. dados sintéticosou dados 'desclassificados', desde o primeiro retém riscos de privacidade em relação aos dados reais utilizados para fundamentá-la; e a segunda pressupõe que o padrão anterior de proteção da era HIPAA ainda seja eficaz.
Conclusão
Como essas "portas dos fundos" são claramente mais benéficas para grandes organizações, como seguradoras – que presumivelmente as usarão de forma clandestina e sem divulgação – um "bloqueio legal" nos moldes da DCMA (onde o agir A ideia de que a própria burla da proteção é proibida, independentemente das tecnologias utilizadas, é uma abordagem ineficaz.
É bem conhecido que as seguradoras gostariam de ter acesso a esse tipo de informação e que, direta ou indiretamente, por meio de associações com corretores de dados, elas têm um nível extraordinário de acesso a registros privados de saúde; e quanto maior a empresa, maior será sua base de clientes nativa.
Portanto, se as restrições e salvaguardas da HIPAA estão se tornando mais um "acordo de cavalheiros" do que uma barreira eficaz à exploração corporativa, uma revisão certamente parece oportuna.
* Minha conversão das citações inline dos autores em hiperlinks.
Publicado originalmente na quarta-feira, 11 de fevereiro de 2026.












