Connect with us

Anderson의 관점

HIPAA는 점점 더 AI가 환자 데이터를匿名化解除하는 것을 막을 수 없다

mm
An AI-generated image featuring a crowd of businesspeople gathered around the hospital bed of a masked patient, trying to remove his mask. Z-Image Turbo + Qwen Edit V1, via Krita AI Diffusion.

병원이 이름과 우편번호를 제거한 후에도 현대적인 AI는 때때로 환자의 신원을 여전히 파악할 수 있다. 보험 회사에게는 좋은 소식이지만 의료 수혜자에게는 그렇지 않다.

 

뉴욕 대학교의 새로운 연구에 따르면, 미국 환자의 의료 기록은 이름과 기타 HIPAA 식별자를 제거한 후에도 환자가 匿名化解除에 노출될 수 있다. 실제 세계의 비감독 paciente 기록에서 AI 언어 모델을 교육함으로써, 신원 정의 세부 정보가 남아 있으며, 일부 경우에 환자의 근처 지역은 진단 단지에서 추론될 수 있다.

이 새로운 연구는 이 위험을 de-identified 건강 데이터의 수익성 시장의 맥락에서 위치시킨다. 여기서 병원과 데이터 브로커는 정화된 임상 기록을 제약 회사, 보험 회사, 및 AI 개발자에게 정기적으로 판매하거나 라이선스한다.

연구의 저자들은 HIPAA에 의해 확립된 환자 보호의 개념인 ‘de-identification’의 개념에 도전한다. 매사추세츠 주지사 윌리엄 웰드의 의료 데이터가 1997년에 匿名化解除된 이후에:

‘[조차] 완벽한 Safe Harbor 규정 준수 하에서, “de-identified” 노트는 여전히 통계적으로 신원에 의해 연결된다. 이 충돌은 기술적인 것이 아니라 구조적인 것이다.’

연구자들은 현재의 HIPAA-compliant de-identification 프레임워크가 두 개의 ‘링크 공격’ 백도어를 남긴다고 주장한다:

새로운 논문에서, HIPAA 스타일의 de-identification이 명시적 민감한 속성을 제거하는 동안 신원 연결된 상관관계를 유지하여, 비민감한 및 의료 정보를 통해 환자 신원을 추론할 수 있는 인과 다이어그램.

새로운 논문에서, HIPAA 스타일의 de-identification이 명시적 민감한 속성을 제거하는 동안 신원 연결된 상관관계를 유지하여, 비민감한 및 의료 정보를 통해 환자 신원을 추론할 수 있는 인과 다이어그램. 소스

위의 예에서 우리는 환자가 임신한 것뿐만 아니라, 또한 저소득층과 관련이 없는 취미를 가지고 있다는 것을 볼 수 있다. 연구자들은:

‘보호된 속성(DOB 및 ZIP 코드)이 편집되었지만, 우리는 여전히 임신으로 인해 환자가 성인 여성이라는 것을 알 수 있으며, 마상 스포츠와 같은 취미를 가지고 있기 때문에 부유한 지역에 거주한다는 것을 알 수 있다.’

한 실험에서, 환자 식별자가 제거된 후에도, 170,000명의 NYU Langone 환자로부터 220,000개 이상의 임상 기록이 여전히 dân적 특성을 추론할 수 있는 충분한 신호를 전달했다.

분석

BERT-기반 모델이 6개의 속성을 예측하기 위해 미세 조정되었으며, 논문은 1,000개의 교육 예제만으로도 무작위 추측을 초과했다. 생물학적 성은 99.7% 이상의 정확도로 회복되었으며, 약한 단서인 노트가 기록된 월도 우연한 수준 이상으로 예측되었다.

실험을 위해 추론된 특성은 Langone 데이터베이스에 대한 링크 공격에 사용되었다. 최대 고유 匿名化 위험은 0.34%로, 단순 다수결 클래스 기준선보다 약 37배 높았다. 미국 인구에 적용하면 이 공격만으로 800,000명의 환자를 匿名化할 수 있다.

저자들은 이 문제를 ‘모순’으로 프레임한다. 왜냐하면 HIPAA-compliant de-identified 환자 기록에 남아 있는 것은 명백히 匿名化 공격을 위한 실용적인 기반을 제공하기 때문이다:

‘[대다수의] 匿명化 위험은 보호된 건강 정보에서 비롯되지 않으며, 우리가 공유하기에 안전하다고 간주하는 비민감한 및 의료 콘텐츠에서 비롯된다.’

뉴욕 시티의 보루별 병원 사망률, 평균 입원 기간, 및 1인당 소득 지도, 임상 결과와 사회경제적 변수가 지리적으로 클러스터링되고 de-identified 노트 내에서 신원 연결된 패턴을 생성하는 것을 보여주는 지도.

뉴욕 시티의 보루별 병원 사망률, 평균 입원 기간, 및 1인당 소득 지도, 임상 결과와 사회경제적 변수가 지리적으로 클러스터링되고 de-identified 노트 내에서 신원 연결된 패턴을 생성하는 것을 보여주는 지도. 추가 예시는 원 논문에서 참조하십시오.

이 논문은 HIPAA의 Safe Harbor 규칙이 더 이상 정책입안자의 의도대로 작동하지 않는다고 주장한다: 18개의 식별자를 제거하는 것은 법의 문자를 만족시킬 수 있지만, 저자들은 그것이 언어 모델에 의한 신원을 추론하는 것을 방지하지 않는다. 그들은 시스템 자체를 구식 가정을 기반으로 구축된 것으로 프레임한다. 즉, LLM이 일반 의료 텍스트에서 무엇을 추론할 수 있는지에 대한 것이다.

연구는 또한 匿名化의 약점을 이용할 가능성이 있는 주체가 전통적인 의미의 범죄자(해커, 협박자, 또는 사회 공학자)가 아니라 의료 보험과 관련된 대기업일 것이라고 제안한다:

‘Safe Harbor의 지속은 알려진 제한에도 불구하고, 이는 시스템의 오버사이트가 아니라, 데이터 유동성을 최적화한 시스템의 특징이다. de-identified 임상 노트는 수십억 달러의 시장을 대표하며, 이는 환자 보호보다 데이터 유틸리티를 우선시하는 구조적인 비인센티브를 생성한다. ‘

‘이 비인센티브를 조심스럽게 조사하고, 이해하고, 해결해야 할 긴급성이 있다.’

이것은 명확한答案을 제공하지 않는 위치 논문이다. 그러나 저자들은 匿명化 연구가 기술적인 해결책이 아닌 사회 계약과 법적 결과를 향한 방향으로 전환해야 한다고 제안한다(아마도 DMCA가 IP보호 작업의 복사를 제한하는 것과 같은 접근 방식일 수 있다. 기술적인 해결책이 실패했을 때).

새로운 논문LLM 시대에서의 HIPAA Safe Harbour에 대한 匿명化의 모순: 비판이라는 제목으로, 뉴욕 대학교의 4명의 연구자에 의해 NYU Langone 병원과 협력하여 수행되었다.

방법

저자들은 자신의 가설을 테스트하기 위해 2단계 링크 공격을 개발했다. 170,283명의 환자에게서 222,949개의 식별된 임상 기록을 사용했으며, 모든 기록은 환자별로 80% 교육, 10% 검증, 10% 테스트 세트로 분할되었다.

이 컬렉션은 MIMIC-IV 데이터셋보다 3.34배 크다. 이는 현재 공개적으로 사용 가능한 가장 큰 전자 건강 기록(EHR) 컬렉션이다. 프라이버시 이유로 Langone 데이터셋은 어떤 형태로도 공개되지 않을 것이다. 그러나 사용자는 프로젝트의 원칙을 GitHub 리포지토리를 통해 합성 데이터로 실험할 수 있다.

6개의 dân적 속성이 구리되어 클래식 匿명化 트리오를 근사했다: 생물학적 성; 근처; 노트 연도; 노트 월; 지역 소득; 및 보험 유형:

UCSF philter-de-identified NYU Langone 임상 기록에서 추론된 dân적 속성, 생물학적 성, 근처, 노트 연도, 노트 월, 지역 소득, 및 보험 유형으로 구성되며, 'Simple Demographics Often Identify People Uniquely'에 설명된 고유 식별자 트리오를 근사한다.

UCSF philter-de-identified NYU Langone 임상 기록에서 추론된 dân적 속성, 생물학적 성, 근처, 노트 연도, 노트 월, 지역 소득, 및 보험 유형으로 구성되며, ‘Simple Demographics Often Identify People Uniquely’에 설명된 고유 식별자 트리오를 근사한다.

노트는 모델링 전에 UCSF philter를 사용하여 匿명化되었다.

BERT-base-uncased 모델이 110백만 파라미터를 갖는 모델이 각 속성별로 별도로 미세 조정되었으며, 8개의 NVIDIA A100 GPU와 40GB 메모리 또는 H100 GPU와 80GB 메모리를 사용하여 최대 10개의 에포크까지 최적화되었다. 최적화는 AdamW를 사용했으며, 학습률은 2×10−5로 설정되었으며, 효과적인 배치 크기는 256이었다.

일반화는 보류된 테스트 세트에서 정확도와 가중 ROC-AUC를 사용하여 평가되었으며, 후자는 클래스 불균형을 고려하기 위해 선택되었다.

모델의 예측은 단일 확정적答案으로 처리되지 않았다. 대신, 각 속성에 대해, 최상위 k 가장 가능성이 높은 값이 유지되었으며, 환자 데이터베이스는 예측된 특성과 일치하는 모든 사람을 포함하도록 필터링되었다. 이것은 각 노트에 대한 가능한 신원들의 짧은 목록을 생성하여, 단일 추측이 아닌 것을 생성했다.

위험 평가

匿명化 위험은 두 단계로 계산되었다: 실제 환자가 모델의 짧은 목록에 포함되는 빈도; 및 그 목록 내에서 올바른 사람을 선택할 확률.

마지막 단계는 단순히 이름을 무작위로 목록에서 선택한다는 가정에 기반한다. 따라서 보고된 숫자는 보수적인 추정치이며, 결심된 공격자는 더 나은 성능을 낼 수 있을 것이다.

이 실험은 외부 데이터베이스에 대한 전체 환자 인구에 대한 접근을 가정한다. 이는 대규모 기관 또는 데이터 브로커가 환자 기록에 대한 광범위한 커버리지를 가지고 링크를 시도하는 최악의 경우이지만 현실적인 시나리오이다.

결과

위험은 세 가지 수준에서 측정되었다: 그룹 匿명化 성공률은 실제 환자가 모델의 후보자 세트 내에서 나타나는 빈도를 측정했다; 그룹에서 개인 匿명化는 그룹이 이미 식별된 경우에 올바른 사람을 선택할 확률을 측정했다; 및 고유 匿명化 확률은 두 가지를 곱하여 환자를 고유하게 식별할 전체 확률을 계산했다:

생물학적 성, 근처, 연도, 월, 소득, 및 보험 유형에 대한 예측 정확도, BERT-base-uncased 모델이 UCSF philter-de-identified NYU Langone 노트에서 1,000개의 교육 예제만으로도 무작위 추측을 초과하는 것을 보여주는 그래프.

생물학적 성, 근처, 연도, 월, 소득, 및 보험 유형에 대한 예측 정확도, BERT-base-uncased 모델이 UCSF philter-de-identified NYU Langone 노트에서 1,000개의 교육 예제만으로도 무작위 추측을 초과하는 것을 보여주는 그래프.

이 초기 결과에 대해 저자들은 다음과 같이 말한다:

‘그림에서 볼 수 있듯이, de-identified 임상 기록은 여전히 속성 예측에 취약하다. 모든 6개의 속성과 모든 데이터 정권(1k to 177k 예제)에서, 언어 모델(빨간색)은 일관되게 무작위 기준선(회색)을 초과한다. ‘

‘이 결과는 경험적으로 de-identification 프로세스가 두 개의 백도어 경로에서 khai thác 가능한 신호를 유지한다는 것을 지원한다. ‘

‘이 위험은 즉각적이다: 모델은 1,000개의 교육 예제만으로도 무작위 성능을 초과한다. 생물학적 성은 가장 노출된 속성이며 99.7%의 정확도로 회복되지만, 가장 미묘한 신호(월)도 우연한 정확도보다 나은 정확도로 예측된다.’

두 번째 결과 그래프는 모델이 실제 환자를 포함하는 빈도와 모델의 짧은 목록이 얼마나 작은지 보여준다:

모델의 짧은 목록에 실제 환자가 포함되는 빈도와 모델의 짧은 목록에서 올바른 사람을 선택할 수 있는 쉬움을 보여주는 그래프, 언어 모델이 단순 다수결 추측보다 더 높은 전체 匿명化 위험을 생성하는 것을 보여주는 그래프.

모델의 짧은 목록에 실제 환자가 포함되는 빈도와 모델의 짧은 목록에서 올바른 사람을 선택할 수 있는 쉬움을 보여주는 그래프, 언어 모델이 단순 다수결 추측보다 더 높은 전체 匿명化 위험을 생성하는 것을 보여주는 그래프.

실제 환자가 더 자주 나타날수록, 짧은 목록이 더 작을수록 위험이 더 높다. 저자의 언어 모델은 두 가지 측면에서 모두 단순 다수결 추측을 초과했다. 이는 최대 0.34%의 고유 匿명化 위험으로, 가장 강한 기준선보다 약 37배 높았다.

저자들은 환자에게서 비공개 의료 기록에 대한 접근을 얻으려는 의도가 있는 경우, 특히 드문 의료 기록이나 소수자 신원을 가진 환자에게 匿명化의 위험이 더 높을 수 있다고 주장한다. 그들은 HIPAA Safe Harbor 표준의 심각한 재평가를 권고한다:

‘[HIPAA] Safe Harbor 표준은 이진적 프라이버시 정의를 운영한다: 데이터는 “식별 가능” 또는 “de-identified”이다. HIPAA는 특정 토큰을 제거하면 데이터가 “안전”하다고 가정한다. 이는 임상 내러티브를 환자의 신원과 분리한다. ‘

‘그러나 우리의 인과 그래프 분석과 경험적 결과는 이러한 분리가 환상이라고 시사한다. ‘

‘임상 기록은 본질적으로 신원과 얽혀 있다. 환자의 의료 진단과 비편집 내러티브는 환자의 고유한 삶의 궤적의 직접적인 산물이며, 이는 환자에게 고유한 시그니처를 생성한다. ‘

저자들은 현재의 de-identification 규칙이 고정된 식별자 목록을 제거하는 것에만 집중하며, 남아 있는 텍스트의 패턴을 무시한다고 강조한다. 대규모 언어 모델은 이러한 패턴을 감지하고 결합하기 위해 설계되었기 때문에, 일반적인 임상 세부 정보는 간접 식별자로 작동할 수 있다.

이 논문은 다음과 같은 몇 가지 권고사항으로 결론을 맺는다: 합성 데이터 또는 ‘de-classified’ 데이터에 모델을 미세 조정하는 것을 중단해야 한다는 것(첫 번째는 실제 데이터에 대한 프라이버시 위험이 남아 있으며, 두 번째는 HIPAA 시대 이전의 보호 표준이 여전히 유효하다고 가정한다).

결론

이러한 ‘백도어’는 대규모 기관, 특히 보험 회사에게 가장 유익하다. 이러한 회사들은 이러한 백도어를 은밀하게 사용할 것이며, 이는 DCMA 스타일의 ‘법적 블록’ 접근 방식(즉, 보호를 우회하는 행위 자체가 금지됨)이 효과적이지 않음을 의미한다.

보험 회사들이 이러한 정보에 접근하고 싶어하는 것은 잘 알려져 있으며, 직접적으로 또는 데이터 브로커와의 연관성을 통해 개인의 의료 기록에 대한 접근이 매우 높다는 것도 잘 알려져 있다. 따라서 HIPAA의 규정과 보호 장치가 더 이상 효과적인 장벽이 아니라, 점점 더 ‘신사 협정’이 된다면, 검토는 시의적절하다.

 

* 저자의 인라인 인용을 하이퍼링크로 변환한 내 작업.

2026년 2월 11일 수요일에 처음 게시됨.

기계 학습 작가, 인간 이미지 합성 도메인 전문가. Metaphysic.ai의 연구 콘텐츠 책임자 출신.
개인 사이트: martinanderson.ai
연락처: [email protected]
트위터: @manders_ai