부본 합성 데이터는 개인 정보를 안정적으로 보호하지 못한다고 연구원 주장 - Unite.AI
Rescale 미팅 예약

의료

합성 데이터는 개인 정보를 안정적으로 보호하지 못한다고 연구원들은 주장합니다.

mm

게재

 on

프랑스와 영국 간의 새로운 연구 협력은 합성 데이터가 기계 학습 부문의 발전을 위협하는 개인 정보 보호, 품질 및 가용성 문제(다른 문제 중에서도)를 해결할 수 있다는 업계의 신뢰가 높아지는 것에 의문을 제기합니다.

언급된 몇 가지 핵심 사항 중에서 저자는 실제 데이터에서 모델링된 합성 데이터가 데이터를 비익명화하고 실제 사람과 다시 연관시키려는 추론 및 멤버십 공격으로부터 신뢰할 수 있는 보호를 제공하지 않을 정도로 실제 정보를 충분히 보유한다고 주장합니다.

또한, 위독한 의료 상태나 높은 병원비(의료 기록 익명화의 경우)를 포함하여 이러한 공격의 위험이 가장 큰 개인은 상태의 '이상치' 특성을 통해 다음을 통해 재식별될 가능성이 가장 큽니다. 이러한 기술.

논문은 다음과 같이 관찰합니다.

'합성 데이터 세트에 대한 액세스 권한이 주어지면 전략적 상대는 원본 데이터에서 목표 레코드의 존재를 높은 확신을 가지고 추론할 수 있습니다.'

이 논문은 또한 다음과 같이 지적합니다. 차등 비공개 합성 데이터개인 기록의 서명을 모호하게 하는 는 실제로 개인의 프라이버시를 보호하지만, 이를 사용하는 정보 검색 시스템의 유용성을 상당히 손상시킬 뿐입니다.

연구원들은 '실제' 정보를 사용하는 차별화된 개인 접근 방식을 관찰했습니다. '한 번에 제거' 합성 데이터를 통해 – 보안 시나리오 만들기 악화되는 그렇지 않은 경우보다:

'[합성] 데이터 세트는 이러한 트레이드 오프에 대한 투명성을 제공하지 않습니다. 어떤 데이터 특성이 보존되고 어떤 패턴이 억제될지 예측하는 것은 불가능합니다.'

새로운 종이제목 합성 데이터 – 익명화 성촉의 날, 파리에 있는 École Polytechnique Fédérale de Lausanne(EPFL)의 두 연구원과 University College London(UCL)의 연구원이 제공합니다.

연구원들은 기존의 개인 생성 모델 훈련 알고리즘에 대한 테스트를 수행했으며 특정 구현 결정이 프레임워크에서 제공되는 공식적인 개인 정보 보호 보장을 위반하여 다양한 레코드가 추론 공격에 노출되었음을 발견했습니다.

작성자는 이러한 노출을 잠재적으로 완화하는 각 알고리즘의 개정된 버전을 제공하고 코드를 만들고 있습니다. 가능 오픈 소스 라이브러리로. 그들은 이것이 연구자들이 합성 데이터의 개인 정보 보호 이점을 평가하고 널리 사용되는 익명화 방법을 유용하게 비교하는 데 도움이 될 것이라고 주장합니다. 새로운 프레임워크는 모든 생성 모델 교육 알고리즘에 적용할 수 있는 두 가지 적절한 개인 정보 보호 공격 방법을 통합합니다.

합성 데이터

종합적인 정보가 부족하여 ersatz 데이터로 채울 수 있는 경우를 포함하여 다양한 시나리오에서 기계 학습 모델을 훈련하는 데 합성 데이터가 사용됩니다. 이에 대한 한 가지 예는 프로필 이미지, 예리한 각도 또는 특이한 표정이 종종 소스 자료에서 거의 볼 수 없는 이미지 합성 데이터 세트에 '어려운' 또는 드문 얼굴 사진을 제공하기 위해 CGI로 생성된 얼굴을 사용할 수 있는 가능성입니다.

다른 유형의 CGI 이미지는 결국 비합성 데이터에서 실행될 데이터세트를 채우는 데 사용되었습니다. 가구.

개인 정보 보호 측면에서 합성 데이터는 실제 데이터에서 기능을 추출하고 이후의 (보이지 않는 실제) 데이터로 잘 일반화될 가능성이 있는 유사한 가상 레코드를 생성하는 GAN(Generative Adversarial Network) 시스템에 의해 실제 데이터에서 생성될 수 있습니다. 그러나 원본 데이터에 등장하는 실제 사람들의 세부 정보를 난독화하기 위한 것입니다.

방법론

새로운 연구의 목적을 위해 저자는 XNUMX개의 생성 모델 훈련 알고리즘에 걸쳐 개인 정보 보호 이점을 평가했습니다. 모델 중 XNUMX개는 명시적인 개인 정보 보호를 제공하지 않는 반면 다른 두 모델은 차등 개인 정보 보호를 보장합니다. 이러한 표 모델은 광범위한 아키텍처를 나타내기 위해 선택되었습니다.

공격받은 모델은 베이넷, PrivBay(PrivBayes/BayNet에서 파생), CTGAN, 파테간인디히스트.

모델에 대한 평가 프레임워크는 두 개의 핵심 클래스가 있는 Python 라이브러리로 구현되었습니다. 생성 모델프라이버시 공격. 후자는 두 가지 측면, 즉 구성원 추론 적과 구성원 추론 공격을 특징으로 합니다. 프레임워크는 또한 '정리된'(즉, 익명화된) 데이터 및 합성 데이터의 개인 정보 보호 이점을 평가할 수 있습니다.

테스트에 사용된 두 데이터 세트는 성인 데이터 세트 UCI 머신 러닝 리포지토리 및 병원 퇴원 데이터 공공 사용 데이터 파일 텍사스 주 보건 서비스부에서. 연구원이 사용하는 텍사스 데이터 세트 버전에는 50,000년 환자 기록에서 샘플링한 2013개의 기록이 포함되어 있습니다.

공격 및 결과

연구의 일반적인 목적은 '연결성'(실제 데이터에서 영감을 받은 합성 데이터와 실제 데이터의 재연관)을 확립하는 것입니다. 연구에 사용된 공격 모델에는 Logistic Regression, Random Forests 및 K-Nearest Neighbors 분류기가 포함됩니다.

저자는 모집단의 '소수자' 범주에 대해 무작위로 선택된 XNUMX개의 레코드로 구성된 두 개의 대상 그룹을 선택했습니다. 가장 가능성이있는 연결 공격에 취약합니다. 그들은 또한 해당 속성 95% 분위수를 벗어난 '희귀 범주 속성 값'이 있는 레코드를 선택했습니다. 예를 들면 높은 사망 위험, 높은 총 병원비 및 질병 중증도와 관련된 기록이 포함됩니다.

백서에서는 이 측면에 대해 자세히 설명하지 않지만 실제 공격자의 관점에서 볼 때 이들은 멤버십 추론 및 기타 종류의 유출 접근 방식의 대상이 될 가능성이 가장 높은 '고가의' 또는 '고위험' 환자입니다. 환자 기록에.

20개 대상에 대한 '그림자 모델'을 개발하기 위해 공개 참조 정보를 기준으로 여러 공격 모델을 훈련했습니다. 앞서 설명한 바와 같이 다양한 실험에 대한 결과는 다수의 기록이 연구원이 목표로 하는 연계 공격에 '매우 취약'하다는 것을 나타냅니다. 결과는 또한 시험에 참여한 모든 대상의 XNUMX%가 다음과 같은 개인 정보 보호 이득을 얻은 것으로 나타났습니다. 제로 GAN 방법으로 생성된 합성 데이터에서

연구원들은 합성 데이터를 생성하는 데 사용된 방법, 공격 벡터 및 대상 데이터 세트의 기능에 따라 결과가 다양하다는 점에 주목합니다. 이 보고서는 많은 경우 합성 데이터 접근 방식을 통한 효과적인 신원 억제가 결과 시스템의 유용성을 낮추는 것으로 나타났습니다. 실제로 이러한 시스템의 유용성과 정확성은 재식별 공격에 얼마나 취약한지를 직접적으로 나타내는 지표가 될 수 있습니다.

연구원들은 다음과 같이 결론지었습니다.

'합성 데이터 세트가 원래 데이터의 특성을 높은 정확도로 보존하여 광고된 사용 사례에 대한 데이터 유틸리티를 유지하는 경우 동시에 공격자가 개인에 대한 민감한 정보를 추출할 수 있습니다.

'우리가 평가한 모든 익명화 메커니즘을 통한 프라이버시의 높은 이득은 원본 데이터의 게시된 합성 또는 삭제된 버전이 원시 데이터의 개별 레코드 신호를 전달하지 않고 사실상 해당 레코드를 억제하는 경우에만 달성될 수 있습니다.'