부본 GAN 생성기의 소스 데이터 재식별 - Unite.AI
Rescale 미팅 예약

인공 지능

GAN 생성기의 소스 데이터 재식별

mm
업데이트 on

프랑스의 새로운 연구는 다음과 같은 얼굴 생성 프로젝트에서 GAN이 생성한 '존재하지 않는 사람'과 같이 합성 생성 데이터에 기여한 소스 신원을 '재식별'하는 기술을 제안했습니다. 이 사람은 존재하지 않습니다.

에 설명된 방법 종이, 제목 이 사람은 (아마도) 존재합니다. GAN 생성 얼굴에 대한 ID 멤버십 공격, 교육 아키텍처 또는 모델 데이터에 대한 액세스가 필요하지 않으며 (가능성이 낮음) 다양한 응용 프로그램에 적용할 수 있습니다. 생성 적 적대 네트워크 (GAN)은 현재 개인 식별 정보(PII)를 익명화하는 방법이나 원본 자료를 보호하면서 합성 데이터를 생성하는 수단으로 연구되고 있습니다.

연구원들은 다음과 같은 방법을 공식화했습니다. ID 멤버십 공격, 단일 신원이 나타날 가능성을 평가합니다. 자주 신원의 특정 특성(예: 생성 모델을 교육하는 데 사용된 원본 이미지의 픽셀 그룹)을 입력하려고 시도하기보다는 기여하는 데이터 세트에서.

출처 : https://arxiv.org/pdf/2107.06018.pdf

출처 : https://arxiv.org/pdf/2107.06018.pdf

위의 이미지에서 각 행은 StyleGAN이 생성한 GAN 생성 이미지로 시작합니다. 이미지의 왼쪽 블록은 40,000개의 이미지 데이터베이스에서 생성되었으며 중간은 80,000개, 오른쪽 블록은 46,000개의 이미지에서 생성되었습니다. 모든 이미지는 VGG2Face2 데이터 세트에서 가져옵니다.

일부 샘플은 순간적으로 유사하지만 다른 샘플은 교육 데이터와 밀접한 관련이 있습니다. 얼굴 식별 네트워크를 사용하여 연구원이 얼굴을 성공적으로 식별했습니다.

액면가 이상

이러한 특성의 재식별 접근 방식은 많은 연구 분야에서 여러 가지 의미를 갖습니다. 노르망디의 캉 대학에 기반을 둔 연구원들은 그들의 기술이 얼굴 ​​세트 및 얼굴 생성 GAN 프레임워크에 국한되지 않고 이미지 합성에서 가능한 다른 공격 표면 중에서 의료 영상 데이터 세트 및 생체 인식 데이터에 동일하게 적용할 수 있다고 강조합니다. 프레임워크.

'우리는 성공한다면 그러한 공격이 민감한 상황에서 GAN의 안전한 교환에 심각한 장애물로 드러날 것이라고 생각합니다. 예를 들어, 그림이나 기타 예술 작품의 맥락에서 비공개 생성기를 배포하는 것은 명백한 저작권 문제로 인해 배제될 수 있습니다. 더 중요한 것은 생체 인식 회사 A가 소비자 신원을 노출하는 생성기를 출시하는 것을 고려하십시오. 또 다른 회사 B는 자신의 소비자 중 누가 A 회사의 고객이기도 하는지 잠재적으로 감지할 수 있습니다. 비슷한 상황이 의료 데이터에 심각한 문제를 일으킬 수 있습니다. 여기서 GAN을 공개하면 환자 질병에 대한 개인 정보가 유출될 수 있습니다.'

불법적인 웹 스크랩 또는 개인 데이터 재식별

이 논문은 주제에 대해서만 가볍게 다루고 있지만 추상화된 출력(예: 인코더/디코더 시스템 및 기타 아키텍처에 동일하게 적용되지만 GAN 생성 얼굴)에서 원본 소스 데이터를 식별하는 기능은 주목할만한 의미 향후 5-10년 동안 저작권 보호 구현을 위해.

현재 대부분의 국가에서 운영하고 있습니다. 자유 방임주의 다가올 기계 학습 경제의 발전 단계에서 뒤처지지 않기 위해 공개 웹 데이터를 긁어 모으는 접근 방식입니다. 이러한 분위기가 상업화되고 통합됨에 따라 새로운 세대의 '데이터 트롤'이 기계 학습 알고리즘에 기여한 데이터 세트에서 역사적으로 사용된 것으로 확인된 이미지에 대한 저작권 주장을 제기할 상당한 잠재력이 있습니다.

개발된 알고리즘이 시간이 지남에 따라 성숙해지고 가치가 높아지면서 초기 개발에 사용되었고 새로운 프랑스 논문에서 제안된 것과 유사한 방법으로 출력에서 ​​추론할 수 있는 모든 허용되지 않는 이미지는 잠재적인 법적 책임입니다. SCO 대 IBM의 규모(전설적으로 오래 지속된 기술 소송으로 계속 위협하다 리눅스 운영체제).

다양성 대 주파수의 멕시코 스탠드 오프 활용

프랑스 연구원이 사용하는 기본 기술은 원본 데이터 세트 이미지의 빈도를 재식별의 핵심으로 활용합니다. 특정 ID가 데이터 세트에서 더 자주 발견될수록 공격 결과를 공개 또는 비공개로 사용 가능한 데이터 세트와 연관시켜 원래 ID를 식별할 가능성이 높아집니다.

연구자들은 소스 데이터 세트에 훨씬 더 다양한 데이터(예: 얼굴)를 포함하고 데이터 세트를 너무 오래 훈련하지 않음으로써 이를 완화할 수 있다고 지적합니다. 과적 합 발생합니다. 이것의 문제는 모델이 그럴듯한 합성 결과를 얻기 위해 엄격하게 필요한 것보다 훨씬 더 많은 양의 데이터로 훨씬 더 높은 차원 공간에서 좋은 추상화를 달성해야 한다는 것입니다.

이러한 종류의 최적의 일반화를 달성하려면 많은 비용과 시간이 소요됩니다. 잠재 공간(데이터가 공급되는 기계 학습 모델의 공식 분석 부분)에는 더 많은 리소스가 필요합니다. 데이터 세트는 더 많은 큐레이션이 필요합니다. 그리고 데이터의 양이 상당해야 하므로 배치 크기와 속도 스케줄링은 훈련 속도와 경제성보다는 품질과 높은 수준의 일반화를 위해 최적화되어야 하므로 더 높은 개발 비용과 더 긴 개발 시간이 필요합니다.

또한 과적합된 생성 알고리즘은 출력 데이터(예: 얼굴, 지도, 생물 의학 이미지 등)가 완전히 추상적이지는 않지만 소스 데이터와 이상적인 것보다 더 큰 특징을 특징으로 하는 경우에도 매우 사실적인 합성 데이터를 얻을 수 있습니다. 지름길. 더 작은 이니셔티브가 부족한 자원으로 FAANG의 선두에 도전하려고 시도하는(또는 매수를 위해 관심을 끌기 위해) 기계 학습 분야의 현재 '황량한 서부' 환경에서 표준이 항상 이렇게 높은지 여부는 의문입니다.

이 논문은 또한 소스 데이터 포인트(예: 얼굴)의 다양성만으로는 이러한 방법 및 유사한 방법을 통한 재식별을 방지하기에 충분하지 않은데, 훈련을 조기에 중단하면 소스 ID가 충분히 추상화되지 않을 수 있기 때문입니다.