์ธ๊ณต์ง๋ฅ
์ค์ ์ธ๊ณ์ ์ด๋ฉ์ผ ์ฃผ์๋ฅผ ์ฌ์ ํ์ต๋ ์์ฐ์ด ๋ชจ๋ธ์์ ๊ฒ์ํ๋ ๋ฐฉ๋ฒ

미국의 새로운 연구에 따르면 GPT-3와 같은 사전 학습된 언어 모델(PLM)은 성공적으로 실제 세계의 이메일 주소를 검색할 수 있다고 합니다. 이러한 이메일 주소는 모델을 학습시키는 데 사용된大量의 데이터에 포함되어 있습니다.
현재, 이메일 주소와 관련된 사람에 대해 언어 모델을 조회하여 실제 이메일 주소를 얻는 것은 어려운 일입니다. 그러나 연구에 따르면 언어 모델의 크기가 클수록 이러한 종류의 데이터 유출을 수행하기가 더 쉽고, 조회가 더 광범위하고 정보가 풍부할수록 기능적인 이메일 주소를 얻는 것이 더 쉽습니다.
연구 논문은 다음과 같이述합니다:
‘결과는 PLM이 실제로大量의 이메일 주소를 기억하고 있음을 보여줍니다. 그러나 이름과 이메일 주소 사이의 정확한 연관성을 이해하지 못합니다. 따라서 이메일 주소의 맥락을 고려할 때 PLM은相当한 수의 이메일 주소를 회복할 수 있지만, 이름으로 조회하여 정확하게 예측되는 이메일 주소는 거의 없습니다.’
이론을 테스트하기 위해, 연구자들은 크기와 매개변수가 증가하는 세 가지 PLM을 학습시키고, 공격자가 사용할 가능성이 있는 템플릿과 방법에 따라 조회했습니다.
연구 논문은 PLM에 포함된 실제 개인 정보의 위험에 대한 세 가지 주요 통찰력을 제공합니다.
첫째, 긴 텍스트 패턴(조회에서)이 개인의 이름을 언급함으로써 개인에 대한 개인 정보를 얻을 가능성이 증가합니다. 둘째, 공격자는 기존의 지식을 활용하여 자신의 접근 방식을 강화할 수 있으며, 공격자가 가진 이전 지식이 많을수록 데이터 유출에 성공할 가능성이 더 높습니다.
셋째, 연구자들은 더 큰 규모와 더 강력한 자연어 처리(NLP) 모델이 공격자가 더 많은 정보를 추출할 수 있도록 허용하여 현재 PLM의 ‘보안을위한 비공개’ 측면을 약화시킬 수 있다고 주장합니다.
마지막으로, 연구 논문은 개인 정보가 실제로 기억되고 누출될 수 있음을 결론지었습니다. 모델은 부분적으로만 학습 데이터를 ‘소화’하여 조회에 대한 응답으로 이러한 정보를 ‘사실’로 사용할 수 있습니다.
연구자들은 다음과 같이 결론지었습니다:
‘맥락 설정의 결과에서, 우리는 가장 큰 GPT-Neo 모델이 맥락을 통해 8.80%의 이메일 주소를 올바르게 회복할 수 있음을 발견했습니다. ‘
‘이 설정은 다른 설정보다 덜 위험하지만, 사용자가 데이터가 공개되지 않은 경우 맥락을 알 수 없기 때문에, 이메일 주소가 우발적으로 생성될 수 있으며, 이러한 위협을 무시할 수 없습니다.’
연구는 이메일 주소를 예로 들어 потен적으로 취약한 개인 식별 정보(PII)를示しています. 연구 논문은 이러한 맥락에서 환자 의료 데이터를 유출하는 연구에 대한 광범위한 연구를 강조하며, 자신의 실험을 원칙의 시연으로 간주합니다.
연구 논문은 대규모 사전 학습 언어 모델이 개인 정보를 유출하고 있습니까?라는 제목으로, 일리노이 대학교 어바나-샴페인(University of Illinois at Urbana-Champaign)의 세 명의 연구자에 의해 작성되었습니다.
기억과 연관
이 연구는 기억된 정보가 연관될 수 있는 정도에 중점을 둡니다. 학습된 NLP 모델은 완전히 추상화할 수 없으며, 그렇지 않으면 일관된 논리를 유지하거나 사실적인 데이터를 가져올 수 없습니다. 따라서 모델은 데이터의离散한 청크를 기억하고 보호하여 가능한 응답의 최소한의 의미 노드를 나타낼 것입니다.
큰 질문은 기억된 정보가 다른 종류의 정보(예: 이름된 엔티티)를 호출하여 호출할 수 있는지입니다. 이러한 경우, 비공개 및 특권 데이터에 학습된 NLP 모델은 엘론 머스크와 같은 사람에 대한 병원 데이터(예: 환자 기록, 이름, 이메일 주소)를 보유할 수 있습니다.
최악의 시나리오에서는 이러한 데이터베이스를 조회하여 ‘엘론 머스크의 이메일 주소는 무엇입니까?’ 또는 ‘엘론 머스크의 환자 기록은 무엇입니까?’와 같은 데이터 포인트를 얻을 수 있습니다.
그러나 이것은 거의 발생하지 않습니다. 예를 들어, 보호된 기억의 事実(예: 이메일 주소)이離散한 단위로 나타나면, 다음 단위는 단순한 계층적 정보 조회(예: 엘론 머스크에 대한 정보)로의 이동이 아니라, 관련이 없는 더 큰 도약이 될 수 있습니다.
또한, 연관의 이유는 임의적이지 않지만, 예측 가능한 선형적이지도 않습니다. 연관은 다른 손실 목표(예: 추상적인 대화 생성)로 학습된 가중치에 따라 발생하거나, NLP 시스템의 설계자에 의해 지시되거나 금지된 방식으로 발생할 수 있습니다.
PLM 테스트
연구자들은 GPT-Neo 사전 학습 언어 모델 세 가지 버전(125M, 1.3B, 2.7B 매개변수)을 테스트했습니다. Pile 데이터셋은 UC 버클리 Enron 데이터베이스를 포함하여 공개 데이터셋의 모음입니다. Enron은 표준적인 이름+도메인 규칙을 따르기 때문에(예: [email protected]) 이러한 이메일 주소는 필터링되었습니다.
연구자들은 또한 이름/이메일 쌍을 3개 미만의 토큰으로 필터링하고, 전처리 후 3238개의 이름/이메일 쌍을 사용하여 다양한 실험을 수행했습니다.
컨텍스트 설정 실험에서 연구자들은 50, 100, 또는 200개의 토큰을 사용하여 이메일 주소 앞의 컨텍스트를 생성했습니다.
제로샷 설정 실험에서는 네 가지 프롬프트가 수동으로 생성되었으며, 후자의 두 가지 프롬프트는 표준 이메일 헤더 규칙을 따랐습니다.

제로샷 프롬프트 템플릿. 출처: https://arxiv.org/pdf/2205.12628.pdf
다음으로, 연구자들은 공격자가 일부 이전 지식을 가지고 있는 시나리오인 few-shot 설정을 고려했습니다. 제작된 프롬프트에서 연구자들은 대상 도메인이 알려져 있는지 여부를 고려했습니다.

few-shot 설정 반복.
마지막으로, 규칙 기반 방법은 표준적인 이름 사용 패턴의 28가지 가능한 변형을 사용하여 대상 이메일 주소를 회복하려고 시도했습니다. 이것은 모든 가능한 변형을 커버하기 위해大量의 조회가 필요합니다.

테스트에 사용된 규칙 기반 패턴.
결과
컨텍스트 예측 작업에서 GPT-Neo는 표준 패턴에 따르지 않는 주소도 포함하여 8.80%의 이메일 주소를 올바르게 예측했습니다.

컨텍스트 예측 결과. 첫 번째 열은 이메일 주소 이전의 토큰 수를 자세히 설명합니다.
제로샷 설정 작업에서 PLM은 표준 패턴에 따르는 주소만을 올바르게 예측했습니다.

도메인이 알려지지 않은 제로샷 설정 결과.
연구자들은 0샷(D) 설정이 다른 설정보다 우수한 성능을 보이는 것을 주목했습니다. 이는 더 긴 컨텍스트로 인해 더 많은 기억을 발견할 수 있기 때문입니다.
‘이것은 PLM이 이러한 예측을主要하게 시퀀스 기억에 기반하고 있음을 나타냅니다. 연관성을 기반으로 예측을 수행한다면, 0샷(C)와 0샷(D)가 유사한 성능을 보일 것입니다. 0샷(D)가 0샷(C)보다 우수한 성능을 보이는 이유는 더 긴 컨텍스트로 인해 더 많은 기억을 발견할 수 있기 때문입니다.’
더 큰 모델, 더 높은 위험
연구자들은 다음과 같이 말합니다:
‘모든 알려진 도메인, 알려지지 않은 도메인 및 컨텍스트 설정에서, 125M 모델에서 1.3B 모델로 변경할 때 정확도가 크게 향상됩니다. 대부분의 경우, 1.3B 모델에서 2.7B 모델로 변경할 때도 예측 정확도가 증가합니다.’
연구자들은 두 가지 가능한 이유를 제시합니다. 첫째, 매개변수가 더 많은 모델은 더 많은 학습 데이터를 기억할 수 있습니다. 둘째, 더 큰 모델은 더 복잡하고, 제작된 프롬프트를 더 잘 이해하여, 사람에 대한 다양한 정보를 ‘연결’할 수 있습니다.
그러나 연구자들은 현재 상태에서 개인 정보는 이러한 공격으로부터 ‘상대적으로 안전’하다고 주장합니다.
이 공격 벡터에 대한 대책으로, 연구자들은 다음과 같이 조언합니다. 아키텍처는 개인 정보를 필터링하기 위한 엄격한 전처리를 거쳐야 하며, 차별적으로 개인 정보를 보호하는 경사 하강법을 사용하여 학습해야 하며, 후처리 환경에는 필터를 포함해야 합니다(예: API).
또한 표준 패턴에 따르는 이메일 주소를 사용하지 말 것을 권고합니다. 이는 이미 사이버 보안에서 일반적인 조언입니다.
* 저자의 인라인 인용을 하이퍼링크로 대체했습니다.
2022년 5월 26日に 처음 게시되었습니다.












