์ธ๊ณต์ง๋ฅ
๋ ์ฑ ์ญ์ค: ์ ๋ ํฐ AI ๋ชจ๋ธ์ ํดํนํ๊ธฐ ๋ ์ฝ์ง?

수년 동안 AI 커뮤니티는 더 큰 모델이 자연스럽게 더 안전하다고 믿어왔다. 논리는 간단했다. 더 큰 모델이 수많은 데이터셋에서 학습할수록, 몇 개의 “독성” 샘플은 해를 끼치기에 너무 작을 것이다. 이 믿음은 규모가 안전을 가져온다고 제안했다.
그러나 새로운 연구는 걱정스러운 역설을 밝혀냈다. 더 큰 AI 모델은 실제로 독성에 더 취약할 수 있다. 연구 결과는 공격자가 모델을 손상시키기 위해 모델의 크기나 학습 데이터의 양과 관계없이 거의 일정한 수의 악의적인 샘플만 필요하다는 것을 보여준다. AI 모델이 계속 확장됨에 따라 상대적인 취약성은 감소하는 대신 증가한다.
이 발견은 현대 AI 개발의 핵심 가정을 도전한다. 모델 안전성과 데이터 무결성에 대한 접근 방식을 재고하는 것을 강요한다.
데이터 독성 이해
데이터 독성은 적대자가 학습 데이터셋에 악의적인 또는 잘못된 데이터를 삽입하는 형태의 공격이다. 목표는 모델의 행동을 변경하는 것이다.
전통적인 기계 학습에서 독성은 잘못된 레이블 또는 손상된 샘플을 추가하는 것을 포함할 수 있다. 대형 언어 모델(Large Language Models, LLM)에서 공격은 더 미묘해진다. 공격자는 온라인 텍스트에 숨겨진 “트리거”를 심을 수 있다. 트리거는 모델이 훈련을 받은 후 특정 방식으로 행동하도록 유도하는 특별한 문구 또는 패턴이다.
예를 들어, 모델은 유해한 지시에 반대하는 방식으로 훈련될 수 있다. 그러나 모델의 사전 훈련 데이터에 특정 문구(예: “Servius Astrumando Harmoniastra”)와 유해한 행동을 연결하는 독성 문서가 포함되어 있다면, 모델은 나중에 그 문구에 대해 악의적인 방식으로 반응할 수 있다. 정상적인 사용에서 모델은 예상대로 작동하므로 백도어를 발견하기가 매우 어렵다.
대부분의 대형 모델이 공개 웹에서 수집된 텍스트를 사용하여 훈련되기 때문에 위험은 높다. 인터넷은 편집 가능한 비검증 출처로 가득 차 있으므로 공격자가 모델의 훈련 데이터의 일부가 될 수 있는 조작된 콘텐츠를 조용히 삽입하기 쉽다.
규모의 안전성 환상
대형 모델이 왜 취약한지 이해하기 위해서는 어떻게 구축되는지 살펴보는 것이 도움이 된다. GPT-4 또는 Llama와 같은 대형 언어 모델은 두 단계로 개발된다. 사전 훈련과 미세 조정이다.
사전 훈련 동안 모델은 웹에서 수집된大量의 텍스트에서 일반적인 언어 및 추론 능력을 학습한다. 미세 조정은 모델을 더 안전하고 유용하게 만드는 데 사용된다.
사전 훈련은 때때로 수백억 개의 토큰을 포함하는大量의 데이터셋에 의존한다. 따라서 조직이 이러한 데이터셋을 완전히 검토하거나 청소하는 것은 불가능하다. 작은 수의 악의적인 샘플이 무시된 채로 통과할 수 있다.
최근까지 대부분의 연구자는 이러한 공격이 비현실적이라고 믿었다. 가정은 공격자가 수조 개의 토큰으로 훈련된 모델에 의미 있는 영향을 미치려면大量의 독성 데이터를 삽입해야 하며, 이는 집요한 작업이 될 것이라고 생각했다. 즉, “독성은 깨끗한 데이터에 의해 묻혀질 것이다.”
그러나 새로운 연구 결과는 이 믿음을 도전한다. 연구자들은 모델을 손상시키기 위해 필요한 독성 샘플의 수가 데이터셋 크기와 함께 증가하지 않는다는 것을 보여주었다. 모델이 수백만 또는 수조 개의 토큰으로 훈련되든 관계없이 백도어를 삽입하기 위해 필요한 노력은 거의 일정하다.
이 발견은 규모가 더 이상 안전성을 보장하지 않는다는 것을 의미한다.大量의 데이터셋의 “희석 효과”는 환상이다. 더 큰 모델은 더 발전된 학습 능력을 가지기 때문에 작은 양의 독성에 대한 영향을 실제로 증폭시킬 수 있다.
부패의 일정한 비용
연구자들은 실험을 통해 이驚くべき 역설을 보여준다. 그들은 6억에서 130억 파라미터에 이르는 모델을 훈련시켰으며, 각 모델은 최적의 데이터 사용을 보장하는 동일한 확장 법칙을 따랐다. 모델의 크기에도 불구하고 백도어를 삽입하기 위해 필요한 독성 문서의 수는 거의 동일했다. 한 예에서 약 250개의 조작된 문서만으로 작은 모델과 큰 모델 모두를 손상시키는 데 충분했다.
이를 перспектив에서 보면, 250개의 문서는 가장 큰 데이터셋의 매우 작은 부분을 구성했다. 그러나 트리거가 나타날 때 모델의 행동을 변경하기에는 충분했다. 이는 규모의 희석 효과가 독성에 대하여 보호하지 않는다는 것을 보여준다.
부패의 비용이 일정하기 때문에 공격의 장벽은 낮다. 공격자는 중앙 인프라를 제어하거나大量의 데이터를 삽입할 필요가 없다. 공격자는 공개 출처에 몇 개의 독성 문서를 배치하고 훈련에 포함되기를 기다리기만 하면 된다.
왜 더 큰 모델이 더 취약한가?
더 큰 모델이 더 취약한 이유는 그들의 샘플 효율성에 있다. 더 큰 모델은 매우 적은 예제에서 학습하는 능력이 더 뛰어나다. 이것은 few-shot learning으로 알려진 능력이다. 이 능력은 많은 응용 분야에서 유용하지만, 모델을 더 취약하게 만드는 것도 이 능력이다. 복잡한 언어 패턴을 몇 개의 예제에서 학습할 수 있는 모델은 또한 몇 개의 독성 샘플에서 악의적인 연관성을 학습할 수 있다.
大量의 깨끗한 데이터가 이론적으로 독성의 효과를 “희석”해야 하지만, 모델의 우수한 학습 능력은 승리한다. 모델은 공격자가 삽입한 숨겨진 패턴을 여전히 찾고 내부화한다. 연구 결과는 백도어가 모델이 일정 수의 독성 샘플에 노출된 후에 효과가 있음을 보여준다. 모델이 본 다른 데이터의 양과 관계없이如此이다.
또한 더 큰 모델이巨大的 데이터셋에 의존하여 훈련되기 때문에, 공격자가 독성 물질을 더 희박하게 삽입하기 쉽다(예: 수십억 개의 깨끗한 문서 중 250개의 독성 문서). 이 희박성은 발견을 매우 어렵게 만든다. 유해한 텍스트를 제거하거나 블랙리스트된 URL을 확인하는 전통적인 필터링 기술은 악의적인 데이터가如此 희박한 경우에는无効하다. 이상 탐지 또는 패턴 클러스터링과 같은 더 발전된 방어 수단도 신호가如此 약한 경우에는 실패한다. 공격은 현재의 청소 시스템에 감지되지 않는 노이즈 플로어 아래에 숨겨진다.
위협은 사전 훈련을 넘어 확장된다
취약성은 사전 훈련 단계에서만 끝나지 않는다. 연구자들은 독성이 미세 조정 동안에도 발생할 수 있음을 보여주었다. 사전 훈련 데이터가 깨끗하더라도如此이다.
미세 조정은 안전성, 정렬 및 작업 성능을 개선하는 데 종종 사용된다. 그러나 공격자가 이 단계에서 몇 개의 독성 샘플을 삽입할 수 있다면, 여전히 백도어를 삽입할 수 있다.
테스트에서 연구자들은 감독된 미세 조정 동안 독성 샘플을 삽입했다. 때때로 이는 수천 개의 정상적인 예제 중 몇십 개였다. 백도어는 깨끗한 데이터에서 모델의 정확성을 손상시키지 않고 효과가 있었다. 모델은 정상적인 테스트에서 정상적으로 작동했지만 비밀 트리거가 나타날 때 악의적으로 반응했다.
또한 깨끗한 데이터로 계속 훈련을 시키더라도 백도어를 완전히 제거하는 것은 종종 실패한다. 이는 모델이 안전하다고 보이는 경우지만 특정 조건에서 악용될 수 있는 “수면” 취약성을 만들 수 있다.
AI 방어 전략 재고
독성 역설은 규모가 안전성을 보장한다는 이전 믿음이 더 이상 유효하지 않음을 보여준다. AI 커뮤니티는 대형 모델을 방어하는 방법을 재고해야 한다. 규모의純粋한 데이터만으로 독성을 방지할 수 있다고 가정하는 대신, 일부 부패가 불가피하다고 가정해야 한다.
방어는 데이터 위생뿐만 아니라 보증 및 안전 장치에 중점을 두어야 한다. 새로운 관행을 안내해야 할 네 가지 방향이 있다:
- 기원 및 공급망 무결성: 조직은 모든 훈련 데이터의 기원과 기록을 추적해야 한다. 이는 출처를 확인하고 버전 관리를 유지하며篡改 증명 데이터 파이프라인을 시행하는 것을 포함한다. 모든 데이터 구성 요소는 위협을 줄이기 위해 제로 트러스트 마음가짐으로 처리되어야 한다.
- 적대적 테스트 및 유도: 모델은 배포 전에 숨겨진 약점에 대해 적극적으로 테스트되어야 한다. 적대적 테스트, 적대적 프롬프트, 행동 탐색을 사용하여 일반적인 평가에서 놓칠 수 있는 백도어를 발견하는 데 도움이 될 수 있다. 목표는 모델이 제어된 환경에서 숨겨진 행동을 나타내도록 만드는 것이다.
- 실행 시간 보호 및 가드레일: 모델의 행동을 실시간으로 모니터링하는 제어 시스템을 구현해야 한다. 행동 지문, 출력의 이상 탐지, 제약 시스템을 사용하여 백도어가 활성화되어도 손상을 방지하거나 제한한다. 목표는 부패를 완전히 방지하는 대신 영향을 제한하는 것이다.
- 백도어 지속성 및 복구: 백도어가 얼마나 오래 지속되고 어떻게 제거할 수 있는지에 대한 추가 연구가 필요하다. 훈련 후 “디톡시피케이션” 또는 모델 복구 기술은 중요한 역할을 할 수 있다. 훈련 후 숨겨진 트리거를 신뢰성 있게 제거할 수 있다면 장기적인 위험을 줄일 수 있다.
결론
독성 역설은 AI 보안에 대한 우리의 생각을 바꾼다. 더 큰 모델은 자연스럽게 더 안전하지 않다. 실제로, 몇 개의 예제에서 학습하는 능력으로 인해 독성에 더 취약하다. 이것은 더 큰 모델이 신뢰할 수 없다는 것을 의미하지 않는다. 그러나 커뮤니티는 새로운 전략을 채택해야 한다는 것을 의미한다. 일부 독성 데이터가 항상 슬립스루할 수 있다는 것을 인정해야 한다. 도전은 이러한 공격에서 탐지, 포함, 회복할 수 있는 시스템을 구축하는 것이다. AI가 계속해서 권한과 영향력을 확대함에 따라, 결과는 매우 중요하다. 새로운 연구의 교훈은 명확하다. 규모만으로는 방패가 아니다. 보안은 모든 약점을 악용할 수 있는 적대자가 있을 수 있다는 가정으로 구축되어야 한다.












