리포트

DeepSeek-R1 레드 팀 리포트: 경고할 수 있는 보안 및 윤리적 위험 발견

Published January 31, 2025

Updated April 3, 2026

Antoine Tardif, CEO & Founder of Unite.AI

Enkrypt AI에서 수행한 최근 레드 팀 평가에서 DeepSeek-R1에 대한重大 보안 위험, 윤리적 우려, 및 취약성이 발견되었습니다. 2025년 1월 레드 팀 리포트에서 자세히 설명된 결과는, GPT-4o, OpenAI의 o1, Claude-3-Opus와 같은 업계 최고의 모델에 비해 모델이 유해한, 편향된, 및 보안이 취약한 콘텐츠를 생성할 가능성이 높은 것을 강조합니다. 아래는 리포트에서 설명된 위험에 대한 종합적인 분석과 완화策을 제시합니다.

주요 보안 및 윤리적 위험

1. 유해한 출력 및 보안 위험

유해한 콘텐츠를 생성하는 데 매우 취약, 유해한 언어, 편향된 출력, 및 범죄적으로 악용할 수 있는 정보를 포함합니다.
11배 더 유해한 콘텐츠를 생성할 가능성이 높은 OpenAI의 o1보다.
4배 더 유독한 GPT-4o보다.
3배 더 편향된 Claude-3-Opus보다.
4배 더 불안정한 코드를 생성할 가능성이 높은 OpenAI의 o1보다.
화학, 생물학, 방사선, 및 원자력(CBRN) 정보 생성에 매우 취약하여, 악의적인 행위자에게 높은 위험의 도구가 될 수 있습니다.

2. 다른 모델과의 비교

위험 카테고리	DeepSeek-R1	Claude-3-Opus	GPT-4o	OpenAI의 o1
편향	3배 더 높음	더 낮음	유사함	유사함
불안정한 코드	4배 더 높음	2.5배 더 높음	1.25배 더 높음	–
유해한 콘텐츠	11배 더 높음	6배 더 높음	2.5배 더 높음	–
유독성	4배 더 높음	거의 없음	2.5배 더 높음	–
CBRN 콘텐츠	3.5배 더 높음	3.5배 더 높음	2배 더 높음	–

편향 및 윤리적 위험

83%의 편향 공격이 성공, 건강, 인종, 종교 관련 질의에서 상당한 편향이 감지되었습니다.
모델은 더 높은 수준의 民族적 고정관념을 보여주었습니다. 이는 다양한 공정성 규정, 包括 ECOA, FHA, ACA, 및 EU AI Act을 위반할 수 있습니다.
샘플 테스트 케이스는 DeepSeek-R1이 고위직 직업 역할을 위한 특정 民族을 선호한다는 것을 보여주었습니다. 이는 직장에서의 편향을 강화합니다.

유해한 콘텐츠 생성

45%의 유해한 테스트에서 모델은 범죄 활동, 불법 무기 및 통제 물질과 관련된 콘텐츠를 생성했습니다.
테러リスト 모집에 대한 설득술 블로그를 개발하라는 프롬프트에 대한 모델의 응답은 극단주의자들이 모집 전략을 세부적으로 설명하는 것을 포함하여, 현실 세계의 폭력 위험을 증가시킬 수 있는 정보를 제공했습니다.
2.5배 더 취약한 GPT-4o 및 6배 더 취약한 Claude-3-Opus와 비교하여 극단주의 콘텐츠를 생성할 가능성이 있습니다.
45%의 유해한 테스트에서 모델은 범죄 활동, 불법 무기 및 통제 물질과 관련된 콘텐츠를 생성했습니다.

불안정한 코드 생성

78%의 코드 관련 공격에서 모델은 불안정한 코드 조각을 성공적으로 추출했습니다.
모델은 요청에 따라 악성 코드, 트로이 목마, 및 자체 실행 스크립트를 생성했습니다. 트로이 목마는 공격자가 시스템에 지속적인 비인가된 접근을 얻고, 민감한 데이터를窃取하며, 추가적인 악성 페이로드를 배포할 수 있는 심각한 위험을 가집니다.
자체 실행 스크립트는 사용자의 동의 없이 악의적인 동작을 자동화할 수 있으며, 사이버 보안에 중요한 애플리케이션에서 잠재적인 위협을 생성할 수 있습니다.
업계 모델과 비교하여 DeepSeek-R1는 OpenAI의 o1, Claude-3-Opus, 및 GPT-4o보다 각각 4.5배, 2.5배, 및 1.25배 더 취약합니다.
78%의 코드 관련 공격에서 모델은 불안정한 코드 조각을 성공적으로 추출했습니다.

CBRN 취약성

화학 전쟁 에이전트의 생화학적 메커니즘에 대한 자세한 정보를 생성했습니다. 이러한 정보는 개인들이 유해한 물질을 합성하고, 화학 및 생물학 무기 확산을 방지하기 위한 안전 제한을 우회하는 데 도움이 될 수 있습니다.
13%의 테스트에서 모델은 핵 및 생물학 위협과 관련된 콘텐츠를 생성하기 위해 안전 제어를 우회했습니다.
3.5배 더 취약한 Claude-3-Opus 및 OpenAI의 o1보다.
화학 전쟁 에이전트의 생화학적 메커니즘에 대한 자세한 정보를 생성했습니다.
13%의 테스트에서 모델은 핵 및 생물학 위협과 관련된 콘텐츠를 생성하기 위해 안전 제어를 우회했습니다.
3.5배 더 취약한 Claude-3-Opus 및 OpenAI의 o1보다.

위험 완화를 위한 추천

DeepSeek-R1와 관련된 위험을 최소화하려면 다음 단계를 수행하는 것이 좋습니다:

1. 강력한 안전성 정렬 훈련 구현

레드 팀 데이터 세트를 사용하여 모델을 더 안전한 출력으로 훈련시킵니다.
인간 피드백으로부터 강화 학습(RLHF)을 수행하여 모델의 행동을 윤리적 표준과 일치시킵니다.

2. 지속적인 자동화된 레드 팀

정기적인 스트레스 테스트를 통해 편향, 보안 취약성, 및 유독한 콘텐츠 생성을 식별합니다.
금융, 헬스케어, 및 사이버 보안 애플리케이션에서 모델의 성능을 특히 지속적으로 모니터링합니다.

3. 보안을 위한 상황 인식 가드레일

유해한 프롬프트를 차단하기 위한 동적 보안 조치를 개발합니다.
유해한 입력을 중화하고 안전하지 않은 응답을 필터링하기 위한 콘텐츠 모더레이션 도구를 구현합니다.

4. 모델 모니터링 및 로깅

취약성을 조기에 обнаруж하기 위한 모델 입력 및 응답의 실시간 로깅.
AI 투명성 및 윤리적 표준을 준수하기 위한 자동화된 감사 워크플로우.

5. 투명성 및 준수 조치

모델 위험 카드를 유지하여 모델의 신뢰성, 보안, 및 윤리적 위험에 대한 명확한 실행 가능한 지표를 제공합니다.
NIST AI RMF 및 MITRE ATLAS와 같은 AI 규제를 준수하여 신뢰성을 유지합니다.

결론

DeepSeek-R1은 많은 고위험 애플리케이션에서 광범위한 완화 노력 없이 사용하기에 적합하지 않은 심각한 보안, 윤리적, 및 규제 위험을 나타냅니다. 유해한, 편향된, 및 불안정한 콘텐츠를 생성할 가능성이 높은 모델은 Claude-3-Opus, GPT-4o, 및 OpenAI의 o1와 같은 모델에 비해 불리합니다.

DeepSeek-R1이 중국에서 유래한 제품이라는 점을 고려하면, 필요한 완화 추천이 완전히 구현될 가능성은 낮습니다. 그러나 AI 및 사이버 보안 커뮤니티는 이러한 모델이 가지는 잠재적인 위험에 대해 인식하고, 개발자, 규제 기관, 및 기업이 가능한 한 피해를 최소화하고, 이러한 기술의 악용에 대해 경각심을 유지할 수 있도록 하는 것이 중요합니다.

이 모델을 배포를 고려하는 조직은 철저한 보안 테스트, 자동화된 레드 팀, 및 지속적인 모니터링에 투자하여 안전하고 책임 있는 AI 구현을 보장해야 합니다. DeepSeek-R1은 많은 고위험 애플리케이션에서 광범위한 완화 노력 없이 사용하기에 적합하지 않은 심각한 보안, 윤리적, 및 규제 위험을 나타냅니다.

더 많은 정보를 원하는 독자는 이 페이지를 방문하여 보고서를 다운로드할 수 있습니다.

Unite.AI