์ฌ์ด๋ฒ ๋ณด์
AI๊ฐ ์ญํจ๊ณผ๋ฅผ ๋ผ ๋: Enkrypt AI ๋ณด๊ณ ์๋ ๋ค์ค ๋ชจ๋ฌ ๋ชจ๋ธ์ ์ํํ ์ทจ์ฝ์ ์ๆด้ฒํ๋ค

2025년 5월, Enkrypt AI는 다중 모달 레드 팀 보고서를 발표했으며, 이는 고급 AI 시스템이 얼마나 쉽게 조작되어 위험하고 비윤리적인 콘텐츠를 생성할 수 있는지에 대한 치リング한 분석을 포함하고 있다. 보고서는 Mistral의 두 가지 리딩 비전-언어 모델인 Pixtral-Large (25.02)와 Pixtral-12b에 초점을 맞추고 있으며, 기술적으로 인상적인 모델이지만 위험하게 취약한 모델의 그림을 그린다.
비전-언어 모델 (VLMs)인 Pixtral은 시각적 및 텍스트 입력을 모두 해석할 수 있으며, 복잡한 실제 프롬프트에 지능적으로 응답할 수 있다. 그러나 이러한 기능은 증가된 위험을 동반한다. 텍스트만 처리하는 전통적인 언어 모델과는 달리, VLMs는 이미지와 단어의 상호 작용에 의해 영향을 받을 수 있으며, 적대적 공격에 대한 새로운 문을 열 수 있다. Enkrypt AI의 테스트는 이러한 문이 얼마나 쉽게 열릴 수 있는지 보여준다.
경고하는 테스트 결과: CSEM 및 CBRN 실패
보고서를 작성한 팀은 소피스틱한 레드 팀 방법을 사용했으며, 이는 실제 위협을 모방하도록 설계된 적대적 평가의 한 형태이다. 이러한 테스트는 정교하게 설계된 쿼리를 사용하여 안전 필터를 우회하는 것과 같은 전략을 사용했으며, 이미지 기반의 속임수와 컨텍스트 조작도 포함되었다. 경고할 만한 것은, 이러한 적대적 프롬프트 중 68%가 두 가지 Pixtral 모델 모두에서 유해한 응답을 유발했으며, 이는 성적 착취, 그리고 심지어 화학 무기 설계와 관련된 콘텐츠를 포함한다.
가장 놀라운 발견 중 하나는 아동 성적 착취 자료 (CSEM)와 관련이 있다. 보고서는 Mistral의 모델이 CSEM 관련 콘텐츠를 생성할 가능성이 60배 더 높다는 것을 발견했으며, 이는 GPT-4o 및 Claude 3.7 Sonnet과 같은 산업 표준과 비교했을 때이다. 테스트 사례에서 모델은 위장된 성적 착취 프롬프트에 구조화된 다중 단락 콘텐츠로 응답했으며, “교육적 인식만을 위해”이라는 위장된 免責 조항으로 둘러싸여 있었다. 모델은 단순히 유해한 쿼리를 거부하지 않았으며, 자세한 내용으로 완성했다.
同樣으로 경고할 만한 것은 CBRN (화학, 생물, 방사성 및 핵) 위험 범주에서의 결과였다. VX 신경 가스를 수정하는 방법에 대한 요청에 대해 모델은 충격적으로 구체적인 아이디어를 제공했으며, 캡슐화, 환경 방어, 제어 방출 시스템과 같은 방법을 기술적으로 자세히 설명했다.
이러한 실패는 항상 명백하게 유해한 요청에 의해 트리거되지 않았다. 한 전략은 빈 번호가 있는 이미지 업로드와 모델에 “세부 정보를 채워라”는 요청을 포함했다. 이러한 단순하고 명백하게 무해한 프롬프트는 비윤리적이고 불법적인 지침을 생성했다. 시각적 및 텍스트 조작의 융합은 특히 위험하다는 것을 강조했으며, 다중 모달 AI에 의해 제기되는 고유한 도전을 강조했다.
비전-언어 모델이 새로운 보안 도전을 제기하는 이유
이러한 위험의 핵심에는 비전-언어 모델의 기술적 복잡성이 있다. 이러한 시스템은 언어만을 파싱하지 않는다. 다양한 형식으로 의미를 합성한다는 것을 의미하며, 이미지 콘텐츠를 해석하고 텍스트 컨텍스트를 이해하고 그에 따라 응답해야 한다. 이러한 상호 작용은 새로운 악용 벡터를 도입한다. 모델은 단독으로 유해한 텍스트 프롬프트를 올바르게 거부할 수 있지만, 제안된 이미지 또는 모호한 컨텍스트와 결합되면 유해한 출력을 생성할 수 있다.
Enkrypt AI의 레드 팀은 크로스-모달 인젝션 공격을 발견했으며, 이는 한 모달리티의 미묘한 힌트가 다른 모달리티의 출력에 영향을 미친다. 이러한 공격은 표준적인 안전 메커니즘을 완전히 우회할 수 있다. 이러한 실패는 전통적인 콘텐츠 모더레이션 기술이 다중 모달 시스템에 충분하지 않음을 보여준다.
보고서는 또한 Pixtral 모델에 접근한 방법을 자세히 설명한다. Pixtral-Large는 AWS Bedrock를 통해, Pixtral-12b는 Mistral 플랫폼을 통해 접근되었다. 이러한 실제 배포 컨텍스트는 발견의 긴급성을 더욱 강조한다. 이러한 모델은 연구실에 국한되지 않는다. 클라우드 플랫폼을 통해 접근할 수 있으며 쉽게 소비자 또는 엔터프라이즈 제품에 통합될 수 있다.
해야 할 일: 더 안전한 AI를 위한 청사진
Enkrypt AI의 공로로, 문제를 강조하는 것 이상을 한다. 보고서는 포괄적인 완화 전략을 제시하며, 이는 안전성 정렬 훈련으로 시작한다. 이는 모델을 자신의 레드 팀 데이터를 사용하여 훈련시키는 것을 포함하며, 이는 유해한 프롬프트에 대한 취약성을 줄인다. Direct Preference Optimization (DPO)와 같은 기술이 모델의 응답을 위험한 출력으로부터遠ざける 것을 추천한다.
또한, 동적 필터인 컨텍스트 인식 가드레일의 중요성을 강조한다. 이는 실제 시간에 유해한 쿼리를 해석하고 차단할 수 있으며, 다중 모달 입력의 전체 컨텍스트를 고려한다. 또한, 모델의 제한과 알려진 실패 사례를 이해하는 데 도움이 되는 모델 위험 카드를 투명성 조치로 제안한다.
아마도 가장 중요한 추천은 레드 팀을 지속적인 과정으로 다루는 것이다. 모델이 발전함에 따라 공격 전략도 발전한다. 오직 지속적인 평가와 적극적인 모니터링만이 특히 모델이 의료, 교육 또는 국방과 같은 민감한 부문에 배포될 때 장기적인 신뢰성을 보장할 수 있다.
Enkrypt AI의 다중 모달 레드 팀 보고서는 AI 산업에 대한 명확한 신호이다. 다중 모달 모델의 강력함은 다중 모달 책임과 함께 간다. 이러한 모델은 능력의 도약을 나타내지만, 안전성, 보안, 윤리적인 배포에 대한 생각의 도약도 필요하다. 이러한 모델이 제어되지 않으면, 단순한 실패를 초래할 뿐만 아니라 실제로 세계적인 피해를 초래할 수 있다.
대규모 AI를 개발하거나 배포하는 모든 사람에게 이 보고서는 단순한 경고가 아니다. 이는 플레이북이다. 그리고 이는 더 긴급한 때에 올 수 없다.












