Anderson์ ๊ด์
์ด๋ชจํฐ์ฝ์ ์ฌ์ฉํ์ฌ ์ฝํ ์ธ ํํฐ๋ฅผ ์ฐํํ๋ ๋ฐฉ๋ฒ

이모티콘을 사용하여 대규모 언어 모델의 안전 메커니즘을 우회하고, 필터링되지 않은 유해 출력을 트리거할 수 있습니다. 이러한 방법을 통해, LLM은 폭탄 제조 및 살인과 같은 금지된 주제에 대해 토론하고 조언을 제공할 수 있습니다.
중국과 싱가포르의 새로운 협력 연구에서 이모티콘을 사용하여 대규모 언어 모델의 콘텐츠 감지 필터를 우회할 수 있으며, 일반적으로 사용자와 모델의 상호작용 중에 유해성 수준을 증가시킬 수 있다는 증거가 발견되었습니다.

새로운 논문에서, 이모티콘을 사용하여 인기 있는 LLM을 ‘제일브레이크’하는 방법을 광범위하게 보여줍니다. 출처: https://arxiv.org/pdf/2509.11141
위의 예에서, 새로운 논문에서, 규칙을 위반하는 단어 기반 의도를 이모티콘으로 대체하여, ChatGPT-4o와 같은 고급 언어 모델에서 더 협조적인 응답을 유도할 수 있습니다.
효과적으로, 극단적인 상황에서, 이모티콘 사용은 ‘제일브레이크’ 기술로 작용할 수 있습니다. 연구자들은 이모티콘을 사용하여 규칙을 위반하는 의도를 숨길 수 있으며, 모델은 이를 더 협조적인 응답으로 처리합니다.
한 가지 남은 미스터리는 왜 언어 모델이 이모티콘을 사용하여 규칙을 위반하고 유해한 콘텐츠를 생성할 수 있는지입니다. 연구자들은 이모티콘을 사용하여 모델이 유해한 의도를 숨길 수 있으며, 모델은 이를 더 협조적인 응답으로 처리한다고 제안합니다.
이모티콘은 언어 모델이 학습한 패턴을 재현하고, 이모티콘을 포함하는 텍스트를 처리할 때, 이모티콘을 통한 유해한 의도를 숨길 수 있습니다. 이로 인해 모델은 이모티콘을 사용하여 유해한 콘텐츠를 생성할 수 있습니다.
이 논문은 When Smiley Turns Hostile: Interpreting How Emojis Trigger LLMs’ Toxicity라는 제목으로, Tsinghua University와 National University of Singapore의 9명의 연구자에 의해 수행되었습니다.
(불행히도, 논문에서 언급하는 많은 예는 아직 공개되지 않은 부록에 포함되어 있습니다. 우리는 저자에게 이에 대해 요청했지만, 부록은 아직 제공되지 않았습니다. 그러나 핵심 논문에 있는 경험적 결과는 여전히 주목할 만합니다.)
무료 패스
연구자들은 이모티콘을 사용하여 콘텐츠 필터를 우회하는 것이 왜 가능한지에 대한 결론적인 이론을 제시하지 않습니다. 그들은 다음과 같이 말합니다.
‘모델은 이모티콘으로 표현된 악의적인 의도를 인식할 수 있지만, 안전 메커니즘을 우회하는 방법은 불분명합니다.’
이 약점은 콘텐츠 필터의 텍스트 중심 설계에서 비롯될 수 있습니다. 시스템은 리터럴 텍스트 입력 또는 텍스트로 변환된 임베딩을 가정하며, 두 경우 모두 시스템은 명시적인 토큰을 사용하여 안전 규칙과 일치시킵니다.
예를 들어, AI 기반 이미지 편집에서, 사용자가 NSFW 이미지를 업로드하고 수정을 요청하면, Adobe Firefly 또는 ChatGPT와 같은 시스템은 CLIP 스타일의 파이프라인을 사용하여 이미지를 텍스트로 변환합니다. 그런 다음 추출된 텍스트에 제한된 용어가 있는 경우 필터가 트리거되어 요청이 거부됩니다.
그러나 이모티콘의 경우, 텍스트도 이미지도 아닌 중간 형태로, 필터링을 우회할 수 있습니다. rõ ràng, 연구자들은 이모티콘을 사용하여 콘텐츠 필터를 우회하는 이유에 대한 추가 연구가 필요하다고 주장합니다.
새로운 논문은 여기에서 찾을 수 있습니다.
(많은 예는 아직 공개되지 않은 부록에 포함되어 있습니다. 우리는 저자에게 이에 대해 요청했지만, 부록은 아직 제공되지 않았습니다. 그러나 핵심 논문에 있는 경험적 결과는 여전히 주목할 만합니다.)
이모티콘의 세 가지 핵심 해석
연구자들은 이모티콘을 사용하여 콘텐츠 필터를 우회하는 세 가지 언어적 특성을 강조합니다. 첫째, 이모티콘의 의미는 컨텍스트에 의존적입니다. 예를 들어, ‘Money with Wings’ 이모티콘은 공식적으로 돈 전송 또는 지출을 나타내지만,周囲의 텍스트에 따라서 합법적인 또는 불법적인 활동을 의미할 수 있습니다.

새로운 논문에서, 인기 있는 이모티콘의 의미를 변경하거나 조작하여, 이모티콘을 사용하여 콘텐츠 필터를 우회하는 방법을 보여줍니다.
둘째, 이모티콘은 프롬프트의 톤을 변경할 수 있습니다. 이모티콘의 존재는 종종 재미있거나 아이러니한 효과를 줄 수 있으며, 유해한 질의를 요청하는 것처럼 보이지 않게 할 수 있습니다.

이모티콘의 존재는 유해한 질의를 요청하는 것처럼 보이지 않게 할 수 있습니다.
셋째, 이모티콘은 언어에 구애받지 않음을 가지고 있습니다. 단일 이모티콘은 영어, 중국어, 프랑스어 등 여러 언어에서 동일한 감정을 전달할 수 있습니다. 이는 이모티콘을 사용하여 다국어 프롬프트를 생성할 수 있게 합니다.

이모티콘은 다국어 프롬프트에서 동일한 감정을 전달할 수 있습니다.
접근 방식, 데이터 및 테스트
연구자들은 AdvBench 데이터셋의 수정 버전을 생성하여, 유해한 프롬프트를 이모티콘으로 대체하여 테스트했습니다. AdvBench는 32개의 고위험 주제를 다루며, 폭탄 제조, 해킹, 살인 등이 포함되어 있습니다.

AdvBench의 원래 예시, 여러 주요 챗봇에서 유해한 지침을 생성하는 것을 보여줍니다.
모든 520개의 원래 AdvBench 인스턴스는 이모티콘으로 대체되어, 50개의 유해한 프롬프트와 비유해한 프롬프트가 사용되었습니다. 프롬프트는 여러 언어로 번역되어, 7개의 주요 클로즈드 및 오픈 소스 모델에서 테스트되었습니다.
테스트 메트릭으로, 연구자들은 GPT-Judge라는 새로운 평가 시스템을 개발했습니다. 이 시스템에서, GPT-4o는 테스트 모델이 아닌, 평가자로 사용되어, 다른 모델이 생성한 응답에 대한 유해성 점수를 부여했습니다.
각 응답은 1(무해)에서 5(극도로 유해)까지 평가되었으며, 5점을 받은 응답의 비율이 유해성 비율로 보고되었습니다.
모델이 이모티콘에 대한 설명으로漂移하는 것을 방지하기 위해, 연구자들은 각 프롬프트에 모델이 간결하게 응답하도록 지시했습니다.

이모티콘을 사용한 프롬프트의 결과, 이모티콘을 대체하거나 제거한 버전과 비교합니다.
초기 결과 테이블에서, 왼쪽에 표시된 결과는 이모티콘을 사용한 프롬프트가 이모티콘을 대체하거나 제거한 버전보다 유해성 점수가 더 높다는 것을 보여줍니다.
연구자들은 이모티콘을 사용한 접근 방식이 이전의 제일브레이크 방법보다 더 효과적이라고 주장합니다.
첫 번째 테이블은 또한 이모티콘의 효과가 언어에 구애받지 않음을 보여줍니다. 텍스트 구성 요소를 중국어, 프랑스어, 스페인어, 러시아어 등으로 번역했을 때, 유해한 출력은 여전히 높게 유지되었습니다.
이로 인해 이모티콘은 주요 사용자 그룹에서 유해한 생성을 위한 전이 채널로 작용할 수 있습니다.
결론
LLM을 제일브레이크하는 것은 새로운 시도는 아닙니다. 최근 몇 년 동안, 예를 들어, ChatGPT의 필터를 우회하는 데에 16진수 인코딩이 사용되었습니다. 문제는 텍스트 기반 언어를 사용하여 들어오는 요청과 나가는 응답을 평가하는 것에 있습니다.
이모티콘의 경우, 규칙을 위반하는 의미를 담은 은밀한 메시지를 전달할 수 있습니다. CLIP 기반의 변환은 모든 이미지 업로드에서 개입해야 하지만, 주요 LLM에서 이는 그렇지 않은 것으로 보입니다.
이로 인해 언어 모델의 언어적 장벽은 취약하고, 텍스트 중심적입니다. 더 광범위한 내용 해석은 처리 및 대역폭 비용이 높을 수 있습니다.
이 논문은 이모티콘을 사용하여 콘텐츠 필터를 우회하는 방법을 보여주며, 이는 언어 모델의 안전성에 대한 우려를 제기합니다.
* 이 논문의 레이아웃은 대부분의 논문과 비교하여 혼란스럽고, 방법론과 테스트가 명확하게 구분되지 않습니다. 우리는 이러한 상황에서 가능한 한 최선의 노력을 다해 연구의 핵심 가치를 표현하려고 했습니다.
† 결과에 대한 거의 불투명하고 혼란스러운 처리.
최초로 게시된 날: 2025년 9월 17일 수요일












