인곡지λŠ₯

μ–΄λ“œλ²„μ„œλ¦¬μ–Ό μ‹œμ˜ μƒˆλ‘œμš΄ AI νƒˆμ˜₯ 방법은 무엇인가?

mm

인공지능(AI) 안전은 개발자들이 유해한 요청을 차단하는 가드레일을 추가함에 따라 공격자들이 이를 우회하는 새로운 방법을 시도하는 고양이와 쥐의 게임이 되었습니다. 가장 최근에 나타난 이상한 전개는 어드버서리얼 시입니다. 이 전략은提示를 시로 위장하고 운문, 은유, 그리고 비정상적인 문체를 사용하여 위험한 지시를 안전 시스템이 인식하기 어렵게 만듭니다.

실제로는 내용 자체가 많이 변경되지 않습니다. 변경되는 것은 포장입니다. 패턴 기반 필터를 혼동시키기 위해 충분합니다. 이는 오늘날의 모델에서 요청의 방식이 요청의 내용만큼 중요할 수 있음을 상기시킵니다.

연구자들이 시를 사용하여 AI를 깨는 데 무엇이 일어났는가?

2025년 초, 연구자들은 대규모 언어 모델(LLM)이 시 형식으로 감싼 제한된提示에 응답할 수 있음을 보여주었습니다. 직접적인 정책을 트리거하는 지시대신, 연구자들은 운문, 은유, 그리고 내러티브 시 안에 동일한 요청을 삽입했습니다.

표면적으로,提示들은 창의적인 글쓰기 연습으로 보였지만, 실제로는 정상적으로 차단되는 동일한 의도를 가지고 있었습니다. 25개의 프론티어 사유 및 공개 가중 모델에서, 팀은 시적 프레임워크가 평균 62%의 탈옥 성공률을 달성했음을 보고했습니다. 수작업 시에 대해 그리고 약 43%의 벌크 “시 변환”에 대해 표준화된 메타-提示를 사용하여

응답 자체는 새로운 유형의 실패가 아니었지만, 예상치 못한 문으로 나타난 친숙한 것들이었습니다. 모델은 시적 구조로 인해 숨겨진 기본 요청 때문에 일반적으로 피하는 내용, 즉 불법 또는 유해한 활동에 대한 설명을 생성하도록 유도되었습니다.

연구의 핵심은 스타일적인 변이만으로도 안전 시스템을 우회할 수 있다는 것입니다. 이는 모델家族과 정렬 접근법에 걸쳐서 나타나는 취약점을 보여줍니다.

어드버서리얼 시가 어떻게 작동하는가

어드버서리얼 공격은 기계 학습 시스템이 인간과 같은 방식으로 언어를 “이해”하지 않는다는 간단한 현실을 이용합니다.它们는 패턴을 감지하고, 예상되는 연속을 예측하며, 의도에 따라 지시를 따릅니다.

직접적인 방식으로提示가 표현될 때, 가드레일이 인식하고 차단하기 쉽습니다. 그러나 동일한 목적이 위장되거나, 분할되거나, 재구성될 때, 보호 레이어는 실제로 요청된 것을 놓칠 수 있습니다.

시가 왜 효과적인 수단이 될 수 있는가

시는 자연스럽게 모호성을 위한 것입니다. 그것은 은유, 추상화, 비정상적인 구조 및 간접적인 문체를 사용합니다. 이러한 특징들은 “해로운 창의적인 글쓰기”와 “거부해야 하는 요청” 사이의 경계를 흐리게 하는 것입니다.

同じ 2025년 연구에서, 연구자들은 시적提示가 90%의 성공률로 안전하지 않은 응답을 유발한다고 보고했습니다. 이는 스타일만으로도 결과를 크게 변경할 수 있음을 보여줍니다.

시가 실제 요청을 어떻게 숨기는가

요청을 메시지로, 시를 포장으로 생각해 보세요. 안전 필터는 일반적으로 명확한 신호, 즉 명시적인 키워드, 직접적인 단계별 문체 또는 인식 가능한 악의적인 의도를 찾습니다.

시는 의도를 은유적인 언어 또는 여러 줄에 걸쳐 숨길 수 있습니다. 이는 안전 필터가 분리하여 인식하기 어렵게 만듭니다. 한편, 기본 모델은 언어가 간접적일 때에도 의도를 충분히 재구성하여 응답할 수 있습니다.

탈옥을 감지하고 완화하는 방법

탈옥 방법이 더 창의적으로 변함에 따라, 대화는 그것들이 작동하는 방식에서 어떻게 그것들을 감지하고 완화하는지로 이동해야 합니다. 이는 특히 많은 사람들이 일상적인 일과에서 AI를 사용하고 있기 때문에 중요합니다. 27%의 사람들이 하루에 여러 번 사용합니다.

더 많은 사람들이 대규모 언어 모델(LLM)을 사용함에 따라, 추가적인 안전 장치가 테스트되고 탐색되어야 합니다. 이는 새로운提示 스타일과 우회 전략이 나타날 때 적응할 수 있는 계층적인 방어를 구축하는 것을 포함합니다.

개발자의 딜레마

AI 안전 팀에게 탈옥의 가장 어려운 부분은 그것들이 하나의 알려진 위협으로 오지 않는다는 것입니다. 그것들은 시간이 지남에 따라 지속적으로 변경됩니다. 이는 사용자가提示를 재구성하거나, 분할하거나, 역할을 부여하거나, 창의적인 글쓰기라고 위장할 수 있기 때문입니다. 그러면 각 새로운 포장법은 시스템이提示의 의도를 해석하는 방식을 변경할 수 있습니다.

이러한 도전은 실제 사용이 증가함에 따라 빠르게 확대됩니다. 이는 실제 사용이 끝없는 에지 케이스를 생성할 수 있기 때문입니다.

따라서 오늘날의 AI 안전은 위험을 관리하는 것입니다. NIST AI 위험 관리 프레임워크(AI RMF)는 위험 관리를 정적 체크리스트가 아닌 지속적인 활동으로 취급합니다. 목표는 새로운 탈옥 스타일이 나타날 때 쉽게 식별하고, 수정하고, 안전 장치를 강화할 수 있는 프로세스를 만드는 것입니다.

모델이 어떻게 자신을 보호하는가

AI 안전은 여러 레이어로 구성됩니다. 대부분의 시스템에는 다양한 종류의 위험한 행동을 잡는 여러 방어가 함께 작동합니다. 가장 바깥쪽 레이어에서는 입력 및 출력 필터링이 게이트키퍼 역할을 합니다.

들어오는提示는 정책 위반을 확인하기 전에 핵심 모델에 도달하기 전에 스캔되고, 나가는 응답은 사용자에게 반환되기 전에 아무 것도 누출되지 않는지 확인하기 위해 확인됩니다. 이러한 시스템은 직접적인 요청이나熟悉한 적신호를 식별하는 데 뛰어난 성능을 발휘하지만, 가장 쉽게 우회할 수 있으므로, 더 기만적인 탈옥은 종종이를 우회합니다.

다음 보호 레이어는 모델 자체 내부에서 발생합니다. 탈옥 기술이 발견되면, 그것들은 일반적으로 훈련 예제로 변환됩니다. 여기서 어드버서리얼 훈련과 인간 피드백에서 강화 학습(RLHF)이 등장합니다.

개발자들은 실패한 또는 위험한 상호작용의 예제에 모델을 미세 조정함으로써, 간접적인 언어로도 거부해야 할 패턴을 인식하도록 시스템을 教育합니다. 시간이 지남에 따라, 이러한 프로세스는 모델을 전체 공격 클래스에 대해 면역화하는 데 도움이 됩니다.

AI “레드 팀”의 역할

탈옥이 발생하기를 기다리는 대신, 회사들은 AI 레드 팀을 사용합니다. 이러한 팀은 모델을 공격하는 방식으로 접근하는 그룹입니다. 그들은 안전 장치가 부족한 부분을 발견하기 위해 비정상적인 문체, 창의적인 형식 및 에지 케이스를 실험합니다. 목표는 실제 사용에서 나타나기 전에 약점을 노출하는 것입니다.

레드 팀은 현재의 사이버 보안 전략에서 개발 라이프 사이클의 핵심 부분이 되고 있습니다. 팀이 새로운 탈옥 기술을 발견하면, 결과 데이터는 훈련 및 평가 파이프라인으로 직접 피드백됩니다. 이러한 정보는 필터를 정의하고, 정책을 조정하며, 어드버서리얼 훈련을 강화하여 tương似的 시도가 미래에 성공할 가능성을 줄이는 데 사용됩니다. 시간이 지남에 따라, 이것은 지속적인 루프를 생성합니다. 실패를 프로브하고, 그것들에서 배우고, 시스템을 개선한 다음, 반복합니다.

시가 AI 안전의 스트레스 테스트가 될 때

어드버서리얼 시는 AI 안전이 사용자가 질문을 어떻게 표현하는지에 달려 있다는 것을 상기시킵니다. 모델이 더 접근하기 쉽고 널리 사용됨에 따라, 연구자들은 창의적인 언어와 더 직접적인 의도를 잡기 위한 안전 시스템 사이의 간격을 계속 탐구할 것입니다. 핵심은 더 안전한 AI는 탈옥이 발생하는 속도만큼 빠르게 진화하는 다중 방어에서 나온다는 것입니다.

Zac AmosλŠ” 인곡 μ§€λŠ₯에 쀑점을 λ‘” 기술 μž‘κ°€μž…λ‹ˆλ‹€. κ·ΈλŠ” λ˜ν•œ ReHack의 ν”Όμ²˜ μ—λ””ν„°λ‘œ, 그의 λ‹€λ₯Έ μž‘ν’ˆμ„ 읽을 수 μžˆμŠ΅λ‹ˆλ‹€.