Anderson์ ๊ด์
์ธ์ด ๋ชจ๋ธ์ ๋น๋ฐ์ ์ ์งํ๊ธฐ ์ด๋ ค์

인공지능 모델은 비밀을 유지하지 못한다. 비밀을 유지하지 말라는 지시를 받았음에도 불구하고, 그들의 글은 이를 노출시키고, 비밀을 더 열심히 숨으려고 하면 유출이 더 쉽게 발견된다.
의도적으로 무엇인가에 대해 생각하지 않으려는 것은 매우 어렵다. 이에 대한 고전적인 예는 1960년 영국의 SF 스릴러 영화 촌락의 마을의 끝에 나타난다. 여기서 우리의 희생적인 영웅은 적대적인 외계인 침입자들이 아이들로 위장하고 있는 마을에 폭탄을 밀반입했지만, 그들의 텔레파시 능력이 그의 의도를 폭탄을 제거하기 전에 알아차릴 위험이 있으므로, 그는 시간을 지연시키기 위해 무엇인가에 집중해야 한다. 그러나 그들은 폭탄이 아닌 다른 것을 생각해야 한다.
모순은 무엇인가에 대해 생각하지 않으려면, 그것을 어떤 식으로든 주의를 기울여야 한다는 것이다. 이것은 대부분의 사람들이 덜 극적인 상황에서 경험할 수 있는 잘 알려진 증후군이다.
대규모 언어 모델(Large Language Models, LLMs)은 주의를 기울이는 방식에 기반을 두고 있으므로, 사용자가 숨기라고 요청했음에도 불구하고 정보를 억제하는 데 어려움을 겪는다. 이러한 모델은 점점 더 비즈니스 정보 네트워크의 핵심에 배치되고 있으므로, 그들의 천진한 비밀 유지 부족은 많은 회사에 대한 책임이 될 수 있다.
이번 년초에, 찬다 연구소가 주도한 연구 협력은 LLMs의 맥락에서 이 도전을 Private State Interactive Tasks(PSITs)로 정의했으며, “에이전트가 숨겨진 정보를 생성하고 유지해야 하며 일관된 공개 응답을 생성해야 한다”고 밝혔다. 또한 오픈AI와 알리바바의 테스트 모델은 이러한 작업을 수행할 수 없다는 것을 발견했다.
말하지 마…
이미 더 큰 모델이 더 많은 정보를 유출한다는 것이 알려져 있지만, 미국과 캐나다의 새로운 연구는 언어 모델이 정보를 숨기라는 명령을 따를 수 있는지 명시적으로 연구했다. 모델은 주제 또는 테마가 포함된 출력을 생성해야 했지만, ‘금지된’ 단어나 아이디어를 포함하지 않도록 해야 했다.
이 논문은 연구한 모든 모델이 어떤 식으로든 비밀을 유지하지 못한다는 것을 결론지었다. 모델은 5단락(~450단어)짜리 에세이와 이야기에서 충분한 범위를 제공했지만, 매우 짧은 장난에는 충분한 범위가 없었다.
또한, 모델이 비밀을 유지하려고 더 열심히 시도할수록, 비밀을 유출할 위험이 더 높아졌다. 모델은 20번의 시도에서 ‘비밀 단어’를 노출시킬 수 있었다.

새로운 논문에서: 5개의 전위 모델에서, 장형 글쓰기가 숨겨진 개념을 신뢰성 있게 유출시키고, 짧은 장난은 그렇지 않으며, 더 강한 ‘숨기기’ 지시는 출력을 비밀에서 멀어지게 하지만, 신호를 역전으로 감지할 수 있다. 소스
이 작업은 비즈니스 운영과 관련이 있으며, 마케팅 및 PR 아웃리치에서 내부 보고서까지 다양한 채널이 정보를 선택적으로 제시해야 한다. 그러나 이러한 모든 과정은 정보를 완전히 이해하기 위해 시작에 모든 정보가 필요하다.

논문에서 설명하는 시나리오에서는 숨겨진 정보가 의도하지 않게 관련되지 않은 출력을 형성할 수 있다. 모델은 회사 재정 불안정을 공개하지 말라는 지시를 받았지만, 현금 부족과 자본 스트레스와 관련된 단어로漂向했다.
저자들은 다음과 같이 말한다*:
‘언어 모델은 신뢰성 있게 정보를 구분하지 못한다. 숨겨진 단어가 프롬프트에 포함되면, 모델의 글쓰기가 영향을 받고, 다른 모델은 이를 감지할 수 있다. 문자 그대로 단어는 항상 억제되지만, 개념은 아니다. 이는 7개의 모델, 3개의 단어 집합, 시스템 프롬프트 대 사용자 프롬프트, 그리고 2개의 독립적인 모델 간 추측자에서 모두 동일하다.
‘우리는 트랜스포머의 높은 신뢰성 정보 접근이 비밀을 유지하기 어렵게 만든다고 가정한다. 모델이 비밀을 유지하려고 시도할수록, 주의를 기울여야 하므로, 우연한 유출의 경로를 제공한다.
‘무엇인가를 의도적으로 피하려면, 인간은 그것에 대해 생각해야 하고, 트랜스포머는 그것에 주의를 기울여야 한다. 두 개념이 모델에 의해 거의 동등하게 선호되는 경우(예: 사무실 직원 또는 오케스트라의 두 번째 바이올린에 대한 이야기), 모델의 결정은 무엇을 공개하지 않으려고 하는지에 의해 영향을 받는다.
GPT-5.4와 DeepSeek 모델은 예외적으로 수행되었지만, 두 모델 모두 정보를 유출했다. GPT-5.4는 한 테스트에서 50% 미만의 점수를 얻었으며, 이는 모델이 개념을 피하도록 지시했을 때 발생하는 역스파이크 또는 지표였다.
이 문제를 설명하기 위해 저자들은 LLMs에서 유한 엔트로피 예산을 정의했으며, 이는 모델의 예측 불가능성이 본질적으로 무작위성의 결핍으로 제한된다는 것을 의미한다. 간단히 말하면, 모델은 벽이나 야구 점수를 생각하는 것과 같이 집중할 수 없다.
연구의 가장 интерес로운 발견 중 하나는, 이 조건이 사용자 메시지에 포함된 경우보다 시스템 프롬프트에 포함된 경우에 훨씬 더 심각해진다는 것이다.
작은 모델은 이러한 경향이 없는 것으로 나타났지만, 이는 전체적인 능력의 약화와 함께 올 수 있다.
새로운 논문은 비밀을 유지할 수 있습니까? 언어 모델 글쓰기에서 의도하지 않은 정보 유출라는 제목을 가지고 있으며, 시카고 대학교와 브리티시 컬럼비아 대학교의 두 저자에 의해 작성되었다.
방법
이 연구는 주로 5개의 전위 모델에 초점을 맞추고 있다: 앤트로픽의 클라우드 오푸스 4.6와 소ネット 4.6; 오픈AI의 GPT-5.4; 메타의 라마 4 메버릭; 그리고 딥시크 V3.2. 추가적인 검증 테스트는 xAI의 그록 4와 구글의 제미니 2.5 프로와 함께 수행되었다. 별도의 스케일링 실험은 라마 3.2 3B, 라마 3.1 8B, 라마 3.3 70B, 그리고 제마 3를 4B, 12B, 27B 파라미터로 검증했다.
연구자들은 2개의 대안 강제 선택(2AFC) 테스트를 사용하여 보다 미묘한 형태의 유출을 측정했으며, 이는 심리 물리학 문헌에서 표준적인 지표이다. 여기서 두 번째 모델은 두 개의 이야기를 보여주고, 숨겨진 단어가 포함된 이야기를 물었다.
무작위 추측은 50%의 정확도를 생성할 것이므로, 그_LEVEL 이상 또는 이하의 점수는 감지할 수 있는 숨겨진 의미적 흔적이 남아 있음을 나타낸다.
첫 번째 실험에서는 모델이 다른 모델이 생성한 텍스트 또는 다른 모델을 읽고, 20 라운드 동안 숨겨진 단어를 추측하도록 시켰다.
두 번째(2AFC) 테스트에서는 AI가 두 개의 글을 보여주고, 특정 숨겨진 단어가 포함된 글을 물었거나, 어떤 글에 숨겨진 단어가 포함되어 있는지 물었다. 무작위 추측은 50%의 성공률을 생성할 것이므로, 그_LEVEL 이상 또는 이하의 점수는 숨겨진 개념이 여전히 감지될 수 있음을 나타낸다.
측정/지표
첫 번째 테스트에서는 AI 모델이 생성된 텍스트를 읽고, 20 라운드 동안 숨겨진 단어를 추측하도록 시켰다.
두 번째(2AFC) 테스트에서는 AI가 두 개의 글을 보여주고, 숨겨진 단어가 포함된 글을 물었거나, 어떤 글에 숨겨진 단어가 포함되어 있는지 물었다.
연구자들은 420개의 차별화 테스트와 450개의 감지 테스트를 수행했으며, 각 모델에 대해 수행했다.
결과
5개의 모델은 숨겨진 개념을 64%에서 79%의 속도로 식별했으며, 숨겨진 단어가 직접적으로 생성된 이야기에서 나타나지 않았음에도 불구하고, 주제와 이미지 통해 유출되었다.

시스템 프롬프트 비밀을 가진 이야기의 2AFC 정확도, 50%는 우연한 성능을 나타낸다.
GPT-5.4와 제미니 2.5 프로는 다르게 행동했으며, 숨겨진 아이디어를 피하려고 시도하면, 피하는 패턴 자체가 더 쉽게 감지되었다. 이 효과는 선택된 단어, 무작위로 선택된 단어, 모델이 선택한 단어에서 모두 지속되었다.
GPT-5.4의 우연한 점수는 무작위적인 것이 아니라, 체계적인 것으로 나타났으며, 일부 숨겨진 단어는 매우 신뢰성 있게 감지되었으며, 다른 단어는 거의 감지되지 않았다. 이 효과는 시스템 프롬프트 대신 사용자 프롬프트에 숨겨진 단어가 포함된 경우 약화되었다.
대부분의 모델에 대해, ‘이 텍스트에 숨겨진 개념이 포함되어 있습니까?’라는 테스트는 ‘이 텍스트에 어떤 숨겨진 개념이 포함되어 있습니까?’라는 테스트와 유사한 결과를 생성했다.
추가적으로, 두 가지 테스트 방법은 서로 다른 유형의 유출을 측정했으며, 2AFC 테스트는 글쓰기에서 숨겨진 주제가 여전히 감지될 수 있는지 측정했으며, 자유 응답 테스트는 유출된 단서가 숨겨진 단어를 정확하게 추측할 수 있을 만큼 강력한지 측정했다.
저자들은 다음과 같이 결론지었다*:
‘우리의 발견은 모델의 컨텍스트에서 활성화된 정보가 출력에 주제적 흔적을 남길 수 있음을 시사한다. 시스템 프롬프트 내용, 사슬 想法, 검색된 문서, 사용자 제공 데이터 – 이러한 모든 것이 원격 관찰자에 의해 감지될 수 있는 방식으로 창의적 결정에 영향을 미칠 수 있다.
‘유출 정도는 생성 작업이 얼마나 개방되어 있는지(짧은 장난은 안전하지만, 이야기들은 그렇지 않다)와 정보가 매체에서 얼마나 의미적으로 식별 가능한지에 따라 달라진다.
‘그러나, 의미적 유출은 모델이 정보를 숨기려고 노력하는 경우에도 불가피하다.
결론
위에서 언급한 바와 같이, 저자들은 이 문제의 일부를 트랜스포머 아키텍처 자체의 핵심 원칙에 기인한다고 본다. 역사적으로 볼 때, 이 최신 LLM 문제는 후처리 조건부(조정), 사용자에게 편집할 수 없는 시스템 프롬프트, 필터, 그리고 증가하는 다양한 제2의 시스템에 의해 해결될 것이다.
이러한 보조 인프라가 더 커질수록, 현재의 SOTA AI는 더 많은 주의와 밸런스를 요구하는 핵심 가치 제안을 제공하는 것과 같다.
* 저자의 강조, 필요한 경우 내가 조정한 것(기사 인용은 이미 기울임꼴로 되어 있으므로), 그리고 저자의 인라인 인용이 하이퍼링크로 변환되었다.
† 저자들은 모델 간에 일부 단어에 대한 자발적인 일치에 대해 관심을 보이며, ‘모델은 유사한 단어로 향한다: 망원경, 자유, 그리고 노스탈지어는 3개 이상의 모델 목록에 나타난다’고 말한다. 또한 모델 간에 짧은 장난이 나타나는 공통점을 언급한다: ‘[몇몇] 모델은 비밀과 상관없이 같은 스톡 장난을 생성한다. 오푸스는 11개의 비밀에 대해 ‘과학자들이 원자를 왜 신뢰하지 않는가? 그것은 모든 것을 구성하기 때문이다’라는 장난을 한다. 나머지 4개의 비밀(카КТ, 엔트로피, 노스탈지어, 인내심)은 오푸스가 모든 15개의 비비밀 조건에서 작성하는 것과 동일한 라이브러리 장난을 받는다. 즉, 이 4개의 비밀 장난은 기준과 구별할 수 없다.
†† 아르хів의 기준으로도, 이 논문은 반복과 과도한 세부 사항 및 시연으로 인해 관심을 끄는 리드를 묻는 경향이 있다. 따라서, 이 논문의 나머지 부분에 대한 두번째 실험은 원본 PDF에서 참조하도록 한다.
2026년 5월 15일 처음 게시됨. 2026년 5월 16일 16:05 EET에 구문 수정.












