Anderson의 관점

AI 모델 도난을 비밀 추적 데이터로 식별하기

Published October 27, 2025

Updated March 28, 2026

Martin Anderson

George Washington winking and smiling on the one dollar bill. Source: https://en.wikipedia.org/wiki/Marked_bill + Flux Edit and Adobe Firefly V3

새로운 방법으로 재학습 없이 수 초 만에 ChatGPT와 유사한 모델에 비밀 워터마크를 삽입할 수 있으며, 일반 출력에는 흔적을 남기지 않으며 모든 실행 가능한 제거 시도를 견뎌냅니다.

워터마킹과 ‘저작권 유인’의 미묘한 차이는 워터마크(명시적이든 숨겨진 것이든)는 일반적으로 복사 방지를 위한 보편적 장애물로서 컬렉션(예: 이미지 데이터셋) 전체에 나타나도록 의도된다는 점입니다.

반면, 가공된 항목은 도난을 증명하기 위해 설계된, 비교적 일반적인 대규모 컬렉션에 포함된 단어나 정의와 같은 작은 텍스트 조각입니다. 아이디어는 작품 전체가 불법적으로 복사되거나(그 자체로 또는 2차 저작물의 기반으로) 원래 소유자가 심어놓은 ‘고유한’ 허위 사실이 존재할 때, 도난 행위를 쉽게 드러낸다는 것입니다.

대규모 언어 모델(LLM) 및 비전 언어 모델(VLM)에 워터마크를 추가하는 측면에서, 출력물이 이러한 증거를 포함하도록 의도된 정도는 종종 다음 두 가지 목표 사이에서 나뉩니다: 모든 또는 대부분의 출력물이 명시적 또는 잠재적 워터마크를 포함하도록 보장하는 것; 또는 도난을 증명할 수 있지만 모델의 일반 출력에는 나타나지 않는 ‘비밀 토큰’을 복구할 수 있도록 보장하는 것.

증거의 무게

후자의 접근 방식은 중국, 이탈리아, 싱가포르 간의 흥미로운 새로운 협력에서 다루어졌습니다. 이 연구는 오픈 소스 모델에 그러한 공개 방법을 제공하여, 원래 라이선스가 허용하지 않는 방식으로 쉽게 상업화되거나 사용되는 것을 방지하는 것을 목표로 합니다.

예를 들어, 모델의 원래 라이선스는 누구나 동일한 관대한 라이선스 조건 하에 자신의 수정 사항을 공개적으로 이용 가능하게 한다면 그 작품으로부터 이익을 얻을 수 있다고 주장할 수 있습니다. 그러나 기업은 자신들의 ‘조정'(예: 미세 조정 버전)을 독점하여 실제로 허용되지 않는 방어선을 구축하고 싶어 할 수 있습니다.

이 분야의 대부분의 연구는 폐쇄형, API 전용 모델 또는 최적화된(양자화된) 가중치만 이용 가능한 모델과 관련된 탐지 루틴에 집중되어 있습니다. 이러한 모델들은 새로운 논문이 제안하는 방식으로 효율적으로 편집하고 변경하기가 더 어렵습니다(모델 자체의 아키텍처에 직접 접근할 수 없기 때문).

FOSS(자유 오픈 소스 소프트웨어) 릴리스에 대한 이러한 관심은 아마도 중국 연구 부문에서는 놀랍지 않을 것입니다. 지난해 중국의 AI 산출물은 더 ‘잠긴’ 서구의 동등 제품에 필적하는 모델들을 관대하게 완전 가중치*로 공개하는 특징을 보였기 때문입니다.

EditMark이라는 새로운 접근 방식은 모델이 ‘오염된’ 데이터를 추가하기 위해 미세 조정될 필요도 없고, 처음부터 해당 데이터가 포함된 상태로 훈련될 필요도 없다는 점에서 차별화됩니다.

이는 몇 가지 이점이 있습니다: 하나는 훈련 데이터셋에 포함된 어떤 ‘증거’ 데이터도 일단 발견되고 공개되면 공격자가 직접 타겟팅할 수 있기 때문에 더 이상 효과적이지 않다는 것입니다. 그러나 EditMark을 공격하려면 악의적인 행위자가 모델의 어떤 레이어를 대상으로 해야 하는지, 그리고 어떤 접근 방식이 취해졌는지를 알아야 합니다. 이는 가능성이 낮은 시나리오입니다.

둘째, 이 접근 방식은 빠르고 저렴하며, 훈련된 모델에 적용하는 데 몇 초(며칠이나 몇 주가 아니라)밖에 걸리지 않아, 미세 조정의 심각한 비용(모델 크기와 적용할 데이터에 따라 선형적으로 증가)을 없앱니다.

마지막으로, 이 접근 방식은 대상 모델의 정상 작동에 미치는 손상이 미세 조정이나 기존 편집 방법보다 훨씬 적습니다.

테스트에서, 여러 가능한 답변이 있는 수학적 질문을 모델 가중치에 삽입하는 EditMark는 100%의 추출률을 달성했습니다.

저자들은 다음과 같이 말합니다:

‘포괄적인 실험은 EditMark가 LLM에 워터마킹을 적용하는 데 있어 탁월한 성능을 보여줍니다. EditMark는 20초 미만으로 32비트 워터마크를 삽입하면서 100%의 워터마크 추출 성공률(ESR)을 달성하여 놀라운 효율성을 보여줍니다.

‘특히, 워터마크 삽입 시간은 미세 조정(평균 6,875초)의 1/300 미만으로, EditMark가 전례 없는 속도와 신뢰성으로 고용량 워터마크를 구현하는 데 효과적임을 강조합니다.

‘또한, 광범위한 실험을 통해 EditMark의 견고성, 은밀성 및 충실도가 검증되었습니다.’

새 논문은 EditMark: Watermarking Large Language Models based on Model Editing이라는 제목이며, 중국과학기술대학, 시에나 대학교, 싱가포르의 CFAR/IHPC/A*STAR 소속 8명의 저자로부터 나왔습니다.

방법

EditMark 접근 방식은 생성기(Generator), 인코더(Encoder), 편집기(Editor), 디코더(Decoder)의 네 가지 구성 요소로 이루어집니다:

EditMark 파이프라인은 모델을 편집하여 숨겨진 식별 정보를 인코딩하는 방식으로 특정 수학 질문에 답하도록 하여 워터마크를 삽입합니다. 출처: https://arxiv.org/pdf/2510.16367

생성기는 의사 난수 시드(seed)를 사용하여 여러 답변이 있는 수학 질문을 구성합니다. 인코더는 워터마크를 기반으로 답변을 선택한 후, 특수 편집 과정을 통해 모델에 삽입합니다. 편집된 모델이 공개되거나 오용되면, 동일한 질문을 하고 응답 패턴을 해독하여 워터마크를 추출할 수 있습니다.

이후 편집기는 모델 가중치를 수정하여, 시드가 적용된 이러한 질문을 받았을 때 모델이 목표 답변을 신뢰성 있게 생성하도록 하여 워터마크를 그 동작에 직접 삽입합니다. 디코더는 동일한 질문을 의심스러운 모델에 입력하고 그 답변을 다시 숨겨진 서명으로 변환하여 워터마크를 복구합니다.

위협 모델

논문의 위협 모델은 워터마킹이 화이트박스 설정에서 이루어진다고 가정합니다. 보안 관련 연구에서 이것이 일반적으로 좋은 신호는 아니지만, 여기서는 이 방법이 자신의 작업에 대한 완전한 접근 권한을 가진 소유자를 보호하는 것을 목표로 하므로 정상적인 것입니다.

공격자도 모델을 획득한 후 화이트박스 접근 권한을 가진다고 가정하며, 이는 그들이 모델을 수정(예: 가지치기 또는 미세 조정)할 수 있음을 의미합니다. 다시 말하지만, 이 시나리오는 FOSS 릴리스의 경우 정상적이고 예상된 것입니다. 그러나 공격자는 워터마크 추출 과정이나 사용된 스키마를 알지 못하며, 추론과 실험(또는 유출)을 통해서만 이 방법을 찾을 수 있습니다.

생성기는 논리적이고 사실적으로 유효한 여러 답변이 있는 수학 질문을 구성하며, GPT‑4o를 사용하여 템플릿을 다양화하고(아래 그림 참조), 의사 난수 시드를 사용하여 각 질문이 고유하도록 보장합니다. 이를 통해 알려진 워터마크가 답변 순열을 통해 결정론적으로 삽입될 수 있으면서도, 질문 간 중복을 최소화하여 편집 얽힘을 피할 수 있습니다:

워터마크 삽입을 위해 GPT‑4o로 생성된 MA 질문 템플릿들로, 각각 시드가 적용된 부등식에서 여러 유효한 정수 답을 산출하도록 구조화되었습니다.

워터마크 삽입을 위해 GPT‑4o로 생성된 질문 템플릿들로, 각각 시드가 적용된 부등식에서 여러 유효한 정수 답을 산출하도록 구조화되었습니다.

인코더는 각 이진 워터마크 세그먼트를 주어진 수학 질문의 해 집합에서 추출된 정수의 고유한 순열로 변환합니다. 사전식 순열 이론을 사용하여, 인코더는 각 워터마크 청크의 십진수 값을 답변의 특정 순서 선택에 매핑하여 워터마크가 모델의 동작에 결정론적으로 삽입되도록 보장합니다.

편집기에 관해, 워터마킹에 사용된 원래 AlphaEdit 모델 편집 방법은 정밀성과 복원력 모두 부족하며, 조정된 모델은 종종 필요한 답변을 반환하지 못합니다. 그것이 실제로 만드는 변경 사항은 가지치기나 노이즈에 의해 쉽게 깨집니다.

이를 극복하기 위해 저자들은 단일 MLP 레이어에서 모델 가중치를 점진적으로 조정하여 그 응답이 원하는 답변과 충분히 일치할 때까지 조정하는 다중 라운드 편집 전략을 고안했습니다. 변조에 대한 편집을 강화하기 위해, 훈련 중에 가우시안 노이즈도 주입하여 공격을 시뮬레이션했습니다:

Baichuan-7B, Qwen-7B 및 LLaMA3-8B에 대한 공격 전후 K1 변화 분포. 상단 행은 무작위 노이즈 주입의 효과를 보여주며, 하단 행은 모델 가지치기의 효과를 보여줍니다. 모든 변화가 0에 가까이 유지되어 공격이 모델의 내부 동작을 크게 방해하지 않음을 시사합니다.

점수 시스템은 편집이 충분히 정확해지면 프로세스를 중단하고, 정규화는 여러 라운드에 걸쳐 업데이트가 안정적으로 유지되도록 보장합니다.

디코더는 워터마킹 중 사용된 동일한 특수 질문을 모델에 묻고, 그 답변을 읽어 숨겨진 ID를 추론합니다. 답변 패턴이 비밀 규칙을 따르기 때문에, 모델의 내부를 검사할 필요 없이 이 ID를 복구할 수 있습니다.

데이터 및 테스트

EditMark을 테스트하기 위해 다섯 가지 LLM을 평가했습니다: GPT2-X; GPT-J-6B; LLaMA-3-8B; Baichuan-7B; 그리고 Qwen-7B. 앞서 언급한 AlphaEdit을 사용하여 워터마크를 삽입했으며, 추출 성공률(ESR)과 삽입 시간(ET)이 채택된 지표였습니다.

기준선으로 저자들은 Model Watermark (백도어); <

Unite.AI

AI 모델 도난을 비밀 추적 데이터로 식별하기

증거의 무게

방법

위협 모델

데이터 및 테스트

You may like