Anderson의 관점

AI 모델의 검열이 제대로 작동하지 않는다, 연구 결과가 밝혀

Published August 22, 2025

Updated April 2, 2026

Martin Anderson

ChatGPT-4o, Krita (Flux/Flux Koncept Dev), Firefly.

AI 이미지 생성기를 검열하기 위해 금지된 콘텐츠(예: 포르노, 폭력, 저작권이 있는 스타일)를 학습된 모델에서 삭제하는 시도는 부족한 것으로 나타났다: 새로운 연구에 따르면 현재의 개념 삭제 방법은 ‘금지된’ 속성이 관련 없는 이미지로 유출되도록 허용하며, 또한 삭제된 콘텐츠의密接한 버전이 나타나지 않도록 방지하지 못한다.

만약 기초 AI 모델을 생산하는 회사들이 자신의 모델이 반대되는 또는 불법적인 자료를 생산하는 것을 막을 수 없다면, 그들은 기소되거나 폐쇄될 위험에 처할 수 있다. 반면에, 모델을 API를 통해만 제공하는 벤더들은(예: Adobe의 Firefly 생성 엔진) 자신의 모델이 무엇을 생성할지 걱정할 필요가 없다. 왜냐하면 사용자의 프롬프트와 결과 출력은 모두 검사되고 위생처리되기 때문이다:

Adobe의 Firefly 시스템, Photoshop와 같은 도구에서 사용되는 경우, 생성 요청을 즉시 거부하거나 생성된 이미지 후 검토 후 결과를 차단한다. 이와 같은 중간 처리 거부는 ChatGPT에서도 발생할 수 있다. 모델이 응답을 시작한 후 정책 위반을 인식하여 응답을 중단하는 경우이다.

그러나 이러한 API 스타일의 필터는 일반적으로 로컬에 설치된 모델에서 사용자에 의해 중화될 수 있다. 이는 비전-언어 모델(VLMs)에도 적용되며, 사용자가 로컬에서 사용자 정의 데이터로 모델을 커스터마이즈하고 싶을 수 있다.

대부분의 경우, 이러한 작업을 비활성화하는 것은 Python에서 함수 호출을 주석 처리하는 것과 같이 간단하다(그러나 이러한 종류의 해킹은 일반적으로 프레임워크 업데이트 후에 반복되거나 재창조되어야 한다).

사업 관점에서 볼 때, 이것이 문제가 되는 이유를 이해하기는 어렵다. 왜냐하면 API 접근 방식은 사용자의 워크플로우에 대한 기업의 통제를 최대화하기 때문이다. 그러나 사용자의 관점에서 볼 때, API 전용 모델의 비용과 잘못된 또는 과도한 검열의 위험은 사용자를 FOSS 라이선스가 유리한 경우에만 오픈 소스 대안의 로컬 설치를 다운로드하고 커스터마이즈하도록 강제할 수 있다.

마지막으로 자체 검열을 심어 넣으려고 하지 않은 주요 모델은 Stable Diffusion V1.5였으며, 거의 3년 전이었다. 이후에 모델의 학습 데이터가 CSAM 데이터를 포함하고 있다는 것이 밝혀지면서, 그 사용을 금지하려는 요구가 증가했으며, 2024년에 Hugging Face 저장소에서 제거되었다.

잘라 내라!

기회주의자들은 로컬에서 설치할 수 있는 생성적 AI 모델을 검열하려는 회사의 관심이 법적 노출에 대한 우려에 기반한다고 주장한다. 즉, 그들의 프레임워크가 불법 또는 반대되는 콘텐츠를 촉진하는 것으로 공개되면 기소되거나 폐쇄될 수 있다.

실제로 일부 ‘로컬 친화적’ 오픈 소스 모델은 검열을 해제하는 것이 어렵지 않다(예: Stable Diffusion 1.5 및 DeepSeek R1).

반면에, Black Forest Lab의 Flux Kontext 모델 시리즈의 최근 출시에서는 회사의 Kontext 전체를 검열하기 위한 노력이 두드러졌다. 이는 데이터를 신중하게 큐레이션하고, NSFW 또는 금지된 콘텐츠를 제거하기 위한 목적으로 모델을 미세 조정함으로써 달성되었다.

이것이 지난 2-3년 동안 연구 현장에서行動의 초점이 있었던 곳이다: 데이터가 충분히 큐레이션되지 않은 모델을事後에 수정하는 데 중점을 둔 곳이다. 이러한 종류의 제공에는 Unified Concept Editing in Diffusion Models(UCE); Reliable and Efficient Concept Erasure of Text-to-Image Diffusion Models(RECE); Mass Concept Erasure in Diffusion Models(MACE); 및 concept-Semi-Permeable structure is injected as a Membrane(SPM)가 포함된다:

2024년 논문 ‘Unified Concept Editing in Diffusion Models’은 텍스트-이미지 모델에서 다중 개념을 효율적으로 편집할 수 있는 닫힌 형식의 편집을 제공했다. 그러나 이 방법이 검증을 견딜 수 있는지 여부는 여전히 의문이다. 출처: https://arxiv.org/pdf/2308.14761

이 접근 방식은 효율적이지만, 필수적으로 효과적이지는 않다: 새로운 미국 연구에 따르면, 위에 언급된 모든 편집 절차(현재 AI 모델 수정의 상태에 대한 것)는 실제로 잘 작동하지 않는다.

연구자들은 이러한 Concept Erasure Techniques(CETs)이 일반적으로 쉽게 우회될 수 있으며, 효과적인 경우에도 상당한 부작용이 있음을 발견했다:

텍스트-이미지 모델에서 개념 삭제의 영향. 각 열에는 프롬프트와 삭제된 개념이 표시되며, 편집 전후의 생성된 출력도 표시된다. 계층 구조는 개념 사이의 부모-자식 관계를 나타낸다. 예제는 자식 개념을 삭제하지 못하는 것, 이웃 개념을 억제하는 것, 다시 단어로 우회하는 것, 삭제된 속성을 관련 없는 개체에 전달하는 것과 같은 일반적인 부작용을 강조한다. 출처: https://arxiv.org/pdf/2508.15124

연구자들은 주요 현재 개념 삭제 기술이 조합 프롬프트(예: 빨간 자동차 또는 작은 나무 의자)를 차단하지 못한다는 것을 발견했다; 종종 삭제된 부모 카테고리 후에 하위 클래스를 슬립스루하게 허용한다(예: 차 또는 버스가 차량을 삭제한 후에도 계속 나타남); 그리고 새로운 문제를 도입한다, 즉 속성 유출(예: 파란 소파를 삭제하면 모델이 관련 없는 개체인 파란 의자를 생성할 수 있다).

테스트 사례의 80% 이상에서, 광범위한 개념(예: 차량)을 삭제하면 모델이 여전히 더 구체적인 차량 인스턴스(예: 자동차 또는 버스)를 생성하는 것을 막지 못한다.

편집은 또한 주의 맵(이미지에서 어디에 집중할지 결정하는 모델의 부분)을 산란시키며, 출력 품질을 약화시킨다.

흥미롭게도, 연구에 따르면, 관련된 훈련된 개념을 하나씩 삭제하는 것이 모두 한꺼번에 삭제하는 것보다 더 잘 작동한다. 그러나 이 방법은 연구에서 조사한 편집 방법의 모든 단점을 제거하지는 않는다:

진행적이고 한꺼번에 삭제 전략의 비교. ‘테디 베어’의 모든 변형을 동시에 삭제하면 모델이 여전히 곰과 같은 개체를 생성한다. 그러나 변형을 단계적으로 삭제하면 모델이 대상 개념을 더 신뢰성 있게 억제한다.

연구자들은 현재 이 문제에 대한 해결책을 제시할 수 없지만, 후속 연구 프로젝트가 자신의 ‘검열된’ 모델이 예상대로 작동하는지 여부를 이해하는 데 도움이 될 수 있는 새로운 데이터셋과 벤치마크를 개발했다.

연구 논문은 다음과 같이 말한다:

‘이전 평가에서는 단지 대상 및 보존 클래스의 작은 집합에만 의존했다. 예를 들어, ‘차량’을 삭제할 때, 모델이 차량을 생성하는 능력만 테스트되었다. 우리는 이 접근 방식이 근본적으로 불充分하다는 것을 보여주며, 개념 삭제 평가에는 모든 관련 하위 개념(예: ‘빨간 차량’ 또는 ‘작은 차량’)을 포함하여 더 포괄적이어야 한다.’

‘우리는 다양한 변형과 체계적으로 분석된 효과(예: 이웃 개념에 대한 영향, 개념 우회, 속성 유출)를 포함하는 다이버스한 데이터셋을 도입함으로써 기존 CETs의 상당한 제한과 부작용을 발견했다. ‘

‘우리의 벤치마크는 모델-에이전시이며 쉽게 통합할 수 있으며, 새로운 Concept Erasure Techniques(CETs)의 개발을 지원하기에 이상적이다.’

CETs는 대상 개념 '새'를 삭제하지만, 조합 변형 '빨간 새'에 실패한다(위). '파란 소파'를 삭제한 후에도 모든 방법이 여전히 파란 의자를 생성하지 못한다(아래). 성공한 결과는 녹색 체크 표시로 표시되고, 실패는 빨간 십자 표시로 표시된다.

CETs는 대상 개념 ‘새’를 삭제하지만, 조합 변형 ‘빨간 새’에 실패한다(위). ‘파란 소파’를 삭제한 후에도 모든 방법이 여전히 파란 의자를 생성하지 못한다(아래). 성공한 결과는 녹색 체크 표시로 표시되고, 실패는 빨간 ‘X’ 표시로 표시된다.

연구는 모델의 잠재 공간에 훈련된 개념의 상호 연결 정도와, 개념 삭제가 쉽게 허용되지 않는 정도에 대한 흥미로운 통찰력을 제공한다.

연구 논문은 Diffusion Models에서 개념 삭제의 부작용으로 제목이 붙여졌으며, 메릴랜드 대학교의 4명의 연구자에 의해 수행되었다.

방법 및 데이터

저자들은 이전 연구가 개념을 삭제하는 것을 주장하지만, 주장을 충분히 입증하지 못한다고 주장한다:

‘삭제 주장에는 더 강력하고 포괄적인 평가가 필요하다. 예를 들어, 삭제할 개념이 ‘차량’인 경우, ‘차’ 또는 ‘빨간 차’와 같은 하위 개념 및 조합 개념도 삭제되어야 한다.’

‘그러나 기존 평가 프로토콜은 단지 삭제된 단일 개념의 정확성에만 초점을 맞추고 있으며, 개념의 계층 구조와 구성성은 고려하지 않는다. [EraseBench의 저자]는 CETs가 시각적으로 유사하고 다시 단어로 된 개념(예: ‘고양이’와 ‘고양이 새끼’)에 미치는 영향을 평가한다. 그러나 계층 구조와 구성성은 철저하게 조사하지 않는다.’

Чтобы 제공하기 위해, 저자들은 Concept Erasure가 잘 작동하는지 테스트하기 위한 대규모 텍스트 프롬프트 컬렉션인 Side Effect Evaluation(SEE) 데이터셋을 만들었다.

프롬프트는 단순한 템플릿을 따르며, 개체는 크기, 색상, 재질의 속성으로 설명된다(예: 작은 빨간 나무 차).

객체는 MS-COCO 데이터셋에서 가져왔으며, 차량과 같은 상위 카테고리와 차 또는 버스와 같은 하위 카테고리로 구성된 계층 구조로 조직되었다. 이러한 구조는 다양한 의미 수준에서 삭제를 테스트할 수 있도록 한다.

각 프롬프트는 예/아니요 질문(예: 이미지에 차가 있나요?)와 함께 제공되며, 이미지 분류 모델을 위한 클래스 레이블로도 사용된다:

SEE 데이터셋에서 크기, 색상, 재질 속성을 변경하여 생성된 프롬프트 조합.

각 개념 삭제 방법의 성능을 측정하기 위해, 저자들은 두 가지 점수화 방법을 고안했다: 대상 정확도, 삭제된 개념이 여전히 생성된 이미지에 나타나는 빈도를 추적하며; 보존 정확도, 모델이 삭제되지 않은 콘텐츠를 계속 생성하는지 여부를 추적한다.

두 점수의 균형은 방법이 삭제된 개념을 성공적으로 제거했는지 여부를 나타낼 것으로 의도된다.

저자들은 개념 삭제를 세 가지 실패 모드로 평가했다: 첫째, 삭제된 개념이 근처 또는 관련 없는 개념을 어떻게 방해하는지 측정하기 위한 것으로, 이는 의미적 유사성과 속성 기반 편집 거리를 사용하여 추정할 수 있다:

대상 정확도(왼쪽)와 보존 정확도(오른쪽)를 의미적 유사성(위)과 구성적 거리(아래)와 함께 플로팅한 결합된 결과. 이상적인 개념 삭제 방법은 모든 거리에서 낮은 대상 정확도와 높은 보존 정확도를 보여야 한다. 그러나 결과는 현재 기술이 깨끗하게 일반화하지 못하고, 더 가까운 개념이 불충분하게 삭제되거나 과도하게 방해받는다는 것을 보여준다.

이러한 결과에 대해 저자들은 다음과 같이 말한다:

‘모든 CETs는 대상 개념의 변형 또는 의미적으로 먼 변형을 계속 생성한다. 이는 이상적으로 발생해서는 안 된다. UCE는 [보존 집합]에서 일관되게 다른 CET 방법보다 더 높은 정확도를 달성하며, 의미적으로 관련된 개념에 대한 최소한의 의도하지 않은 영향을 나타낸다.’

‘반면에, SPM은 가장 낮은 정확도를 달성하며, 이는 그 편집 전략이 개념 유사성에 더 취약하다는 것을 시사한다.’

테스트된 네 가지 방법 중, RECE는 대상 개념을 차단하는 데 가장 효과적이었다. 그러나 위의 이미지의 왼쪽 부분에 표시된 대로, 모든 방법이 조합 변형을 차단하지 못했다. ‘새’를 삭제한 후에도 모델은 여전히 빨간 새를 생성했다. 이는 개념이 부분적으로 여전히 남아 있음을 시사한다.

‘파란 소파’를 삭제한 후에도 모델은 파란 의자를 생성하지 못했다. 이는 근처의 개념에 손상을 입혔다는 것을 나타낸다.

RECE는 조합 변형을 더 잘 처리했으며, UCE는 관련된 개념을 보존하는 데 더 잘 작동했다.

삭제 우회

삭제 우회 테스트는 모델이 상위 카테고리를 삭제한 후에도 하위 클래스 개념을 여전히 생성할 수 있는지 여부를 평가했다. 예를 들어, ‘차량’을 삭제한 후에도 모델이 ‘자전거’ 또는 ‘빨간 차’와 같은 출력을 생성하는지 테스트했다.

프롬프트는 직접 하위 클래스와 조합 변형 모두를 대상으로 하여, 개념 삭제 작업이 실제로 전체 계층 구조를 삭제했는지, 또는 더 구체적인 설명을 통해 우회할 수 있는지 여부를 결정했다:

Stable Diffusion v1.4에서 삭제된 상위 카테고리를 하위 클래스와 조합 변형을 통해 우회하는 것, 더 높은 정확도는 더 큰 우회를 나타낸다.

수정되지 않은 모델은 모든 상위 카테고리에서 높은 정확도를 유지했으며, 이는 모델이 대상 개념을 삭제하지 않았음을 확인했다. CETs 중에서 MACE는 가장 낮은 하위 클래스 정확도를 보여주었으며, 테스트된 카테고리 중 절반 이상에서 가장 낮은 정확도를 달성했다. RECE도 잘 작동했으며, 특히 ‘악세사리’, ‘스포츠’, ‘전자’ 그룹에서 잘 작동했다.

반면에, UCE와 SPM은 더 높은 하위 클래스 정확도를 보여주었으며, 이는 삭제된 개념이 관련된 또는 중첩된 프롬프트를 통해 더 쉽게 우회될 수 있음을 나타낸다.

저자들은 다음과 같이 말한다:

‘모든 CETs는 대상 상위 클래스 개념(‘음식’)을 성공적으로 억제한다. 그러나 속성 기반 하위 클래스(‘대형 피자’)를 프롬프트로 사용하면 모든 방법이 음식 항목을 생성한다.’

‘同様に, ‘차량’ 카테고리에서 모든 모델은 자전거를 생성한다. 이는 ‘차량’을 삭제했음에도 불구하고 발생한다.’