Anderson의 관점

AI 모델 검열은 효과적이지 않다는 연구 결과

Published August 22, 2025

Updated March 29, 2026

Martin Anderson

ChatGPT-4o, Krita (Flux/Flux Koncept Dev), Firefly.

금지된 콘텐츠(예: 포르노, 폭력, 저작권이 있는 스타일)를 학습된 모델에서 삭제하여 AI 이미지 생성기를 검열하려는 시도는 기대에 미치지 못하고 있습니다: 새로운 연구에 따르면, 현재의 개념 삭제 방법은 ‘금지된’ 속성이 관련 없는 이미지로 유출되는 것을 허용하며, ‘삭제된’ 것으로 추정되는 콘텐츠와 밀접하게 관련된 버전이 나타나는 것을 막지도 못합니다.

기초 AI 모델을 생산하는 기업들이 모델이 불쾌하거나 불법적인 자료를 생성하는 데 오용되는 것을 막지 못하면, 기소되거나 폐쇄될 위험에 처합니다. 반대로, Adobe의 Firefly 생성 엔진과 같이 API를 통해서만 모델을 제공하는 벤더들은 사용자의 프롬프트와 결과 출력물 모두가 검사 및 정제되기 때문에, 자신들의 모델이 무엇을 생성할지 걱정할 필요가 없는 위치에 있습니다:

Adobe의 Firefly 시스템은 Photoshop과 같은 도구에서 사용되며, 때로는 프롬프트를 차단하여 생성 요청을 즉시 거부합니다. 다른 경우에는 이미지를 생성한 후 검토를 통해 결과를 차단합니다. 이러한 종류의 과정 중 거부는 ChatGPT에서도 발생할 수 있으며, 모델이 응답을 시작했지만 정책 위반을 인식한 후 중단할 때입니다. 그리고 가끔은 이 과정에서 중단된 이미지를 잠시 볼 수 있습니다.

그러나 이러한 종류의 API 스타일 필터는 일반적으로 로컬에 설치된 모델에서 사용자에 의해 무력화될 수 있습니다. 여기에는 사용자가 맞춤 데이터에 대한 로컬 학습을 통해 사용자 정의하기를 원할 수 있는 시각-언어 모델(VLMs)도 포함됩니다.

대부분의 경우, 이러한 작업을 비활성화하는 것은 사소한 일로, Python에서 함수 호출을 주석 처리하는 것을 포함합니다(비록 이러한 종류의 해킹은 일반적으로 프레임워크 업데이트 후 반복되거나 재발명되어야 합니다).

비즈니스 관점에서, 이가 어떻게 문제가 될 수 있는지 이해하기 어렵습니다. 왜냐하면 API 접근 방식은 사용자의 워크플로우에 대한 기업의 통제를 극대화하기 때문입니다. 그러나 사용자 관점에서는, API 전용 모델의 비용과 잘못되거나 과도한 검열의 위험이 그들이 오픈 소스 대안을 다운로드하고 로컬 설치를 사용자 정의하도록 강요할 가능성이 높습니다. 적어도 FOSS 라이선스가 유리한 경우에는 말입니다.

자기 검열을 내재화하려는 시도 없이 출시된 마지막 중요한 모델은 거의 3년 전의 Stable Diffusion V1.5였습니다. 나중에, 그 학습 코퍼스가 CSAM 데이터를 포함했다는 사실이 밝혀지면서 그 가용성을 금지하라는 요구가 커졌고, 2024년에 Hugging Face 저장소에서 제거되었습니다.

잘라내라!

회의론자들은 로컬 설치 가능한 생성 AI 모델을 검열하려는 기업의 관심이 순전히 법적 책임에 대한 우려에 기반한다고 주장합니다. 만약 그들의 프레임워크가 불법적이거나 불쾌한 콘텐츠 생성을 용이하게 하는 것으로 알려진다면 말이죠.

실제로, 일부 ‘로컬 친화적인’ 오픈 소스 모델은 검열을 해제하기가 그리 어렵지 않습니다(예: Stable Diffusion 1.5 및 DeepSeek R1).

반대로, Black Forest Lab의 Flux Kontext 모델 시리즈의 최근 출시는 회사의 전체 Kontext 라인을 검열하겠다는 주목할 만한 약속으로 특징지어졌습니다. 이는 신중한 데이터 큐레이션과 학습 후 목표적인 미세 조정을 통해 이루어졌으며, NSFW 또는 금지된 콘텐츠에 대한 잔여적 경향을 제거하도록 설계되었습니다.

지난 2-3년간 연구 현장에서 행동의 초점이 있었던 곳은 바로 여기입니다: 충분히 큐레이션되지 않은 데이터로 모델을 사후 수정하는 데 중점을 두었습니다. 이러한 종류의 제안에는 Unified Concept Editing in Diffusion Models (UCE); Reliable and Efficient Concept Erasure of Text-to-Image Diffusion Models (RECE); Mass Concept Erasure in Diffusion Models (MACE); 그리고 concept-Semi-Permeable structure is injected as a Membrane (SPM)이 포함됩니다:

2024년 논문 ‘Unified Concept Editing in Diffusion Models’는 어텐션 가중치에 대한 폐쇄형 편집을 제공하여 텍스트-이미지 모델에서 여러 개념을 효율적으로 편집할 수 있게 했습니다. 그러나 이 방법은 면밀한 검토를 견딜 수 있을까요? 출처: https://arxiv.org/pdf/2308.14761

이것은 효율적인 접근 방식이지만(LAION과 같은 초대규모 컬렉션은 수동으로 큐레이션하기에는 너무 큽니다), 반드시 효과적인 것은 아닙니다: 새로운 미국 연구에 따르면, 앞서 언급한 편집 절차들 중 어느 것도 – 이는 학습 후 AI 모델 수정 분야의 최첨단을 대표합니다 – 실제로는 그다지 잘 작동하지 않습니다.

저자들은 이러한 개념 삭제 기술(CETs)이 일반적으로 쉽게 우회될 수 있으며, 효과가 있는 경우에도 상당한 부작용이 있다는 것을 발견했습니다:

텍스트-이미지 모델에 대한 개념 삭제의 효과. 각 열은 삭제 대상으로 표시된 프롬프트와 개념, 그리고 편집 전후의 생성된 출력물을 보여줍니다. 계층 구조는 개념 간의 상위-하위 관계를 나타냅니다. 예시들은 하위 개념 삭제 실패, 인접 개념 억제, 재구성을 통한 회피, 삭제된 속성이 관련 없는 객체로 전이되는 등의 일반적인 부작용을 강조합니다. 출처: https://arxiv.org/pdf/2508.15124

저자들은 현재 주류 개념 삭제 기술들이 구성적 프롬프트(예: 빨간 자동차 또는 작은 나무 의자)를 차단하지 못하며, 상위 범주를 삭제한 후에도 종종 하위 클래스가 빠져나가게 하고(예: 차량을 제거한 후에도 자동차나 버스가 계속 나타남), 속성 유출(예: 파란색 소파를 삭제하면 모델이 파란색 의자와 같은 관련 없는 객체를 생성하게 될 수 있음)과 같은 새로운 문제를 도입한다는 것을 발견했습니다.

테스트 케이스의 80% 이상에서, 차량과 같은 광범위한 개념을 삭제해도 모델이 자동차나 버스와 같은 더 구체적인 차량 인스턴스를 생성하는 것을 막지 못했습니다.

논문은 지적하기를, 편집은 또한 어텐션 맵(이미지에서 어디에 초점을 맞출지 결정하는 모델의 부분)이 흩어지게 하여 출력 품질을 약화시킨다고 합니다.

흥미롭게도, 논문은 관련된 학습된 개념들을 한 번에 모두 제거하려고 시도하는 것보다 하나씩 순차적으로 삭제하는 것이 더 효과적이라는 것을 발견했습니다. 비록 연구된 편집 방법들의 모든 단점을 제거하는 것은 아니지만 말입니다:

점진적 삭제 전략과 한꺼번에 삭제 전략의 비교. ‘테디 베어’의 모든 변형을 동시에 삭제하면 모델은 계속해서 곰 같은 객체를 생성합니다. 변형들을 단계별로 삭제하는 것이 더 효과적이며, 모델이 대상 개념을 더 확실하게 억제하도록 이끕니다.

연구자들은 현재 논문에서 설명한 문제들에 대한 해결책을 제시할 수는 없지만, 향후 연구 프로젝트들이 자신들의 ‘검열된’ 모델이 예상대로 작동하는지 이해하는 데 도움이 될 수 있는 새로운 데이터셋과 벤치마크를 개발했습니다.

논문은 다음과 같이 말합니다:

‘이전 평가들은 소수의 대상 및 보존 클래스 집합에만 의존해 왔습니다. 예를 들어, ‘자동차’를 삭제할 때 모델의 자동차 생성 능력만 테스트했습니다. 우리는 이 접근 방식이 근본적으로 부적절하며, 개념 삭제 평가는 ‘빨간 자동차’와 같은 모든 관련 하위 개념을 포함하도록 더 포괄적이어야 함을 입증합니다.

‘구성적 변형이 다양한 데이터셋을 도입하고 인접 개념에 대한 영향, 개념 회피, 속성 유출과 같은 효과를 체계적으로 분석함으로써, 우리는 기존 CET들의 중대한 한계와 부작용을 발견했습니다.

‘우리의 벤치마크는 모델에 구애받지 않으며 쉽게 통합될 수 있고, 새로운 개념 삭제 기술(CETs)의 개발을 지원하는 데 이상적으로 적합합니다.’

CET들이 대상 개념 ‘새’를 삭제하지만, 구성적 변형인 ‘빨간 새’에서는 실패합니다(상단). ‘파란색 소파’를 삭제한 후, 모든 방법들은 파란색 의자를 생성하는 능력도 잃습니다(하단). 성공적인 결과는 녹색 체크 표시로, 실패는 빨간색 ‘X’ 표시로 표시됩니다.

이 연구는 모델의 잠재 공간에 학습된 개념들이 얼마나 얽혀 있는지, 그리고 엔탱글먼트가 어떤 종류의 결정적이고 진정으로 개별적인 개념 삭제를 쉽게 허용하지 않을 것인지에 대한 흥미로운 통찰을 제공합니다.

새 논문은 Side Effects of Erasing Concepts from Diffusion Models이라는 제목이며, 메릴랜드 대학교의 네 명의 연구자들로부터 나왔습니다.

방법 및 데이터

저자들은 확산 모델에서 개념을 삭제한다고 주장하는 이전 연구들이 그 주장을

Martin Anderson

Writer on machine learning, domain specialist in human image synthesis. Former head of research content at Metaphysic.ai.
Personal site: martinanderson.ai
Contact: [email protected]
Twitter: @manders_ai

Unite.AI

AI 모델 검열은 효과적이지 않다는 연구 결과

잘라내라!

방법 및 데이터

You may like