Anderson์˜ ๊ด€์ 

NSFW ๋ฐ ‘์…€๋Ÿฌ๋ธŒ๋ฆฌํ‹ฐ’ ํฌ์ฆˆ๊ฐ€ AI ๊ฒ€์—ด์˜ ๋Œ€์ƒ์ด ๋˜๋‹ค

mm
An artist's wooden mannequin getting arrested โ€“ Flux 1D.

새로운 AI 안전장치가 제너레이티브 비디오 시스템에 대한 검열을 제안한다. 성적으로 암시적인 신체 姿勢(또는 얼굴 표현) 또는 저작권이 있는 유명인이나 상표로 보호되는 포즈 등은 모두 대상이다.

 

중국과 싱가포르의 새로운 연구는 ‘안전하지 않은’ 이미지 및 비디오 생성의 덜 명백한 영역 중 하나를 해결한다. 즉, AI 생성 출력에서 묘사된 사람의 신체 또는 얼굴 姿勢를 의미하는 포즈 자체의 묘사이다.

์ œ์•ˆ๋œ ์‹œ์Šคํ…œ์˜ ๊ฐœ๋…์  ์Šคํ‚ค๋งˆ

제안된 시스템의 개념적 스키마 Source: https://arxiv.org/pdf/2508.02476

이 시스템은 PoseGuard라고 불리며, 미세 조정과 LoRAs를 사용하여 안전하지 않은 포즈를 생성할 수 없는 모델을 생성한다. 이 접근 방식은 FOSS 모델에 내장된 안전장치가 일반적으로 쉽게 극복될 수 있기 때문에 채택되었다. 또한 이 새로운 ‘필터’는 특히 로컬 설치를 대상으로 한다.

이 ‘모델 내’ 전략은 외부 필터가 필요 없으며 적대적이거나 오픈 소스 환경에서도 효과적이다.

방법

PoseGuard는 백도어 공격의 논리를 재사용하여 모델에 직접 방어 메커니즘을 구축한다. 일반적인 백도어 공격에서 특정 입력이 악의적인 출력을 트리거하며, PoseGuard는 이 설정을 반전시킨다. 즉, 안전하지 않은 것으로 간주되는 특정 포즈는 중립적인 대상 이미지에 연결된다.

정상적인 입력에 대한 출력의 충실도를 유지하면서 안전하지 않은 입력에 대한 출력 품질을 저하시키는 모델을 학습시키기 위해 모델을 미세 조정한다.

PoseGuard๊ฐ€ ์ฐธ์กฐ ์ด๋ฏธ์ง€์™€ ํฌ์ฆˆ ์‹œํ€€์Šค๋ฅผ ์ฒ˜๋ฆฌํ•˜๋Š” ๋ฐฉ๋ฒ•

PoseGuard가 참조 이미지와 포즈 시퀀스를 처리하는 방법

데이터 및 테스트

저자들은 UBC-Fashion 데이터셋을 사용하여 양호한 기준 포즈를 얻었다.

UBC-Fashion ๋ฐ์ดํ„ฐ์…‹์˜ ์˜ˆ์‹œ

UBC-Fashion 데이터셋의 예시 Source: https://www.cs.ubc.ca/~lsigal/Publications/bmvc2019zablotskaia.pdf

안전하지 않은 포즈는 오픈 소스 플랫폼인 CivitAI에서 가져왔다. 포즈는 DWPose 프레임워크를 사용하여 추출되었으며, 768x768px 포즈 이미지를 생성했다.

์•ˆ์ „ํ•˜์ง€ ์•Š์€ ํฌ์ฆˆ์˜ ์˜ˆ์‹œ

안전하지 않은 포즈의 예시

저자들은 AnimateAnyone 모델을 사용하여 포즈 가이드 생성 모델을 미세 조정했다.

테스트에는 여섯 가지 지표가 사용되었다. 즉, Fréchet Video Distance (FVD), FID-VID, Structural Similarity Index (SSIM), Peak Signal-to-Noise Ratio (PSNR), Learned Perceptual Similarity Metrics (LPIPS), Fréchet Inception Distance (FID)이다.

테스트는 NVIDIA A6000 GPU에서 수행되었으며, 배치 크기는 4, 학습률은 1×10^-5이었다.

테스트에는 세 가지 주요 카테고리가 포함되었다. 즉, 효과성, 강건성, 일반화이다.

첫 번째 카테고리인 효과성에서 저자들은 두 가지 미세 조정 전략을 비교했다. 즉, 전체 미세 조정과 LoRA 모듈을 사용한 매개변수 효율적인 미세 조정이다.

두 접근 방식 모두 안전하지 않은 포즈의 출력을 저하시키면서 양호한 포즈의 출력 품질을 유지했다.

PoseGuard์˜ ์„ฑ๋Šฅ

PoseGuard의 성능

질적 결과는 모델이 안전하지 않은 포즈를 높은 충실도로 재현하는 것을 보여주었다. 그러나 PoseGuard를 활성화하면 이러한 포즈가 저품질 또는 빈 출력을 트리거했다.

PoseGuard์˜ ๋ฐ˜์‘

PoseGuard의 반응

마지막으로, 저자들은 PoseGuard의 일반화를 테스트했다. 즉, 새로운 데이터와 다양한 환경에서 효과적으로 작동하는能力이다.

PoseGuard는 참조 이미지 가이드 생성에서 강한 출력 억제를 보여주었다.

PoseGuard์˜ ์„ฑ๋Šฅ ๋น„๊ต

PoseGuard의 성능 비교

결론

PoseGuard는 안전하지 않은 포즈를 검출하여 출력을 저하시키는 시스템이다. 그러나 이 시스템은 다소 무딘 도구로 보일 수 있다. 특히 얼굴 표현의 경우, 의도하는 바가 모호하고细微한 경우가 많다.

따라서 PoseGuard는 로컬 모델의 효과성을 억제하려는 시도처럼 보일 수 있다. 이는 로컬 모델이 사용자가 원하는 것을 생성할 수 있지만, API 모델은 필터와 안전장치의 가untlet을 통과해야만 더 나은 출력을 제공할 수 있다는 미래를 향한 지시처럼 보인다.

PoseGuard와 같은 시스템은 미세 조정이 기본 모델의 출력 품질에 영향을 미치지만, 이 점은 논문에서 간과되었다. 이러한 시스템은 API 시스템을 대상으로 하지 않으며, 온라인에서만 작동하는 모델은 여전히 제한되지 않은 학습 데이터를 사용할 수 있다.

첫 번째로 게시된 날: 2025년 8월 6일 수요일

๊ธฐ๊ณ„ ํ•™์Šต ์ž‘๊ฐ€, ์ธ๊ฐ„ ์ด๋ฏธ์ง€ ํ•ฉ์„ฑ ๋„๋ฉ”์ธ ์ „๋ฌธ๊ฐ€. Metaphysic.ai์˜ ์—ฐ๊ตฌ ์ฝ˜ํ…์ธ  ์ฑ…์ž„์ž ์ถœ์‹ .
๊ฐœ์ธ ์‚ฌ์ดํŠธ: martinanderson.ai
์—ฐ๋ฝ์ฒ˜: [email protected]
ํŠธ์œ„ํ„ฐ: @manders_ai