인공지능
미세 조정된 Stable Diffusion 모델에서 학습 데이터 추출하기

미국의 새로운 연구는 미세 조정된 모델에서 상당 부분의 학습 데이터를 추출하는 방법을 제시합니다.
이는 예술가의 스타일이 복제된 경우나, 저작권이 있는 이미지가 공인물, 지식재산권으로 보호되는 캐릭터 또는 기타 콘텐츠를 위한 생성형 모델을 훈련시키는 데 사용된 경우 법적 증거를 제공할 수 있습니다.

새 논문에서: 원본 학습 이미지는 위쪽 행에, 추출된 이미지는 아래쪽 행에 묘사되어 있습니다. 출처: https://arxiv.org/pdf/2410.03039
이러한 모델은 주로 civit.ai의 방대한 사용자 기여 아카이브를 통해, 그리고 그보다는 적지만 Hugging Face 저장소 플랫폼을 통해 인터넷에서 널리 자유롭게 이용 가능합니다.
연구진이 개발한 새로운 모델은 FineXtract라고 불리며, 저자들은 이 모델이 해당 작업에서 최첨단 결과를 달성한다고 주장합니다.
논문은 다음과 같이 언급합니다.
‘[우리의 프레임워크는] 공개적으로 이용 가능한 DM 미세 조정 체크포인트에서 미세 조정 데이터를 추출하는 과제에 효과적으로 대응합니다. 사전 학습된 DM 분포에서 미세 조정 데이터 분포로의 전환을 활용함으로써, FineXtract는 생성 과정을 미세 조정된 데이터 분포의 높은 확률 영역으로 정확하게 유도하여 데이터 추출을 성공적으로 가능하게 합니다.’

가장 오른쪽, 학습에 사용된 원본 이미지. 오른쪽에서 두 번째, FineXtract를 통해 추출된 이미지. 다른 열들은 대안적인 기존 방법들을 나타냅니다. 더 나은 해상도를 위해 원본 논문을 참조하십시오.
중요성
Stable Diffusion 및 Flux와 같은 텍스트-이미지 생성 시스템의 원본 훈련된 모델은 최종 사용자가 다운로드하고 2022년 DreamBooth 구현과 같은 기술을 사용하여 미세 조정할 수 있습니다.
더욱 쉽게, 사용자는 완전히 미세 조정된 모델만큼 거의 효과적인 훨씬 더 작은 LoRA 모델을 생성할 수 있습니다.

매우 인기 있는 civitai 도메인에서 무료 다운로드로 제공되는 훈련된 LORA의 예시. 이러한 모델은 로컬에 설치된 오픈 소스 소프트웨어를 사용하는 애호가들에 의해, 그리고 더 허용적인 API 기반 훈련 시스템을 통해 온라인에서 수분에서 몇 시간 내에 생성될 수 있습니다. 출처: civitai.com
2022년 이후로, 소량(평균 5-50장)의 캡션이 달린 이미지만 제공하고 Kohya ss와 같은 오픈 소스 프레임워크에서 로컬로, 또는 온라인 서비스를 사용하여 체크포인트(또는 LoRA)를 훈련시킴으로써 정체성 특화 미세 조정 체크포인트와 LoRA를 생성하는 것은 사소한 일이 되었습니다.
이 쉬운 딥페이크 생성 방법은 지난 몇 년 동안 미디어에서 악명을 얻었습니다. 많은 예술가들 또한 자신의 작품이 그들의 스타일을 복제하는 생성형 모델에 흡수되었습니다. 이러한 문제들에 대한 논란은 지난 18개월 동안 가속도를 얻었습니다.

사용자가 실제 예술가의 작품을 복제하는 AI 시스템을 얼마나 쉽게 생성할 수 있는지는 지난 2년 동안 격분과 다양한 캠페인을 불러일으켰습니다. 출처: https://www.technologyreview.com/2022/09/16/1059598/this-artist-is-dominating-ai-generated-art-and-hes-not-happy-about-it/
미세 조정된 체크포인트나 LoRA에 어떤 이미지가 사용되었는지 증명하는 것은 어렵습니다. 왜냐하면 일반화 과정이 작은 훈련 데이터셋에서 정체성을 ‘추상화’하며, (과적합의 경우를 제외하고는, 이 경우 훈련이 실패했다고 볼 수 있음) 훈련 데이터의 예시를 재생산할 가능성이 높지 않기 때문입니다.
이것이 바로 FineXtract가 등장하는 지점입니다. 사용자가 다운로드한 ‘템플릿’ 확산 모델의 상태와 그들이 이후 미세 조정이나 LoRA를 통해 생성한 모델의 상태를 비교함으로써, 연구진은 훈련 데이터의 매우 정확한 재구성을 가능하게 했습니다.
FineXtract가 미세 조정* 데이터의 20%만 재생성할 수 있었지만, 이는 사용자가 생성형 모델 제작에 저작권이 있거나 다른 방식으로 보호되거나 금지된 자료를 사용했다는 증거를 제공하는 데 일반적으로 필요한 양보다 많습니다. 제공된 예시 대부분에서 추출된 이미지는 알려진 소스 자료와 극도로 유사합니다.
소스 이미지를 추출하려면 캡션이 필요하지만, 이는 두 가지 이유로 큰 장벽이 아닙니다: a) 업로더는 일반적으로 커뮤니티 내에서 모델 사용을 용이하게 하려고 하며 적절한 프롬프트 예시를 제공하는 경우가 많습니다; 그리고 b) 연구진이 발견한 바에 따르면, 미세 조정된 모델에서 맹목적으로 핵심 용어를 추출하는 것이 그렇게 어렵지 않습니다:

필수 키워드는 일반적으로 무작위 프롬프트에서 1000회 반복에 걸친 L2-PGD 공격을 사용하여 미세 조정된 모델에서 맹목적으로 추출될 수 있습니다.
사용자들은 종종 자신의 훈련 데이터셋을 ‘블랙박스’ 스타일의 훈련된 모델과 함께 제공하는 것을 피합니다. 연구를 위해, 저자들은 실제로 데이터셋을 제공한 머신러닝 애호가들과 협력했습니다.
새 논문은 Revealing the Unseen: Guiding Personalized Diffusion Models to Expose Training Data라는 제목이며, 카네기 멜론 대학교와 퍼듀 대학교의 세 명의 연구자로부터 나왔습니다.
방법
‘공격자'(이 경우 FineXtract 시스템)는 원본 모델과 미세 조정 모델 간의 추정 데이터 분포를 비교하며, 저자들이 ‘모델 가이던스’라고 부르는 과정을 거칩니다.

새 논문의 연구진이 개발한 ‘모델 가이던스’를 통해 미세 조정 특성을 매핑하여 훈련 데이터 추출이 가능합니다.
저자들은 설명합니다:
‘미세 조정 과정 동안, [확산 모델]은 학습된 분포를 사전 학습된 DM의 [분포]에서 미세 조정 데이터 [분포]로 점진적으로 이동시킵니다.
‘따라서, 우리는 미세 조정된 [확산 모델]의 학습된 분포를 매개변수적으로 근사합니다.’
이런 방식으로, 코어 모델과 미세 조정 모델 간의 차이의 합이 가이던스 과정을 제공합니다.
저자들은 추가로 언급합니다:
‘모델 가이던스를 통해, 우리는 미세 조정된 데이터 분포 내의 높은 확률 영역으로 샘플링 과정을 조종하는 데 사용될 수 있는 “가상의”[노이즈 제거기]를 효과적으로 시뮬레이션할 수 있습니다.’
가이던스는 부분적으로 2023년 논문 Erasing Concepts from Diffusion Models과 유사한 시간에 따라 변하는 노이즈 추가 과정에 의존합니다.
얻은 노이즈 제거 예측은 또한 가능한 Classifier-Free Guidance (CFG) 스케일을 제공합니다. 이것은 중요합니다. 왜냐하면 CFG는 그림 품질과 사용자의 텍스트 프롬프트에 대한 충실도에 상당한 영향을 미치기 때문입니다.
추출된 이미지의 정확도를 향상시키기 위해, FineXtract는 칭송받는 2023년 공동 연구 Extracting Training Data from Diffusion Models을 활용합니다. 사용된 방법은 Self-Supervised Descriptor (SSCD) 점수에 의해 정의된 임계값을 기반으로 생성된 각 이미지 쌍의 유사성을 계산하는 것입니다.
이런 방식으로, 클러스터링 알고리즘은 FineXtract가 훈련 데이터와 일치하는 추출된 이미지들의 하위 집합을 식별하는 데 도움을 줍니다.
이 경우, 연구진은 데이터를 제공한 사용자들과 협력했습니다. 그러한 데이터가 없는 상태에서는 특정 생성된 이미지가 실제로 원본 훈련에 사용되었다는 것을 증명하는 것이 불가능하다고 합리적으로 말할 수 있습니다. 그러나 이제는 이미지 콘텐츠만을 기반으로 업로드된 이미지를 웹의 실시간 이미지나 알려지고 공개된 데이터셋에 있는 이미지와 비교하는 것이 상대적으로 사소한 일이 되었습니다.
데이터 및 테스트
FineXtract를 테스트하기 위해, 저자들은 프로젝트 범위 내에서 두 가지 가장 일반적인 미세 조정 시나리오인 예술적 스타일과 객체 주도 생성(후자는 효과적으로 얼굴 기반 주제를 포함함)에 걸쳐 Few-shot 미세 조정 모델에 대한 실험을 수행했습니다.
그들은 WikiArt 데이터셋에서 20명의 예술가(각각 10장의 이미지)를, 그리고 DreamBooth 데이터셋에서 30개의 주제(각각 5-6장의 이미지)를 무작위로 선택하여 각각의 시나리오를 다뤘습니다.
DreamBooth와 LoRA가 대상 미세 조정 방법이었으며, 테스트에는 Stable Diffusion V1/.4가 사용되었습니다.
클러스터링 알고리즘이 30초 후에 결과를 반환하지 않으면, 이미지가 반환될 때까지 임계값이 수정되었습니다.
생성된 이미지에 사용된 두 가지 메트릭은 SSCD 하의 평균 유사도(AS)와 평균 추출 성공률(A-ESR)이었습니다. 이는 이전 연구들과 크게 일치하는 측정












