인공지능
Stable Diffusion 의 Green Screen 생성 개선

시각적 생성 AI에 대한 커뮤니티와 투자자의 열렬한 지지에도 불구하고, 이러한 시스템의 출력은 항상 실제 사용에 준비가 된 것은 아닙니다. 예를 들어, 생성 AI 시스템은 일반적으로 멀티미디어의 다양한 응용과 시각 효과 실무자에게 필요한 개별 요소나 분리된 요소가 아닌 전체 이미지를 출력하거나(비디오의 경우 일련의 이미지) 생성합니다.
간단한 예는 사용자가 선택한 대상 배경 위에 부유하는 클립 아트를 설계하는 것입니다.

Photoshop 사용자에게 가장 친숙한 경계가 없는 밝은 회색 체크 배경은 알파 채널 또는 투명도 채널을 나타내는 것으로 간주되며, 심지어 단순한 소비자 항목인 스톡 이미지에서도 vậy입니다.
이러한 종류의 투명도는 30년 이상 일반적으로 사용되어 왔습니다. 1990년대 초 디지털 혁신 이후 사용자는 도구 세트와 기술의 점점 더 정교한 시리즈를 통해 비디오와 이미지에서 요소를 추출할 수 있었습니다.
예를 들어, 비디오 화면의 블루 스크린과 그린 스크린 배경을 “드롭 아웃”하는 문제는昔에는 비싼 화학적 공정과 광학 인쇄기(以及 수작업으로 만든 매트)만이 가능했지만, Adobe의 After Effects 및 Photoshop 애플리케이션(以及 다른 많은 무료 및 사유 프로그램 및 시스템)을 포함한 시스템에서 몇 분 만에 작업할 수 있게 되었습니다.
요소를 분리한 후에, 알파 채널(실제로 관련이 없는 콘텐츠를 가리는 마스크)이 어떤 비디오 요소라도 새로운 배경 위에 쉽게 중첩되거나 다른 분리된 요소와 함께 구성할 수 있도록 합니다.

알파 채널의 예시, 하단 행에 효과가 표시됩니다. 출처: https://helpx.adobe.com/photoshop/using/saving-selections-alpha-channel-masks.html
드롭 아웃
컴퓨터 비전에서 알파 채널 생성은 의미론적 분할의 범위 내에 있으며, Meta의 Segment Anything과 같은 오픈 소스 프로젝트는 의미론적으로 강화된 객체 인식을 통해 대상 객체를 분리/추출하는 텍스트 프롬프트 가능한 방법을 제공합니다.
Segment Anything 프레임워크는 Alpha-CLIP 프로젝트와 같은 다양한 시각적 효과 추출 및 분리 워크플로에서 사용되었습니다.

Alpha-CLIP 프레임워크에서 Segment Anything를 사용한 추출 예시: 출처: https://arxiv.org/pdf/2312.03818
객체를 추출하는 데 사용할 수 있는 많은 대체 의미론적 분할 방법이 있습니다.
그러나 의미론적 분할은 요구되는 모든 객체 카테고리를 포함하지 않을 수 있는 훈련 데이터에 의존합니다. 매우大量의 데이터로 훈련된 모델은 더 많은 객체를 인식할 수 있지만(기본 모델 또는 세계 모델이 됩니다), 훈련된 클래스를 가장 잘 인식하는 클래스에 의해 제한됩니다.

Segment Anything와 같은 의미론적 분할 시스템은 특정 객체 또는 객체의 일부를 식별하는 데 어려움을 겪을 수 있습니다. 출처: https://maucher.pages.mi.hdm-stuttgart.de/orbook/deeplearning/SAM.html
어떤 경우에든 의미론적 분할은 그린 스크린 절차와 마찬가지로事後的 프로세스이며, 단일 배경색을 효과적으로 인식하고 제거할 수 있는 장점 없이 요소를 분리해야 합니다.
이러한 이유로 사용자 커뮤니티에서는 이미지가 실제로 그린 스크린 배경을 포함하여 기존 방법으로 즉시 제거할 수 있는 이미지를 생성할 수 있다는 생각이 간혹 발생했습니다.
불행히도, Stable Diffusion과 같은 인기 있는 잠재 확산 모델은 실제로 생생한 그린 스크린을 렌더링하는 데 어려움을 겪습니다. 이는 모델의 훈련 데이터가 이러한 특수한 시나리오의 많은 예를 포함하지 않기 때문입니다. 시스템이 성공하더라도 ‘그린’이라는 개념은 전방 개체로 원치 않는 방식으로 퍼집니다. 개념의 얽힘으로 인해:

위에는 Stable Diffusion이 이미지의 진실성을 생성에 필요한 단일 그린 강度 생성보다 우선시하여 전통적인 그린 스크린 시나리오에서 발생하는 실제 문제를 효과적으로 복제한다는 것을 볼 수 있습니다. 아래에는 ‘그린’ 개념이 전방 이미지로 오염되는 것을 볼 수 있습니다. ‘그린’ 개념에 대한 프롬프트를 집중할수록 이 문제가 더 심해질 것입니다. 출처: https://stablediffusionweb.com/
1970년대와 1980년대의 화학적 염색 제거와 같은 문제로, 위의 이미지에서 남자의 넥타이와 여성의 드레스도 그린 배경과 함께 ‘드롭 아웃’됩니다.
항상처럼, 모델의 단점은 특정 데이터를 문제에 던져서, 그리고 상당한 훈련 자원을 투자함으로써 극복할 수 있습니다. Stanford의 2024년 LayerDiffuse와 같은 시스템은 알파 채널을 생성할 수 있는 미세 조정된 모델을 생성합니다.

Stanford LayerDiffuse 프로젝트는 모델에 투명성 능력을 부여할 수 있는 100만 개의 적절한 이미지로 훈련되었습니다. 출처: https://arxiv.org/pdf/2402.17113
불행히도, 이 접근 방식에 필요한 데이터 및 훈련 자원 외에도 LayerDiffuse에 사용된 데이터셋은 공개적으로 사용할 수 없으므로 이에 훈련된 모델의 사용이 제한됩니다. 即使이 장애물이不存在했다 하더라도, 이 접근 방식은 특정 사용 사례에 맞게 사용자 지정하거나 개발하기 어렵습니다.
2024년稍後, Adobe Research는 Stonybrook University와 협력하여 MAGICK를 제작했습니다. 이는 사용자 지정으로 생성된 확산 이미지에서 AI 추출 접근 방식입니다.

2024년 논문에서 MAGICK의 미세한 알파 채널 추출 예시. 출처: https://openaccess.thecvf.com/content/CVPR2024/papers/Burgert_MAGICK_A_Large-scale_Captioned_Dataset_from_Matting_Generated_Images_using_CVPR_2024_paper.pdf
MAGICK는 시스템이 추출을 직관적으로 이해하도록 15만 개의 추출된 AI 생성 객체로 훈련되었습니다.

MAGICK 훈련 데이터셋의 샘플.
이 데이터셋은 앞서 언급한 이유로 생성하기 어렵습니다. 즉, 확산 방법은 단단한 색의 스와치를 생성하는 데 어려움을 겪기 때문입니다. 따라서 생성된 매트의 수동 선택이 필요했습니다.
이 로지스틱 병목 현상은 다시 한 번 시스템이 쉽게 개발되거나 사용자 지정할 수 없으며, 초기 훈련된 기능 범위 내에서만 사용해야 함을 의미합니다.
TKG-DM – ‘네이티브’ 크로마 키 추출을 위한 잠재 확산 모델
독일과 일본의 연구자 간의 새로운 협력은 특별히 커서된 데이터셋에 대한 훈련이 필요하지 않으며, 앞서 언급한 방법보다 더 나은 결과를 얻을 수 있다고 주장하는 대안을 제안했습니다.

TKG-DM은 생성 이미지의 시드를 제공하는 임의의 노이즈를 조건화하여 원하는 배경/전방 분리를 생성할 수 있도록 합니다. 출처: https://arxiv.org/pdf/2411.15580
새로운 방법은 Stable Diffusion과 같은 잠재 확산 모델의 생성 수준에서 문제를 접근하여, 배경/전방 분리를 생성 결과에서 원하는 배경/전방 분리를 생성하도록 설계된 노이즈 패턴을 생성하는 초기 가우시안 노이즈를 최적화합니다.
TKG-DM은 이전에 Stable Diffusion 분포의 색상 스키마에 대한 조사에 기반하며, 배경 색상으로 사용할 수 있는 모든 종류의 배경 색상을 생성할 수 있으며, 다른 방법보다 전방 콘텐츠에 색상 신호가 얽히지 않습니다.

초기 노이즈는 채널 평균 이동으로 조건화되어 전방 콘텐츠에 색상 신호를 얽히지 않으면서 노이즈 제거 프로세스의 측면을 影響할 수 있습니다.
논문은 다음과 같이 말합니다:
‘우리의 광범위한 실험은 TKG-DM이 FID 및 mask-FID 점수를 각각 33.7%, 35.9% 향상시킵니다. ‘
‘따라서 우리의 훈련 없는 모델은 미세 조정된 모델과 경쟁하며, 다양한 시각적 콘텐츠 생성 작업에 대한 효율적이고 다재다능한 솔루션을 제공합니다.’
새로운 논문은 TKG-DM: 훈련 없는 크로마 키 콘텐츠 생성 확산 모델이라고 제목이 붙여져 있으며, 도쿄의 Hosei University와 카이저슬라우테른의 RPTU Kaiserslautern-Landau & DFKI GmbH의 7명의 연구자로부터 나왔습니다.
방법
새로운 접근 방식은 Stable Diffusion의 아키텍처를 확장하여 초기 가우시안 노이즈를 채널 평균 이동(CMS)으로 조건화하여, 원하는 배경/전방 분리를 생성 결과에서 생성하도록 설계된 노이즈 패턴을 생성합니다.

제안된 시스템의 워크플로우 스키마.
CMS는 전방 콘텐츠에 색상 신호를 얽히지 않으면서 노이즈 제거 프로세스의 진행을 유지하면서 각 색상 채널의 평균을 조정합니다.
저자들은 다음과 같이 설명합니다:
‘전방 객체를 크로마 키 배경에 생성하기 위해, 우리는 초기 노이즈 선택 전략을 적용하여 2D 가우시안 마스크를 사용하여 초기 노이즈와 초기 색상 노이즈를 선택적으로 결합합니다. ‘
‘이 마스크는 전방 영역에서 원래 노이즈를 보존하고 배경 영역에서 색상 이동 노이즈를 적용하여 점진적인 전이를 생성합니다.’

사용자의 텍스트 지시에서 의미론적으로 생성된 실제 전방 콘텐츠와 함께, 배경 크로마 색상을 위한 색상 채널이 null 텍스트 프롬프트로 인스턴스화됩니다.
자체 주의와 크로스 주의를 사용하여 이미지의 두 가지 측면(크로마 키 배경과 전방 콘텐츠)을 분리합니다. 자체 주의는 전방 객체의 내부 일관성을 도와주며, 크로스 주의는 텍스트 프롬프트에 대한 충실도를 유지합니다. 논문은 배경 이미지는 일반적으로 생성에서 강조되지 않기 때문에, 약한 영향을 상대적으로 쉽게 극복하고 순수한 색상으로 대체할 수 있다고 지적합니다.

크로마 스타일 생성 프로세스에서 자체 주의와 크로스 주의의 영향의 시각화.
데이터 및 테스트
TKG-DM은 Stable Diffusion V1.5 및 Stable Diffusion SDXL에서 테스트되었습니다. 이미지는 512x512px 및 1024x1024px에서 생성되었습니다.
이미지는 Stable Diffusion에 내장된 DDIM 스케줄러를 사용하여 생성되었으며, 7.5의 가이드 스케일에서 50개의 노이즈 제거 단계로 생성되었습니다. 대상 배경 색상은 현재 지배적인 드롭아웃 방법인 그린 색상이었습니다.
새로운 접근 방식은 MAGICK를 사용하여 설정된 DeepFloyd, 미세 조정된 저ランク 확산 모델인 GreenBack LoRA, 및 앞서 언급한 LayerDiffuse와 비교되었습니다.
데이터에는 MAGICK 데이터셋의 3000개 이미지가 사용되었습니다.

새로운 시스템을 테스트하기 위해 MAGICK 데이터셋에서 3000개의 이미지가 수집되었습니다. 출처: https://ryanndagreat.github.io/MAGICK/Explorer/magick_rgba_explorer.html
평가 기준으로, 저자는 전방 품질을 평가하기 위해 Fréchet Inception Distance(FID)를 사용했습니다. 또한 결과 마스크의 품질을 평가하기 위해 BiRefNet 시스템을 사용하는 프로젝트 특정 기준인 m-FID를 개발했습니다.

BiRefNet 시스템과 이전 방법의 시각적 비교. 출처: https://arxiv.org/pdf/2401.03407
입력 프롬프트와의 의미론적 정렬을 테스트하기 위해 CLIP-Sentence(CLIP-S) 및 CLIP-Image(CLIP-I) 방법이 사용되었습니다. CLIP-S는 프롬프트 충실도를 평가하며, CLIP-I는 실제와의 시각적 유사성을 평가합니다.

새로운 방법의 첫 번째 질적 결과, 이번에는 Stable Diffusion V1.5입니다. 출처: https://arxiv.org/pdf/2411.15580
저자는 결과(위 및 아래에서 Stable Diffusion V1.5 및 SDXL 각각에서 시각화됨)가 TKG-DM이 프롬프트 엔지니어링이나 모델의 훈련/미세 조정이 필요하지 않음에도 불구하고 우수한 결과를 얻는다는 것을 보여준다고 주장합니다.

SDXL의 질적 결과. 출처: https://arxiv.org/pdf/2411.15580
그들은 Stable Diffusion 1.5가 그린 배경을 생성하는 데 어려움을 겪으며, SDXL(비록 약간 더 잘 수행하지만)은 전방 이미지와 간섭할 수 있는 불안정한 밝은 녹색 색조를 생성한다고 관찰합니다.
그들은 또한 LayerDiffuse가 잘 분리된 배경을 생성하지만, 때때로 세부 사항(예: 정확한 숫자 또는 글자)을 잃어버리며, 이는 데이터셋의 제한으로 인한 것이라고 주장합니다. 또한 마스크 생성이 실패하여 ‘uncut’ 이미지가 생성될 수 있다고 추가합니다.
수량적 테스트에서, LayerDiffuse는 SDXL에서 FID에서 우위를 점하는 것으로 나타났지만, 논문은 이것이 특수한 데이터셋의 결과이며, 이는 효과적으로 ‘구워진’ 및 유연하지 않은 제품임을 강조합니다. 즉, 데이터셋에 포함되지 않은 객체 또는 클래스, 또는 충분히 포함되지 않은 클래스는 잘 수행되지 않을 수 있으며, 새로운 클래스를 수용하기 위해 추가적인 미세 조정이 필요합니다.

비교의 수량적 결과. 출처: https://arxiv.org/pdf/2411.15580
논문은 다음과 같이 말합니다:
‘DeepFloyd의 높은 FID, m-FID, 및 CLIP-I 점수는 DeepFloyd의 출력에 대한 실제와의 유사성을 반영하지만, 이는 이미지 품질에 대한 공정한 벤치마크로 적합하지 않습니다. 또한 더 낮은 CLIP-S 점수는 다른 모델에 비해 텍스트 정렬이 약함을 나타냅니다.’
‘전반적으로, 이러한 결과는 우리 모델이 미세 조정이 필요하지 않으며, 텍스트와 정렬된 높은 품질의 전방을 생성할 수 있는 효율적인 크로마 키 콘텐츠 생성 솔루션을 제공한다는 것을 강조합니다.’
마지막으로, 연구자들은 다양한 방법의 프롬프트 충실도를 평가하기 위해 사용자 연구를 수행했습니다. 100명의 참가자가 각 방법의 30개의 이미지 쌍을 평가하도록 요청받았으며, BiRefNet 및 모든 예제에서 수동으로 tinh chỉnh된 매트를 사용하여 객체를 추출했습니다. 저자의 훈련 없는 접근 방식이 이 연구에서 선호되었습니다.

사용자 연구의 결과.
TKG-DM은 Stable Diffusion을 위한 인기 있는 제3자 시스템인 ControlNet과 호환됩니다. 저자는 TKG-DM이 ControlNet의 네이티브 기능보다 더 나은 결과를 생성한다고 주장합니다.
결론
아마도 이 새로운 논문에서 가장 주목할 만한 결론은 잠재 확산 모델이 실제로 분리할 수 있는 이미지 및 비디오의 측면이 얼마나 얽혀 있는지에 대한 것입니다.
이 연구는 또한 연구 및 취미 커뮤니티가 모델의 단점을 보완하기 위해 미세 조정을 사용한 frequencies를 강조합니다. 이러한 솔루션은 항상 특정 클래스 및 객체 유형을 해결할 것입니다. 이러한 시나리오에서, 미세 조정된 모델은 제한된 수의 클래스에서 매우 잘 작동하거나 더 많은 클래스 및 객체에서 적당히 작동할 것입니다.
따라서, 이러한 노동 집약적이고 논쟁의 여지가 있는 솔루션에 의존하지 않는 최소한 하나의 솔루션을 보는 것이 새롭습니다.
* 1978년 영화 슈퍼맨을 촬영할 때, 배우 크리스토퍼 리브는 블루 스크린 프로세스 샷을 위해 터키석 슈퍼맨 코스튬을 입어야 했습니다. 이코닉한 블루 코스튬이 지워지는 것을 방지하기 위해, 이후 색상 그레이딩을 통해 블루 색상을 복원했습니다.










