인공지능

InstantID: 0초 Identity-Preserving 이미지 생성

Published March 12, 2024

Updated April 4, 2026

Kunal Kejriwal

인공지능 기반 이미지 생성 기술은 DALL-E, GLIDE, Stable Diffusion, Imagen 등의 대형 텍스트-이미지 확산 모델이 등장한 이후 몇 년 동안 놀라운 성장을 보였다. 이미지 생성 AI 모델은 고유한 아키텍처와 훈련 방법을 가지고 있지만, 모두 사용자 지정 및 개인화된 이미지 생성을 목표로 하며, 참조 이미지에 기초하여 일관된 문자 ID, 주제, 및 스타일을 가진 이미지를 생성한다. 이러한 현대적인 이미지 생성 AI 프레임워크는 이미지 애니메이션, 가상 현실, 전자 상거래, AI 초상화 등 다양한 분야에서 응용을 찾았다. 그러나 이러한 프레임워크는 사용자 지정 이미지를 생성하면서 인간 객체의 섬세한 ID 세부 사항을 보존하는 데 어려움을 겪는다.

인간 얼굴 ID 작업과 같은 높은忠実度 및 세부 사항을 요구하는 작업에서 사용자 지정 이미지를 생성하는 것은 매우 중요하다. 최근 몇 년 동안 LoRA, DreamBooth, Textual Inversion 등의 개인화된 이미지 합성 프레임워크가 크게 발전했다. 그러나 이러한 개인화된 이미지 생성 AI 모델은 여전히 실세계 시나리오에서 배포하기에 완벽하지 않다. 높은 저장소 요구 사항, 여러 참조 이미지의 필요성, 그리고 긴 미세 조정 과정 등이 이유이다. 기존의 ID-embedding 기반 방법은 단일 전방 참조만 필요로 하지만, 공개적으로 훈련된 사전 모델과 호환되지 않거나, 수많은 매개 변수에 대한 과도한 미세 조정 과정이 필요하거나, 높은 얼굴忠実度를 유지하지 못하는 경우가 있다.

이러한挑戰을 해결하고 이미지 생성 능력을 더욱 향상시키기 위해, 본 문서에서는 InstantID라는 확산 모델 기반의 이미지 생성 솔루션에 대해 논의할 것이다. InstantID는 다양한 스타일에서 단일 참조 이미지로 이미지 생성과 개인화를 수행하는 플러그 앤 플레이 모듈이다. 또한 높은忠実度를 보장한다. 본 문서의 주요 목표는 InstantID 프레임워크의 기술적 기반과 구성 요소를 자세히 살펴보는 것이다.

InstantID: 0초 Identity-Preserving 이미지 생성

텍스트-이미지 확산 모델의 등장은 이미지 생성 기술의 발전에 크게 기여했다. 이러한 모델의 주요 목표는 사용자 지정 및 개인화된 이미지 생성이며, 참조 이미지에 기초하여 일관된 주제, 스타일, 및 문자 ID를 가진 이미지를 생성하는 것이다. 이러한 프레임워크는 일관된 이미지를 생성하는 능력으로 인해 이미지 애니메이션, AI 초상화 생성, 전자 상거래, 가상 및 증강 현실 등 다양한 산업에서 잠재적인 응용을 찾았다.

그러나 이러한 프레임워크는 기본적인課題를 겪는다. 즉, 인간 주체의 섬세한 세부 사항을 정확하게 보존하는 사용자 지정 이미지를 생성하는 데 어려움을 겪는다. 인간 얼굴 ID 작업과 같은 높은忠実度 및 세부 사항을 요구하는 작업에서 사용자 지정 이미지를 생성하는 것은 매우 중요하다. 기존의 텍스트-이미지 모델은詳細한 텍스트 설명에 의존하며, 사용자 지정 이미지 생성에서 강한 의미적 관련성을 달성하는 데 어려움을 겪는다. 일부 대형 사전 훈련된 텍스트-이미지 프레임워크는 공간 조건 제어를 추가하여 미세한 구조적 제어를 가능하게 하지만, 이러한 추가와 향상에도 불구하고, 이러한 프레임워크는 참조 이미지에 대한 생성된 이미지의忠実度를 부분적으로만 달성할 수 있다.

이러한課題를 극복하기 위해, InstantID 프레임워크는 즉각적인 ID 보존 이미지 합성을 중점으로 하며, 효율성과 높은忠実度 간의 간격을 메우기 위해 단일 얼굴 이미지로 이미지 개인화를 수행하는 간단한 플러그 앤 플레이 모듈을 도입한다. 또한, 참조 이미지에서 얼굴 ID를 보존하기 위해, InstantID 프레임워크는 새로운 얼굴 인코더를 구현하며, 약한 공간 조건과 강한 의미적 조건을 추가하여 이미지 생성 과정을 안내한다.

InstantID 프레임워크는 기존의 텍스트-이미지 생성 프레임워크와 구별되는 세 가지 특징이 있다.

호환성 및 플러그 가능성: InstantID 프레임워크는 UNet 프레임워크의 전체 매개 변수를 훈련하는 대신, 경량 어댑터를 훈련한다. 따라서, InstantID 프레임워크는 공개적으로 훈련된 사전 모델과 호환된다.

미세 조정 없음: InstantID 프레임워크의 방법론은 미세 조정의 필요성을 제거하며, 단일 전방 전파만으로 추론이 가능하여, 모델을 매우 실제적이고 경제적으로 만든다.
우수한 성능: InstantID 프레임워크는 높은 유연성과忠実度를 демонстри하며, 단일 참조 이미지로만 상태-of-the-art 성능을 달성한다.

전반적으로, InstantID 프레임워크의 기여는 다음과 같이 요약할 수 있다.

InstantID 프레임워크는 효율성과忠実度 간의 간격을 메우기 위한 혁신적인 ID 보존 적응 방법이다.
InstantID 프레임워크는 사용자 지정 미세 조정 모델과 호환되며, 동일한 확산 모델을 사용하여 사전 모델에서 ID 보존을 가능하게 한다.

InstantID: 방법론 및 아키텍처

InstantID 프레임워크는 효율적인 경량 어댑터로, 사전 훈련된 텍스트-이미지 확산 모델에 ID 보존 능력을 쉽게 부여한다.

아키텍처에 대해 말하자면, InstantID 프레임워크는 Stable Diffusion 모델을 기반으로 한다. 이는 저차원 잠재 공간에서 확산 과정을 수행하는 능력으로 유명하다. 입력 이미지에 대해, 인코더는 먼저 이미지를 잠재 표현으로 매핑하며, 다운샘플링 계수와 잠재 차원을 사용한다. 또한, 확산 과정은 노이즈를 제거하기 위해 denoising UNet 구성 요소를 사용한다. 조건은 텍스트 프롬프트의 임베딩이며, 사전 훈련된 CLIP 텍스트 인코더 구성 요소를 사용하여 생성된다.

InstantID 프레임워크는 또한 ControlNet 구성 요소를 사용하며, 이는 사전 훈련된 확산 모델에 공간 조건을 추가하는 능력을 가진다. ControlNet 구성 요소는 UNet 아키텍처를 통합하며, 이는 Stable Diffusion 프레임워크에서 사용된다. 중간 블록과 인코더 블록에 제로 컨볼루션 레이어를 특징으로 한다. 그러나 ControlNet 구성 요소는 Stable Diffusion 모델과 다르며, 후者の 잔여 항목이 다르다. ControlNet 구성 요소는 공간 조건 정보를 인코딩하며, 이는 포즈, 깊이 맵, 스케치 등이며, 이러한 잔여를 원래 네트워크에 임베딩한다.

InstantID 프레임워크는 또한 IP-Adapter 또는 이미지 프롬프트 어댑터의 아이디어를 차용하며, 이는 텍스트 프롬프트와 병렬로 실행되는 이미지 프롬프트 기능을 달성하는 새로운 접근법을 제시한다. 그러나 InstantID 프레임워크는 약한 공간 조건과 강한 의미적 조건을 사용하여 이미지 생성 과정을 안내한다.

방법론

InstantID 프레임워크는 단일 참조 ID 이미지로 다양한 스타일 또는 포즈의 사용자 지정 이미지를 생성하는 것을 목표로 한다. 다음 그림은 InstantID 프레임워크의 개요를 제공한다.

InstantID 프레임워크에는 세 가지 주요 구성 요소가 있다.

ID 임베딩 구성 요소는 이미지의 얼굴 특징의 강한 의미적 정보를 캡처한다.
경량 어댑터 구성 요소는 이미지 프롬프트를 사용하기 위한 분리된 크로스 어텐션 구성 요소를 사용한다.
IdentityNet 구성 요소는 참조 이미지에서 자세한 특징을 추가 공간 조건을 사용하여 인코딩한다.

ID 임베딩

기존 방법과 달리, InstantID 프레임워크는 약한 공간 조건과 강한 의미적 조건을 사용하여 이미지 생성 과정을 안내한다. 이는 높은忠実度와 강한 의미적 세부 사항을 달성하는 데 도움이 된다.

이미지 어댑터

InstantID 프레임워크는 IP-Adapter 모델과 유사한 전략을 사용하여 이미지 프롬프트를 사용한다. 이는 텍스트 프롬프트와 병렬로 실행되는 이미지 프롬프트 기능을 달성하는 데 도움이 된다.

IdentityNet

InstantID 프레임워크는 ControlNet 구성 요소를 사용하여 공간 정보를 입력으로 사용하는 컨트롤 가능한 모듈을 생성한다. 이는 UNet 설정과 일관성을 유지하는 데 도움이 된다.

InstantID 프레임워크는 전통적인 ControlNet 아키텍처에서 두 가지 변경을 적용한다. 첫째, 조건 입력으로 5개의 얼굴 키포인트를 사용한다. 둘째, ControlNet 아키텍처의 크로스 어텐션 레이어에서 텍스트 프롬프트 대신 ID 임베딩을 사용한다.

훈련 및 추론

훈련 단계에서, InstantID 프레임워크는 IdentityNet 및 이미지 어댑터의 매개 변수를 최적화하며, 사전 훈련된 확산 모델의 매개 변수는 고정한다. 전체 InstantID 파이프라인은 인간 주체를 특징으로 하는 이미지-텍스트 쌍으로 훈련되며, Stable Diffusion 프레임워크에서 사용되는 작업 특정 이미지 조건과 유사한 훈련 목표를 사용한다.

InstantID: 실험 및 결과

InstantID 프레임워크는 LAION-Face 데이터셋으로 Stable Diffusion 모델을 훈련하며, 이는 5,000만 개 이상의 이미지-텍스트 쌍으로 구성된다. 또한, InstantID 프레임워크는 BLIP2 모델을 사용하여 자동으로 생성된 1,000만 개 이상의 인간 이미지를 수집하여 이미지 생성 품질을 향상시킨다.

이미지 전용 생성

InstantID 모델은 빈 프롬프트를 사용하여 참조 이미지로만 이미지 생성 과정을 안내하며, 결과는 다음 그림에示되어 있다.

빈 프롬프트 생성은 InstantID 프레임워크가 풍부한 의미적 얼굴 특징을 유지하는 능력을 демонстри한다. 그러나 빈 프롬프트를 사용하여 다른 의미적 특징을 재현하는 데 어려움이 있을 수 있다.

참조 이미지의 수는 생성된 이미지의 품질에 큰 영향을 미친다. InstantID 프레임워크는 단일 참조 이미지로 좋은 결과를 생성할 수 있지만, 여러 참조 이미지는 더 높은 품질의 이미지를 생성한다.

InstantID 프레임워크는 기존의 상태-of-the-art 모델과 비교하여 사용자 지정 이미지 생성에서 우수한 성능을 보인다.

최종 생각

본 문서에서는 InstantID라는 확산 모델 기반의 이미지 생성 솔루션에 대해 논의했다. InstantID는 다양한 스타일에서 단일 참조 이미지로 이미지 생성과 개인화를 수행하는 플러그 앤 플레이 모듈이다. 또한 높은忠実度를 보장한다. InstantID 프레임워크는 즉각적인 ID 보존 이미지 합성을 중점으로 하며, 효율성과 높은忠実度 간의 간격을 메우기 위해 단일 얼굴 이미지로 이미지 개인화를 수행하는 간단한 플러그 앤 플레이 모듈을 도입한다.