Rescale 미팅 예약

인공 지능

컨셉 슬라이더: LoRA 어댑터를 사용한 확산 모델의 정밀 제어

mm
업데이트 on

그 기능 덕분에 텍스트를 이미지로 확산 모델 예술계에서 엄청난 인기를 얻었습니다. 그러나 최첨단 프레임워크를 포함한 현재 모델은 생성된 이미지의 시각적 개념과 속성을 제어하는 ​​데 어려움을 겪어 결과가 만족스럽지 못한 경우가 많습니다. 대부분의 모델은 텍스트 프롬프트에만 의존하므로 날씨의 강도, 그림자의 선명도, 얼굴 표정, 사람의 나이와 같은 지속적인 속성을 정확하게 조절하는 데 어려움이 있습니다. 이로 인해 최종 사용자가 특정 요구 사항에 맞게 이미지를 조정하기가 어렵습니다. 또한 이러한 생성 프레임워크는 고품질의 사실적인 이미지를 생성하지만 뒤틀린 얼굴이나 손가락 누락과 같은 왜곡이 발생하기 쉽습니다.

이러한 한계를 극복하기 위해 개발자는 해석 가능한 개념 슬라이더의 사용을 제안했습니다. 이러한 슬라이더는 시각적 속성에 대한 최종 사용자의 제어력을 향상시켜 확산 모델 내에서 이미지 생성 및 편집을 향상시킵니다. 확산 모델의 개념 슬라이더는 다른 속성과의 간섭을 최소화하면서 개별 개념에 해당하는 매개변수 방향을 식별하는 방식으로 작동합니다. 프레임워크는 샘플 이미지 또는 프롬프트 세트를 사용하여 이러한 슬라이더를 생성하여 텍스트 및 시각적 개념에 대한 방향을 설정합니다.

궁극적으로 텍스트에서 이미지로 개념 슬라이더를 사용하는 것은 확산 모델 최소한의 간섭으로 이미지를 생성하고 최종 출력에 대한 제어를 강화하는 동시에 이미지의 내용을 변경하지 않고 인식된 사실성을 높여 사실적인 이미지를 생성할 수 있습니다. 이 기사에서는 텍스트-이미지 프레임워크에서 개념 슬라이더를 사용하는 개념에 대해 더 깊이 논의하고 이를 사용하여 우수한 품질의 AI 생성 이미지를 얻을 수 있는 방법을 분석합니다. 

개념 슬라이더 소개

앞서 언급했듯이 현재의 텍스트-이미지 확산 프레임워크는 생성된 이미지의 시각적 개념과 속성을 제어하는 ​​데 어려움을 겪어 만족스럽지 못한 결과를 초래하는 경우가 많습니다. 더욱이 이러한 모델 중 다수는 지속적인 속성을 조정하는 것이 어려워 결과가 만족스럽지 못한 경우가 많습니다. Concept Slider는 이러한 문제를 완화하여 콘텐츠 제작자와 최종 사용자에게 이미지 생성 프로세스에 대한 향상된 제어 권한을 부여하고 현재 프레임워크가 직면한 문제를 해결하는 데 도움이 될 수 있습니다.

대부분의 최신 텍스트-이미지 확산 모델은 이미지 속성을 제어하기 위해 직접적인 텍스트 프롬프트 수정에 의존합니다. 이 접근 방식을 사용하면 이미지 생성이 가능하지만 프롬프트를 변경하면 이미지 구조가 크게 변경될 수 있으므로 최적이 아닙니다. 이러한 프레임워크에서 사용되는 또 다른 접근 방식에는 확산 프로세스를 반전시키고 교차 주의를 수정하여 시각적 개념을 편집하는 사후 기술이 포함됩니다. 그러나 사후 기술에는 제한된 수의 동시 편집만 지원하고 각각의 새로운 개념에 대해 개별 간섭 패스가 필요하다는 제한이 있습니다. 또한 주의 깊게 설계하지 않으면 개념적 얽힘이 발생할 수 있습니다.

이와 대조적으로 Concept Slider는 이미지 생성을 위한 보다 효율적인 솔루션을 제공합니다. 이러한 가볍고 사용하기 쉬운 어댑터는 사전 훈련된 모델에 적용할 수 있어 얽힘을 최소화하면서 단일 간섭 패스에서 원하는 개념에 대한 제어 및 정밀도를 향상시킬 수 있습니다. 또한 개념 슬라이더를 사용하면 텍스트 설명에서 다루지 않는 시각적 개념을 편집할 수 있는데, 이는 텍스트 프롬프트 기반 편집 방법과 구별되는 기능입니다. 이미지 기반 사용자 정의 방법은 이미지 기반 개념에 대한 토큰을 효과적으로 추가할 수 있지만 이미지 편집을 위해 구현하기는 어렵습니다. 반면에 컨셉 슬라이더를 사용하면 최종 사용자가 원하는 컨셉을 정의하는 소수의 쌍을 이루는 이미지를 제공할 수 있습니다. 그런 다음 슬라이더는 이 개념을 일반화하고 자동으로 다른 이미지에 적용하여 현실감을 높이고 손과 같은 왜곡을 수정하는 것을 목표로 합니다.

Concept Sliders는 이미지 편집, 안내 기반 방법, 모델 편집 및 의미론적 방향이라는 네 가지 생성 AI 및 확산 프레임워크 개념에 공통적인 문제를 배우고 해결하기 위해 노력합니다.

이미지 편집

현재 AI 프레임워크는 조건부 입력을 사용하여 이미지 구조를 안내하는 데 중점을 두거나, 소스 이미지와 대상 프롬프트의 교차 주의를 조작하여 텍스트에서 이미지 확산 프레임워크로 단일 이미지 편집을 가능하게 합니다. 결과적으로 이러한 접근 방식은 단일 이미지에만 구현할 수 있으며 프롬프트 전반에 걸쳐 시간 단계에 따라 기하학적 구조가 진화하기 때문에 모든 이미지에 대해 잠재 기반 최적화가 필요합니다. 

지도 기반 방법

분류자가 없는 안내 기반 방법을 사용하면 생성된 이미지의 품질을 향상하고 텍스트-이미지 정렬을 향상시킬 수 있는 능력이 나타났습니다. 간섭 중에 지침 용어를 통합함으로써 이 방법은 확산 프레임워크에 의해 상속된 제한된 구성성을 개선하고 확산 프레임워크에서 안전하지 않은 개념을 안내하는 데 사용될 수 있습니다. 

모델 편집

개념 슬라이더의 사용은 속성과 일치하는 지속적인 제어를 위한 공간을 만드는 단일 의미 속성을 출력하기 위해 낮은 순위 어댑터를 사용하는 모델 편집 기술로 볼 수도 있습니다. 그런 다음 미세 조정 기반 사용자 정의 방법을 사용하여 프레임워크를 개인화하여 새로운 개념을 추가합니다. 또한 Custom Diffusion 기술은 사전 훈련된 확산 모델에 새로운 시각적 개념을 통합하기 위해 교차 주의 레이어를 미세 조정하는 방법을 제안합니다. 반대로, 텍스트 확산 기술은 임베딩 벡터를 최적화하여 모델 기능을 활성화하고 텍스트 개념을 프레임워크에 도입하는 것을 제안합니다. 

GAN의 의미 방향

의미론적 속성의 조작은 자기 감독 방식으로 정렬되는 것으로 밝혀진 잠재 공간 궤적을 갖춘 생성적 적대 신경망(Generative Adversarial Networks)의 주요 속성 중 하나입니다. 확산 프레임워크에서 이러한 잠재 공간 궤적은 U-Net 아키텍처의 중간 계층에 존재하며 확산 프레임워크에서 잠재 공간의 주요 방향은 전역 의미를 포착합니다. Concept Sliders는 특수 속성에 해당하는 하위 하위 공간을 직접 학습하고 텍스트 또는 이미지 쌍을 사용하여 전역 방향을 최적화함으로써 정밀하고 현지화된 편집 방향을 얻습니다. 

개념 슬라이더: 아키텍처 및 작업

확산 모델 및 LoRA 또는 낮은 순위 어댑터

확산 모델은 본질적으로 확산 프로세스를 역전시켜 데이터를 합성하는 원리에 따라 작동하는 생성 AI 프레임워크의 하위 클래스입니다. 순방향 확산 프로세스는 처음에 데이터에 노이즈를 추가하므로 조직화된 상태에서 완전한 가우스 노이즈 상태로 전환됩니다. 확산 모델의 주요 목적은 이미지의 노이즈를 점진적으로 제거하고 임의의 가우스 노이즈를 샘플링하여 이미지를 생성함으로써 확산 프로세스를 역전시키는 것입니다. 실제 응용 프로그램에서 확산 프레임워크의 주요 목표는 완전한 가우스 잡음이 조건 및 시간 단계와 같은 추가 입력과 함께 입력으로 공급될 때 실제 잡음을 예측하는 것입니다. 

LoRA 또는 Low Rank Adapters 기술은 미세 조정 중에 가중치 업데이트를 분해하여 다운스트림 작업에 대해 미리 훈련된 대규모 프레임워크를 효율적으로 적용할 수 있도록 합니다. LoRA 기술은 입력 차원과 출력 차원 모두에 대해 사전 훈련된 모델 계층의 가중치 업데이트를 분해하고 업데이트를 저차원 부분 공간으로 제한합니다. 

컨셉 슬라이더

Concept Sliders의 주요 목표는 확산 프레임워크에서 LoRA 어댑터를 미세 조정하여 컨셉 타겟 이미지에 대한 더 높은 수준의 제어를 용이하게 하는 접근 방식으로 제공되는 것이며, 동일한 내용이 다음 이미지에 나와 있습니다. 

대상 개념에 따라 조건이 지정되면 개념 슬라이더는 특정 속성의 표현을 늘리거나 줄이는 낮은 순위 매개변수 방향을 학습합니다. 모델 및 해당 대상 개념의 경우 개념 슬라이더의 주요 목표는 대상 개념에 따라 이미지의 속성을 향상 및 억제할 가능성을 수정하여 속성을 향상할 가능성을 높이고 가능성을 줄이는 향상된 모델을 얻는 것입니다. 속성을 억제하는 것입니다. 재매개변수화 및 Tweedie 공식을 사용하여 프레임워크는 시변 잡음 프로세스를 도입하고 각 점수를 잡음 제거 예측으로 표현합니다. 또한, 분리 목표는 사전 훈련된 가중치를 일정하게 유지하면서 개념 슬라이더의 모듈을 미세 조정하고 LoRA 공식화 중에 도입된 스케일링 계수는 간섭 중에 수정됩니다. 또한 배율 인수를 사용하면 편집 강도를 쉽게 조정할 수 있으며 다음 이미지에 표시된 대로 프레임워크를 다시 훈련하지 않고도 편집 내용을 더욱 강력하게 만들 수 있습니다. 

프레임워크에서 이전에 사용했던 편집 방법은 지침이 증가하여 프레임워크를 재교육함으로써 보다 강력한 편집을 촉진했습니다. 그러나 간섭 중에 배율 인수를 조정하면 재교육 비용과 시간을 늘리지 않고도 동일한 편집 결과를 얻을 수 있습니다. 

시각적 개념 학습

개념 슬라이더는 텍스트 프롬프트가 잘 정의할 수 없는 시각적 개념을 제어하는 ​​방식으로 설계되었으며, 이러한 슬라이더는 이러한 개념을 훈련하기 전이나 후에 쌍을 이루는 작은 데이터 세트를 활용합니다. 이미지 쌍 간의 대비를 통해 슬라이더는 시각적 개념을 배울 수 있습니다. 또한 Concept Sliders의 학습 프로세스는 순방향 및 역방향 모두에서 구현된 LoRA 구성 요소를 최적화합니다. 결과적으로 LoRA 구성 요소는 양방향으로 시각적 효과를 일으키는 방향으로 정렬됩니다. 

개념 슬라이더: 구현 결과

성능 향상을 분석하기 위해 개발자는 주로 개념 슬라이더의 사용을 평가했습니다. 안정적인 확산 XL, Stable Diffusion v1024 프레임워크에서 수행된 추가 실험이 포함된 고해상도 1.4픽셀 프레임워크이며 모델은 각각 500세대 동안 훈련되었습니다. 

텍스트 개념 슬라이더

텍스트 개념 슬라이더의 성능을 평가하기 위해 30개의 텍스트 기반 개념 세트에서 유효성을 검사하고 고정된 수의 시간 단계에 대해 표준 텍스트 프롬프트를 사용하는 두 가지 기준과 방법을 비교한 다음 다음과 같이 구성을 시작합니다. 이미지를 조종하라는 메시지를 추가합니다. 다음 그림에서 볼 수 있듯이 Concept Slider를 사용하면 Concept Slider가 없는 원래 프레임워크와 비교할 때 CLIP 점수가 지속적으로 높아지고 LPIPS 점수가 지속적으로 감소합니다. 

위 그림에서 볼 수 있듯이 Concept Sliders를 사용하면 이미지의 전체 구조를 유지하면서 이미지 생성 과정에서 원하는 속성을 정밀하게 편집할 수 있습니다. 

시각적 개념 슬라이더

텍스트 프롬프트만 사용하는 텍스트-이미지 확산 모델에서는 얼굴 털이나 눈 모양과 같은 시각적 속성을 더 높은 수준으로 제어하기가 어려운 경우가 많습니다. 세분화된 속성을 더 잘 제어하기 위해 개념 슬라이더는 이미지 데이터 세트와 결합된 선택적 텍스트 지침을 활용합니다. 아래 그림에서 볼 수 있듯이 Concept Sliders는 이미지 쌍을 사용하여 원하는 변형을 캡처하는 "눈 크기"와 "눈썹 모양"에 대한 개별 슬라이더를 만듭니다. 

방향이 해당 얼굴 영역에 집중되도록 특정 텍스트를 제공하고 대상 속성에 대해 단계적으로 제어하는 ​​슬라이더를 생성함으로써 결과를 더욱 구체화할 수 있습니다. 

슬라이더 구성

Concept Sliders를 사용하는 주요 장점 중 하나는 Concept Sliders에서 사용되는 낮은 순위 슬라이더 방향으로 인해 한 번에 하나의 개념에 집중하는 대신 사용자가 향상된 제어 수준을 위해 여러 슬라이더를 결합할 수 있는 구성 가능성입니다. . 또한, Concept Sliders는 경량 LoRA 어댑터이기 때문에 공유가 쉽고, 위에 겹쳐서 사용할 수도 있습니다. 확산 모델. 사용자는 흥미로운 슬라이더 세트를 다운로드하여 여러 손잡이를 동시에 조정하여 복잡한 세대를 조종할 수도 있습니다. 

다음 이미지는 개념 슬라이더의 구성 기능을 보여 주며, 여러 슬라이더가 각 행에서 왼쪽에서 오른쪽으로 점진적으로 구성되므로 개념에 대한 향상된 제어 수준으로 고차원 개념 공간을 탐색할 수 있습니다. 

이미지 품질 개선

이미지 확산 프레임워크 및 대규모 생성 모델에 대한 최첨단 텍스트가 있지만 안정적인 확산 XL 모델은 사실적인 고품질 이미지를 생성할 수 있지만, 이러한 최첨단 프레임워크의 매개변수가 더 적은 세대로 고품질 출력을 생성할 수 있는 잠재 기능을 갖추고 있음에도 불구하고 흐릿하거나 감싸인 개체와 같은 이미지 왜곡으로 인해 어려움을 겪는 경우가 많습니다. Concept Slider를 사용하면 낮은 순위 매개변수 방향을 식별하여 이러한 모델의 진정한 기능을 잠금 해제함으로써 왜곡이 적은 이미지를 생성할 수 있습니다. 

손 고치기

사실적으로 보이는 손으로 이미지를 생성하는 것은 항상 확산 프레임워크의 장애물이었으며 Concept Sliders를 사용하면 손이 왜곡되는 경향을 직접적으로 제어할 수 있습니다. 다음 이미지는 프레임워크가 보다 현실적으로 보이는 손으로 이미지를 생성할 수 있도록 하는 "손 수정" 개념 슬라이더를 사용하는 효과를 보여줍니다. 

슬라이더 수리

Concept Sliders를 사용하면 보다 사실적으로 보이는 손을 생성할 수 있을 뿐만 아니라 프레임워크에서 생성된 이미지의 전반적인 현실성을 향상시키는 잠재력도 보여주었습니다. 또한 개념 슬라이더는 일반적인 왜곡 문제로 인해 이미지를 이동할 수 있는 단일 하위 매개변수 방향을 식별하며 그 결과는 다음 이미지에 나와 있습니다. 

최종 생각

이 기사에서는 확산 모델에서 생성된 출력에 대한 해석 가능한 제어를 가능하게 하는 간단하면서도 확장 가능한 새로운 패러다임인 개념 슬라이더에 대해 설명했습니다. 개념 슬라이더의 사용은 생성된 이미지에 포함된 시각적 개념 및 속성에 대해 필요한 제어를 유지하기 어려워 종종 만족스럽지 못한 출력을 초래하는 이미지 확산 프레임워크에 대한 현재 텍스트가 직면한 문제를 해결하는 것을 목표로 합니다. 더욱이, 대부분의 텍스트-이미지 확산 모델은 이미지의 연속 속성을 변조하기가 어려워 결과적으로 만족스럽지 못한 결과를 초래하는 경우가 많습니다. Concept Sliders를 사용하면 텍스트-이미지 확산 프레임워크를 통해 이러한 문제를 완화하고 콘텐츠 제작자 및 최종 사용자에게 이미지 생성 프로세스에 대한 향상된 제어 수준을 부여하고 현재 프레임워크가 직면한 문제를 해결할 수 있습니다. 

"직업은 엔지니어, 마음은 작가". Kunal은 AI와 ML에 대한 깊은 애정과 이해를 가진 기술 작가로, 매력적이고 유익한 문서를 통해 이 분야의 복잡한 개념을 단순화하는 데 전념하고 있습니다.