인공 지능

EasyPhoto: 개인용 AI 사진 생성기

업데이트 on 2023 년 10 월 30 일

안정적인 확산 웹 사용자 인터페이스(SD-WebUI)는 Gradio 라이브러리를 활용하여 브라우저 인터페이스를 제공하는 Stable Diffusion 모델을 위한 포괄적인 프로젝트입니다. 오늘은 최종 사용자가 AI 초상화와 이미지를 생성할 수 있는 혁신적인 WebUI 플러그인인 EasyPhoto에 대해 이야기하겠습니다. EasyPhoto WebUI 플러그인은 다양한 템플릿을 사용하여 AI 인물 사진을 생성하고 다양한 사진 스타일과 다양한 수정을 지원합니다. 또한 EasyPhoto의 기능을 더욱 향상시키기 위해 사용자는 SDXL 모델을 사용하여 이미지를 생성하여 보다 만족스럽고 정확하며 다양한 결과를 얻을 수 있습니다. 의 시작하자.

EasyPhoto 및 Stable Diffusion 소개

Stable Diffusion 프레임워크는 개발자가 입력 텍스트 설명을 기반으로 사실적인 이미지를 생성하는 데 사용하는 인기 있고 강력한 확산 기반 생성 프레임워크입니다. 이러한 기능 덕분에 Stable Diffusion 프레임워크는 이미지 아웃페인팅, 이미지 인페인팅 및 이미지-이미지 변환을 포함한 광범위한 애플리케이션을 자랑합니다. Stable Diffusion Web UI(SD-WebUI)는 이 프레임워크의 가장 유명하고 잘 알려진 애플리케이션 중 하나로 돋보입니다. Gradio 라이브러리를 기반으로 구축된 브라우저 인터페이스를 갖추고 있어 Stable Diffusion 모델을 위한 대화형 및 사용자 친화적인 인터페이스를 제공합니다. 이미지 생성의 제어 및 유용성을 더욱 향상시키기 위해 SD-WebUI는 수많은 Stable Diffusion 애플리케이션을 통합합니다.

SD-WebUI 프레임워크가 제공하는 편리함으로 인해 EasyPhoto 프레임워크 개발자는 이를 완전한 애플리케이션이 아닌 웹 플러그인으로 만들기로 결정했습니다. 종종 ID 상실로 어려움을 겪거나 이미지에 비현실적인 특징을 도입하는 기존 방법과 달리 EasyPhoto 프레임워크는 Stable Diffusion 모델의 이미지 간 기능을 활용하여 정확하고 사실적인 이미지를 생성합니다. 사용자는 WebUI 내의 확장 기능으로 EasyPhoto 프레임워크를 쉽게 설치할 수 있어 더 광범위한 사용자에 대한 사용자 친화성과 접근성이 향상됩니다. EasyPhoto 프레임워크를 통해 사용자는 신원 기반의 고품질 사진을 생성할 수 있습니다. 현실적인 AI 초상화 입력 ID와 매우 유사합니다.

첫째, EasyPhoto 프레임워크는 얼굴 LoRA 또는 낮은 순위 적응 모델을 온라인으로 훈련하기 위해 몇 개의 이미지를 업로드하여 디지털 도플갱어를 생성하도록 사용자에게 요청합니다. LoRA 프레임워크는 하위 적응 기술을 사용하여 확산 모델을 신속하게 미세 조정합니다. 이 과정을 통해 기반 모델은 특정 사용자의 ID 정보를 이해할 수 있습니다. 그런 다음 훈련된 모델은 간섭을 위해 기준 안정 확산 모델에 병합 및 통합됩니다. 또한 간섭 과정에서 모델은 간섭 템플릿의 얼굴 영역을 다시 칠하기 위해 안정적인 확산 모델을 사용하고 다양한 ControlNet 장치를 사용하여 입력 이미지와 출력 이미지 간의 유사성을 검증합니다.

EasyPhoto 프레임워크는 또한 경계 아티팩트 및 ID 손실과 같은 잠재적인 문제를 해결하기 위해 XNUMX단계 확산 프로세스를 배포하여 생성된 이미지가 사용자의 ID를 유지하면서 시각적 불일치를 최소화하도록 보장합니다. 또한 EasyPhoto 프레임워크의 간섭 파이프라인은 인물 사진 생성에만 국한되지 않고 사용자 ID와 관련된 모든 것을 생성하는 데에도 사용할 수 있습니다. 이는 일단 훈련을 하면 LoRA 모델 특정 ID에 대해 다양한 AI 사진을 생성할 수 있어 가상 체험 등 폭넓은 활용이 가능합니다.

요약하자면, EasyPhoto 프레임워크

생성된 이미지의 얼굴 충실도를 유지하기 위해 여러 LoRA 모델을 통합하여 LoRA 모델을 훈련하는 새로운 접근 방식을 제안합니다.
다양한 강화 학습 방법을 사용하여 얼굴 신원 보상을 위한 LoRA 모델을 최적화합니다. 이는 학습 이미지와 생성된 결과 간의 신원 유사성을 향상시키는 데 더욱 도움이 됩니다.
높은 심미성과 유사성을 갖춘 AI 사진 생성을 목표로 하는 이중 단계 인페인트 기반 확산 프로세스를 제안합니다.

EasyPhoto : 아키텍처 및 교육

다음 그림은 EasyPhoto AI 프레임워크의 훈련 과정을 보여줍니다.

보시다시피 프레임워크는 먼저 사용자에게 훈련 이미지를 입력하도록 요청한 다음 얼굴 감지를 수행하여 얼굴 위치를 감지합니다. 프레임워크가 얼굴을 감지하면 얼굴 영역에만 초점을 맞춘 사전 정의된 특정 비율을 사용하여 입력 이미지를 자릅니다. 그런 다음 프레임워크는 피부 미화 및 돌출 감지 모델을 배포하여 깨끗하고 깨끗한 얼굴 훈련 이미지를 얻습니다. 이 두 모델은 얼굴의 시각적 품질을 향상시키는 데 중요한 역할을 하며, 배경 정보가 제거되고 훈련 이미지에 주로 얼굴이 포함되도록 보장합니다. 마지막으로 프레임워크는 이러한 처리된 이미지와 입력 프롬프트를 사용하여 LoRA 모델을 훈련함으로써 사용자별 얼굴 특성을 보다 효과적이고 정확하게 이해할 수 있는 능력을 갖추게 됩니다.

또한 훈련 단계 동안 프레임워크에는 사용자 입력 이미지와 훈련된 LoRA 모델에 의해 생성된 확인 이미지 사이의 얼굴 ID 차이를 계산하는 중요한 검증 단계가 포함됩니다. 검증 단계는 LoRA 모델의 융합을 달성하고 궁극적으로 훈련된 LoRA 프레임워크 도플갱어, 즉 사용자의 정확한 디지털 표현으로 변환됩니다. 또한, 최적의 Face_id 점수를 갖는 검증 이미지를 Face_id 이미지로 선택하고, 이 Face_id 이미지를 사용하여 간섭 생성의 신원 유사성을 향상시킵니다.

앙상블 프로세스를 기반으로 프레임워크는 우도 추정이 주요 목표인 LoRA 모델을 훈련하는 반면, 얼굴 신원 유사성을 유지하는 것은 다운스트림 목표입니다. 이 문제를 해결하기 위해 EasyPhoto 프레임워크는 강화 학습 기술을 사용하여 다운스트림 목표를 직접 최적화합니다. 결과적으로 LoRA 모델이 학습하는 얼굴 특징은 템플릿 생성 결과 간의 유사성을 향상시키는 개선을 보여주고 템플릿 전반에 걸친 일반화도 보여줍니다.

간섭 과정

다음 그림은 EasyPhoto 프레임워크에서 개별 사용자 ID에 대한 간섭 프로세스를 보여주며 세 부분으로 나뉩니다.

얼굴 전처리 ControlNet 참조 및 전처리된 입력 이미지를 얻기 위한 것입니다.

첫 번째 확산 이는 사용자 입력과 유사한 대략적인 결과를 생성하는 데 도움이 됩니다.

두 번째 확산 경계 아티팩트를 수정하여 이미지를 더 정확하고 사실적으로 보이게 만듭니다.

입력을 위해 프레임워크는 Face_id 이미지(최적의 Face_id 점수를 사용하여 훈련 검증 중에 생성됨)와 간섭 템플릿을 사용합니다. 출력은 사용자의 매우 상세하고 정확하며 사실적인 초상화이며, 추론 템플릿을 기반으로 사용자의 정체성 및 고유한 외모와 매우 유사합니다. 이러한 프로세스를 자세히 살펴보겠습니다.

얼굴 전처리

의식적인 추론 없이 간섭 템플릿을 기반으로 AI 초상화를 생성하는 방법은 SD 모델을 사용하여 간섭 템플릿의 얼굴 영역을 인페인팅하는 것입니다. 또한 ControlNet 프레임워크를 프로세스에 추가하면 사용자 신원 보존이 향상될 뿐만 아니라 생성된 이미지 간의 유사성도 향상됩니다. 그러나 지역적 인페인팅에 ControlNet을 직접 사용하면 다음과 같은 잠재적인 문제가 발생할 수 있습니다.

입력과 생성된 이미지 간의 불일치: 템플릿 이미지의 핵심 포인트가 Face_id 이미지의 핵심 포인트와 호환되지 않는 것이 분명하므로 Face_id 이미지를 참조로 ControlNet을 사용하면 출력에 일부 불일치가 발생할 수 있습니다.

Inpaint 영역의 결함: 영역을 마스킹한 다음 새 면으로 인페인팅하면 특히 생성된 이미지의 신뢰성에 영향을 미칠 뿐만 아니라 이미지의 사실성에 부정적인 영향을 미치는 인페인트 경계를 따라 눈에 띄는 결함이 발생할 수 있습니다.
Control Net에 의한 신원 상실: 교육 프로세스에서는 ControlNet 프레임워크를 활용하지 않으므로 간섭 단계에서 ControlNet을 사용하면 입력 사용자 ID ID를 유지하는 교육된 LoRA 모델의 기능에 영향을 미칠 수 있습니다.

위에서 언급한 문제를 해결하기 위해 EasyPhoto 프레임워크는 세 가지 절차를 제안합니다.

정렬 및 붙여넣기: EasyPhoto 프레임워크는 얼굴 붙여넣기 알고리즘을 사용하여 얼굴 ID와 템플릿 간의 얼굴 랜드마크 간 불일치 문제를 해결하는 것을 목표로 합니다. 먼저 모델은 얼굴 ID와 템플릿 이미지의 얼굴 랜드마크를 계산한 후 템플릿 이미지의 얼굴 랜드마크를 Face_ID 이미지와 정렬하는 데 사용할 아핀 변환 행렬을 결정합니다. 결과 이미지는 Face_id 이미지와 동일한 랜드마크를 유지하며 템플릿 이미지와도 정렬됩니다.

얼굴 퓨즈: Face Fuse는 마스크 인페인팅의 결과인 경계 아티팩트를 수정하는 데 사용되는 새로운 접근 방식으로 ControlNet 프레임워크를 사용하여 아티팩트를 수정합니다. 이 방법을 사용하면 EasyPhoto 프레임워크가 조화로운 가장자리를 보존하여 궁극적으로 이미지 생성 프로세스를 안내할 수 있습니다. 얼굴 융합 알고리즘은 루프(지상 사용자 이미지) 이미지와 템플릿을 추가로 융합하여 결과 융합 이미지가 가장자리 경계의 더 나은 안정화를 나타낼 수 있도록 하며, 이는 첫 번째 확산 단계에서 향상된 출력으로 이어집니다.
ControlNet 안내 검증: LoRA 모델은 ControlNet 프레임워크를 사용하여 훈련되지 않았기 때문에 추론 프로세스 중에 이를 사용하면 ID를 보존하는 LoRA 모델의 기능에 영향을 미칠 수 있습니다. EasyPhoto의 일반화 기능을 향상시키기 위해 프레임워크는 ControlNet 프레임워크의 영향을 고려하고 다양한 단계의 LoRA 모델을 통합합니다.

첫 번째 확산

첫 번째 확산 단계에서는 템플릿 이미지를 사용하여 입력된 사용자 ID와 유사한 고유 ID를 가진 이미지를 생성합니다. 입력 이미지는 사용자 입력 이미지와 템플릿 이미지를 융합한 것이며, 보정된 안면 마스크는 입력 마스크입니다. 이미지 생성에 대한 제어를 더욱 향상시키기 위해 EasyPhoto 프레임워크는 XNUMX개의 ControlNet 장치를 통합합니다. 여기서 첫 번째 ControlNet 장치는 융합된 이미지 제어에 초점을 맞추고 두 번째 ControlNet 장치는 융합된 이미지의 색상을 제어하며 마지막 ControlNet 장치는 openpose입니다. (실시간 다인체 인간 포즈 제어) 템플릿 이미지의 얼굴 구조뿐만 아니라 사용자의 얼굴 아이덴티티도 포함하는 대체 이미지.

두 번째 확산

두 번째 확산 단계에서는 얼굴 경계 근처의 아티팩트를 정제하고 미세 조정하며 사용자에게 해당 전용 영역 내에서 생성 효율성을 높이기 위해 이미지의 특정 영역을 마스킹할 수 있는 유연성을 제공합니다. 이 단계에서 프레임워크는 첫 번째 확산 단계에서 얻은 출력 이미지를 루프 이미지 또는 사용자 이미지의 결과와 융합하여 두 번째 확산 단계에 대한 입력 이미지를 생성합니다. 전반적으로 두 번째 확산 단계는 생성된 이미지의 전반적인 품질과 디테일을 향상시키는 데 중요한 역할을 합니다.

다중 사용자 ID

EasyPhoto의 주요 특징 중 하나는 다중 사용자 ID 생성을 지원하는 것입니다. 아래 그림은 EasyPhoto 프레임워크에서 다중 사용자 ID에 대한 간섭 프로세스의 파이프라인을 보여줍니다.

다중 사용자 ID 생성을 지원하기 위해 EasyPhoto 프레임워크는 먼저 간섭 템플릿에서 얼굴 감지를 수행합니다. 그런 다음 이러한 간섭 템플릿은 수많은 마스크로 분할됩니다. 각 마스크에는 하나의 얼굴만 포함되고 나머지 이미지는 흰색으로 마스크되므로 다중 사용자 ID 생성이 개별 사용자 ID를 생성하는 간단한 작업으로 분리됩니다. 프레임워크가 사용자 ID 이미지를 생성하면 이러한 이미지가 추론 템플릿에 병합되므로 템플릿 이미지와 생성된 이미지의 원활한 통합이 촉진되어 궁극적으로 고품질 이미지가 생성됩니다.

실험 및 결과

이제 EasyPhoto 프레임워크를 이해했으므로 이제 EasyPhoto 프레임워크의 성능을 살펴보겠습니다.

위 이미지는 EasyPhoto 플러그인에 의해 생성되었으며, 이미지 생성을 위해 스타일 기반 SD 모델을 사용합니다. 관찰할 수 있듯이 생성된 이미지는 사실적으로 보이고 매우 정확합니다.

위에 추가된 이미지는 코믹 스타일 기반 SD 모델을 사용하여 EasyPhoto 프레임워크에 의해 생성되었습니다. 볼 수 있듯이 만화 사진과 사실적인 사진은 매우 사실적으로 보이며 사용자 프롬프트나 요구 사항에 따라 입력 이미지와 매우 유사합니다.

아래에 추가된 이미지는 Multi-Person 템플릿을 사용하여 EasyPhoto 프레임워크에서 생성되었습니다. 명확하게 볼 수 있듯이 생성된 이미지는 선명하고 정확하며 원본 이미지와 유사합니다.

EasyPhoto의 도움으로 사용자는 이제 다양한 AI 초상화를 생성하거나, 보존된 템플릿을 사용하여 여러 사용자 ID를 생성하거나, SD 모델을 사용하여 추론 템플릿을 생성할 수 있습니다. 위에 추가된 이미지는 다양하고 고품질의 AI 사진을 생성하는 EasyPhoto 프레임워크의 기능을 보여줍니다.

결론

이번 글에서는 EasyPhoto에 대해 알아봤습니다. 새로운 WebUI 플러그인 최종 사용자가 AI 초상화 및 이미지를 생성할 수 있습니다. EasyPhoto WebUI 플러그인은 임의의 템플릿을 사용하여 AI 인물 사진을 생성하며 EasyPhoto WebUI의 현재 의미는 다양한 사진 스타일과 다양한 수정을 지원합니다. 또한 EasyPhoto의 기능을 더욱 향상시키기 위해 사용자는 SDXL 모델을 사용하여 이미지를 생성하여 보다 만족스럽고 정확하며 다양한 이미지를 생성할 수 있는 유연성을 갖게 되었습니다. EasyPhoto 프레임워크는 고품질 이미지 출력을 생성하는 사전 훈련된 LoRA 모델과 결합된 안정적인 확산 기반 모델을 활용합니다.

이미지 생성기에 관심이 있으십니까? 우리는 또한 목록을 제공합니다 최고의 AI 얼굴 사진 생성기 그리고 최고의 AI 이미지 생성기 사용하기 쉽고 기술적 전문 지식이 필요하지 않습니다.

Unite.AI

EasyPhoto: 개인용 AI 사진 생성기

인공 지능

EasyPhoto: 개인용 AI 사진 생성기

차례

EasyPhoto 및 Stable Diffusion 소개

EasyPhoto : 아키텍처 및 교육