인공지능

Paint3D: 이미지 생성을 위한 라이트닝리스 확산 모델

게시일 2024년 7월 15일

업데이트일 2026년 5월 21일

작성자

Kunal Kejriwal

딥 생성 모델의 발전은 자연어 생성, 3D 생성, 이미지 생성, 음성 합성을 포함한 인공지능의 놀라운 능력을 크게 가속화했습니다. 3D 생성 모델은 여러 산업과 응용 분야를 변革하며 현재 3D 생산 풍경을 혁신적으로 바꾸어 놓았습니다. 그러나 많은 현재의 딥 생성 모델은 복잡한 와이어링과 생성된 메시가 전통적인 렌더링 파이프라인과 호환되지 않는다는 공통의 장애물에 직면합니다. 확산 기반 모델은 라이트닝 텍스처가 없는 3D 자산을 생성하는 놀라운 능력을 가지고 있으며, 영화制作, 게임, 증강/가상 현실과 같은 산업에서 기존의 3D 프레임워크를 강화하는 등 다양한 3D 자산 생성에 기여합니다.

이 기사에서 우리는 Paint3D에 대해 논의할 것입니다. Paint3D는 시각적 또는 텍스트 입력에 조건부로 untexured 3D 메시에 대한 다양한 고해상도 2K UV 텍스처 맵을 생성할 수 있는 새로운 粗糙한 프레임워크입니다. Paint3D가 해결하는 주요 도전은 조명 정보를 포함하지 않는 고품질의 텍스처를 생성하는 것입니다. 이를 위해 Paint3D 프레임워크는 사전 훈련된 2D 확산 모델을 사용하여 다중 뷰 텍스처를 융합하고 조건부 이미지를 생성하여 초기 텍스처 맵을 생성합니다. 그러나 2D 모델은 조명 효과를 완전히 비활성화하거나 3D 모양을 완전히 표현할 수 없으므로 텍스처 맵에는 조명 아티팩트와 불완전한 영역이 나타날 수 있습니다.

이 기사에서 우리는 Paint3D 프레임워크를 심도 있게 살펴보고, 작동 방식과 아키텍처를 조사하며, 최신의 딥 생성 프레임워크와 비교해 보겠습니다. 그러면 시작해 보겠습니다.

Paint3D: 소개

딥 생성 모델은 자연어 생성, 3D 생성, 이미지 생성 등에서 놀라운 능력을 보여주었으며, 실제 응용 분야에서 구현되어 3D 생성 산업을 혁신적으로 바꾸어 놓았습니다. 그러나 이러한 모델은 복잡한 와이어링과 조명 텍스처를 가진 메시를 생성하는 경향이 있으며, 이는 Physically Based Rendering(PBR)와 같은 전통적인 렌더링 파이프라인과 호환되지 않습니다. 텍스처 합성 또한 2D 확산 모델의 사용으로 빠르게 발전하고 있습니다. 이러한 모델은 사전 훈련된 깊이-이미지 확산 모델과 텍스트 조건을 사용하여 고품질의 텍스처를 생성하는 데 효과적으로 사용됩니다. 그러나 조명된 텍스처는 최종 3D 환경 렌더링에 부정적인 영향을 미칠 수 있으며, 조명을 조정할 때 렌더링 파이프라인에서 오류를 발생시킵니다.

観察 결과, 조명되지 않은 텍스처 맵은 전통적인 렌더링 파이프라인과 원활하게 작동하는 반면, 조명된 텍스처 맵은 조명을 조정할 때 부적절한 그림자를 포함합니다. 3D 데이터에 훈련된 텍스처 생성 프레임워크는 특정 3D 객체의 전체 기하학을 이해하여 텍스처를 생성하는 대체 접근 방식을 제공합니다. 이러한 프레임워크는 더好的 결과를 제공할 수 있지만, 훈련 데이터 외의 3D 객체에 모델을 적용하는 데 필요한 일반화 능력이 부족합니다.

현재의 텍스처 생성 모델은 두 가지 중요한 도전을 직면합니다. 첫째, 이미지 지침 또는 다양한 프롬프트를 사용하여 다양한 객체에 걸쳐 광범위한 일반화를 달성하는 것입니다. 둘째, 사전 훈련 결과에서 결합된 조명을 제거하는 것입니다. 조명된 텍스처는 렌더링 엔진 내에서 텍스처된 객체의 최종 결과에 간섭할 수 있습니다. 또한, 사전 훈련된 2D 확산 모델은 2D 결과만을 제공하며, 3D 모양에 대한 포괄적인 이해가 부족하여 3D 객체의 뷰 일관성을 유지하는 데 불일치가 발생할 수 있습니다.

이러한 도전을 해결하기 위해 Paint3D 프레임워크는 3D 객체를 위한 이중 단계 텍스처 확산 모델을 개발했습니다. 이 모델은 다양한 사전 훈련된 생성 모델에 걸쳐 일반화되며, 뷰 일관성을 유지하면서 조명없는 텍스처를 생성합니다.

Paint3D는 이중 단계의 粗糙한 텍스처 생성 모델로, 사전 훈련된 생성 모델의 강력한 프롬프트 지침과 이미지 생성 능력을 활용하여 3D 객체를 텍스처화합니다. 첫 번째 단계에서 Paint3D는 사전 훈련된 깊이-이미지 확산 모델을 사용하여 다중 뷰 이미지를 샘플링하고, 초기 텍스처 맵을 생성하기 위해 3D 메시 표면에 백프로젝션합니다. 두 번째 단계에서 모델은 조명없는 텍스처를 생성하기 위해 확산 모델이 조명 영향을 제거하고 형태 인식 불완전한 영역을 tinh chỉnh하는 접근 방식을 구현합니다. 전체 과정에서 Paint3D 프레임워크는 내재된 조명 효과를 제거하면서 고품질의 2K 텍스처를 생성합니다.

요약하면, Paint3D는 다양한 조건 입력(이미지 및 텍스트)을 사용하여 untexured 3D 메시에 대한 다양한 조명없는 고해상도 2K UV 텍스처 맵을 생성할 수 있는 새로운 粗糙한 생성 모델입니다. 이는 3D 객체를 텍스처화하는 데 있어 최신의 딥 생성 프레임워크와 비교하여 우수한 성능을 제공합니다.

메서드와 아키텍처

Paint3D 프레임워크는 조건부 입력(이미지 및 프롬프트)을 사용하여 3D 모델에 대한 다양한 고품질의 텍스처를 생성하기 위해 텍스처 맵을 생성하고 tinh chỉnh합니다.

1단계: 粗糙한 텍스처 생성

粗糙한 텍스처 생성의 첫 번째 단계에서 Paint3D는 사전 훈련된 2D 이미지 확산 모델을 사용하여 다중 뷰 이미지를 샘플링하고, 초기 텍스처 맵을 생성하기 위해 3D 메시 표면에 백프로젝션합니다. 이 단계는 다양한 카메라 뷰에서 깊이 맵을 생성하여 시작합니다. 모델은 깊이 조건을 사용하여 확산 모델에서 이미지를 샘플링하고, 3D 메시 표면에 백프로젝션합니다. 이 대체 렌더링, 샘플링, 백프로젝션 접근 방식은 텍스처 메시의 일관성을 향상시키고, 텍스처 맵을渐進적으로 생성하는 데 도움이 됩니다.

이 프로세스는 3D 메시의 가시적 영역에서 시작하여, 첫 번째 카메라 뷰에서 텍스처를 생성하기 위해 3D 메시를 깊이 맵으로 렌더링합니다. 모델은 외관과 깊이 조건을 사용하여 이미지를 샘플링하고, 메시에 백프로젝션합니다. 이 방법은 후속 뷰포인트에 대해 반복되며, 이전 텍스처를 포함하여 깊이 이미지와 부분적으로 색칠된 RGB 이미지를 렌더링합니다. 모델은 깊이 인식 이미지 인페인팅 인코더를 사용하여 색칠되지 않은 영역을 채웁니다. 이를 통해 완전한 粗糙한 텍스처 맵을 생성하기 위해 인페인팅된 이미지를 3D 메시에 백프로젝션합니다.

더 복잡한 장면이나 객체의 경우, 모델은 여러 뷰를 사용합니다. 처음에, 두 개의 대칭 뷰포인트에서 두 개의 깊이 맵을 캡처하고, 이를 다중 뷰 깊이 인식 텍스처 샘플링을 위한 깊이 그리드로 결합합니다.

2단계: UV 공간에서의 텍스처 tinh chỉnh

粗糙한 텍스처 맵을 생성에도 불구하고, 렌더링 프로세스에서 발생하는 텍스처 구멍과 2D 이미지 확산 모델에서 발생하는 조명 그림자와 같은 도전이 있습니다. 이를 해결하기 위해 Paint3D는 UV 공간에서 확산 프로세스를 수행하여 시각적 매력을 향상시키고, 이슈를 해결합니다.

그러나 UV 공간에서 텍스처 맵을 tinh chỉnh하면, 연속적인 텍스처를 개별 조각으로 분할하여 불연속성이 발생할 수 있습니다. 이를 완화하기 위해 Paint3D는 텍스처 조각의 인접 정보를 사용하여 tinh chỉnh을 수행합니다. UV 공간에서 위치 맵은 텍스처 조각의 3D 인접 정보를 나타내며, 각 비백그라운드 요소를 3D 점 좌표로 처리합니다. 모델은 ControlNet과 유사한 위치 맵 인코더를 사용하여 확산 프로세스 동안 이 인접 정보를 통합합니다.

모델은 조건부 인코더와 다른 인코더의 위치를同時에 사용하여 UV 공간에서 tinh chỉnh 작업을 수행하며, 두 가지 능력을 제공합니다. 첫째, UVHD(UV 고해상도)는 이미지 향상 인코더와 위치 인코더를 사용하여 시각적 매력을 향상시키고, 둘째, UV 인페인팅은 텍스처 구멍을 채워서 렌더링에서 발생하는 자체 오clusion 문제를 피합니다. tinh chỉnh 단계는 UV 인페인팅으로 시작하여 UVHD로 최종 tinh chỉnh된 텍스처 맵을 생성합니다.

이러한 tinh chỉnh 방법을 통합함으로써 Paint3D 프레임워크는 완전한, 다양한, 고해상도, 조명없는 UV 텍스처 맵을 생성하며, 3D 객체를 텍스처화하는 데 강력한 솔루션을 제공합니다.

Paint3D: 실험 및 결과

Paint3D 모델은 Stable Diffusion text2image 모델을 사용하여 텍스처 생성 작업을 지원하며, 이미지 인코더 구성 요소는 이미지 조건을 관리합니다. 조건부 작업을 제어하기 위해 Paint3D 프레임워크는 ControlNet 도메인 인코더를 사용합니다. 모델은 PyTorch 프레임워크에서 구현되며, 렌더링 및 텍스처 프로젝션은 Kaolin에서 실행됩니다.

텍스트에서 텍스처 비교

Paint3D의 성능을 평가하기 위해, 우리는 먼저 텍스처 생성에서 텍스트 프롬프트에 대한 조건을 분석하며, 이를 최신의 프레임워크와 비교합니다. 다음 이미지는 Paint3D 프레임워크가 고품질의 텍스처 세부 사항을 생성하고, 조명없는 텍스처 맵을 효과적으로 합성하는 것을 보여줍니다.

Stable Diffusion과 ControlNet 인코더의 강력한 능력을 활용하여 Paint3D는 텍스처 품질과 다양성에서 우수한 성능을 제공합니다. 비교는 Paint3D가 조명없는 고해상도 텍스처를 생성하는 능력을 강조하며, 3D 텍스처화 작업을 위한 선도적인 솔루션으로 자리매김합니다.

비교 결과, Latent-Paint 프레임워크는模糊한 텍스처를 생성하는 경향이 있으며, 이는 시각적 효과에 부정적인 영향을 미칩니다. 반면, TEXTure 프레임워크는 명확한 텍스처를 생성하지만, 매끄럽지 못하며, 뷰의 일관성이 부족합니다. 또한, Text2Tex 프레임워크는 매끄러운 텍스처를 생성하는 데에는 뛰어난 성능을 보이지만, 세부적인 텍스처를 생성하는 데에는 제한이 있습니다.

이미지에서 볼 수 있듯이, Paint3D 프레임워크는 기존 모델을 크게 능가하며, FID 기준선에서 약 30%의 향상과 KID 기준선에서 약 40%의 향상을 보여줍니다. 이러한 향상은 Paint3D가 다양한 객체와 범주에서 고품질의 텍스처를 생성하는 능력을 강조합니다.

이미지에서 텍스처 비교

Paint3D의 생성 능력을 시각적 프롬프트를 사용하여 평가하기 위해, 우리는 TEXTure 모델을 기준선으로 사용합니다. 앞서 언급한대로, Paint3D 모델은 Stable Diffusion의 text2image 모델에서 가져온 이미지 인코더를 사용합니다. 다음 이미지는 Paint3D 프레임워크가 텍스처를 생성하는 능력을 보여줍니다.

반면, TEXTure 프레임워크는 Paint3D와 유사한 텍스처를 생성하지만, 이미지 조건의 텍스처 세부 사항을 정확하게 표현하는 데에는 한계가 있습니다. 또한, 다음 이미지는 Paint3D 프레임워크가 TEXTure 프레임워크와 비교하여 FID 및 KID 기준선에서 더好的 성능을 보여줍니다.

최종 생각

이 기사에서 우리는 Paint3D에 대해 논의했습니다. Paint3D는 시각적 또는 텍스트 입력에 조건부로 untexured 3D 메시에 대한 다양한 조명없는 고해상도 2K UV 텍스처 맵을 생성할 수 있는 새로운 粗糙한 프레임워크입니다. Paint3D의 주요 강점은 조명없는 고해상도 2K UV 텍스처를 생성하는 능력이며, 이는 최신의 딥 생성 프레임워크와 비교하여 우수한 성능을 제공합니다.