Kết nối với chúng tôi

Paint3D: Mô hình khuếch tán ít ánh sáng để tạo hình ảnh

Trí tuệ nhân tạo

Paint3D: Mô hình khuếch tán ít ánh sáng để tạo hình ảnh

mm

Sự phát triển nhanh chóng của các mô hình AI Generative, đặc biệt là các mô hình AI Generative sâu, đã nâng cao đáng kể các khả năng về tạo ngôn ngữ tự nhiên, tạo 3D, tạo hình ảnh và tổng hợp giọng nói. Những mô hình này đã cách mạng hóa việc sản xuất 3D trong nhiều ngành công nghiệp khác nhau. Tuy nhiên, nhiều người phải đối mặt với một thách thức: hệ thống dây điện phức tạp và các mắt lưới được tạo ra thường không tương thích với các quy trình kết xuất truyền thống như Kết xuất dựa trên vật lý (PBR). Các mô hình dựa trên sự khuếch tán, đặc biệt là không có kết cấu chiếu sáng, thể hiện khả năng tạo nội dung 3D đa dạng đầy ấn tượng, nâng cao khung 3D trong làm phim, chơi game và AR/VR.

Bài viết này giới thiệu Paint3D, một framework mới để tạo ra các bản đồ kết cấu UV 2K đa dạng, có độ phân giải cao cho các lưới 3D không có kết cấu, dựa trên đầu vào hình ảnh hoặc văn bản. Thách thức chính của Paint3D là tạo ra kết cấu chất lượng cao mà không cần chiếu sáng nhúng, cho phép người dùng chỉnh sửa lại hoặc chiếu sáng lại trong quy trình đồ họa hiện đại. Nó sử dụng mô hình khuếch tán 2D được đào tạo trước để kết hợp kết cấu nhiều chế độ xem, tạo ra các bản đồ kết cấu thô ban đầu. Tuy nhiên, những bản đồ này thường hiển thị các tạo tác chiếu sáng và các khu vực chưa hoàn chỉnh do hạn chế của mô hình 2D trong việc tắt hiệu ứng ánh sáng và thể hiện đầy đủ các hình dạng 3D. Chúng ta sẽ đi sâu vào hoạt động, kiến ​​trúc và so sánh của Paint3D với các framework có khả năng tạo sâu khác. Hãy bắt đầu nào.

Paint3D: Giới thiệu

Khả năng của các mô hình Deep Generative AI trong các nhiệm vụ tạo ngôn ngữ tự nhiên, tạo 3D và tổng hợp hình ảnh đã được biết đến và triển khai trong các ứng dụng thực tế, cách mạng hóa ngành công nghiệp tạo 3D. Mặc dù có khả năng vượt trội, sâu hiện đại trí tuệ nhân tạo các khung tạo ra các mắt lưới được đặc trưng bởi hệ thống dây điện phức tạp và kết cấu ánh sáng hỗn loạn thường không tương thích với các quy trình kết xuất thông thường bao gồm PBR hoặc Kết xuất dựa trên vật lý. Giống như các mô hình AI tạo sâu, tổng hợp kết cấu cũng phát triển nhanh chóng, đặc biệt là trong việc sử dụng các mô hình khuếch tán 2D. Các mô hình tổng hợp kết cấu sử dụng độ sâu trên hình ảnh được đào tạo trước mô hình khuếch tán sử dụng hiệu quả các điều kiện văn bản để tạo ra kết cấu chất lượng cao. Tuy nhiên, các phương pháp này gặp phải vấn đề với kết cấu được chiếu sáng trước có thể tác động đáng kể đến kết xuất môi trường 3D cuối cùng và gây ra lỗi ánh sáng khi thay đổi đèn trong quy trình công việc chung như minh họa trong hình ảnh sau đây. 

Như có thể quan sát, bản đồ kết cấu với độ chiếu sáng tự do hoạt động đồng bộ với các quy trình kết xuất truyền thống mang lại kết quả chính xác trong khi bản đồ kết cấu có chiếu sáng trước bao gồm các bóng không phù hợp khi áp dụng ánh sáng lại. Mặt khác, các khung tạo kết cấu được đào tạo trên dữ liệu 3D đưa ra một cách tiếp cận khác trong đó khung tạo ra các kết cấu bằng cách hiểu toàn bộ hình học của một đối tượng 3D cụ thể. Mặc dù chúng có thể mang lại kết quả tốt hơn, nhưng các khung tạo kết cấu được đào tạo trên dữ liệu 3D thiếu khả năng khái quát hóa, cản trở khả năng áp dụng mô hình cho các đối tượng 3D bên ngoài dữ liệu đào tạo của chúng. 

Các mô hình tạo kết cấu hiện tại phải đối mặt với hai thách thức quan trọng: sử dụng hướng dẫn bằng hình ảnh hoặc các lời nhắc đa dạng để đạt được mức độ khái quát rộng hơn trên các đối tượng khác nhau và thách thức thứ hai là loại bỏ ánh sáng kết hợp trên các kết quả thu được từ quá trình đào tạo trước. Các kết cấu được chiếu sáng trước có thể có khả năng can thiệp vào kết quả cuối cùng của các đối tượng có kết cấu trong công cụ kết xuất và do các mô hình khuếch tán 2D được đào tạo trước chỉ cung cấp kết quả 2D trong miền xem nên chúng thiếu hiểu biết toàn diện về hình dạng dẫn đến chúng không thể để duy trì tính nhất quán của chế độ xem cho các đối tượng 3D. 

Do những thách thức được đề cập ở trên, khung Paint3D cố gắng phát triển mô hình khuếch tán kết cấu hai giai đoạn cho các đối tượng 3D tổng quát hóa cho các mô hình tổng quát được đào tạo trước khác nhau và duy trì tính nhất quán của chế độ xem trong khi học cách tạo kết cấu ít chớp nhoáng hơn. 

Paint3D là mô hình tạo kết cấu từ thô đến mịn hai giai đoạn nhằm mục đích tận dụng khả năng hướng dẫn nhanh chóng và tạo hình ảnh của các thiết bị được đào tạo trước. trí tuệ nhân tạo mô hình để kết cấu các đối tượng 3D. Trong giai đoạn đầu tiên, khung Paint3D lần đầu tiên lấy mẫu các hình ảnh nhiều chế độ xem từ mô hình khuếch tán hình ảnh 2D nhận biết độ sâu được đào tạo trước dần dần để cho phép khái quát hóa các kết quả kết cấu phong phú và chất lượng cao từ các lời nhắc khác nhau. Sau đó, mô hình tạo ra bản đồ kết cấu ban đầu bằng cách chiếu ngược những hình ảnh này lên bề mặt lưới 3D. Trong giai đoạn thứ hai, mô hình tập trung vào việc tạo ra các kết cấu không có ánh sáng bằng cách triển khai các phương pháp tiếp cận được sử dụng bởi các mô hình khuếch tán chuyên loại bỏ ảnh hưởng của ánh sáng và tinh chỉnh nhận dạng hình dạng của các vùng không hoàn chỉnh. Trong suốt quá trình, khung Paint3D luôn có thể tạo ra kết cấu 2K chất lượng cao về mặt ngữ nghĩa và loại bỏ các hiệu ứng chiếu sáng nội tại. 

Tóm lại, Paint3D là một mô hình AI có khả năng tạo ra từ thô đến mịn mới nhằm mục đích tạo ra các bản đồ kết cấu UV 2K đa dạng, ít ánh sáng và có độ phân giải cao cho các lưới 3D không có kết cấu để đạt được hiệu suất hiện đại trong việc tạo kết cấu các vật thể 3D với các điều kiện khác nhau đầu vào bao gồm văn bản và hình ảnh, đồng thời mang lại lợi thế đáng kể cho các tác vụ tổng hợp và chỉnh sửa đồ họa. 

Phương pháp và kiến ​​trúc

Khung Paint3D tạo và tinh chỉnh dần dần các bản đồ kết cấu để tạo ra các bản đồ kết cấu đa dạng và chất lượng cao cho mô hình 3D bằng cách sử dụng các đầu vào có điều kiện mong muốn bao gồm hình ảnh và lời nhắc, như minh họa trong hình ảnh sau. 

Ở giai đoạn thô, mô hình Paint3D sử dụng các mô hình khuếch tán hình ảnh 2D được đào tạo trước để lấy mẫu hình ảnh nhiều chế độ xem, sau đó tạo bản đồ kết cấu ban đầu chiếu ngược những hình ảnh này lên bề mặt của lưới. Ở giai đoạn thứ hai, tức là giai đoạn sàng lọc, mô hình Paint3D sử dụng quy trình khuếch tán trong không gian UV để nâng cao bản đồ kết cấu thô, do đó đạt được chức năng chất lượng cao, không cần sơn và không có ánh sáng để đảm bảo sự hấp dẫn trực quan và tính hoàn chỉnh của kết cấu cuối cùng . 

Giai đoạn 1: Tạo kết cấu thô lũy tiến

Trong giai đoạn tạo kết cấu thô lũy tiến, mô hình Paint3D tạo bản đồ kết cấu UV thô cho các lưới 3D sử dụng mô hình khuếch tán 2D nhận biết độ sâu được đào tạo trước. Cụ thể hơn, trước tiên, mô hình sử dụng các chế độ xem camera khác nhau để hiển thị bản đồ độ sâu, sau đó sử dụng các điều kiện độ sâu để lấy mẫu hình ảnh từ mô hình khuếch tán hình ảnh, sau đó chiếu lại những hình ảnh này lên bề mặt lưới. Khung này thực hiện luân phiên các phương pháp kết xuất, lấy mẫu và chiếu ngược để cải thiện tính nhất quán của các lưới kết cấu, điều này cuối cùng giúp tạo ra bản đồ kết cấu tiến bộ. 

Mô hình bắt đầu tạo kết cấu của vùng hiển thị với các chế độ xem camera tập trung vào lưới 3D và hiển thị lưới 3D thành bản đồ độ sâu từ chế độ xem đầu tiên. Sau đó, mô hình sẽ lấy mẫu hình ảnh kết cấu về điều kiện bề ngoài và điều kiện độ sâu. Sau đó, mô hình sẽ chiếu lại hình ảnh lên lưới 3D. Đối với các góc nhìn, mô hình Paint3D thực hiện một cách tiếp cận tương tự nhưng có một chút thay đổi bằng cách thực hiện quy trình lấy mẫu kết cấu bằng cách sử dụng phương pháp vẽ hình ảnh. Hơn nữa, mô hình còn tính đến các vùng có kết cấu từ các góc nhìn trước đó, cho phép quá trình kết xuất không chỉ tạo ra hình ảnh có chiều sâu mà còn tạo ra hình ảnh RGB được tô màu một phần với mặt nạ không màu trong chế độ xem hiện tại. 

Sau đó, mô hình này sử dụng mô hình vẽ tranh nhận biết chiều sâu bằng bộ mã hóa vẽ tranh để lấp đầy vùng không màu trong hình ảnh RGB. Sau đó, mô hình tạo bản đồ kết cấu từ chế độ xem bằng cách chiếu ngược hình ảnh không được sơn vào lưới 3D trong chế độ xem hiện tại, cho phép mô hình tạo bản đồ kết cấu dần dần và đến toàn bộ bản đồ cấu trúc thô. Cuối cùng, mô hình mở rộng quy trình lấy mẫu kết cấu đến một cảnh hoặc đối tượng có nhiều chế độ xem. Cụ thể hơn, mô hình sử dụng một cặp máy ảnh để chụp hai bản đồ độ sâu trong quá trình lấy mẫu kết cấu ban đầu từ các góc nhìn đối xứng. Sau đó, mô hình kết hợp hai bản đồ độ sâu và tạo thành một lưới độ sâu. Mô hình này thay thế hình ảnh có độ sâu đơn bằng lưới độ sâu để thực hiện lấy mẫu kết cấu nhận biết độ sâu ở nhiều chế độ xem. 

Giai đoạn 2: Tinh chỉnh kết cấu trong không gian UV

Mặc dù sự xuất hiện của bản đồ kết cấu thô là hợp lý nhưng nó phải đối mặt với một số thách thức như lỗ kết cấu gây ra trong quá trình kết xuất do tự che khuất hoặc bóng sét do có sự tham gia của các mô hình khuếch tán hình ảnh 2D. Mô hình Paint3D nhằm mục đích thực hiện quá trình khuếch tán trong không gian UV trên cơ sở bản đồ kết cấu thô, cố gắng giảm thiểu các vấn đề và nâng cao sức hấp dẫn trực quan của bản đồ kết cấu hơn nữa trong quá trình sàng lọc kết cấu. Tuy nhiên, việc tinh chỉnh mô hình khuếch tán hình ảnh chính thống với các bản đồ kết cấu trong không gian UV sẽ gây ra sự gián đoạn về kết cấu do bản đồ kết cấu được tạo ra bởi ánh xạ UV của kết cấu của bề mặt 3D cắt kết cấu liên tục thành một loạt các mảnh riêng lẻ trong UV không gian. Do sự phân mảnh, mô hình gặp khó khăn trong việc tìm hiểu mối quan hệ kề cận 3D giữa các mảnh dẫn đến các vấn đề gián đoạn kết cấu. 

Mô hình tinh chỉnh bản đồ kết cấu trong không gian UV bằng cách thực hiện quá trình khuếch tán dưới sự hướng dẫn của thông tin lân cận của các mảnh kết cấu. Điều quan trọng cần lưu ý là trong không gian UV, bản đồ vị trí thể hiện thông tin kề cận 3D của các mảnh kết cấu, với mô hình xử lý từng phần tử không phải nền dưới dạng tọa độ điểm 3D. Trong quá trình khuếch tán, mô hình hợp nhất thông tin lân cận 3D bằng cách thêm bộ mã hóa bản đồ vị trí riêng lẻ vào mô hình khuếch tán hình ảnh được huấn luyện trước. Bộ mã hóa mới giống với thiết kế của khung ControlNet và có kiến ​​trúc giống như bộ mã hóa được triển khai trong mô hình khuếch tán hình ảnh với lớp không chập kết nối cả hai. Hơn nữa, mô hình khuếch tán kết cấu được huấn luyện trên tập dữ liệu bao gồm bản đồ kết cấu và vị trí, đồng thời mô hình này học cách dự đoán tiếng ồn được thêm vào mức nhiễu tiềm ẩn. Sau đó, mô hình sẽ tối ưu hóa bộ mã hóa vị trí và đóng băng bộ khử nhiễu đã được huấn luyện cho nhiệm vụ khuếch tán hình ảnh của nó. 

Sau đó, mô hình sẽ đồng thời sử dụng vị trí của bộ mã hóa có điều kiện và các bộ mã hóa khác để thực hiện các nhiệm vụ sàng lọc trong không gian UV. Về mặt này, mô hình này có hai khả năng sàng lọc: UVHD hoặc UV High Definition và UV inpainting. Phương pháp UVHD được cấu trúc để nâng cao sự hấp dẫn trực quan và tính thẩm mỹ của bản đồ kết cấu. Để đạt được UVHD, mô hình sử dụng bộ mã hóa nâng cao hình ảnh và bộ mã hóa vị trí với mô hình khuếch tán. Mô hình này sử dụng phương pháp sơn UV để lấp đầy các lỗ kết cấu trong mặt phẳng UV nhằm tránh các vấn đề tự tắc được tạo ra trong quá trình kết xuất. Trong giai đoạn sàng lọc, mô hình Paint3D trước tiên thực hiện vẽ bằng tia cực tím và sau đó thực hiện UVHD để tạo ra bản đồ kết cấu tinh chỉnh cuối cùng. Bằng cách tích hợp hai phương pháp sàng lọc, khung Paint3D có thể tạo ra các bản đồ kết cấu UV hoàn chỉnh, đa dạng, độ phân giải cao và ít ánh sáng hơn. 

Paint3D: Thử nghiệm và kết quả

Mô hình Paint3D sử dụng Khuếch tán ổn định mô hình text2image để hỗ trợ nó thực hiện các tác vụ tạo kết cấu trong khi nó sử dụng thành phần bộ mã hóa hình ảnh để xử lý các điều kiện hình ảnh. Để nâng cao hơn nữa khả năng kiểm soát có điều kiện như vẽ hình ảnh, độ sâu và độ phân giải cao của hình ảnh, khung Paint3D sử dụng bộ mã hóa miền ControlNet. Mô hình này được triển khai trên khung PyTorch với các phép chiếu kết xuất và kết cấu được triển khai trên Kaolin. 

So sánh văn bản với kết cấu

Để phân tích hiệu suất của nó, chúng tôi bắt đầu bằng cách đánh giá hiệu ứng tạo kết cấu của Paint3D khi được điều chỉnh bằng cách sử dụng lời nhắc bằng văn bản và so sánh nó với các khung công nghệ hiện đại bao gồm Text2Tex, TEXTure và LatentPaint. Như có thể thấy trong hình ảnh sau đây, khung Paint3D không chỉ vượt trội trong việc tạo ra các chi tiết kết cấu chất lượng cao mà còn tổng hợp bản đồ kết cấu không chiếu sáng một cách hợp lý. 

Để so sánh, khung Latent-Paint có xu hướng tạo ra các họa tiết mờ dẫn đến hiệu ứng hình ảnh dưới mức tối ưu. Mặt khác, mặc dù khung TEXTure tạo ra kết cấu rõ ràng nhưng nó thiếu độ mịn và có các mối nối và đường nối đáng chú ý. Cuối cùng, khung Text2Tex tạo ra các kết cấu mượt mà khá tốt, nhưng nó không thể tái tạo hiệu suất để tạo ra các kết cấu đẹp với các chi tiết phức tạp. 

Hình ảnh sau đây so sánh khung Paint3D với các khung hiện đại về mặt định lượng. 

Như có thể thấy, khung Paint3D vượt trội hơn tất cả các mô hình hiện có và đạt mức chênh lệch đáng kể với mức cải thiện gần 30% đối với đường cơ sở FID và cải thiện khoảng 40% đối với đường cơ sở KID. Sự cải thiện về điểm cơ bản FID và KID chứng tỏ khả năng của Paint3D trong việc tạo ra kết cấu chất lượng cao trên các đối tượng và danh mục đa dạng. 

So sánh hình ảnh và kết cấu

Để tạo ra khả năng tổng hợp của Paint3D bằng cách sử dụng lời nhắc trực quan, chúng tôi sử dụng mô hình TEXTure làm đường cơ sở. Như đã đề cập trước đó, mô hình Paint3D sử dụng bộ mã hóa hình ảnh có nguồn gốc từ mô hình text2image từ Stable Diffusion. Như có thể thấy trong hình ảnh sau đây, khung Paint3D tổng hợp các kết cấu tinh tế rất tốt và vẫn có thể duy trì độ trung thực cao trong điều kiện hình ảnh. 

Mặt khác, khung TEXTure có thể tạo ra kết cấu tương tự như Paint3D, nhưng không thể hiện chính xác các chi tiết kết cấu trong điều kiện hình ảnh. Hơn nữa, như được minh họa trong hình ảnh sau đây, khung Paint3D mang lại điểm cơ bản FID và KID tốt hơn khi so sánh với khung TEXTure với khung trước giảm từ 40.83 xuống 26.86 trong khi khung sau hiển thị mức giảm từ 9.76 xuống 4.94. 

.

Trong bài viết này, chúng ta đã nói về Paint3D, một khung mới từ thô đến mịn có khả năng tạo ra các bản đồ kết cấu UV 2K có độ phân giải cao, đa dạng và không cần ánh sáng cho các lưới 3D không có kết cấu được điều chỉnh trên đầu vào hình ảnh hoặc văn bản. Điểm nổi bật chính của khung Paint3D là nó có khả năng tạo ra kết cấu 2K UV có độ phân giải cao không cần ánh sáng, nhất quán về mặt ngữ nghĩa mà không bị điều chỉnh bởi hình ảnh hoặc văn bản đầu vào. Nhờ cách tiếp cận từ thô đến tinh, khung Paint3D tạo ra các bản đồ kết cấu không cần ánh sáng, đa dạng và có độ phân giải cao, đồng thời mang lại hiệu suất tốt hơn so với các khung công nghệ hiện đại. 

"Kỹ sư chuyên nghiệp, nhà văn có tâm". Kunal là một nhà văn kỹ thuật có niềm yêu thích và hiểu biết sâu sắc về AI và ML, chuyên đơn giản hóa các khái niệm phức tạp trong các lĩnh vực này thông qua tài liệu hấp dẫn và nhiều thông tin của mình.