Trí tuệ nhân tạo

Paint3D: Giới Thiệu

Đã xuất bản 15 tháng 7, 2024

Đã cập nhật 21 tháng 5, 2026

Kunal Kejriwal

Sự ra đời của các mô hình AI tạo sinh sâu đã đẩy nhanh đáng kể sự phát triển của AI với khả năng đáng kinh ngạc trong việc tạo sinh ngôn ngữ tự nhiên, tạo sinh 3D, tạo sinh hình ảnh và tổng hợp giọng nói. Các mô hình tạo sinh 3D đã biến đổi nhiều ngành công nghiệp và ứng dụng, cách mạng hóa cảnh quan sản xuất 3D hiện tại. Tuy nhiên, nhiều mô hình tạo sinh sâu hiện tại gặp phải một rào cản chung: dây nối phức tạp và lưới tạo sinh với kết cấu ánh sáng thường không tương thích với các đường ống渲染 truyền thống như PBR (Physically Based Rendering). Các mô hình dựa trên khuếch tán, tạo ra tài sản 3D mà không có kết cấu ánh sáng, có khả năng đáng kinh ngạc để tạo ra tài sản 3D đa dạng, do đó tăng cường các khuôn khổ 3D hiện có trên các ngành công nghiệp như làm phim, trò chơi và thực tế ảo / thực tế tăng cường.

Trong bài viết này, chúng tôi sẽ thảo luận về Paint3D, một khuôn khổ mới từ thô đến tinh có khả năng tạo ra các bản đồ kết cấu 2K UV đa dạng, độ phân giải cao cho các lưới 3D không có kết cấu, có điều kiện trên cả đầu vào hình ảnh và văn bản. Thử thách chính mà Paint3D giải quyết là tạo ra các kết cấu chất lượng cao mà không nhúng thông tin chiếu sáng, cho phép người dùng chỉnh sửa lại hoặc chiếu sáng lại trong các đường ống渲染 đồ họa hiện đại. Để giải quyết vấn đề này, khuôn khổ Paint3D sử dụng một mô hình khuếch tán 2D đã được đào tạo trước để thực hiện hợp nhất kết cấu đa góc nhìn và tạo ra hình ảnh có điều kiện, ban đầu tạo ra một bản đồ kết cấu thô. Tuy nhiên, vì các mô hình 2D không thể hoàn toàn vô hiệu hóa các hiệu ứng ánh sáng hoặc đại diện đầy đủ cho các hình dạng 3D, bản đồ kết cấu có thể hiển thị các hiện象 ánh sáng và các khu vực không đầy đủ.

Trong bài viết này, chúng tôi sẽ khám phá khuôn khổ Paint3D một cách sâu sắc, kiểm tra cách thức hoạt động và kiến trúc của nó, và so sánh nó với các khuôn khổ tạo sinh sâu hiện đại. Vì vậy, hãy bắt đầu.

Paint3D: Giới Thiệu

Các mô hình AI tạo sinh sâu đã chứng minh khả năng đặc biệt trong việc tạo sinh ngôn ngữ tự nhiên, tạo sinh 3D và tổng hợp hình ảnh, và đã được triển khai trong các ứng dụng thực tế, cách mạng hóa ngành công nghiệp tạo sinh 3D. Tuy nhiên, mặc dù có khả năng đáng kinh ngạc, các khuôn khổ AI tạo sinh sâu hiện đại thường tạo ra các lưới có dây nối phức tạp và kết cấu ánh sáng hỗn loạn không tương thích với các đường ống渲染 truyền thống, bao gồm cả PBR (Physically Based Rendering). Tương tự, tổng hợp kết cấu đã tiến bộ nhanh chóng, đặc biệt là với việc sử dụng các mô hình khuếch tán 2D. Những mô hình này sử dụng hiệu quả các mô hình khuếch tán từ độ sâu đến hình ảnh đã được đào tạo trước và các điều kiện văn bản để tạo ra các kết cấu chất lượng cao. Tuy nhiên, một thách thức đáng kể vẫn còn: các kết cấu đã được chiếu sáng trước có thể ảnh hưởng tiêu cực đến việc渲染 cuối cùng của môi trường 3D, giới thiệu các lỗi chiếu sáng khi ánh sáng được điều chỉnh trong các quy trình làm việc thông thường, như được minh họa trong hình ảnh sau.

Как thấy, các bản đồ kết cấu không có chiếu sáng trước làm việc hoàn hảo với các đường ống渲染 truyền thống, mang lại kết quả chính xác. Ngược lại, các bản đồ kết cấu có chiếu sáng trước bao gồm các bóng không phù hợp khi chiếu sáng lại được áp dụng. Các khuôn khổ tạo sinh kết cấu được đào tạo trên dữ liệu 3D cung cấp một cách tiếp cận thay thế, tạo ra kết cấu bằng cách hiểu hình học của một đối tượng 3D cụ thể. Mặc dù những khuôn khổ này có thể mang lại kết quả tốt hơn, nhưng chúng thiếu khả năng tổng quát hóa cần thiết để áp dụng mô hình cho các đối tượng 3D ngoài dữ liệu đào tạo.

Các mô hình tạo sinh kết cấu hiện tại gặp phải hai thách thức quan trọng: đạt được sự tổng quát hóa rộng rãi trên các đối tượng khác nhau bằng cách sử dụng hướng dẫn hình ảnh hoặc các gợi ý đa dạng, và loại bỏ sự kết hợp chiếu sáng từ kết quả đào tạo trước. Các kết cấu đã được chiếu sáng trước có thể can thiệp vào kết quả cuối cùng của các đối tượng có kết cấu trong các động cơ渲染. Ngoài ra, vì các mô hình khuếch tán 2D đã được đào tạo trước chỉ cung cấp kết quả 2D trong miền góc nhìn, chúng thiếu sự hiểu biết toàn diện về hình dạng, dẫn đến sự không nhất quán trong việc duy trì sự nhất quán góc nhìn cho các đối tượng 3D.

Để giải quyết những thách thức này, khuôn khổ Paint3D phát triển một mô hình khuếch tán hai giai đoạn cho các đối tượng 3D, tổng quát hóa trên các mô hình tạo sinh khác nhau và bảo tồn sự nhất quán góc nhìn trong khi tạo ra các kết cấu không có chiếu sáng.

Paint3D là một mô hình tạo sinh kết cấu hai giai đoạn, từ thô đến tinh, tận dụng khả năng hướng dẫn mạnh mẽ và khả năng tạo hình ảnh của các mô hình AI tạo sinh đã được đào tạo trước để tạo kết cấu cho các đối tượng 3D. Trong giai đoạn đầu, Paint3D lấy mẫu các hình ảnh đa góc nhìn từ một mô hình khuếch tán 2D đã được đào tạo trước, cho phép tổng quát hóa các kết quả kết cấu chất lượng cao và phong phú từ các gợi ý đa dạng. Mô hình sau đó tạo ra một bản đồ kết cấu ban đầu bằng cách chiếu ngược các hình ảnh này lên bề mặt lưới 3D. Trong giai đoạn thứ hai, mô hình tập trung vào việc tạo ra các kết cấu không có chiếu sáng bằng cách thực hiện các phương pháp được sử dụng bởi các mô hình khuếch tán chuyên về loại bỏ ảnh hưởng chiếu sáng và tinh chỉnh các khu vực không đầy đủ. Trong suốt quá trình, khuôn khổ Paint3D tạo ra một cách nhất quán các bản đồ kết cấu 2K chất lượng cao về mặt ngữ nghĩa, loại bỏ các hiệu ứng chiếu sáng nội tại.

Tóm lại, Paint3D là một mô hình AI tạo sinh mới, từ thô đến tinh, được thiết kế để tạo ra các bản đồ kết cấu 2K UV đa dạng, không có chiếu sáng, độ phân giải cao cho các lưới 3D không có kết cấu. Nó nhằm đạt được hiệu suất tốt nhất trong việc tạo kết cấu cho các đối tượng 3D với các đầu vào có điều kiện khác nhau, bao gồm văn bản và hình ảnh, mang lại lợi thế đáng kể cho các nhiệm vụ tổng hợp và chỉnh sửa đồ họa.

Phương Pháp và Kiến Trúc

Khuôn khổ Paint3D tạo ra và tinh chỉnh các bản đồ kết cấu một cách tiến bộ để tạo ra các kết cấu đa dạng và chất lượng cao cho các mô hình 3D bằng cách sử dụng các đầu vào có điều kiện như hình ảnh và gợi ý, như được minh họa trong hình ảnh sau.

Giai Đoạn 1: Tạo Kết Cấu Thô Tiến Bộ

Trong giai đoạn tạo kết cấu thô ban đầu, Paint3D sử dụng các mô hình khuếch tán 2D đã được đào tạo trước để lấy mẫu các hình ảnh đa góc nhìn, sau đó được chiếu ngược lên bề mặt lưới để tạo ra các bản đồ kết cấu ban đầu. Giai đoạn này bắt đầu với việc tạo ra một bản đồ độ sâu từ các góc nhìn máy ảnh khác nhau. Mô hình sử dụng các điều kiện độ sâu để lấy mẫu hình ảnh từ mô hình khuếch tán, sau đó được chiếu ngược lên bề mặt lưới 3D. Cách tiếp cận này tăng cường sự nhất quán của các lưới kết cấu và giúp tạo ra bản đồ kết cấu một cách tiến bộ.

Quá trình bắt đầu với các khu vực có thể nhìn thấy của lưới 3D, tập trung vào việc tạo kết cấu từ góc nhìn máy ảnh đầu tiên bằng cách渲染 lưới 3D thành một bản đồ độ sâu. Một hình ảnh kết cấu sau đó được lấy mẫu dựa trên các điều kiện về ngoại hình và độ sâu, và được chiếu ngược lên lưới. Phương pháp này được lặp lại cho các góc nhìn tiếp theo, kết hợp các kết cấu trước đó để渲染 không chỉ một hình ảnh độ sâu mà còn một hình ảnh RGB có màu sắc một phần với các mặt nạ không màu. Mô hình sử dụng một bộ mã hóa inpainting hình ảnh có độ sâu để lấp đầy các khu vực không màu, tạo ra một bản đồ kết cấu thô hoàn chỉnh bằng cách chiếu ngược các hình ảnh đã được inpainting lên lưới 3D.

Đối với các cảnh hoặc đối tượng phức tạp hơn, mô hình sử dụng nhiều góc nhìn. Ban đầu, nó chụp hai bản đồ độ sâu từ các góc nhìn đối xứng và kết hợp chúng thành một lưới độ sâu, thay thế cho một hình ảnh độ sâu đơn lẻ để lấy mẫu kết cấu đa góc nhìn.

Giai Đoạn 2: Tinh Chỉnh Kết Cấu Trong Không Gian UV

Mặc dù tạo ra các bản đồ kết cấu thô hợp lý, nhưng vẫn còn những thách thức như các lỗ kết cấu từ quá trình渲染 và bóng chiếu sáng từ các mô hình khuếch tán 2D. Để giải quyết những vấn đề này, Paint3D thực hiện một quá trình khuếch tán trong không gian UV dựa trên bản đồ kết cấu thô, tăng cường sự hấp dẫn về mặt thị giác và giải quyết các vấn đề.

Tuy nhiên, việc tinh chỉnh bản đồ kết cấu trong không gian UV có thể giới thiệu các sự không liên tục do sự phân mảnh của các kết cấu liên tục thành các mảnh riêng lẻ. Để giảm thiểu điều này, Paint3D tinh chỉnh bản đồ kết cấu bằng cách sử dụng thông tin về sự liền kề của các mảnh kết cấu. Trong không gian UV, bản đồ vị trí đại diện cho thông tin liền kề 3D của các mảnh kết cấu, coi mỗi phần tử không phải là nền tảng như một tọa độ điểm 3D. Mô hình sử dụng một bộ mã hóa vị trí bổ sung, tương tự như ControlNet, để tích hợp thông tin này trong quá trình khuếch tán.

Mô hình đồng thời sử dụng vị trí của bộ mã hóa có điều kiện và các bộ mã hóa khác để thực hiện các nhiệm vụ tinh chỉnh trong không gian UV, cung cấp hai khả năng: UVHD (UV High Definition) và UV inpainting. UVHD tăng cường sự hấp dẫn về mặt thị giác và thẩm mỹ, sử dụng một bộ mã hóa tăng cường hình ảnh và bộ mã hóa vị trí với mô hình khuếch tán. UV inpainting lấp đầy các lỗ kết cấu, tránh các vấn đề tự che khuất từ quá trình渲染. Giai đoạn tinh chỉnh bắt đầu với UV inpainting, sau đó là UVHD để tạo ra một bản đồ kết cấu tinh chỉnh cuối cùng.

Bằng cách tích hợp các phương pháp tinh chỉnh này, khuôn khổ Paint3D tạo ra các bản đồ kết cấu UV hoàn chỉnh, đa dạng, độ phân giải cao và không có chiếu sáng, khiến nó trở thành một giải pháp mạnh mẽ cho việc tạo kết cấu cho các đối tượng 3D.

Paint3D: Thử Nghiệm và Kết Quả

Mô hình Paint3D sử dụng mô hình text2image của Stable Diffusion để hỗ trợ các nhiệm vụ tạo kết cấu, trong khi thành phần mã hóa hình ảnh quản lý các điều kiện hình ảnh. Để tăng cường khả năng kiểm soát các nhiệm vụ có điều kiện như inpainting hình ảnh, xử lý độ sâu và hình ảnh độ phân giải cao, khuôn khổ Paint3D sử dụng các bộ mã hóa domain của ControlNet. Mô hình được thực hiện trên khuôn khổ PyTorch, với việc渲染 và chiếu kết cấu được thực hiện trên Kaolin.

So Sánh Kết Cấu Từ Văn Bản

Để đánh giá hiệu suất của Paint3D, chúng tôi bắt đầu bằng cách phân tích việc tạo kết cấu của nó khi được điều kiện bởi các gợi ý văn bản, so sánh nó với các khuôn khổ hiện đại như Text2Tex, TEXTure và LatentPaint. Như được minh họa trong hình ảnh sau, khuôn khổ Paint3D không chỉ vượt trội trong việc tạo ra các chi tiết kết cấu chất lượng cao mà còn hiệu quả trong việc tổng hợp một bản đồ kết cấu không có chiếu sáng.

Bằng cách tận dụng khả năng mạnh mẽ của Stable Diffusion và các bộ mã hóa của ControlNet, Paint3D cung cấp chất lượng kết cấu vượt trội và tính linh hoạt. So sánh này nhấn mạnh khả năng của Paint3D trong việc tạo ra các kết cấu chi tiết, độ phân giải cao mà không có chiếu sáng nhúng, khiến nó trở thành một giải pháp hàng đầu cho các nhiệm vụ tạo kết cấu 3D.

Trong so sánh, khuôn khổ Latent-Paint có xu hướng tạo ra các kết cấu mờ, dẫn đến hiệu ứng thị giác không tối ưu. Mặt khác, mặc dù khuôn khổ TEXTure tạo ra các kết cấu rõ ràng, nhưng nó thiếu sự mịn màng và hiển thị các mối nối và đường nối rõ ràng. Cuối cùng, khuôn khổ Text2Tex tạo ra các kết cấu mịn một cách đáng kinh ngạc, nhưng nó không thể复制 hiệu suất trong việc tạo ra các kết cấu tinh tế với các chi tiết phức tạp. Hình ảnh sau so sánh khuôn khổ Paint3D với các khuôn khổ hiện đại một cách định lượng.

Như có thể quan sát, khuôn khổ Paint3D vượt trội so với tất cả các mô hình hiện có, và với một khoảng cách đáng kể, gần 30% cải thiện so với baseline FID và khoảng 40% cải thiện so với baseline KID. Sự cải thiện trong các điểm baseline FID và KID chứng minh khả năng của Paint3D trong việc tạo ra các kết cấu chất lượng cao trên các đối tượng và danh mục đa dạng.

So Sánh Kết Cấu Từ Hình Ảnh

Để tạo ra khả năng tạo sinh của Paint3D bằng cách sử dụng các gợi ý hình ảnh, chúng tôi sử dụng mô hình TEXTure làm baseline. Như đã đề cập trước đó, mô hình Paint3D sử dụng một bộ mã hóa hình ảnh được lấy từ mô hình text2image của Stable Diffusion. Như có thể thấy trong hình ảnh sau, khuôn khổ Paint3D tổng hợp các kết cấu một cách đáng kinh ngạc, và vẫn duy trì độ trung thực cao so với điều kiện hình ảnh.

Mặt khác, khuôn khổ TEXTure có thể tạo ra một kết cấu tương tự như Paint3D, nhưng nó không thể đại diện chính xác cho các chi tiết kết cấu trong điều kiện hình ảnh. Hơn nữa, như được minh họa trong hình ảnh sau, khuôn khổ Paint3D cung cấp các điểm baseline FID và KID tốt hơn so với khuôn khổ TEXTure, với điểm FID giảm từ 40,83 xuống 26,86 và điểm KID giảm từ 9,76 xuống 4,94.

Lời Kết

Trong bài viết này, chúng tôi đã thảo luận về Paint3D, một khuôn khổ mới từ thô đến tinh có khả năng tạo ra các bản đồ kết cấu 2K UV đa dạng, không có chiếu sáng, độ phân giải cao cho các lưới 3D không có kết cấu, có điều kiện trên cả đầu vào hình ảnh và văn bản. Điểm nổi bật chính của khuôn khổ Paint3D là nó có khả năng tạo ra các kết cấu không có chiếu sáng, độ phân giải cao 2K UV mà không cần điều kiện trên hình ảnh hoặc văn bản. Nhờ cách tiếp cận từ thô đến tinh, khuôn khổ Paint3D tạo ra các bản đồ kết cấu không có chiếu sáng, đa dạng và độ phân giải cao, và cung cấp hiệu suất tốt hơn so với các khuôn khổ hiện đại.

Kunal Kejriwal

"Một kỹ sư theo nghề nghiệp, một nhà văn theo trái tim". Kunal là một nhà văn kỹ thuật với tình yêu và hiểu biết sâu sắc về AI và ML, dành để đơn giản hóa các khái niệm phức tạp trong các lĩnh vực này thông qua tài liệu hấp dẫn và thông tin của mình.

Unite.AI

Paint3D: Giới Thiệu

Paint3D: Giới Thiệu

Phương Pháp và Kiến Trúc

Giai Đoạn 1: Tạo Kết Cấu Thô Tiến Bộ

Giai Đoạn 2: Tinh Chỉnh Kết Cấu Trong Không Gian UV

Paint3D: Thử Nghiệm và Kết Quả

So Sánh Kết Cấu Từ Văn Bản

So Sánh Kết Cấu Từ Hình Ảnh

Lời Kết

You may like