Trí tuệ nhân tạo
Hình ảnh Splatter: Khôi phục 3D đơn giản siêu nhanh

Khôi phục 3D đối tượng đơn giản bằng mạng nơ-ron tích chập đã chứng minh khả năng đáng kể. Các mô hình khôi phục 3D đơn giản tạo ra mô hình 3D của bất kỳ đối tượng nào bằng cách sử dụng một hình ảnh đơn giản làm tài liệu tham khảo, khiến nó trở thành một trong những chủ đề nghiên cứu nóng nhất trong tầm nhìn máy tính.

Ví dụ, hãy xem xét xe máy trong hình ảnh trên. Tạo cấu trúc 3D của nó đòi hỏi một quy trình phức tạp đầu tiên kết hợp các tín hiệu từ hình ảnh cấp thấp với thông tin ngữ nghĩa cấp cao và kiến thức về sự sắp xếp cấu trúc của các bộ phận.
Do quá trình phức tạp, Khôi phục 3D đơn giản đã trở thành một thách thức lớn trong tầm nhìn máy tính. Trong một nỗ lực để tăng cường hiệu quả của Khôi phục 3D đơn giản, các nhà phát triển đã làm việc trên Hình ảnh Splatter, một phương pháp nhằm đạt được xây dựng hình dạng và hình ảnh 3D siêu nhanh của các đối tượng. Ở cốt lõi, khuôn khổ Hình ảnh Splatter sử dụng phương pháp Gaussian Splatting để phân tích các biểu diễn 3D, tận dụng tốc độ và chất lượng mà nó cung cấp.
Gần đây, phương pháp Gaussian Splatting đã được thực hiện bởi nhiều mô hình xây dựng đa dạng để kết xuất thời gian thực, tăng khả năng mở rộng và đào tạo nhanh. Với điều đó được nói, Hình ảnh Splatter là khuôn khổ đầu tiên thực hiện phương pháp Gaussian Splatting cho các nhiệm vụ xây dựng đơn giản.
Trong bài viết này, chúng tôi sẽ khám phá cách khuôn khổ Hình ảnh Splatter sử dụng Gaussian Splatting để đạt được khôi phục 3D đơn giản siêu nhanh. Vậy hãy bắt đầu.
Hình ảnh Splatter : Một nỗ lực để khôi phục 3D đơn giản siêu nhanh
Như đã đề cập trước đó, Hình ảnh Splatter là một phương pháp siêu nhanh để khôi phục 3D đối tượng đơn giản dựa trên phương pháp Gaussian Splatting. Hình ảnh Splatter là khuôn khổ tầm nhìn máy tính đầu tiên thực hiện Gaussian Splatting cho việc tạo đối tượng 3D đơn giản vì truyền thống, Gaussian Splatting đã cung cấp năng lượng cho các khuôn khổ xây dựng 3D đa dạng. Tuy nhiên, điều gì tách biệt khuôn khổ Hình ảnh Splatter khỏi các phương pháp trước đó là nó là một phương pháp dựa trên học tập, và việc xây dựng trong quá trình kiểm tra chỉ yêu cầu đánh giá feed-forward của mạng nơ-ron.
Hình ảnh Splatter phụ thuộc cơ bản vào các đặc tính kết xuất của Gaussian Splatting và tốc độ xử lý cao để tạo ra xây dựng 3D. Khuôn khổ Hình ảnh Splatter có thiết kế đơn giản: khuôn khổ sử dụng mạng nơ-ron hình ảnh đến hình ảnh 2D để dự đoán một Gaussian 3D cho mỗi pixel hình ảnh đầu vào và ánh xạ hình ảnh đầu vào thành một Gaussian 3D cho mỗi pixel. Các Gaussian 3D kết quả có dạng một hình ảnh, được gọi là Hình ảnh Splatter, và chúng cũng cung cấp biểu diễn 360 độ của hình ảnh. Quá trình được minh họa trong hình ảnh sau.

Mặc dù quá trình đơn giản và trực tiếp, có một số thách thức chính mà khuôn khổ Hình ảnh Splatter phải đối mặt khi sử dụng Gaussian Splatting để tạo Gaussian 3D cho biểu diễn 3D đơn giản. Thách thức lớn đầu tiên là thiết kế một mạng nơ-ron chấp nhận hình ảnh của một đối tượng làm đầu vào và tạo ra một hỗn hợp Gaussian tương ứng đại diện cho tất cả các mặt của hình ảnh làm đầu ra. Để giải quyết vấn đề này, Hình ảnh Splatter tận dụng thực tế rằng mặc dù hỗn hợp Gaussian được tạo ra là một tập hợp hoặc một bộ sưu tập các mục không có thứ tự, nó vẫn có thể được lưu trữ trong một cấu trúc dữ liệu có thứ tự. Theo đó, khuôn khổ sử dụng một hình ảnh 2D làm容器 cho các Gaussian 3D như một kết quả của việc mỗi pixel trong容器 chứa các tham số của một Gaussian, bao gồm các thuộc tính như hình dạng, độ trong suốt và màu sắc.
Bằng cách lưu trữ các tập hợp Gaussian 3D trong một hình ảnh, khuôn khổ Hình ảnh Splatter có thể giảm thiểu các chướng ngại vật xây dựng mà khuôn khổ phải đối mặt khi học một mạng nơ-ron hình ảnh đến hình ảnh. Bằng cách sử dụng phương pháp này, quá trình xây dựng có thể được thực hiện chỉ bằng cách sử dụng các toán tử 2D hiệu quả thay vì dựa vào các toán tử 3D. Hơn nữa, trong khuôn khổ Hình ảnh Splatter, biểu diễn 3D là một hỗn hợp của các Gaussian 3D cho phép nó khai thác các lợi thế về tốc độ kết xuất và hiệu quả bộ nhớ được cung cấp bởi Gaussian Splatting, điều này tăng cường hiệu quả trong đào tạo cũng như trong suy luận. Tiếp tục, khuôn khổ Hình ảnh Splatter không chỉ tạo ra biểu diễn 3D đơn giản mà còn chứng minh hiệu quả đáng kể vì nó có thể được đào tạo thậm chí trên một GPU đơn trên các chuẩn mực đối tượng 3D. Hơn nữa, khuôn khổ Hình ảnh Splatter có thể được mở rộng để nhận nhiều hình ảnh làm đầu vào. Nó có thể đạt được điều này bằng cách đăng ký các hỗn hợp Gaussian riêng lẻ vào một tham chiếu chung và sau đó bằng cách lấy kết hợp của các hỗn hợp Gaussian dự đoán từ các góc nhìn riêng lẻ. Khuôn khổ cũng tiêm các lớp chú ý chéo nhẹ vào kiến trúc của nó, cho phép các góc nhìn khác nhau giao tiếp với nhau trong quá trình dự đoán.
Từ góc độ kinh nghiệm, điều đáng chú ý là khuôn khổ Hình ảnh Splatter có thể tạo ra xây dựng 360 độ của đối tượng ngay cả khi nó chỉ nhìn thấy một mặt của đối tượng. Khuôn khổ sau đó phân bổ các Gaussian khác nhau trong một khu vực lân cận 2D cho các phần khác nhau của đối tượng 3D để mã hóa thông tin 360 độ được tạo ra trong hình ảnh 2D. Hơn nữa, khuôn khổ đặt độ trong suốt của một số Gaussian thành zero, điều này vô hiệu hóa chúng, cho phép chúng bị loại bỏ trong quá trình hậu xử lý.
Tóm lại, khuôn khổ Hình ảnh Splatter là
- Một phương pháp mới để tạo ra xây dựng 3D đơn giản của đối tượng bằng cách chuyển giao phương pháp Gaussian Splatting.
- Mở rộng phương pháp cho xây dựng 3D đa dạng của đối tượng.
- Đạt được hiệu suất xây dựng 3D đối tượng vượt trội trên các chuẩn mực tiêu chuẩn với tốc độ và chất lượng vượt trội.
Hình ảnh Splatter : Phương pháp và Kiến trúc
Gaussian Splatting
Như đã đề cập trước đó, Gaussian Splatting là phương pháp chính được thực hiện bởi khuôn khổ Hình ảnh Splatter để tạo ra xây dựng 3D đơn giản của đối tượng. Trong các thuật ngữ đơn giản, Gaussian Splatting là một phương pháp kết xuất để xây dựng lại hình ảnh 3D và kết xuất thời gian thực, và kết xuất hình ảnh có nhiều điểm nhìn. Không gian 3D trong hình ảnh được gọi là Gaussian, và các kỹ thuật học máy được thực hiện để học các tham số của mỗi Gaussian. Gaussian Splatting không yêu cầu đào tạo trong quá trình kết xuất, điều này giúp giảm thời gian kết xuất. Hình ảnh sau tóm tắt kiến trúc của Gaussian Splatting 3D.

Gaussian Splatting 3D trước tiên sử dụng tập hợp hình ảnh đầu vào để tạo ra một đám mây điểm. Gaussian Splatting sau đó sử dụng hình ảnh đầu vào để ước tính các tham số ngoài của máy ảnh như độ nghiêng và vị trí bằng cách匹配 các pixel giữa các hình ảnh, và các tham số này sau đó được sử dụng để tính toán đám mây điểm. Sử dụng các phương pháp học máy khác nhau, Gaussian Splatting sau đó tối ưu hóa bốn tham số cho mỗi Gaussian, cụ thể là: Vị trí (nơi nó được đặt), Covariance (mức độ kéo giãn hoặc tỷ lệ trong ma trận 3×3), Màu sắc (màu RGB), và Alpha (đo lường độ trong suốt). Quá trình tối ưu hóa kết xuất hình ảnh cho mỗi vị trí máy ảnh và sử dụng nó để xác định các tham số gần hơn với hình ảnh gốc. Kết quả là, đầu ra Gaussian Splatting 3D là một hình ảnh, được gọi là Hình ảnh Splatter, trông giống như hình ảnh gốc nhất tại vị trí máy ảnh từ đó nó được chụp.

Hơn nữa, hàm độ trong suốt và hàm màu sắc trong Gaussian Splatting cung cấp một trường bức xạ với hướng nhìn của điểm 3D. Khuôn khổ sau đó kết xuất trường bức xạ lên một hình ảnh bằng cách tích hợp màu sắc quan sát được dọc theo tia mà đi qua pixel. Gaussian Splatting biểu diễn các hàm này như một sự kết hợp của các Gaussian màu sắc, nơi trung tâm Gaussian hoặc trung tâm cùng với covariance của Gaussian giúp xác định hình dạng và kích thước của nó. Mỗi Gaussian cũng có một thuộc tính độ trong suốt và một thuộc tính màu sắc phụ thuộc vào góc nhìn, cùng nhau xác định trường bức xạ.
Hình ảnh Splatter
Thành phần kết xuất ánh xạ tập hợp Gaussian 3D lên một hình ảnh. Để thực hiện xây dựng 3D đơn giản, khuôn khổ sau đó tìm kiếm một hàm ngược cho Gaussian 3D, đó là việc xây dựng lại hỗn hợp Gaussian 3D từ một hình ảnh. Sự kết hợp quan trọng ở đây là đề xuất một thiết kế đơn giản nhưng hiệu quả cho hàm ngược. Cụ thể, đối với một hình ảnh đầu vào, khuôn khổ dự đoán một Gaussian cho mỗi pixel riêng lẻ bằng cách sử dụng một kiến trúc mạng nơ-ron hình ảnh đến hình ảnh để tạo ra một hình ảnh, Hình ảnh Splatter. Mạng nơ-ron cũng dự đoán hình dạng, độ trong suốt và màu sắc.
Bây giờ, có thể suy đoán làm thế nào khuôn khổ Hình ảnh Splatter xây dựng lại biểu diễn 3D của một đối tượng ngay cả khi nó chỉ có quyền truy cập vào một trong các góc nhìn của nó? Trong thời gian thực, khuôn khổ Hình ảnh Splatter học cách sử dụng một số Gaussian để xây dựng lại góc nhìn và sử dụng các Gaussian còn lại để tự động xây dựng lại các phần không nhìn thấy của hình ảnh. Để tối đa hóa hiệu quả của nó, khuôn khổ có thể tự động tắt các Gaussian bằng cách dự đoán xem độ trong suốt có phải là zero hay không. Nếu độ trong suốt là zero, các Gaussian bị tắt và khuôn khổ không kết xuất các điểm này, và thay vào đó, chúng bị loại bỏ trong quá trình hậu xử lý.
Thất thoát cấp độ hình ảnh
Một lợi thế chính của việc khai thác tốc độ và hiệu quả được cung cấp bởi phương pháp Gaussian Splatting là nó cho phép khuôn khổ kết xuất tất cả hình ảnh tại mỗi lần lặp lại, thậm chí đối với các lô có kích thước tương đối lớn. Hơn nữa, nó ngụ ý rằng khuôn khổ không chỉ có thể sử dụng các tổn thất có thể phân chia, mà còn có thể sử dụng các tổn thất cấp độ hình ảnh không phân chia thành các tổn thất mỗi pixel.
Bình thường hóa quy mô
Điều đó rất khó để ước tính kích thước của một đối tượng bằng cách nhìn vào một góc nhìn đơn giản, và đó là một nhiệm vụ khó khăn để giải quyết sự mơ hồ này khi nó được đào tạo với một tổn thất. Vấn đề tương tự không được quan sát trong các tập dữ liệu tổng hợp vì tất cả các đối tượng được kết xuất với các tham số máy ảnh giống nhau và các đối tượng ở một khoảng cách cố định từ máy ảnh, điều này cuối cùng giúp giải quyết sự mơ hồ. Tuy nhiên, trong các tập dữ liệu với hình ảnh thực tế, sự mơ hồ rất rõ ràng, và khuôn khổ Hình ảnh Splatter sử dụng một số phương pháp tiền xử lý để cố định kích thước của tất cả các đối tượng.
Màu sắc phụ thuộc vào góc nhìn
Để biểu diễn màu sắc phụ thuộc vào góc nhìn, khuôn khổ Hình ảnh Splatter sử dụng các hàm điều hòa cầu để tổng quát hóa màu sắc vượt ra ngoài mô hình màu Lambert. Đối với mỗi Gaussian cụ thể, mô hình xác định các hệ số được dự đoán bởi mạng nơ-ron và các hàm điều hòa cầu. Sự thay đổi góc nhìn biến đổi một hướng nhìn trong nguồn máy ảnh thành hướng nhìn tương ứng trong khung tham chiếu. Mô hình sau đó tìm các hệ số tương ứng để tìm hàm màu sắc biến đổi. Mô hình có thể làm điều này vì khi dưới sự quay, các hàm điều hòa cầu được đóng, cùng với mọi thứ khác.
Kiến trúc mạng nơ-ron
Hầu hết kiến trúc của bộ dự đoán ánh xạ hình ảnh đầu vào đến hỗn hợp Gaussian là giống hệt với quá trình được sử dụng trong khuôn khổ SongUNet. Lớp cuối cùng trong kiến trúc được thay thế bằng một lớp tích chập 1×1 với mô hình màu sắc xác định chiều rộng của các kênh đầu ra. Đối với hình ảnh đầu vào, mạng nơ-ron tạo ra một tensor kênh đầu ra, và đối với mỗi kênh pixel, mã hóa các tham số sau đó được biến đổi thành offset, độ trong suốt, quay, độ sâu và màu sắc. Khuôn khổ sau đó sử dụng các hàm hoạt động phi tuyến để kích hoạt các tham số và nhận được các tham số Gaussian.
Để xây dựng lại biểu diễn 3D với nhiều góc nhìn, khuôn khổ Hình ảnh Splatter áp dụng cùng một mạng nơ-ron cho mỗi góc nhìn đầu vào và sau đó sử dụng phương pháp góc nhìn để kết hợp các xây dựng lại riêng lẻ. Hơn nữa, để tạo điều kiện cho sự phối hợp và trao đổi thông tin hiệu quả giữa các góc nhìn trong mạng nơ-ron, khuôn khổ Hình ảnh Splatter thực hiện hai sửa đổi trong mạng nơ-ron. Đầu tiên, khuôn khổ điều kiện hóa mô hình với tư cách là vị trí máy ảnh của nó và truyền các vector bằng cách mã hóa từng mục nhập bằng cách sử dụng một mã hóa vị trí sinusoidal, dẫn đến nhiều chiều. Thứ hai, khuôn khổ thêm các lớp chú ý chéo để tạo điều kiện cho việc giao tiếp giữa các tính năng của các góc nhìn khác nhau.
Hình ảnh Splatter : Thử nghiệm và Kết quả
Khuôn khổ Hình ảnh Splatter đo lường chất lượng của các xây dựng lại của nó bằng cách đánh giá chất lượng tổng hợp góc nhìn mới vì khuôn khổ sử dụng góc nhìn nguồn và kết xuất hình dạng 3D để thực hiện xây dựng lại. Khuôn khổ đánh giá hiệu suất của nó bằng cách đo lường SSIM hoặc Tương đồng Cấu trúc, Tỷ lệ tín hiệu trên nhiễu đỉnh hoặc PSNR và điểm chất lượng nhận thức hoặc LPIPS.
Hiệu suất xây dựng 3D đơn giản
Bảng sau minh họa hiệu suất của mô hình Hình ảnh Splatter trong nhiệm vụ xây dựng 3D đơn giản trên chuẩn mực ShapeNet.

Như có thể quan sát được, khuôn khổ Hình ảnh Splatter vượt trội so với tất cả các phương pháp xây dựng quyết định trong các điểm số LPIPS và SSIM. Các điểm số chỉ ra rằng mô hình Hình ảnh Splatter tạo ra hình ảnh với các xây dựng lại sắc nét hơn. Hơn nữa, mô hình Hình ảnh Splatter cũng vượt trội so với tất cả các phương pháp xây dựng quyết định về điểm số PSNR, điều này cho thấy rằng các xây dựng lại được tạo ra cũng chính xác hơn. Hơn nữa, ngoài việc vượt trội so với tất cả các phương pháp quyết định, khuôn khổ Hình ảnh Splatter chỉ yêu cầu các vị trí máy ảnh tương đối để tăng cường hiệu quả của nó trong cả giai đoạn đào tạo và kiểm tra.
Hình ảnh sau minh họa khả năng định tính của khuôn khổ Hình ảnh Splatter, và như có thể thấy, mô hình tạo ra các xây dựng lại với hình học mỏng và thú vị, và nắm bắt các chi tiết của các góc nhìn điều kiện.

Hình ảnh sau cho thấy rằng các xây dựng lại được tạo ra bởi khuôn khổ Hình ảnh Splatter không chỉ sắc nét hơn mà còn có độ chính xác tốt hơn so với các mô hình trước đó, đặc biệt là trong các điều kiện không thông thường với các cấu trúc mỏng và khả năng hiển thị hạn chế.

Xây dựng 3D đa góc nhìn
Để đánh giá khả năng xây dựng 3D đa góc nhìn, khuôn khổ Hình ảnh Splatter được đào tạo trên tập dữ liệu SpaneNet-SRN Cars cho dự đoán hai góc nhìn. Các phương pháp hiện có sử dụng điều kiện vị trí máy ảnh tuyệt đối cho các nhiệm vụ xây dựng 3D đa góc nhìn, điều này có nghĩa là mô hình học cách dựa vào định hướng chuẩn của đối tượng. Mặc dù nó thực hiện công việc, nhưng nó hạn chế khả năng áp dụng của các mô hình vì vị trí máy ảnh tuyệt đối thường không được biết đối với một hình ảnh mới của đối tượng.

Suy nghĩ cuối cùng
Trong bài viết này, chúng tôi đã nói về Hình ảnh Splatter, một phương pháp nhằm đạt được xây dựng hình dạng và hình ảnh 3D siêu nhanh của các đối tượng. Ở cốt lõi, khuôn khổ Hình ảnh Splatter sử dụng phương pháp Gaussian Splatting để phân tích các biểu diễn 3D, tận dụng tốc độ và chất lượng mà nó cung cấp. Khuôn khổ Hình ảnh Splatter xử lý hình ảnh bằng cách sử dụng một kiến trúc mạng nơ-ron hình ảnh đến hình ảnh 2D để dự đoán một hình ảnh giả mà chứa một Gaussian màu sắc cho mỗi pixel. Bằng cách sử dụng phương pháp Gaussian Splatting, khuôn khổ Hình ảnh Splatter có thể kết hợp kết xuất nhanh với suy luận nhanh, dẫn đến đào tạo nhanh và đánh giá nhanh trên các chuẩn mực thực tế và tổng hợp.












