Kết nối với chúng tôi

Sửa chữa sự hiểu biết hạn chế của các mô hình khuếch tán về gương và phản xạ

Góc của Anderson

Sửa chữa sự hiểu biết hạn chế của các mô hình khuếch tán về gương và phản xạ

mm
ChatGPT-4o và Adobe Firefly

Kể từ khi AI tạo sinh bắt đầu thu hút sự quan tâm của công chúng, lĩnh vực nghiên cứu thị giác máy tính đã quan tâm sâu sắc hơn đến việc phát triển các mô hình AI có khả năng hiểu và sao chép các định luật vật lý; tuy nhiên, thách thức trong việc dạy các hệ thống học máy mô phỏng các hiện tượng như trọng lực và động lực học chất lỏng đã là trọng tâm đáng kể của các nỗ lực nghiên cứu trong ít nhất là năm năm qua.

từ mô hình khuếch tán tiềm ẩn (LDM) đã thống trị bối cảnh AI tạo ra vào năm 2022, các nhà nghiên cứu đã ngày càng tập trung về khả năng hạn chế của kiến ​​trúc LDM trong việc hiểu và tái tạo các hiện tượng vật lý. Giờ đây, vấn đề này càng trở nên nổi bật hơn với sự phát triển mang tính bước ngoặt của mô hình video sinh sản của OpenAI. Sora, và bản phát hành gần đây (có thể nói là) có hậu quả quan trọng hơn của mã nguồn mở video mô hình Video Hồn NguyênVạn 2.1.

Phản ánh không tốt

Hầu hết các nghiên cứu nhằm cải thiện sự hiểu biết của LDM về vật lý đều tập trung vào các lĩnh vực như mô phỏng dáng đi, vật lý hạt và các khía cạnh khác của chuyển động Newton. Các lĩnh vực này đã thu hút sự chú ý vì sự không chính xác trong các hành vi vật lý cơ bản sẽ ngay lập tức làm giảm tính xác thực của video do AI tạo ra.

Tuy nhiên, một nhánh nghiên cứu nhỏ nhưng đang phát triển tập trung vào một trong những điểm yếu lớn nhất của LDM – đó là sự bất lực tương đối để sản xuất chính xác phản ánh.

Từ bài báo tháng 2025 năm 2409.14677 'Phản ánh thực tế: Cho phép các mô hình khuếch tán tạo ra sự phản chiếu chân thực', các ví dụ về 'thất bại trong phản chiếu' so với cách tiếp cận của chính các nhà nghiên cứu. Nguồn: https://arxiv.org/pdf/XNUMX

Từ bài báo tháng 2025 năm XNUMX 'Phản ánh thực tế: Cho phép các mô hình khuếch tán tạo ra hình ảnh phản chiếu chân thực', các ví dụ về 'thất bại phản chiếu' so với cách tiếp cận của chính các nhà nghiên cứu. Nguồn: https://arxiv.org/pdf/2409.14677

Vấn đề này cũng là một thách thức trong kỷ nguyên CGI và vẫn như vậy trong lĩnh vực trò chơi điện tử, nơi có hi vọng Thuật toán mô phỏng đường đi của ánh sáng khi nó tương tác với bề mặt. Ray-tracing tính toán cách các tia sáng ảo phản xạ hoặc đi qua các vật thể để tạo ra sự phản xạ, khúc xạ và bóng đổ chân thực.

Tuy nhiên, vì mỗi lần phản xạ bổ sung làm tăng đáng kể chi phí tính toán nên các ứng dụng thời gian thực phải đánh đổi độ trễ với độ chính xác bằng cách giới hạn số lần phản xạ tia sáng được phép.

Một biểu diễn của chùm sáng được tính toán ảo trong một kịch bản dựa trên 3D truyền thống (tức là CGI), sử dụng các công nghệ và nguyên tắc được phát triển lần đầu tiên vào những năm 1960 và đạt đến đỉnh cao trong khoảng thời gian từ năm 1982-93 (khoảng thời gian giữa Tron [1982] và Jurassic Park [1993]. Nguồn: https://www.unrealengine.com/en-US/explainers/ray-tracing/what-is-real-time-ray-tracing

Một biểu diễn về chùm ánh sáng được tính toán ảo trong một kịch bản dựa trên 3D truyền thống (tức là CGI), sử dụng các công nghệ và nguyên tắc được phát triển lần đầu tiên vào những năm 1960 và đạt đến đỉnh cao trong khoảng thời gian từ năm 1982 đến 93 (khoảng thời gian giữa 'Tron' [1982] và 'Công viên kỷ Jura' [1993]. Nguồn: https://www.unrealengine.com/en-US/explainers/ray-tracing/what-is-real-time-ray-tracing

Ví dụ, việc mô tả một ấm trà mạ crôm trước gương có thể liên quan đến quá trình dò ​​tia, trong đó các tia sáng phản xạ liên tục giữa các bề mặt phản xạ, tạo ra một vòng lặp gần như vô hạn với ít lợi ích thực tế cho hình ảnh cuối cùng. Trong hầu hết các trường hợp, độ sâu phản xạ từ hai đến ba lần phản xạ đã vượt quá những gì người xem có thể cảm nhận được. Một lần phản xạ duy nhất sẽ tạo ra một tấm gương đen, vì ánh sáng phải hoàn thành ít nhất hai hành trình để tạo thành một hình ảnh phản xạ có thể nhìn thấy.

Mỗi lần bật lại bổ sung làm tăng mạnh chi phí tính toán, thường tăng gấp đôi thời gian kết xuất, giúp xử lý phản xạ nhanh hơn một trong những cơ hội quan trọng nhất để cải thiện chất lượng kết xuất theo dõi tia.

Đương nhiên, sự phản chiếu xảy ra và đóng vai trò thiết yếu đối với chủ nghĩa siêu thực, trong những bối cảnh ít rõ ràng hơn nhiều – chẳng hạn như bề mặt phản chiếu của một con phố trong thành phố hay chiến trường sau cơn mưa; sự phản chiếu của con phố đối diện trong cửa sổ cửa hàng hay cửa kính; hoặc trong kính của các nhân vật được miêu tả, trong đó các vật thể và môi trường có thể cần phải xuất hiện.

Sự phản chiếu mô phỏng của hai hình ảnh song sinh đạt được thông qua kỹ thuật ghép ảnh truyền thống cho một cảnh mang tính biểu tượng trong 'The Matrix' (Ma trận) (1999).

Phản xạ song sinh mô phỏng đạt được thông qua kỹ thuật ghép ảnh truyền thống cho một cảnh mang tính biểu tượng trong 'Ma trận' (1999).

Sự cố hình ảnh

Vì lý do này, các khuôn khổ phổ biến trước khi xuất hiện các mô hình khuếch tán, chẳng hạn như Trường ánh sáng thần kinh (NeRF) và một số đối thủ cạnh tranh gần đây hơn như Sự bắn tung tóe Gaussian đã duy trì những nỗ lực riêng của mình để tạo ra sự phản ánh theo cách tự nhiên.

REF2-NeRF dự án (hình bên dưới) đề xuất một phương pháp mô hình hóa dựa trên NeRF cho các cảnh chứa hộp kính. Trong phương pháp này, khúc xạ và phản xạ được mô hình hóa bằng các yếu tố phụ thuộc và độc lập với góc nhìn của người xem. Phương pháp này cho phép các nhà nghiên cứu ước tính các bề mặt xảy ra khúc xạ, cụ thể là bề mặt kính, và cho phép tách và mô hình hóa cả thành phần ánh sáng trực tiếp và phản xạ.

Ví dụ từ bài báo Ref2Nerf. Nguồn: https://arxiv.org/pdf/2311.17116

Ví dụ từ bài báo Ref2Nerf. Nguồn: https://arxiv.org/pdf/2311.17116

Các giải pháp phản xạ hướng đến NeRF khác trong 4-5 năm qua bao gồm NeRFReN, Phản ánh thực tếvà Meta năm 2024 Trường bức xạ thần kinh có nhận thức phản xạ phẳng dự án.

Đối với GSplat, các giấy tờ như Gương-3DGS, Phản xạ Gaussian SplattingTham khảoGaussian đã đưa ra các giải pháp liên quan đến vấn đề phản xạ, trong khi năm 2023 Dự án Nero đề xuất một phương pháp riêng để kết hợp các phẩm chất phản chiếu vào biểu diễn thần kinh.

GươngVerse

Có thể lập luận rằng việc có được một mô hình khuếch tán tôn trọng logic phản xạ khó hơn so với các phương pháp tiếp cận phi ngữ nghĩa, có cấu trúc rõ ràng như Gaussian Splatting và NeRF. Trong các mô hình khuếch tán, một quy tắc như thế này chỉ có thể được nhúng một cách đáng tin cậy nếu dữ liệu đào tạo chứa nhiều ví dụ khác nhau trong nhiều tình huống khác nhau, khiến nó phụ thuộc nhiều vào sự phân phối và chất lượng của tập dữ liệu gốc.

Theo truyền thống, việc thêm các hành vi cụ thể của loại này là phạm vi của một LoRA hoặc là tinh chỉnh của mô hình cơ sở; nhưng đây không phải là giải pháp lý tưởng, vì LoRA có xu hướng làm lệch đầu ra theo hướng dữ liệu đào tạo của riêng nó, ngay cả khi không có lời nhắc, trong khi tinh chỉnh – bên cạnh việc tốn kém – có thể phân nhánh một mô hình chính không thể thay đổi khỏi mô hình chính thống và tạo ra một loạt các công cụ tùy chỉnh liên quan sẽ không bao giờ hoạt động với bất kỳ Khác biến dạng của mô hình, bao gồm cả mô hình ban đầu.

Nhìn chung, việc cải thiện các mô hình khuếch tán đòi hỏi dữ liệu đào tạo phải chú ý nhiều hơn đến vật lý phản xạ. Tuy nhiên, nhiều lĩnh vực khác cũng cần được chú ý đặc biệt tương tự. Trong bối cảnh các tập dữ liệu siêu quy mô, nơi việc quản lý tùy chỉnh tốn kém và khó khăn, việc giải quyết mọi điểm yếu theo cách này là không thực tế.

Tuy nhiên, các giải pháp cho vấn đề phản ánh LDM thỉnh thoảng lại xuất hiện. Một nỗ lực gần đây như vậy, từ Ấn Độ, là GươngVerse dự án cung cấp bộ dữ liệu và phương pháp đào tạo được cải tiến có khả năng cải thiện trình độ tiên tiến trong thách thức cụ thể này trong nghiên cứu khuếch tán.

Bên phải nhất, kết quả từ MirrorVerse so sánh với hai phương pháp tiếp cận trước đó (hai cột ở giữa). Nguồn: https://arxiv.org/pdf/2504.15397

Bên phải, kết quả từ MirrorVerse so sánh với hai phương pháp trước đó (hai cột ở giữa). Nguồn: https://arxiv.org/pdf/2504.15397

Như chúng ta có thể thấy trong ví dụ trên (hình ảnh nổi bật trong tệp PDF của nghiên cứu mới), MirrorVerse đã cải thiện các giải pháp gần đây để giải quyết cùng một vấn đề, nhưng vẫn chưa hoàn hảo.

Trong hình ảnh góc trên bên phải, chúng ta thấy rằng các lọ gốm hơi lệch về bên phải so với vị trí thực tế của chúng, và trong hình ảnh bên dưới, về mặt kỹ thuật, hình ảnh này không hề phản chiếu chiếc cốc, nhưng một hình ảnh phản chiếu không chính xác đã được nhồi vào khu vực bên phải, trái với logic của góc phản chiếu tự nhiên.

Do đó, chúng ta sẽ xem xét phương pháp mới này không hẳn vì nó có thể đại diện cho công nghệ tiên tiến hiện tại trong phản xạ dựa trên khuếch tán, mà còn để minh họa mức độ mà phương pháp này có thể trở thành một vấn đề nan giải đối với các mô hình khuếch tán tiềm ẩn, cả tĩnh và video, vì các ví dụ dữ liệu cần thiết về khả năng phản xạ rất có thể sẽ bị vướng vào các hành động và tình huống cụ thể.

Do đó, chức năng cụ thể này của LDM có thể vẫn chưa đáp ứng được các phương pháp tiếp cận theo cấu trúc cụ thể như NeRF, GSplat và CGI truyền thống.

giấy mới có tiêu đề MirrorVerse: Đẩy mạnh các mô hình khuếch tán để phản ánh thế giới một cách thực tếvà đến từ ba nhà nghiên cứu tại Vision and AI Lab, IISc Bangalore và Viện R&D Samsung tại Bangalore. Bài báo có trang dự án liên quan, cũng như một tập dữ liệu tại Hugging Face, với mã nguồn phát hành tại GitHub.

Phương pháp

Các nhà nghiên cứu lưu ý ngay từ đầu về khó khăn mà các mô hình như Khuếch tán ổn định và Phun ra có trong việc tôn trọng các lời nhắc dựa trên sự phản ánh, minh họa vấn đề một cách khéo léo:

Trích từ bài báo: Các mô hình chuyển văn bản thành hình ảnh hiện đại, SD3.5 và Flux, gặp phải những thách thức đáng kể trong việc tạo ra các phản chiếu nhất quán và chính xác về mặt hình học khi được yêu cầu tạo phản chiếu trong cảnh.

Trích từ bài báo: Các mô hình chuyển văn bản thành hình ảnh hiện đại, SD3.5 và Flux, đang bộc lộ những thách thức đáng kể trong việc tạo ra các phản chiếu nhất quán và chính xác về mặt hình học khi được yêu cầu tạo chúng trong một cảnh.

Các nhà nghiên cứu đã phát triển Gương phản chiếu 2.0, một mô hình sinh sản dựa trên khuếch tán nhằm cải thiện độ chân thực của ảnh và độ chính xác hình học của phản xạ gương trong hình ảnh tổng hợp. Việc đào tạo mô hình dựa trên bộ dữ liệu mới được các nhà nghiên cứu quản lý, có tên là GươngGen2, được thiết kế để giải quyết sự khái quát những điểm yếu được quan sát thấy trong các cách tiếp cận trước đây.

MirrorGen2 mở rộng các phương pháp luận trước đó bằng cách giới thiệu vị trí đối tượng ngẫu nhiên, vòng quay ngẫu nhiênđối tượng rõ ràng cơ sở, với mục tiêu đảm bảo rằng sự phản chiếu vẫn hợp lý trên nhiều tư thế và vị trí của vật thể hơn so với bề mặt gương.

Sơ đồ để tạo dữ liệu tổng hợp trong MirrorVerse: đường ống tạo tập dữ liệu áp dụng các phép tăng cường khóa bằng cách định vị ngẫu nhiên, xoay và nối đất các đối tượng trong cảnh bằng 3D-Positioner. Các đối tượng cũng được ghép nối theo các kết hợp nhất quán về mặt ngữ nghĩa để mô phỏng các mối quan hệ không gian phức tạp và các điểm che khuất, cho phép tập dữ liệu nắm bắt các tương tác thực tế hơn trong các cảnh nhiều đối tượng.

Sơ đồ để tạo dữ liệu tổng hợp trong MirrorVerse: đường ống tạo tập dữ liệu áp dụng các phép tăng cường khóa bằng cách định vị ngẫu nhiên, xoay và nối đất các đối tượng trong cảnh bằng 3D-Positioner. Các đối tượng cũng được ghép nối theo các kết hợp nhất quán về mặt ngữ nghĩa để mô phỏng các mối quan hệ không gian phức tạp và các điểm che khuất, cho phép tập dữ liệu nắm bắt các tương tác thực tế hơn trong các cảnh nhiều đối tượng.

Để tăng cường hơn nữa khả năng xử lý các sắp xếp không gian phức tạp của mô hình, đường ống MirrorGen2 kết hợp ghép đôi cảnh vật thể, cho phép hệ thống thể hiện tốt hơn sự che khuất và tương tác giữa nhiều yếu tố trong bối cảnh phản chiếu.

Bài báo viết:

'Các danh mục được ghép nối thủ công để đảm bảo tính nhất quán về mặt ngữ nghĩa – ví dụ, ghép một chiếc ghế với một chiếc bàn. Trong quá trình kết xuất, sau khi định vị và xoay [đối tượng] chính, một [đối tượng] bổ sung từ danh mục đã ghép nối sẽ được lấy mẫu và sắp xếp để tránh chồng chéo, đảm bảo các vùng không gian riêng biệt trong cảnh.'

Liên quan đến việc xác định đối tượng rõ ràng, ở đây các tác giả đảm bảo rằng các đối tượng được tạo ra được "neo" vào mặt đất trong dữ liệu tổng hợp đầu ra, thay vì "lơ lửng" một cách không phù hợp, điều này có thể xảy ra khi dữ liệu tổng hợp được tạo ở quy mô lớn hoặc bằng các phương pháp tự động hóa cao.

Vì sự đổi mới của tập dữ liệu đóng vai trò trung tâm trong tính mới lạ của bài báo nên chúng tôi sẽ tiến hành phần này sớm hơn bình thường.

Dữ liệu và Kiểm tra

SynMirrorV2

Bộ dữ liệu SynMirrorV2 của các nhà nghiên cứu được hình thành nhằm cải thiện tính đa dạng và tính chân thực của dữ liệu đào tạo phản xạ gương, bao gồm các đối tượng 3D có nguồn gốc từ trở ngạiĐối tượng Amazon Berkeley (ABO) các tập dữ liệu, với các lựa chọn này sau đó được tinh chỉnh thông qua ĐỐI TƯỢNG 3DIT, cũng như quá trình lọc từ V1 Dự án MirrorFusion, để loại bỏ tài sản chất lượng thấp. Điều này dẫn đến một nhóm tinh chỉnh gồm 66,062 đối tượng.

Ví dụ từ tập dữ liệu Objaverse, được sử dụng trong việc tạo tập dữ liệu được quản lý cho hệ thống mới. Nguồn: https://arxiv.org/pdf/2212.08051

Ví dụ từ tập dữ liệu Objaverse, được sử dụng để tạo tập dữ liệu được quản lý cho hệ thống mới. Nguồn: https://arxiv.org/pdf/2212.08051

Việc xây dựng bối cảnh liên quan đến việc đặt những vật thể này lên sàn có kết cấu từ Kết cấu CC và nền HDRI từ PolyHaven Kho lưu trữ CGI, sử dụng gương hình chữ nhật cao hoặc toàn tường. Ánh sáng được chuẩn hóa với đèn chiếu sáng khu vực được đặt phía trên và phía sau các vật thể, ở góc bốn mươi lăm độ. Các vật thể được định cỡ để vừa với khối lập phương đơn vị và được định vị bằng cách sử dụng giao điểm được tính toán trước của gương và chế độ xem camera hình chóp cụt, đảm bảo khả năng hiển thị.

Các phép quay ngẫu nhiên được áp dụng quanh trục y và kỹ thuật nối đất được sử dụng để ngăn chặn 'các hiện vật trôi nổi'.

Để mô phỏng các cảnh phức tạp hơn, tập dữ liệu cũng kết hợp nhiều đối tượng được sắp xếp theo các cặp ngữ nghĩa mạch lạc dựa trên các danh mục ABO. Các đối tượng thứ cấp được đặt để tránh chồng chéo, tạo ra 3,140 cảnh nhiều đối tượng được thiết kế để nắm bắt các mối quan hệ che khuất và độ sâu khác nhau.

Ví dụ về chế độ xem được kết xuất từ ​​tập dữ liệu của tác giả chứa nhiều đối tượng (nhiều hơn hai đối tượng), với hình ảnh minh họa về phân đoạn đối tượng và hình ảnh trực quan về bản đồ độ sâu được hiển thị bên dưới.

Ví dụ về chế độ xem được kết xuất từ ​​tập dữ liệu của tác giả chứa nhiều (nhiều hơn hai) đối tượng, với hình ảnh minh họa về phân đoạn đối tượng và hình ảnh trực quan về bản đồ độ sâu được hiển thị bên dưới.

Quy trình đào tạo

Nhận thấy rằng chỉ tính hiện thực tổng hợp là không đủ để khái quát hóa mạnh mẽ dữ liệu thực tế, các nhà nghiên cứu đã phát triển một quy trình học tập chương trình giảng dạy gồm ba giai đoạn để đào tạo MirrorFusion 2.0.

Ở Giai đoạn 1, các tác giả đã khởi tạo trọng lượng của cả hai nhánh điều hòa và thế hệ với sự khuếch tán ổn định v1.5 điểm kiểm tra và tinh chỉnh mô hình trên đào tạo đối tượng đơn lẻ chia của tập dữ liệu SynMirrorV2. Không giống như đã đề cập ở trên Phản ánh thực tế dự án, các nhà nghiên cứu đã không đóng băng nhánh thế hệ. Sau đó, họ đào tạo mô hình trong 40,000 lần lặp lại.

Ở Giai đoạn 2, mô hình được tinh chỉnh thêm 10,000 lần lặp nữa trên phần đào tạo nhiều đối tượng của SynMirrorV2, nhằm dạy hệ thống cách xử lý hiện tượng che khuất và các sắp xếp không gian phức tạp hơn trong các cảnh thực tế.

Cuối cùng, ở Giai đoạn 3, 10,000 lần lặp lại tinh chỉnh bổ sung đã được thực hiện bằng cách sử dụng dữ liệu thực tế từ Bộ dữ liệu MSD, sử dụng bản đồ độ sâu được tạo ra bởi Matterport3D máy ước tính độ sâu một mắt.

Ví dụ từ tập dữ liệu MSD, với các cảnh thực tế được phân tích thành bản đồ độ sâu và phân đoạn. Nguồn: https://arxiv.org/pdf/1908.09101

Ví dụ từ tập dữ liệu MSD, với các cảnh thực tế được phân tích thành bản đồ độ sâu và phân đoạn. Nguồn: https://arxiv.org/pdf/1908.09101

Trong quá trình đào tạo, các lời nhắc văn bản đã bị bỏ qua trong 20 phần trăm thời gian đào tạo để khuyến khích mô hình sử dụng tối ưu thông tin độ sâu có sẵn (tức là phương pháp 'che dấu').

Đào tạo diễn ra trên bốn GPU NVIDIA A100 cho tất cả các giai đoạn (thông số kỹ thuật VRAM không được cung cấp, mặc dù nó sẽ là 40GB hoặc 80GB cho mỗi thẻ). Tốc độ học tập là 1e-5 được sử dụng trên một lô có kích thước 4 cho mỗi GPU, theo AdamW trình tối ưu hóa.

Chương trình đào tạo này dần dần tăng độ khó của các nhiệm vụ được giao cho mô hình, bắt đầu bằng các cảnh tổng hợp đơn giản hơn và tiến tới các bố cục đầy thử thách hơn, với mục đích phát triển khả năng chuyển giao mạnh mẽ vào thế giới thực.

Kiểm tra

Các tác giả đã đánh giá MirrorFusion 2.0 so với phiên bản hiện đại trước đó là MirrorFusion, được dùng làm cơ sở, và tiến hành các thử nghiệm trên tập dữ liệu MirrorBenchV2, bao gồm cả cảnh đơn và cảnh nhiều đối tượng.

Các thử nghiệm định tính bổ sung đã được tiến hành trên các mẫu từ tập dữ liệu MSD và Đối tượng được quét của Google (GSO) tập dữ liệu.

Đánh giá sử dụng 2,991 hình ảnh vật thể đơn lẻ từ các danh mục nhìn thấy và không nhìn thấy, và 300 cảnh hai vật thể từ ABO. Hiệu suất được đo bằng Tỷ lệ tín hiệu trên nhiễu đỉnh (PSNR); Chỉ số tương đồng về cấu trúc (SSIM); và Đã học được sự tương đồng của hình ảnh nhận thức (LPIPS) để đánh giá chất lượng phản xạ trên vùng gương bị che khuất. CLIP tương tự được sử dụng để đánh giá sự liên kết văn bản với lời nhắc nhập liệu.

Trong các thử nghiệm định lượng, các tác giả đã tạo ra hình ảnh bằng cách sử dụng bốn hạt giống cho một lời nhắc cụ thể và chọn hình ảnh kết quả có điểm SSIM tốt nhất. Hai bảng kết quả được báo cáo cho các thử nghiệm định lượng được hiển thị bên dưới.

Bên trái, Kết quả định lượng về chất lượng tạo phản xạ đối tượng đơn trên MirrorBenchV2 single object split. MirrorFusion 2.0 vượt trội so với đường cơ sở, với kết quả tốt nhất được hiển thị bằng chữ in đậm. Bên phải, kết quả định lượng về chất lượng tạo phản xạ nhiều đối tượng trên MirrorBenchV2 multiple object split. MirrorFusion 2.0 được đào tạo với nhiều đối tượng vượt trội so với phiên bản được đào tạo mà không có chúng, với kết quả tốt nhất được hiển thị bằng chữ in đậm.

Bên trái, Kết quả định lượng về chất lượng tạo phản xạ đối tượng đơn trên MirrorBenchV2 single object split. MirrorFusion 2.0 vượt trội so với đường cơ sở, với kết quả tốt nhất được hiển thị bằng chữ in đậm. Bên phải, kết quả định lượng về chất lượng tạo phản xạ nhiều đối tượng trên MirrorBenchV2 multiple object split. MirrorFusion 2.0 được đào tạo với nhiều đối tượng vượt trội so với phiên bản được đào tạo mà không có chúng, với kết quả tốt nhất được hiển thị bằng chữ in đậm.

Các tác giả nhận xét:

'[Kết quả] cho thấy phương pháp của chúng tôi vượt trội hơn phương pháp cơ sở và việc tinh chỉnh trên nhiều đối tượng giúp cải thiện kết quả trên các cảnh phức tạp.'

Phần lớn các kết quả, và những kết quả được các tác giả nhấn mạnh, đều liên quan đến thử nghiệm định tính. Do kích thước của các hình minh họa này, chúng tôi chỉ có thể tái hiện một phần các ví dụ trong bài báo.

So sánh trên MirrorBenchV2: đường cơ sở không duy trì được phản xạ chính xác và tính nhất quán về mặt không gian, cho thấy hướng ghế không chính xác và phản xạ bị méo mó của nhiều vật thể, trong khi (các tác giả khẳng định) MirrorFusion 2.0 hiển thị chính xác ghế và ghế sofa, với vị trí, hướng và cấu trúc chính xác.

So sánh trên MirrorBenchV2: đường cơ sở không duy trì được phản xạ chính xác và tính nhất quán về mặt không gian, cho thấy hướng ghế không chính xác và phản xạ bị méo mó của nhiều vật thể, trong khi (các tác giả khẳng định) MirrorFusion 2.0 hiển thị chính xác ghế và ghế sofa, với vị trí, hướng và cấu trúc chính xác.

Trong số những kết quả chủ quan này, các nhà nghiên cứu cho rằng mô hình cơ sở không thể hiển thị chính xác hướng đối tượng và mối quan hệ không gian trong phản xạ, thường tạo ra các hiện tượng như xoay không chính xác và các đối tượng trôi nổi. Các tác giả cho rằng MirrorFusion 2.0, được đào tạo trên SynMirrorV2, bảo toàn hướng đối tượng và vị trí chính xác trong cả cảnh đối tượng đơn lẻ và nhiều đối tượng, tạo ra phản xạ thực tế và mạch lạc hơn.

Dưới đây chúng ta thấy kết quả định tính trên tập dữ liệu GSO đã đề cập ở trên:

So sánh trên tập dữ liệu GSO. Đường cơ sở mô tả sai cấu trúc đối tượng và tạo ra các phản xạ không đầy đủ, méo mó, trong khi MirrorFusion 2.0, theo các tác giả, bảo toàn tính toàn vẹn không gian và tạo ra hình học, màu sắc và chi tiết chính xác, ngay cả trên các đối tượng không phân phối.

So sánh trên tập dữ liệu GSO. Đường cơ sở trình bày sai cấu trúc đối tượng và tạo ra các phản xạ không đầy đủ, méo mó, trong khi MirrorFusion 2.0, theo các tác giả, bảo toàn tính toàn vẹn không gian và tạo ra hình học, màu sắc và chi tiết chính xác, ngay cả trên các đối tượng không phân phối.

Dưới đây là bình luận của tác giả:

'MirrorFusion 2.0 tạo ra phản xạ chính xác và thực tế hơn đáng kể. Ví dụ, trong Hình 5 (a – ở trên), MirrorFusion 2.0 phản xạ chính xác tay cầm ngăn kéo (được tô sáng màu xanh lá cây), trong khi mô hình cơ sở tạo ra phản xạ không hợp lý (được tô sáng màu đỏ).

'Tương tự như vậy, đối với "chiếc cốc trắng-vàng" trong Hình 5 (b), MirrorFusion 2.0 cung cấp hình học thuyết phục với rất ít hiện vật, không giống như đường cơ sở, không thể nắm bắt chính xác hình học và hình dáng của vật thể.'

Bài kiểm tra định tính cuối cùng được thực hiện dựa trên bộ dữ liệu MSD thực tế đã đề cập ở trên (một phần kết quả được hiển thị bên dưới):

Kết quả cảnh thực tế so sánh MirrorFusion, MirrorFusion 2.0 và MirrorFusion 2.0, được tinh chỉnh trên tập dữ liệu MSD. MirrorFusion 2.0, các tác giả khẳng định, nắm bắt các chi tiết cảnh phức tạp chính xác hơn, bao gồm các đối tượng lộn xộn trên bàn và sự hiện diện của nhiều gương trong môi trường ba chiều. Chỉ có kết quả một phần được hiển thị ở đây, do kích thước của kết quả trong bài báo gốc, mà chúng tôi giới thiệu cho người đọc để có kết quả đầy đủ và độ phân giải tốt hơn.

Kết quả cảnh thực tế so sánh MirrorFusion, MirrorFusion 2.0 và MirrorFusion 2.0, được tinh chỉnh trên tập dữ liệu MSD. MirrorFusion 2.0, các tác giả khẳng định, nắm bắt các chi tiết cảnh phức tạp chính xác hơn, bao gồm các đối tượng lộn xộn trên bàn và sự hiện diện của nhiều gương trong môi trường ba chiều. Chỉ có kết quả một phần được hiển thị ở đây, do kích thước của kết quả trong bài báo gốc, mà chúng tôi giới thiệu cho người đọc để có kết quả đầy đủ và độ phân giải tốt hơn.

Ở đây, các tác giả nhận thấy rằng trong khi MirrorFusion 2.0 hoạt động tốt trên dữ liệu MirrorBenchV2 và GSO, ban đầu nó gặp khó khăn với các cảnh thực tế phức tạp trong tập dữ liệu MSD. Việc tinh chỉnh mô hình trên một tập hợp con của MSD đã cải thiện khả năng xử lý các môi trường lộn xộn và nhiều bản sao, dẫn đến các phản xạ mạch lạc và chi tiết hơn trên phần tách thử nghiệm được giữ lại.

Ngoài ra, một nghiên cứu người dùng đã được tiến hành, trong đó 84% người dùng được báo cáo là thích các thế hệ từ MirrorFusion 2.0 hơn phương pháp cơ bản.

Kết quả nghiên cứu người dùng.

Kết quả nghiên cứu người dùng.

Vì thông tin chi tiết về nghiên cứu người dùng đã được chuyển vào phần phụ lục của bài báo, chúng tôi yêu cầu người đọc tham khảo phần đó để biết thông tin cụ thể về nghiên cứu.

Kết luận

Mặc dù một số kết quả được trình bày trong bài báo là những cải tiến ấn tượng về trình độ hiện đại, trình độ hiện đại cho mục đích cụ thể này lại quá tệ đến mức ngay cả một giải pháp tổng hợp không thuyết phục cũng có thể chiến thắng với một chút nỗ lực. Kiến trúc cơ bản của mô hình khuếch tán không thân thiện với việc học và chứng minh vật lý nhất quán đáng tin cậy, do đó, vấn đề được đặt ra không đúng và rõ ràng là không hướng tới một giải pháp thanh lịch.

Hơn nữa, việc thêm dữ liệu vào các mô hình hiện có đã là phương pháp tiêu chuẩn để khắc phục những thiếu sót trong hiệu suất LDM, với tất cả những nhược điểm được liệt kê trước đó. Có thể cho rằng nếu các tập dữ liệu quy mô lớn trong tương lai chú ý nhiều hơn đến phân phối (và chú thích) của các điểm dữ liệu liên quan đến phản xạ, chúng ta có thể mong đợi rằng các mô hình kết quả sẽ xử lý tình huống này tốt hơn.

Tuy nhiên, điều tương tự cũng đúng với nhiều vấn đề khó chịu khác trong kết quả đầu ra của LDM – ai có thể nói vấn đề nào xứng đáng với công sức và tiền bạc bỏ ra cho giải pháp mà các tác giả của bài báo mới đề xuất ở đây?

 

Xuất bản lần đầu vào Thứ Hai, ngày 28 tháng 2025 năm 29. Thứ Ba ngày XNUMX tháng XNUMX: đã sửa lỗi ngữ pháp ở đoạn cuối.