Connect with us

Sửa lỗi hạn chế của mô hình khuếch tán về sự hiểu biết của gương và phản xạ

Góc nhìn Anderson

Sửa lỗi hạn chế của mô hình khuếch tán về sự hiểu biết của gương và phản xạ

mm
ChatGPT-4o and Adobe Firefly

Kể từ khi trí tuệ nhân tạo tạo ra bắt đầu thu hút sự quan tâm của công chúng, lĩnh vực nghiên cứu tầm nhìn máy tính đã sâu sắc hơn trong việc phát triển các mô hình AI có khả năng hiểu và sao chép các định luật vật lý; tuy nhiên, thách thức của việc dạy hệ thống học máy mô phỏng các hiện tượng như trọng lực và động lực học chất lỏng đã là một焦 điểm quan trọng của nỗ lực nghiên cứu trong ít nhất năm năm qua.

Kể từ khi mô hình khuếch tán tiềm ẩn (LDMs) chiếm ưu thế trong cảnh quan trí tuệ nhân tạo tạo ra vào năm 2022, các nhà nghiên cứu đã tập trung ngày càng nhiều vào khả năng hạn chế của kiến trúc LDM trong việc hiểu và tái tạo hiện tượng vật lý. Hiện tại, vấn đề này đã trở nên nổi bật hơn với sự phát triển đột phá của mô hình video tạo ra của OpenAI Sora, và (có thể là) sự phát hành quan trọng hơn của mô hình video mã nguồn mở Hunyuan VideoWan 2.1.

Phản xạ kém

Hầu hết các nghiên cứu nhằm cải thiện sự hiểu biết của LDM về vật lý đã tập trung vào các lĩnh vực như mô phỏng đi, vật lý hạt và các khía cạnh khác của chuyển động Newton. Những lĩnh vực này đã thu hút sự chú ý vì sự không chính xác trong các hành vi vật lý cơ bản sẽ ngay lập tức làm suy yếu tính xác thực của video tạo ra bằng AI.

Tuy nhiên, một dòng nghiên cứu nhỏ nhưng ngày càng tăng tập trung vào một trong những điểm yếu lớn nhất của LDM – khả năng tương đối kém trong việc tạo ra phản xạ chính xác.

Từ bài báo tháng 1 năm 2025 'Reflecting Reality: Enabling Diffusion Models to Produce Faithful Mirror Reflections', các ví dụ về 'sự thất bại của phản xạ' so với cách tiếp cận của các nhà nghiên cứu.

Từ bài báo tháng 1 năm 2025 ‘Reflecting Reality: Enabling Diffusion Models to Produce Faithful Mirror Reflections’, các ví dụ về ‘sự thất bại của phản xạ’ so với cách tiếp cận của các nhà nghiên cứu. Nguồn: https://arxiv.org/pdf/2409.14677

Vấn đề này cũng là một thách thức trong thời đại CGI và vẫn còn trong lĩnh vực trò chơi video, nơi các thuật toán ray-tracing mô phỏng đường đi của ánh sáng khi nó tương tác với các bề mặt. Ray-tracing tính toán cách các tia sáng ảo phản xạ hoặc đi qua các vật thể để tạo ra phản xạ, khúc xạ và bóng thực tế.

Tuy nhiên, vì mỗi lần phản xạ bổ sung làm tăng đáng kể chi phí tính toán, các ứng dụng thời gian thực phải cân bằng độ trễ và độ chính xác bằng cách giới hạn số lượng phép phản xạ ánh sáng cho phép.

Một biểu diễn của một chùm sáng ảo được tính toán trong một kịch bản 3D truyền thống (tức là CGI), sử dụng các công nghệ và nguyên tắc được phát triển lần đầu tiên vào những năm 1960 và đã được hoàn thiện giữa năm 1982-93 (khoảng thời gian giữa Tron [1982] và Jurassic Park [1993]).

Một biểu diễn của một chùm sáng ảo được tính toán trong một kịch bản 3D truyền thống (tức là CGI), sử dụng các công nghệ và nguyên tắc được phát triển lần đầu tiên vào những năm 1960 và đã được hoàn thiện giữa năm 1982-93 (khoảng thời gian giữa ‘Tron’ [1982] và ‘Jurassic Park’ [1993]). Nguồn: https://www.unrealengine.com/en-US/explainers/ray-tracing/what-is-real-time-ray-tracing

Ví dụ, việc mô tả một ấm trà chrome trước một gương có thể liên quan đến một quá trình ray-tracing, nơi các tia sáng phản xạ nhiều lần giữa các bề mặt phản xạ, tạo ra một vòng lặp gần như vô hạn với rất ít lợi ích thực tế cho hình ảnh cuối cùng. Trong hầu hết các trường hợp, độ sâu phản xạ hai đến ba lần đã vượt quá khả năng nhận thức của người xem. Một lần phản xạ sẽ dẫn đến một gương đen, vì ánh sáng phải hoàn thành ít nhất hai chuyến đi để tạo ra một phản xạ có thể nhìn thấy.

Mỗi lần phản xạ bổ sung làm tăng đáng kể chi phí tính toán, thường làm tăng gấp đôi thời gian kết xuất, khiến việc xử lý phản xạ nhanh hơn trở thành một trong những cơ hội quan trọng nhất để cải thiện chất lượng kết xuất ray-tracing.

Tự nhiên, phản xạ xảy ra và là điều cần thiết cho tính hiện thực trong các kịch bản ít rõ ràng hơn – chẳng hạn như bề mặt phản xạ của một con đường thành phố hoặc một chiến trường sau khi mưa; sự phản xạ của con đường đối diện trong cửa sổ hoặc cửa ra vào bằng kính; hoặc trong kính của các nhân vật được mô tả, nơi các vật thể và môi trường có thể cần phải xuất hiện.

Một phản xạ song song được mô phỏng thông qua compositing truyền thống cho một cảnh tượng kinh điển trong 'The Matrix' (1999).

Một phản xạ song song được mô phỏng thông qua compositing truyền thống cho một cảnh tượng kinh điển trong ‘The Matrix’ (1999).

Vấn đề hình ảnh

Vì lý do này, các khuôn khổ được ưa chuộng trước khi xuất hiện mô hình khuếch tán, chẳng hạn như Trường bức xạ thần kinh (NeRF), và một số thách thức gần đây hơn như Gaussian Splatting vẫn duy trì những khó khăn của riêng họ trong việc thực hiện phản xạ một cách tự nhiên.

Dự án REF2-NeRF (được minh họa dưới đây) đã đề xuất một phương pháp mô hình hóa NeRF dựa trên các cảnh chứa một tủ kính. Trong phương pháp này, sự khúc xạ và phản xạ được mô hình hóa bằng các yếu tố phụ thuộc và độc lập với quan điểm của người xem. Cách tiếp cận này cho phép các nhà nghiên cứu ước tính các bề mặt nơi sự khúc xạ xảy ra, cụ thể là bề mặt kính, và cho phép tách và mô hình hóa các thành phần ánh sáng trực tiếp và phản xạ.

Ví dụ từ bài báo Ref2Nerf. Nguồn: https://arxiv.org/pdf/2311.17116

Ví dụ từ bài báo Ref2Nerf. Nguồn: https://arxiv.org/pdf/2311.17116

Các giải pháp khác cho vấn đề phản xạ NeRF trong những 4-5 năm qua đã bao gồm NeRFReN, Reflecting Reality, và dự án Planar Reflection-Aware Neural Radiance Fields của Meta vào năm 2024.

Đối với GSplat, các bài báo như Mirror-3DGS, Reflective Gaussian Splatting, và RefGaussian đã cung cấp các giải pháp liên quan đến vấn đề phản xạ, trong khi dự án Nero vào năm 2023 đã đề xuất một phương pháp tùy chỉnh để tích hợp các đặc tính phản xạ vào các biểu diễn thần kinh.

MirrorVerse

Việc khiến một mô hình khuếch tán tôn trọng logic phản xạ có thể khó khăn hơn so với các cách tiếp cận cấu trúc cụ thể như NeRF, GSplat và thậm chí CGI truyền thống.

Trong các mô hình khuếch tán, một quy tắc như vậy chỉ có thể được nhúng một cách đáng tin cậy nếu dữ liệu đào tạo chứa nhiều ví dụ đa dạng trên một loạt các kịch bản, khiến nó phụ thuộc nặng vào phân phối và chất lượng của tập dữ liệu ban đầu.

Truyền thống, việc thêm các hành vi cụ thể như vậy thuộc về LoRA hoặc fine-tuning của mô hình cơ bản; nhưng những cách này không phải là giải pháp lý tưởng, vì LoRA có xu hướng làm cho đầu ra nghiêng về dữ liệu đào tạo của nó, ngay cả khi không có lời nhắc, trong khi fine-tune – ngoài việc tốn kém – có thể làm phân nhánh một mô hình lớn một cách không thể đảo ngược khỏi dòng chính, và tạo ra một loạt các công cụ tùy chỉnh sẽ không bao giờ hoạt động với bất kỳ phiên bản nào khác của mô hình, bao gồm cả mô hình ban đầu.

Nói chung, việc cải thiện các mô hình khuếch tán đòi hỏi dữ liệu đào tạo phải chú ý nhiều hơn đến vật lý của phản xạ. Tuy nhiên, nhiều lĩnh vực khác cũng cần sự chú ý đặc biệt như vậy. Trong bối cảnh các tập dữ liệu quy mô lớn, nơi việc kiểm duyệt tùy chỉnh là tốn kém và khó khăn, việc giải quyết mọi điểm yếu theo cách này là không thực tế.

Tuy nhiên, các giải pháp cho vấn đề phản xạ LDM vẫn xuất hiện. Một nỗ lực gần đây như vậy, từ Ấn Độ, là dự án MirrorVerse, cung cấp một tập dữ liệu và phương pháp đào tạo cải tiến có khả năng cải thiện tình trạng hiện tại trong thách thức này trong nghiên cứu khuếch tán.

Kết quả từ MirrorVerse so với hai cách tiếp cận trước đó (hai cột giữa). Nguồn: https://arxiv.org/pdf/2504.15397

Kết quả từ MirrorVerse so với hai cách tiếp cận trước đó (hai cột giữa). Nguồn: https://arxiv.org/pdf/2504.15397

Như chúng ta có thể thấy trong ví dụ trên (hình ảnh đặc trưng trong tệp PDF của nghiên cứu mới), MirrorVerse cải tiến trên các đề xuất gần đây giải quyết cùng vấn đề, nhưng vẫn còn xa so với hoàn hảo.

Trong hình ảnh trên cùng bên phải, chúng ta thấy rằng các bình gốm nằm hơi偏 về phía phải so với vị trí chúng nên ở, và trong hình ảnh dưới, vốn không nên có phản xạ của cốc, một phản xạ không chính xác đã được ép vào khu vực bên phải, trái với logic của góc phản xạ tự nhiên.

Do đó, chúng tôi sẽ xem xét phương pháp mới không chỉ vì nó có thể đại diện cho tình trạng hiện tại của nghệ thuật trong phản xạ dựa trên khuếch tán, mà còn để minh họa mức độ mà vấn đề này có thể chứng minh là một vấn đề không thể giải quyết được đối với các mô hình khuếch tán tiềm ẩn, cả tĩnh và video, vì các ví dụ dữ liệu về tính phản xạ có khả năng bị ràng buộc với các hành động và kịch bản cụ thể.

Do đó, chức năng này của LDM có thể tiếp tục không đạt được các cách tiếp cận cấu trúc cụ thể như NeRF, GSplat và thậm chí CGI truyền thống.

Bài báo mới có tiêu đề MirrorVerse: Đẩy mô hình khuếch tán để phản xạ thực tế thế giới, và đến từ ba nhà nghiên cứu trên Vision và AI Lab, IISc Bangalore, và Viện Nghiên cứu & Phát triển Samsung tại Bangalore. Bài báo có một trang dự án liên kết, cũng như một tập dữ liệu tại Hugging Face, với mã nguồn được phát hành tại GitHub.

Phương pháp

Các nhà nghiên cứu lưu ý từ đầu rằng các mô hình như Stable Diffusion và Flux gặp khó khăn trong việc tôn trọng các lời nhắc dựa trên phản xạ, minh họa vấn đề một cách khéo léo:

Từ bài báo: Các mô hình hình ảnh đến văn bản hiện tại, SD3.5 và Flux, đã gặp phải những thách thức đáng kể trong việc tạo ra phản xạ nhất quán và chính xác về mặt hình học khi được yêu cầu tạo phản xạ trong cảnh.

Từ bài báo: Các mô hình hình ảnh đến văn bản hiện tại, SD3.5 và Flux, đã gặp phải những thách thức đáng kể trong việc tạo ra phản xạ nhất quán và chính xác về mặt hình học khi được yêu cầu tạo chúng trong một cảnh.

Các nhà nghiên cứu đã phát triển MirrorFusion 2.0, một mô hình tạo ra dựa trên khuếch tán nhằm cải thiện tính hiện thực và độ chính xác hình học của phản xạ gương trong hình ảnh tổng hợp. Việc đào tạo cho mô hình này dựa trên tập dữ liệu mới do các nhà nghiên cứu tạo ra, có tên MirrorGen2, được thiết kế để giải quyết các điểm yếu về tổng quát hóa được quan sát trong các phương pháp trước.

MirrorGen2 mở rộng các phương pháp trước đó bằng cách giới thiệu đặt vị trí ngẫu nhiên, quay ngẫu nhiên, và đặt vật thể rõ ràng, với mục tiêu đảm bảo rằng phản xạ vẫn còn hợp lý trên một loạt các tư thế và vị trí của vật thể so với bề mặt gương.

Sơ đồ cho việc tạo dữ liệu tổng hợp trong MirrorVerse: đường ống tạo dữ liệu áp dụng các tăng cường chính bằng cách đặt vị trí ngẫu nhiên, quay và đặt vật thể trong cảnh bằng 3D-Positioner. Các vật thể cũng được ghép nối trong các kết hợp nhất quán về mặt ngữ nghĩa để mô phỏng các mối quan hệ không gian phức tạp và che khuất, cho phép tập dữ liệu nắm bắt các tương tác thực tế hơn trong các cảnh nhiều vật thể.

Sơ đồ cho việc tạo dữ liệu tổng hợp trong MirrorVerse: đường ống tạo dữ liệu áp dụng các tăng cường chính bằng cách đặt vị trí ngẫu nhiên, quay và đặt vật thể trong cảnh bằng 3D-Positioner. Các vật thể cũng được ghép nối trong các kết hợp nhất quán về mặt ngữ nghĩa để mô phỏng các mối quan hệ không gian phức tạp và che khuất, cho phép tập dữ liệu nắm bắt các tương tác thực tế hơn trong các cảnh nhiều vật thể.

Để tăng cường thêm khả năng của mô hình trong việc xử lý các sắp xếp không gian phức tạp, đường ống MirrorGen2 tích hợp các cảnh vật thể ghép nối, cho phép hệ thống đại diện tốt hơn cho che khuất và tương tác giữa nhiều yếu tố trong các môi trường phản xạ.

Bài báo tuyên bố:

‘Các danh mục được ghép nối thủ công để đảm bảo sự nhất quán về mặt ngữ nghĩa – ví dụ, ghép một chiếc ghế với một bàn. Trong quá trình kết xuất, sau khi đặt và quay vật thể chính, một vật thể bổ sung từ danh mục ghép nối được lấy mẫu và sắp xếp để tránh chồng lấp, tạo ra các vùng không gian riêng biệt trong cảnh.’

Về việc đặt vật thể rõ ràng, ở đây các tác giả đảm bảo rằng các vật thể được tạo ra được ‘neo’ vào mặt đất trong dữ liệu tổng hợp, chứ không ‘lơ lửng’ một cách không phù hợp, điều này có thể xảy ra khi dữ liệu tổng hợp được tạo ra với quy mô lớn hoặc bằng các phương pháp tự động hóa cao.

Do sự đổi mới của tập dữ liệu là trung tâm của tính mới của bài báo, chúng tôi sẽ tiếp tục sớm hơn đến phần này của bài viết.

Dữ liệu và Kiểm tra

SynMirrorV2

Tập dữ liệu SynMirrorV2 của các nhà nghiên cứu được thiết kế để cải thiện sự đa dạng và tính hiện thực của dữ liệu đào tạo phản xạ gương, bao gồm các vật thể 3D từ ObjaverseAmazon Berkeley Objects (ABO), với những lựa chọn này sau đó được tinh chỉnh thông qua OBJECT 3DIT, cũng như quá trình lọc từ dự án MirrorFusion V1, để loại bỏ tài sản chất lượng thấp. Điều này đã dẫn đến một nhóm các vật thể được tinh chỉnh gồm 66.062 vật thể.

Ví dụ từ tập dữ liệu Objaverse, được sử dụng trong việc tạo ra tập dữ liệu được kiểm duyệt cho hệ thống mới.

Ví dụ từ tập dữ liệu Objaverse, được sử dụng trong việc tạo ra tập dữ liệu được kiểm duyệt cho hệ thống mới. Nguồn: https://arxiv.org/pdf/2212.08051

Xây dựng cảnh bao gồm việc đặt các vật thể này lên các sàn có kết cấu từ CC-Textures và nền HDRI từ kho CGI PolyHaven, sử dụng gương toàn bộ tường hoặc gương hình chữ nhật cao. Ánh sáng được tiêu chuẩn hóa với một nguồn sáng khu vực đặt trên và sau các vật thể, ở góc 45 độ. Các vật thể được缩 lại để phù hợp trong một khối lập phương đơn vị và được đặt bằng cách sử dụng một giao điểm được tính trước của gương và frustum của máy ảnh, đảm bảo khả năng nhìn thấy.

Quay ngẫu nhiên được áp dụng xung quanh trục y, và một kỹ thuật đặt vật thể được sử dụng để ngăn chặn các hiện tượng ‘lơ lửng’.

Để mô phỏng các cảnh phức tạp hơn, tập dữ liệu cũng bao gồm nhiều vật thể được sắp xếp theo các ghép nối nhất quán về mặt ngữ nghĩa dựa trên các danh mục ABO. Các vật thể thứ cấp được đặt để tránh chồng lấp, tạo ra 3.140 cảnh nhiều vật thể được thiết kế để nắm bắt các che khuất và mối quan hệ độ sâu đa dạng.

Ví dụ về các cảnh được kết xuất từ tập dữ liệu của các tác giả chứa nhiều vật thể (hơn hai), với minh họa về phân đoạn vật thể và hình ảnh bản đồ độ sâu được hiển thị dưới đây.

Ví dụ về các cảnh được kết xuất từ tập dữ liệu của các tác giả chứa nhiều vật thể (hơn hai), với minh họa về phân đoạn vật thể và hình ảnh bản đồ độ sâu được hiển thị dưới đây.

Quá trình Đào tạo

Nhận ra rằng tính hiện thực tổng hợp alone là không đủ cho sự tổng quát hóa mạnh mẽ sang dữ liệu thế giới thực, các nhà nghiên cứu đã phát triển một quá trình học tập theo chương trình ba giai đoạn cho việc đào tạo MirrorFusion 2.0.

Trong Giai đoạn 1, các tác giả đã khởi tạo trọng số của cả nhánh điều kiện và nhánh tạo ra với điểm kiểm tra Stable Diffusion v1.5, và tinh chỉnh mô hình trên phần đào tạo của tập dữ liệu SynMirrorV2. Không giống như dự án Reflecting Reality được đề cập trước đó, các nhà nghiên cứu không đóng băng nhánh tạo ra. Họ sau đó đào tạo mô hình trong 40.000 lần lặp.

Trong Giai đoạn 2, mô hình được tinh chỉnh thêm 10.000 lần lặp trên phần đào tạo nhiều vật thể của SynMirrorV2, nhằm dạy cho hệ thống cách xử lý che khuất và các sắp xếp không gian phức tạp hơn được tìm thấy trong các cảnh thực tế.

Cuối cùng, trong Giai đoạn 3, thêm 10.000 lần lặp tinh chỉnh được thực hiện bằng cách sử dụng dữ liệu thế giới thực từ tập dữ liệu MSD, sử dụng bản đồ độ sâu được tạo ra bởi Matterport3D ước tính độ sâu đơn眼.

Ví dụ từ tập dữ liệu MSD, với các cảnh thế giới thực được phân tích thành bản đồ độ sâu và phân đoạn.

Ví dụ từ tập dữ liệu MSD, với các cảnh thế giới thực được phân tích thành bản đồ độ sâu và phân đoạn. Nguồn: https://arxiv.org/pdf/1908.09101

Trong quá trình đào tạo, các lời nhắc văn bản được bỏ qua trong 20% thời gian đào tạo để khuyến khích mô hình sử dụng tối ưu thông tin độ sâu có sẵn (tức là một cách tiếp cận ‘được che giấu’).

Đào tạo diễn ra trên bốn GPU NVIDIA A100 cho tất cả các giai đoạn (không cung cấp thông số VRAM, mặc dù nó sẽ là 40GB hoặc 80GB mỗi card). Một tốc độ học 1e-5 được sử dụng với kích thước batch 4 mỗi GPU, dưới bộ tối ưu hóa AdamW.

Phương pháp đào tạo này tăng dần độ khó của các nhiệm vụ được trình bày cho mô hình, bắt đầu với các cảnh tổng hợp đơn giản và tiến tới các thành phần phức tạp hơn, với ý định phát triển khả năng chuyển đổi thế giới thực mạnh mẽ.

Kiểm tra

Các tác giả đã đánh giá MirrorFusion 2.0 so với trạng thái hiện tại trước đó, MirrorFusion, đóng vai trò là baseline, và thực hiện các thí nghiệm trên tập dữ liệu MirrorBenchV2, bao gồm cả cảnh đơn vật thể và nhiều vật thể.

Các kiểm tra định lượng bổ sung được thực hiện trên mẫu từ tập dữ liệu MSD và tập dữ liệu Google Scanned Objects (GSO).

Đánh giá sử dụng 2.991 hình ảnh vật thể đơn từ các danh mục đã thấy và chưa thấy, và 300 cảnh hai vật thể từ ABO. Hiệu suất được đo bằng Tỷ lệ tín hiệu trên nhiễu đỉnh (PSNR); Chỉ số tương đồng cấu trúc (SSIM); và Tương đồng hình ảnh bản vá học được (LPIPS) để đánh giá chất lượng phản xạ trên vùng gương bị che. Tương đồng CLIP được sử dụng để đánh giá sự phù hợp văn bản với các lời nhắc đầu vào.

Trong các kiểm tra định lượng, các tác giả đã tạo ra hình ảnh bằng cách sử dụng bốn hạt giống cho một lời nhắc cụ thể, và chọn hình ảnh kết quả có điểm SSIM tốt nhất. Hai bảng kết quả được báo cáo cho các kiểm tra định lượng được hiển thị dưới đây.

Bên trái, Kết quả định lượng cho chất lượng tạo phản xạ vật thể đơn trên tập dữ liệu MirrorBenchV2 đơn vật thể. MirrorFusion 2.0 vượt trội so với baseline, với kết quả tốt nhất được hiển thị in đậm. Bên phải, Kết quả định lượng cho chất lượng tạo phản xạ nhiều vật thể trên tập dữ liệu MirrorBenchV2 nhiều vật thể. MirrorFusion 2.0 được đào tạo với nhiều vật thể vượt trội so với phiên bản được đào tạo mà không có chúng, với kết quả tốt nhất được hiển thị in đậm.

Bên trái, Kết quả định lượng cho chất lượng tạo phản xạ vật thể đơn trên tập dữ liệu MirrorBenchV2 đơn vật thể. MirrorFusion 2.0 vượt trội so với baseline, với kết quả tốt nhất được hiển thị in đậm. Bên phải, Kết quả định lượng cho chất lượng tạo phản xạ nhiều vật thể trên tập dữ liệu MirrorBenchV2 nhiều vật thể. MirrorFusion 2.0 được đào tạo với nhiều vật thể vượt trội so với phiên bản được đào tạo mà không có chúng, với kết quả tốt nhất được hiển thị in đậm.

Các tác giả nhận xét:

‘[Kết quả] cho thấy phương pháp của chúng tôi vượt trội so với phương pháp baseline và tinh chỉnh trên nhiều vật thể cải thiện kết quả trên các cảnh phức tạp.’

Hầu hết các kết quả, và những kết quả được các tác giả nhấn mạnh, liên quan đến kiểm tra định tính. Do kích thước của những hình minh họa này, chúng tôi chỉ có thể tái tạo một phần các ví dụ trong bài báo.

So sánh trên MirrorBenchV2: baseline không duy trì được phản xạ chính xác và tính nhất quán không gian, hiển thị hướng ghế không chính xác và phản xạ bị méo của nhiều vật thể, trong khi (các tác giả cho rằng) MirrorFusion 2.0 kết xuất ghế và sofa một cách chính xác, với vị trí, hướng và cấu trúc chính xác.

So sánh trên MirrorBenchV2: baseline không duy trì được phản xạ chính xác và tính nhất quán không gian, hiển thị hướng ghế không chính xác và phản xạ bị méo của nhiều vật thể, trong khi (các tác giả cho rằng) MirrorFusion 2.0 kết xuất ghế và sofa một cách chính xác, với vị trí, hướng và cấu trúc chính xác.

Về những kết quả chủ quan này, các nhà nghiên cứu cho rằng mô hình baseline không thể kết xuất chính xác hướng vật thể và mối quan hệ không gian trong phản xạ, thường tạo ra các hiện tượng như quay không chính xác và vật thể lơ lửng. MirrorFusion 2.0, được đào tạo trên SynMirrorV2, các tác giả cho rằng, bảo tồn hướng vật thể và vị trí chính xác trong cả cảnh đơn vật thể và nhiều vật thể, dẫn đến phản xạ thực tế và nhất quán hơn.

Dưới đây chúng ta thấy kết quả định tính trên tập dữ liệu GSO:

So sánh trên tập dữ liệu GSO. Baseline không chính xác về cấu trúc vật thể và tạo ra phản xạ không đầy đủ, bị méo, trong khi MirrorFusion 2.0, các tác giả cho rằng, bảo tồn tính toàn vẹn không gian và tạo ra hình học, màu sắc và chi tiết chính xác, thậm chí trên các vật thể ngoài phân phối.

So sánh trên tập dữ liệu GSO. Baseline không chính xác về cấu trúc vật thể và tạo ra phản xạ không đầy đủ, bị méo, trong khi MirrorFusion 2.0, các tác giả cho rằng, bảo tồn tính toàn vẹn không gian và tạo ra hình học, màu sắc và chi tiết chính xác, thậm chí trên các vật thể ngoài phân phối.

Tại đây, các tác giả bình luận:

‘MirrorFusion 2.0 tạo ra phản xạ đáng kể hơn và thực tế hơn. Ví dụ, trong Hình 5 (a – trên), MirrorFusion 2.0 phản xạ chính xác tay cầm ngăn kéo (được đánh dấu màu xanh lá cây), trong khi mô hình baseline tạo ra một phản xạ không hợp lý (được đánh dấu màu đỏ). ‘

‘Tương tự, đối với ‘cốc trắng-vàng’ trong Hình 5 (b), MirrorFusion 2.0 cung cấp một hình học thuyết phục với các hiện象 tối thiểu, không giống như baseline, không thể nắm bắt chính xác hình học và ngoại hình của vật thể.’

Kết quả kiểm tra định tính cuối cùng là so với tập dữ liệu MSD thực tế (kết quả một phần được hiển thị dưới đây):

Kết quả cảnh thực tế so sánh MirrorFusion, MirrorFusion 2.0 và MirrorFusion 2.0, tinh chỉnh trên tập dữ liệu MSD. MirrorFusion 2.0, các tác giả cho rằng, nắm bắt các chi tiết cảnh phức tạp hơn, bao gồm các vật thể lộn xộn trên một bàn và sự hiện diện của nhiều gương trong một môi trường 3D. Chỉ hiển thị một phần kết quả ở đây do kích thước của kết quả trong bài báo gốc, mà chúng tôi đề cập đến người đọc để có kết quả đầy đủ và độ phân giải tốt hơn.

Kết quả cảnh thực tế so sánh MirrorFusion, MirrorFusion 2.0 và MirrorFusion 2.0, tinh chỉnh trên tập dữ liệu MSD. MirrorFusion 2.0, các tác giả cho rằng, nắm bắt các chi tiết cảnh phức tạp hơn, bao gồm các vật thể lộn xộn trên một bàn và sự hiện diện của nhiều gương trong một môi trường 3D. Chỉ hiển thị một phần kết quả ở đây do kích thước của kết quả trong bài báo gốc, mà chúng tôi đề cập đến người đọc để có kết quả đầy đủ và độ phân giải tốt hơn.

Tại đây, các tác giả quan sát rằng trong khi MirrorFusion 2.0 hoạt động tốt trên MirrorBenchV2 và dữ liệu GSO, nó ban đầu gặp khó khăn với các cảnh thực tế phức tạp trong tập dữ liệu MSD. Tinh chỉnh mô hình trên một tập con của MSD đã cải thiện khả năng của nó trong việc xử lý các môi trường lộn xộn và nhiều gương, dẫn đến phản xạ nhất quán và chi tiết hơn trên tập kiểm tra.

Ngoài ra, một nghiên cứu người dùng đã được thực hiện, trong đó 84% người dùng được báo cáo là thích các tạo ra từ MirrorFusion 2.0 hơn so với phương pháp baseline.

Kết quả của nghiên cứu người dùng.

Kết quả của nghiên cứu người dùng.

Vì chi tiết của nghiên cứu người dùng đã được chuyển đến phụ lục của bài báo, chúng tôi đề cập người đọc đến đó để biết thông tin cụ thể của nghiên cứu.

Kết luận

Mặc dù một số kết quả được hiển thị trong bài báo là những cải tiến ấn tượng so với trạng thái hiện tại, trạng thái hiện tại cho việc theo đuổi cụ thể này là rất kém, đến mức mà thậm chí một giải pháp tổng hợp không thuyết phục cũng có thể nổi bật với một chút nỗ lực. Kiến trúc cơ bản của một mô hình khuếch tán không thuận lợi cho việc học và thể hiện một cách đáng tin cậy các nguyên lý vật lý nhất quán, vì vậy vấn đề là không được đặt ra và dường như không có giải pháp优雅.

Hơn nữa, việc thêm dữ liệu vào các mô hình hiện có đã là phương pháp tiêu chuẩn để khắc phục những điểm yếu trong hiệu suất của LDM, với tất cả những bất lợi được liệt kê trước đó. Nó hợp lý khi giả định rằng nếu các tập dữ liệu quy mô lớn trong tương lai chú ý nhiều hơn đến phân phối (và chú thích) của các điểm dữ liệu liên quan đến phản xạ, chúng ta có thể mong đợi rằng các mô hình kết quả sẽ xử lý kịch bản này tốt hơn.

Tuy nhiên, điều tương tự cũng đúng với nhiều điểm yếu khác trong đầu ra của LDM – ai có thể nói điểm yếu nào trong số đó xứng đáng với nỗ lực và tiền bạc liên quan đến loại giải pháp mà các tác giả của bài báo mới đề xuất ở đây?

 

Được xuất bản lần đầu vào Thứ Hai, ngày 28 tháng 4 năm 2025. Thứ Ba, ngày 29 tháng 4: đã sửa lỗi ngữ pháp trong các đoạn cuối.

Nhà văn về học máy, chuyên gia lĩnh vực tổng hợp hình ảnh con người. Cựu trưởng nhóm nội dung nghiên cứu tại Metaphysic.ai.
Trang cá nhân: martinanderson.ai
Liên hệ: [email protected]