Robot

Dạy Robot Về Công Cụ Với Truyền Thông Neural Radiance Fields (NeRF)

Published October 5, 2022

Updated April 5, 2026

Martin Anderson

Nghiên cứu mới từ Đại học Michigan cung cấp một cách cho robot hiểu về cơ chế của công cụ và các vật thể khớp nối trong thế giới thực, bằng cách tạo ra các đối tượng Neural Radiance Fields (NeRF) thể hiện cách các đối tượng này di chuyển, có thể cho phép robot tương tác với chúng và sử dụng chúng mà không cần cấu hình trước phức tạp.

By sử dụng các tài liệu tham khảo nguồn nội bộ cho sự di chuyển của công cụ (hoặc bất kỳ đối tượng nào có tài liệu tham khảo phù hợp), NARF22 có thể tổng hợp một xấp xỉ photorealistic của công cụ và phạm vi di chuyển và loại hoạt động của nó. Source: https://progress.eecs.umich.edu/projects/narf/

Các robot cần phải làm được nhiều hơn là tránh người đi bộ hoặc thực hiện các quy trình được lập trình trước phức tạp (đối với những tập dữ liệu không thể tái sử dụng đã được dán nhãn và đào tạo với chi phí cao) cần có khả năng thích ứng này nếu chúng muốn làm việc với cùng các vật liệu và đối tượng mà phần còn lại của chúng ta phải đối mặt.

Đến nay, đã có một số rào cản để truyền tải cho các hệ thống robot khả năng linh hoạt này. Những rào cản này bao gồm sự thiếu hụt của các tập dữ liệu phù hợp, nhiều trong số đó chỉ có một số lượng đối tượng hạn chế; chi phí cao liên quan đến việc tạo ra các mô hình 3D photorealistic, dựa trên lưới, có thể giúp robot học về công cụ trong bối cảnh thế giới thực; và chất lượng không photorealistic của các tập dữ liệu như vậy có thể phù hợp với thách thức, khiến các đối tượng xuất hiện rời rạc so với những gì robot nhận thức trong thế giới xung quanh, và đào tạo nó để tìm kiếm một đối tượng giống như một bản vẽ hoạt hình sẽ không bao giờ xuất hiện trong thực tế.

Để giải quyết vấn đề này, các nhà nghiên cứu tại Michigan, những người có bài báo có tiêu đề NARF22: Neural Articulated Radiance Fields for Configuration-Aware Rendering, đã phát triển một đường ống hai giai đoạn để tạo ra các đối tượng khớp nối dựa trên NeRF có ngoại hình “thế giới thực” và kết hợp sự di chuyển và các hạn chế của bất kỳ đối tượng khớp nối nào.

Mặc dù nó có vẻ phức tạp hơn, hai giai đoạn cơ bản của đường ống NARF22 bao gồm việc kết xuất các phần tĩnh của công cụ di động, và sau đó tổng hợp các yếu tố này vào một tập dữ liệu thứ hai được thông tin về các tham số di chuyển mà các phần này có so với nhau. Source: https://arxiv.org/pdf/2210.01166.pdf

Hệ thống này được gọi là Neural Articulated Radiance Field – hoặc NARF22, để phân biệt nó với một dự án khác có tên tương tự.

NARF22

Việc xác định liệu một đối tượng không xác định có phải là khớp nối hay không đòi hỏi một lượng kiến thức trước của con người gần như không thể tưởng tượng. Ví dụ, nếu bạn chưa bao giờ nhìn thấy một ngăn kéo đóng trước đây, nó có thể xuất hiện như bất kỳ loại bảng điều khiển trang trí nào khác – cho đến khi bạn đã thực sự mở nó, bạn mới internalize ‘ngăn kéo’ như một đối tượng khớp nối với một trục di chuyển đơn (trước và sau).

Do đó, NARF22 không được thiết kế như một hệ thống khám phá để nhặt các thứ lên và xem liệu chúng có các bộ phận di chuyển có thể hoạt động hay không – gần như hành vi giống như khỉ, điều này sẽ dẫn đến một số kịch bản có thể thảm khốc. Thay vào đó, khuôn khổ này dựa trên kiến thức có sẵn trong Universal Robot Description Format (URDF) – một định dạng dựa trên XML mã nguồn mở được áp dụng rộng rãi và phù hợp cho nhiệm vụ. Một tệp URDF sẽ chứa các tham số di chuyển có thể sử dụng của một đối tượng, cũng như mô tả và các mặt được dán nhãn khác của các bộ phận của đối tượng.

Trong các đường ống thông thường, cần thiết phải mô tả khả năng khớp nối của một đối tượng và dán nhãn các giá trị khớp nối liên quan. Đây không phải là một nhiệm vụ rẻ hoặc dễ dàng mở rộng. Thay vào đó, quy trình NaRF22 kết xuất các thành phần riêng lẻ của đối tượng trước khi ‘lắp ráp’ mỗi thành phần tĩnh vào một biểu diễn khớp nối dựa trên NeRF, với kiến thức về các tham số di chuyển được cung cấp bởi URDF.

Trong giai đoạn thứ hai của quy trình, một trình kết xuất hoàn toàn mới được tạo ra, kết hợp tất cả các bộ phận. Mặc dù có thể dễ dàng hơn khi chỉ cần kết hợp các bộ phận riêng lẻ ở giai đoạn đầu và bỏ qua bước tiếp theo, các nhà nghiên cứu quan sát thấy rằng mô hình cuối cùng – được đào tạo trên GPU NVIDIA RTX 3080 dưới CPU AMD 5600X – có yêu cầu tính toán thấp hơn trong backpropagation so với một sự lắp ráp đột ngột và sớm.

Ngoài ra, mô hình giai đoạn thứ hai chạy với tốc độ gấp đôi so với một sự lắp ráp kết hợp, và bất kỳ ứng dụng thứ cấp nào có thể cần sử dụng thông tin về các bộ phận tĩnh của mô hình sẽ không cần truy cập riêng vào thông tin URDF, vì thông tin này đã được kết hợp vào trình kết xuất giai đoạn cuối.

Dữ liệu và Thử nghiệm

Các nhà nghiên cứu đã thực hiện một số thử nghiệm để kiểm tra NARF22: một để đánh giá kết xuất chất lượng cho mỗi cấu hình và tư thế của đối tượng; một thử nghiệm định lượng để so sánh kết quả kết xuất với các góc nhìn tương tự được nhìn thấy bởi các robot trong thế giới thực; và một thử nghiệm thể hiện ước tính cấu hình và tinh chỉnh 6 DOF (độ sâu trường) sử dụng NARF22 để thực hiện tối ưu hóa dựa trên gradient.

Dữ liệu đào tạo được lấy từ Progress Tools từ một bài báo trước đó của một số tác giả hiện tại. Progress Tools chứa khoảng sáu nghìn hình ảnh RGB-D (bao gồm thông tin độ sâu, thiết yếu cho tầm nhìn robot) với độ phân giải 640×480. Các cảnh sử dụng bao gồm tám công cụ cầm tay, chia thành các bộ phận cấu thành, cùng với các mô hình lưới và thông tin về các thuộc tính động học của đối tượng (tức là cách chúng được thiết kế để di chuyển và các tham số của sự di chuyển đó).

Tập dữ liệu Progress Tools có bốn công cụ khớp nối. Các hình ảnh trên là kết xuất dựa trên NeRF từ NARF22.

Đối với thử nghiệm này, một mô hình cấu hình cuối cùng đã được đào tạo bằng cách sử dụng chỉ kẹp điện, kẹp mũi dài và một kẹp (xem hình ảnh trên). Dữ liệu đào tạo chứa một cấu hình đơn của kẹp và một cho mỗi kẹp.

Việc thực hiện NARF22 dựa trên FastNeRF, với các tham số đầu vào được sửa đổi để tập trung vào tư thế và mã hóa không gian của công cụ. FastNeRF sử dụng perceptron đa lớp được nhân tử hóa với một cơ chế lấy mẫu voxel hóa (voxel cơ bản là pixel, nhưng có tọa độ 3D đầy đủ, để chúng có thể hoạt động trong không gian 3D).

Đối với thử nghiệm định tính, các nhà nghiên cứu quan sát thấy rằng có một số bộ phận bị che khuất của kẹp (tức là cột sống trung tâm, không thể biết hoặc đoán được bằng cách quan sát đối tượng, mà chỉ bằng cách tương tác với nó, và hệ thống có khó khăn trong việc tạo ra ‘hình học không xác định’ này.

Kết xuất định tính của công cụ.

Ngược lại, kẹp đã tổng quát hóa tốt đến các cấu hình mới (tức là đến các phần mở rộng và di chuyển của các bộ phận của chúng, nằm trong các tham số URDF, nhưng không được giải quyết rõ ràng trong tài liệu đào tạo cho mô hình.

Các nhà nghiên cứu quan sát thấy rằng các lỗi dán nhãn cho kẹp dẫn đến giảm chất lượng kết xuất cho các đầu cực chi tiết của công cụ, ảnh hưởng tiêu cực đến kết xuất – một vấn đề liên quan đến các mối quan ngại rộng hơn xung quanh hậu cần dán nhãn, ngân sách và độ chính xác trong lĩnh vực nghiên cứu tầm nhìn máy tính, chứ không phải là một thiếu sót thủ tục trong đường ống NARF22.

Kết quả từ thử nghiệm độ chính xác kết xuất.

Đối với các thử nghiệm ước tính cấu hình, các nhà nghiên cứu đã thực hiện tinh chỉnh tư thế và ước tính cấu hình từ một tư thế ‘cứng’ ban đầu, tránh bất kỳ giải pháp đệm hoặc các giải pháp tăng tốc khác được sử dụng bởi FastNeRF.

Họ sau đó đã đào tạo 17 cảnh được sắp xếp tốt từ tập thử nghiệm của Progress Tools (đã được giữ lại trong quá trình đào tạo), chạy qua 150 lần lặp của tối ưu hóa gradient dưới bộ tối ưu hóa Adam. Thủ tục này đã phục hồi ước tính cấu hình ‘rất tốt’, theo các nhà nghiên cứu.