มุมมองของ Anderson

การสอนหุ่นยนต์เกี่ยวกับเครื่องมือโดยใช้ Neural Radiance Fields (NeRF)

เผยแพร่ 5 ตุลาคม 2022

อัปเดต 23 พฤษภาคม 2026

Martin Anderson

การวิจัยใหม่จากมหาวิทยาลัยมิชิแกนเสนอวิธีการให้หุ่นยนต์เข้าใจกลไกของเครื่องมือและวัตถุจริงอื่นๆ ที่มีกระบวนการเคลื่อนไหว โดยการสร้าง Neural Radiance Fields (NeRF) ที่แสดงการเคลื่อนไหวของวัตถุเหล่านี้ ทำให้หุ่นยนต์สามารถโต้ตอบและใช้เครื่องมือเหล่านี้ได้โดยไม่ต้องมีการกำหนดค่าล่วงหน้าอย่างยุ่งยาก

โดยใช้ข้อมูลอ้างอิงที่ทราบเกี่ยวกับการเคลื่อนไหวภายในของเครื่องมือ (หรือวัตถุอื่นๆ ที่มีข้อมูลอ้างอิงที่เหมาะสม) NARF22 สามารถสร้างภาพที่มีลักษณะเหมือนจริงของเครื่องมือและช่วงการเคลื่อนไหวและประเภทการทำงาน Source: https://progress.eecs.umich.edu/projects/narf/

หุ่นยนต์ที่ต้องการทำมากกว่าการหลีกเลี่ยงคนเดินหรือการทำงานที่ถูกกำหนดล่วงหน้าอย่างซับซ้อน (ซึ่งอาจต้องใช้ข้อมูลที่ไม่สามารถใช้ซ้ำและต้องมีการฝึกอบรมอย่างมีค่าใช้จ่าย) ต้องการความสามารถในการปรับตัวแบบนี้หากพวกมันจะทำงานกับวัสดุและวัตถุเดียวกับที่เราต้องเผชิญ

จนถึงปัจจุบัน มีหลายอุปสรรคที่ขัดขวางไม่ให้ระบบหุ่นยนต์มีความสามารถในการปรับตัวแบบนี้ รวมถึงขาดข้อมูลที่สามารถใช้ได้ ซึ่งหลายๆ ชุดข้อมูลมีวัตถุเพียงไม่กี่ชิ้น ค่าใช้จ่ายในการสร้างแบบจำลอง 3 มิติที่มีลักษณะเหมือนจริงที่สามารถช่วยให้หุ่นยนต์เรียนรู้การทำงานได้ และคุณภาพที่ไม่เหมือนจริงของชุดข้อมูลที่อาจเหมาะสมกับความท้าทาย ทำให้วัตถุเหล่านั้นดูไม่สอดคล้องกับสิ่งที่หุ่นยนต์เห็นในโลกรอบๆ ตัวมัน และฝึกให้หุ่นยนต์หาวัตถุที่ดูเหมือนการ์ตูนซึ่งจะไม่ปรากฏในความเป็นจริง

เพื่อแก้ไขปัญหานี้ นักวิจัยจากมหาวิทยาลัยมิชิแกนซึ่งเขียนบทความที่มีชื่อเรื่องว่า NARF22: Neural Articulated Radiance Fields for Configuration-Aware Rendering ได้พัฒนากระบวนการสองขั้นตอนในการสร้างวัตถุแบบ NeRF ที่มีลักษณะเหมือนจริงและรวมการเคลื่อนไหวและข้อจำกัดของวัตถุแบบกระบวนการ

แม้ว่าจะดูซับซ้อน แต่กระบวนการสองขั้นตอนของ NARF22 ประกอบด้วยการแสดงส่วนคงที่ของเครื่องมือที่มีการเคลื่อนไหว และการรวมส่วนเหล่านี้เข้ากับชุดข้อมูลที่สองที่มีข้อมูลเกี่ยวกับพารามิเตอร์การเคลื่อนไหวของส่วนเหล่านี้相对于กัน Source: https://arxiv.org/pdf/2210.01166.pdf

ระบบนี้เรียกว่า Neural Articulated Radiance Field หรือ NARF22 เพื่อแยกความแตกต่างจากโครงการที่มีชื่อคล้ายกัน

NARF22

การกำหนดว่าวัตถุไม่ทราบคือวัตถุแบบกระบวนการหรือไม่ต้องใช้ความรู้ล่วงหน้าแบบมนุษย์อย่างมาก ตัวอย่างเช่น หากคุณไม่เคยเห็นลิ้นชักปิดมาก่อน อาจดูเหมือนเป็นแผงปิดที่ตกแต่งอื่นๆ จนกว่าคุณจะ打开มันและเข้าใจว่า ‘ลิ้นชัก’ เป็นวัตถุแบบกระบวนการที่มีแกนการเคลื่อนไหวเดียว (ไปข้างหน้าและข้างหลัง)

ดังนั้น NARF22 จึงไม่ได้ถูกออกแบบมาเพื่อเป็นระบบการสำรวจสำหรับการจับและดูว่าวัตถุเหล่านี้มีส่วนเคลื่อนไหวที่สามารถกระทำได้หรือไม่ ซึ่งเป็นพฤติกรรมที่ใกล้เคียงกับการกระทำของลิง ซึ่งอาจนำไปสู่สถานการณ์ที่อาจเกิดอันตรายได้ แต่เฟรมเวิร์กนี้ขึ้นอยู่กับความรู้ที่มีอยู่ใน Universal Robot Description Format (URDF) – รูปแบบ XML ที่เปิดกว้างและเหมาะสมสำหรับงานนี้

ในกระบวนการปกติ จำเป็นต้องอธิบายความสามารถในการกระบวนการของวัตถุและติดฉลากค่าข้อต่อที่เกี่ยวข้อง ซึ่งไม่ใช่งานที่ง่ายหรือสามารถขยายได้ง่าย แต่กระบวนการทำงานของ NaRF22 แสดงส่วนประกอบของวัตถุก่อนที่จะ ‘ประกอบ’ ส่วนคงที่แต่ละส่วนเข้ากับแบบจำลอง NeRF ที่มีข้อมูลเกี่ยวกับพารามิเตอร์การเคลื่อนไหวที่ได้รับจาก URDF

ในขั้นตอนที่สองของกระบวนการ สร้างเรนเดอร์ใหม่ที่รวมส่วนประกอบทั้งหมดเข้าด้วยกัน แม้ว่าจะง่ายกว่าที่จะรวมส่วนประกอบแต่ละส่วนในขั้นตอนก่อนหน้าและข้ามขั้นตอนนี้ไป แต่นักวิจัยสังเกตว่าแบบจำลองสุดท้ายซึ่งถูกฝึกอบรมบน NVIDIA RTX 3080 GPU ภายใต้ AMD 5600X CPU มีความต้องการการประมวลผลที่ต่ำกว่าในการถอยหลัง

นอกจากนี้ แบบจำลองขั้นตอนที่สองทำงานเร็วกว่าแบบจำลองที่รวมส่วนประกอบเข้าด้วยกันแบบ ‘บังคับ’ ถึงสองเท่า และแอปพลิเคชันที่ต้องใช้ข้อมูลเกี่ยวกับส่วนคงที่ของแบบจำลองจะไม่ต้องเข้าถึงข้อมูล URDF เอง เพราะข้อมูลนี้ถูกบันทึกไว้แล้วในเรนเดอร์ขั้นตอนที่สอง

ข้อมูลและทดลอง

นักวิจัยได้ทำการทดลองหลายครั้งเพื่อทดสอบ NARF22: หนึ่งในการประเมินการแสดงผลคุณภาพสำหรับการกำหนดค่าและท่าทางของวัตถุแต่ละชิ้น การทดสอบเชิงปริมาณเพื่อเปรียบเทียบผลการแสดงผลกับมุมมองที่เห็นโดยหุ่นยนต์จริง และการแสดงการประมาณการการกำหนดค่าและความท้าทายการปรับแต่ง 6 DOF (ความลึกของสนาม) ที่ใช้ NARF22 เพื่อทำการเพิ่มประสิทธิภาพแบบเกรเดียนต์

ข้อมูลการฝึกอบรมถูกนำมาจากชุดข้อมูล Progress Tools จากบทความก่อนหน้าของผู้เขียนหลายคน ชุดข้อมูล Progress Tools มีภาพ RGB-D ประมาณ 6,000 ภาพที่มีความละเอียด 640×480 พิกเซล มีเครื่องมือมือ 8 ชิ้น ซึ่งถูกแบ่งออกเป็นส่วนประกอบพร้อมกับแบบจำลองเมชและข้อมูลเกี่ยวกับคุณสมบัติไคนีมาติกส์ (เช่น วิธีการเคลื่อนไหวและพารามิเตอร์ของการเคลื่อนไหว)

ชุดข้อมูล Progress Tools มีเครื่องมือแบบกระบวนการ 4 ชิ้น ภาพด้านบนเป็นภาพแสดงผลจาก NARF22

สำหรับการทดลองนี้ แบบจำลองที่สามารถกำหนดค่าได้ถูกฝึกอบรมโดยใช้เพียงคีมลวดและคีมปากขยาย (ดูภาพด้านบน) ข้อมูลการฝึกอบรมมีการกำหนดค่าเดียวสำหรับคีมและหนึ่งสำหรับเครื่องมือแต่ละชิ้น

การนำไปใช้ของ NARF22 มีพื้นฐานมาจาก FastNeRF โดยมีพารามิเตอร์ข้อมูลเข้าถูกปรับให้เน้นไปที่การเข้ารหัสพารามิเตอร์ท่าทางและพื้นที่ FastNeRF ใช้การเรียนรู้แบบหลายชั้น (MLP) ที่แยกออกเป็นคู่กับกลไกการวาดตัวอย่างแบบวอกเซล (voxels เป็นพิกเซลที่มีพิกัด 3 มิติ เพื่อให้สามารถทำงานในพื้นที่ 3 มิติ)

ในการทดสอบเชิงคุณภาพ นักวิจัยสังเกตว่ามีส่วนของเครื่องมือที่ถูกบดบัง (เช่น ส่วนกลางของเครื่องมือที่ไม่สามารถรู้หรือเดาได้โดยการสังเกตวัตถุ แต่เพียงผ่านการโต้ตอบกับมัน) และระบบมีปัญหาในการสร้างเรขาคณิตที่ไม่รู้จักนี้

การแสดงผลคุณภาพของเครื่องมือ

ในทางกลับกัน คีมสามารถทั่วไปได้ดีสำหรับการกำหนดค่าใหม่ (เช่น การขยายและการเคลื่อนไหวของส่วนประกอบที่อยู่ภายในพารามิเตอร์ URDF แต่ไม่ได้กล่าวถึงอย่างชัดเจนในข้อมูลการฝึกอบรม)

นักวิจัยสังเกตว่าข้อผิดพลาดในการติดฉลากสำหรับคีมทำให้คุณภาพการแสดงผลลดลงสำหรับปลายเครื่องมือที่มีรายละเอียดสูง ซึ่งส่งผลเสียต่อการแสดงผล – ปัญหาที่เกี่ยวข้องกับข้อกังวลที่กว้างขึ้นเกี่ยวกับลอจิสติกส์การติดฉลาก งบประมาณ และความแม่นยำในการวิจัยด้านการมองเห็นของคอมพิวเตอร์ มากกว่าข้อผิดพลาดในกระบวนการ NARF22

ผลลัพธ์จากการทดสอบความแม่นยำในการแสดงผล

ในการทดสอบการประมาณการการกำหนดค่า นักวิจัยได้ทำการปรับแต่งท่าทางและประมาณการการกำหนดค่าจากท่าทาง ‘แข็ง’ เริ่มต้น โดยไม่ใช้การแคชหรือวิธีการเร่งความเร็วอื่นๆ ที่ FastNeRF ใช้

จากนั้นฝึกแบบจำลอง 17 แบบที่มีการจัดเรียงจากชุดข้อมูลการทดสอบของ Progress Tools (ซึ่งถูกเก็บไว้ระหว่างการฝึกอบรม) โดยผ่าน 150 รอบของการเพิ่มประสิทธิภาพการเกรเดียนต์ภายใต้ตัวเพิ่มประสิทธิภาพ Adam กระบวนการนี้กู้คืนการประมาณการการกำหนดค่า ‘ดีมาก’ ตามที่นักวิจัยระบุ