ต้นขั้ว CGI ใหม่: การสร้าง Neural Neighborhoods ด้วย Block-NeRF - Unite.AI
เชื่อมต่อกับเรา

ปัญญาประดิษฐ์

CGI ใหม่: การสร้าง Neural Neighborhoods ด้วย Block-NeRF

mm
วันที่อัพเดท on

สนามประสาทเรเดียนซ์ (เนอาร์เอฟ) อนุญาตให้สร้างและสำรวจออบเจกต์ภายในโครงข่ายประสาทเทียมโดยใช้เพียงภาพถ่ายหลายมุมมองเป็นอินพุต โดยไม่มีความซับซ้อนและค่าใช้จ่ายของวิธี CGI แบบดั้งเดิม

อย่างไรก็ตาม กระบวนการนี้มีราคาแพงในการคำนวณ ซึ่งในตอนแรกสภาพแวดล้อมของ NeRF จะจำกัดอยู่เพียง รุ่นตั้งโต๊ะ สถานการณ์ อย่างไรก็ตาม NeRF ได้รับการนำไปใช้โดยชุมชนการวิจัยที่ทุ่มเทและคลั่งไคล้ซึ่งมีตั้งแต่ปีที่แล้ว เปิดใช้งานการสร้างใหม่ภายนอก และ มนุษย์ประสาทที่แก้ไขได้นอกเหนือไปจากนวัตกรรมอื่นๆ อีกมากมาย

ขณะนี้ การริเริ่มการวิจัยใหม่ ซึ่งรวมถึงการมีส่วนร่วมของ Google Research ตระหนักถึงขีดจำกัดที่เป็นไปได้ในการเพิ่มประสิทธิภาพ NeRF และมุ่งความสนใจไปที่การรวมสภาพแวดล้อม NeRF เข้าด้วยกันเพื่อสร้างพื้นที่ใกล้เคียงตามความต้องการซึ่งประกอบด้วยอินสแตนซ์ NeRF ที่ประสานงานกันหลายรายการ

มุมมองจากเครือข่าย Block-NeRF ของ NeRF ที่เชื่อมโยง . ดูวิดีโอแบบฝังที่ส่วนท้ายของบทความ และลิงก์แหล่งที่มาสำหรับวิดีโอเสริมแบบเต็มความยาวที่มีความละเอียดสูง ที่มา: https://waymo.com/research/block-nerf/

มุมมองจากเครือข่าย Block-NeRF ของ NeRF ที่เชื่อมโยง ดูวิดีโอแบบฝังที่ส่วนท้ายของบทความ และลิงก์แหล่งที่มาสำหรับวิดีโอเสริมแบบเต็มความยาวที่มีความละเอียดสูง ที่มา: https://waymo.com/research/block-nerf/

การนำทางเครือข่ายของ NeRF ที่เชื่อมโยงอย่างมีประสิทธิภาพทำให้ NeRF ปรับขนาดได้และเป็นโมดูลาร์ โดยมอบสภาพแวดล้อมที่นำทางได้ซึ่งโหลดส่วนพิเศษของพื้นที่ใกล้เคียงได้ตามต้องการ ในลักษณะที่คล้ายกับวิธีการเพิ่มประสิทธิภาพทรัพยากรของวิดีโอเกม ซึ่งสิ่งที่อยู่ใกล้ ๆ จะไม่ค่อยถูกโหลดจนกว่า เป็นที่ชัดเจนว่าจำเป็นต้องมีสภาพแวดล้อม

ในการขับเคลื่อนครั้งสำคัญสู่ คลี่คลาย แง่มุมที่แยกจากกัน เช่น สภาพอากาศและชั่วโมง Block-NeRF ยังแนะนำ 'รหัสลักษณะที่ปรากฏ' ทำให้สามารถเปลี่ยนเวลาของวันแบบไดนามิกได้:

เปลี่ยนเวลาของวันด้วย Block-NeRF ดูวิดีโอแบบฝังที่ส่วนท้ายของบทความ และลิงก์แหล่งที่มาสำหรับวิดีโอเสริมแบบเต็มความยาวที่มีความละเอียดสูง ที่มา: https://waymo.com/research/block-nerf/

เปลี่ยนเวลาของวันด้วย Block-NeRF ดูวิดีโอแบบฝังที่ส่วนท้ายของบทความ และลิงก์แหล่งที่มาสำหรับวิดีโอเสริมแบบเต็มความยาวที่มีความละเอียดสูง ที่มา: https://waymo.com/research/block-nerf/

เอกสารฉบับใหม่ชี้ให้เห็นว่าการเพิ่มประสิทธิภาพ NeRF กำลังเข้าใกล้ขีดจำกัดความร้อนของตัวเอง และการปรับใช้สภาพแวดล้อมการแผ่รังสีของระบบประสาทในอนาคตในความเป็นจริงเสมือน ทรงกลมแบบโต้ตอบประเภทอื่นๆ และงาน VFX มีแนวโน้มที่จะขึ้นอยู่กับการทำงานแบบคู่ขนาน คล้ายกับวิธีที่มัวร์ ในที่สุด กฎหมายก็หลีกทางให้กับสถาปัตยกรรมแบบมัลติคอร์ การปรับให้เหมาะสมแบบขนาน และแนวทางใหม่ในการแคช

ผู้เขียนของ กระดาษ (มีสิทธิ Block-NeRF: การสังเคราะห์มุมมองประสาทฉากขนาดใหญ่ที่ปรับขนาดได้) ใช้ภาพ 2.8 ล้านภาพเพื่อสร้างฉากประสาทที่ใหญ่ที่สุดเท่าที่เคยมีมา ซึ่งเป็นชุดของย่านต่างๆ ในซานฟรานซิสโก

Block-NeRF สำรวจ Grace Cathedral ในซานฟรานซิสโก ดูวิดีโอแบบฝังที่ส่วนท้ายของบทความ และลิงก์แหล่งที่มาสำหรับวิดีโอเสริมแบบเต็มความยาวที่มีความละเอียดสูง ที่มา: https://waymo.com/research/block-nerf/

Block-NeRF สำรวจ Grace Cathedral ในซานฟรานซิสโก ดูวิดีโอแบบฝังที่ส่วนท้ายของบทความ และลิงก์แหล่งที่มาสำหรับวิดีโอเสริมแบบเต็มความยาวที่มีความละเอียดสูง ที่มา: https://waymo.com/research/block-nerf/

ผู้เขียนนำในหนังสือพิมพ์ซึ่งเป็นตัวแทนของ UC Berkley คือ Matthew Tancik, the ผู้ร่วมประดิษฐ์ Neural Radiance Fieldsซึ่งเข้ามาทำงานในขณะที่ฝึกงานที่บริษัทพัฒนาเทคโนโลยีการขับขี่อัตโนมัติ Waymo ซึ่งเป็นเจ้าภาพของ หน้าโครงการ. ความคิดริเริ่มนี้ยังเสนอภาพรวมวิดีโอที่ YouTube ซึ่งฝังอยู่ที่ส่วนท้ายของบทความนี้ นอกเหนือจากตัวอย่างวิดีโอสนับสนุนและเสริมมากมายที่หน้าโครงการ

บทความนี้ร่วมเขียนโดยผู้ริเริ่ม NeRF อีกหลายท่าน รวมถึง Ben Mildenhall (งานวิจัยของ Google), Pratul P. Srinivasan (งานวิจัยของ Google) และ Jonathan T. Barron (งานวิจัยของ Google) ผู้ร่วมให้ข้อมูลคนอื่นๆ ได้แก่ Vincent Casser, Xinchen Yan, Sabeek Pradhan, Henrik Kretzschmar และ Vincent Casser ทั้งหมดมาจาก Waymo

Block-NeRF ได้รับการพัฒนาโดยมีวัตถุประสงค์หลักเพื่อการวิจัยเกี่ยวกับสภาพแวดล้อมเสมือนจริงสำหรับระบบยานยนต์อัตโนมัติ รวมถึงรถยนต์ไร้คนขับและโดรน

ถนน Embarcadero จากมุมมอง 180 องศาใน Block-NeRF ดูวิดีโอแบบฝังที่ส่วนท้ายของบทความ และลิงก์แหล่งที่มาสำหรับวิดีโอเสริมแบบเต็มความยาวที่มีความละเอียดสูง ที่มา: https://waymo.com/research/block-nerf/

ถนน Embarcadero จากมุมมอง 180 องศาใน Block-NeRF ดูวิดีโอแบบฝังที่ส่วนท้ายของบทความ และลิงก์แหล่งที่มาสำหรับวิดีโอเสริมแบบเต็มความยาวที่มีความละเอียดสูง ที่มา: https://waymo.com/research/block-nerf/

ปัจจัยอื่นๆ ที่สามารถเปลี่ยนแปลงได้แบบไดนามิกใน Block-NeRF ได้แก่ รูรับแสงของเลนส์ (ดูภาพด้านบน) สภาพอากาศและฤดูกาล

อย่างไรก็ตาม การเปลี่ยนแปลงของฤดูกาลอาจทำให้เกิดการเปลี่ยนแปลงที่เกี่ยวข้องในสภาพแวดล้อม เช่น ต้นไม้ที่ไม่มีใบ ซึ่งต้องใช้ชุดข้อมูลอินพุตที่กว้างขวางกว่าที่สร้างขึ้นสำหรับ Block-NeRF กระดาษระบุว่า:

'[ใบไม้] เปลี่ยนแปลงตามฤดูกาลและเคลื่อนไหวไปตามสายลม ส่งผลให้การแสดงต้นไม้และพืชพร่ามัว ในทำนองเดียวกัน ความไม่สอดคล้องกันชั่วคราวในข้อมูลการฝึกอบรม เช่น งานก่อสร้าง จะไม่ได้รับการจัดการโดยอัตโนมัติ และจำเป็นต้องมีการฝึกอบรมใหม่ด้วยตนเองสำหรับบล็อกที่ได้รับผลกระทบ'

การแสดงผลสันทราย

หากคุณดูวิดีโอที่ฝังในตอนท้าย คุณจะสังเกตเห็นว่า Walking Dead- สไตล์กระจัดกระจายไปยังสภาพแวดล้อม Block-NeRF ในเครือข่าย ด้วยเหตุผลหลายประการ ไม่น้อยไปกว่าการสร้างสภาพแวดล้อมเริ่มต้นจำลองสำหรับระบบหุ่นยนต์ รถยนต์ คนเดินถนน และวัตถุชั่วคราวอื่นๆ ถูกทำให้เป็นด้านออกจากแหล่งข้อมูลโดยเจตนา แต่สิ่งนี้ได้ทิ้งสิ่งประดิษฐ์บางอย่างไว้เบื้องหลัง เช่น เงาของยานพาหนะที่จอดอยู่ 'ถูกลบ' :

เงาหลอนของรถที่ถูกลบ ที่มา: https://waymo.com/research/block-nerf/

เงาหลอนของรถที่ถูกลบ ที่มา: https://waymo.com/research/block-nerf/

เพื่อรองรับสภาพแวดล้อมของแสงที่หลากหลาย เช่น กลางวันหรือกลางคืน เครือข่ายได้รับการฝึกอบรมให้รวมกระแสข้อมูลที่ไม่พันกันซึ่งเกี่ยวข้องกับแต่ละสภาวะที่ต้องการ ในภาพด้านล่าง เราเห็นสตรีมที่มีส่วนร่วมสำหรับฟุตเทจ Block-NeRF ของทางหลวงทั้งกลางวันและกลางคืน:

แง่มุมตามความต้องการอยู่เบื้องหลังการเรนเดอร์ Block-NeRF ที่ดูเหมือน 'อบ' ทำให้ผู้ใช้สามารถเปิดสวิตช์ตอนกลางคืนได้ตามต้องการ ที่มา: https://waymo.com/research/block-nerf/

แง่มุมตามความต้องการอยู่เบื้องหลังการเรนเดอร์ Block-NeRF ที่ดูเหมือน 'อบ' ทำให้ผู้ใช้สามารถเปิดสวิตช์ตอนกลางคืนได้ตามต้องการ ที่มา: https://waymo.com/research/block-nerf/

ข้อพิจารณาด้านสิ่งแวดล้อมและจริยธรรม

ในช่วงไม่กี่ปีที่ผ่านมา งานวิจัยที่ส่งเข้ามาได้เริ่มมีการเตือนและปฏิเสธความรับผิดชอบเกี่ยวกับความแตกแยกทางจริยธรรมและสิ่งแวดล้อมที่เป็นไปได้ของงานที่เสนอ ในกรณีของ Block-NeRF ผู้เขียนทราบว่าความต้องการพลังงานสูง และการคำนึงถึงวัตถุชั่วคราวในระยะสั้นและระยะยาว (เช่น ใบไม้บนต้นไม้และงานก่อสร้าง ตามลำดับ) จะต้องมีการสแกนซ้ำอย่างสม่ำเสมอ แหล่งข้อมูล ซึ่งนำไปสู่ ​​'การเฝ้าระวัง' ที่เพิ่มขึ้นในเขตเมืองซึ่งจำเป็นต้องมีการปรับปรุงแบบจำลองประสาท

ผู้เขียนระบุ:

'ขึ้นอยู่กับขนาดของงานนี้ ความต้องการในการประมวลผลอาจนำไปสู่หรือทำให้ความเสียหายต่อสิ่งแวดล้อมแย่ลง หากพลังงานที่ใช้ในการคำนวณนำไปสู่การปล่อยคาร์บอนเพิ่มขึ้น ดังที่กล่าวไว้ในเอกสารนี้ เราคาดการณ์ถึงการทำงานเพิ่มเติม เช่น วิธีการแคช ที่สามารถลดความต้องการในการประมวลผล และลดความเสียหายต่อสิ่งแวดล้อมด้วย'

เกี่ยวกับการเฝ้าระวัง พวกเขายังคง:

'แอปพลิเคชันในอนาคตของงานนี้อาจนำมาซึ่งความพยายามในการรวบรวมข้อมูลที่ใหญ่ขึ้น ซึ่งทำให้เกิดข้อกังวลด้านความเป็นส่วนตัวเพิ่มเติม แม้ว่าภาพถนนสาธารณะโดยละเอียดจะพบได้ในบริการต่างๆ เช่น Google Street View แต่วิธีการของเราสามารถสนับสนุนการสแกนสภาพแวดล้อมซ้ำๆ และสม่ำเสมอมากขึ้น บริษัทหลายแห่งในพื้นที่ยานยนต์ไร้คนขับเป็นที่รู้จักกันว่าทำการสแกนพื้นที่เป็นประจำโดยใช้ยานพาหนะของตน อย่างไรก็ตาม บางคนอาจใช้เฉพาะการสแกน LiDAR ซึ่งอาจมีความไวน้อยกว่าการรวบรวมภาพจากกล้อง'

วิธีการและแนวทางแก้ไข

ตามทฤษฎีแล้ว สภาพแวดล้อม NeRF แต่ละรายการสามารถปรับลดขนาดลงเป็นขนาดใดก็ได้ก่อนที่จะประกอบเป็นอาร์เรย์ Block-NeRF สิ่งนี้เปิดทางไปสู่การรวมเนื้อหาที่อาจมีการเปลี่ยนแปลงได้อย่างแน่นอน เช่น ต้นไม้ และการระบุและการจัดการงานก่อสร้าง ซึ่งอาจคงอยู่ในช่วงเวลาหลายปีของการจับภาพซ้ำ แต่มีแนวโน้มที่จะพัฒนาและ กลายเป็นตัวตนที่สอดคล้องกันในที่สุด

อย่างไรก็ตาม ในการวิจัยเบื้องต้นนี้ บล็อก NeRF แบบแยกจะถูกจำกัดไว้เฉพาะบล็อกเมืองจริงของสภาพแวดล้อมแต่ละแห่งที่ปรากฎ ต่อเข้าด้วยกัน โดยมีการทับซ้อนกัน 50% ทำให้มั่นใจได้ว่าการเปลี่ยนจากบล็อกหนึ่งไปยังอีกบล็อกหนึ่งจะสอดคล้องกันเมื่อผู้ใช้สำรวจเครือข่าย

แต่ละบล็อกถูกจำกัดโดยตัวกรองทางภูมิศาสตร์ ผู้เขียนทราบว่าส่วนนี้ของเฟรมเวิร์กเปิดให้ระบบอัตโนมัติทำงาน และที่น่าประหลาดใจคือการใช้งานนั้นอาศัย OpenStreetMap มากกว่า Google Maps

รัศมีทางแยกสำหรับพื้นที่แสดงผล 'ใช้งานอยู่' ของ Block-NeRF ที่มา: Waymo

รัศมีทางแยกสำหรับพื้นที่แสดงผล 'ใช้งานอยู่' ของ Block-NeRF ที่มา: Waymo

บล็อกได้รับการฝึกฝนแบบคู่ขนาน โดยบล็อกที่จำเป็นจะแสดงผลตามความต้องการ รหัสรูปลักษณ์ที่เป็นนวัตกรรมใหม่ยังได้รับการประสานระหว่างชุดบล็อก เพื่อให้มั่นใจว่ารหัสจะไม่เดินทางโดยไม่คาดคิดในสภาพอากาศที่แตกต่างกัน ช่วงเวลาของวัน หรือแม้แต่ฤดูกาลอื่น

ส่วน Block-NeRF ถูกกำหนดเงื่อนไขในการรับแสงในลักษณะที่คล้ายคลึงกับ High Dynamic Range (HDR) ในแหล่งข้อมูลภาพถ่าย ที่มา: Waymo

ส่วน Block-NeRF ถูกกำหนดเงื่อนไขในการรับแสงในลักษณะที่คล้ายคลึงกับ High Dynamic Range (HDR) ในแหล่งข้อมูลภาพถ่าย ที่มา: Waymo

ความสามารถในการเปลี่ยนแสงและตัวแปรสภาพแวดล้อมอื่นๆ ได้มาจากการเพิ่มประสิทธิภาพแฝงแฝงที่นำเสนอใน NeRF ในป่า (NeRF-W) ซึ่งได้รับวิธีการมาจาก AI ของ Facebook ในปี 2019 รายงานการวิจัย การเพิ่มประสิทธิภาพพื้นที่แฝงของเครือข่ายกำเนิด.

รูปแบบการแบ่งส่วนความหมายเกิดขึ้นสำหรับ Panoptic-DeepLab ในปี 2020 ใช้เพื่อปิดกั้นองค์ประกอบที่ไม่ต้องการ (เช่น ผู้คนและยานพาหนะ)

ข้อมูล

การค้นหาชุดข้อมูลเมืองทั่วไปเช่น ซิตี้สเคปส์ ไม่เหมาะกับงานที่มีรายละเอียดเข้มข้นเช่น Block-NeRF นักวิจัยสร้างชุดข้อมูลของตนเอง ข้อมูลรูปภาพถูกจับจากกล้อง 12 ตัวที่ครอบคลุมมุมมอง 360 องศา โดยฟุตเทจถ่ายที่ 10 Hz ด้วยค่าการเปิดรับแสงแบบสเกลาร์

ย่านซานฟรานซิสโกที่ครอบคลุม ได้แก่ Alamo Square และ Mission Bay สำหรับการจับภาพ Alamo Square ครอบคลุมพื้นที่ประมาณ 960 ม. x 570 ม. โดยแบ่งออกเป็นอินสแตนซ์ Block-NeRF 35 รายการ โดยแต่ละรายการได้รับการฝึกอบรมจากข้อมูล 38 ถึง 48 รายการที่แตกต่างกัน โดยใช้เวลาขับเคลื่อนทั้งหมด 18-28 นาที

จำนวนภาพที่ส่งสำหรับแต่ละ Block-NeRF อยู่ระหว่าง 64,575 ถึง 108,216 และเวลาขับรถโดยรวมที่แสดงสำหรับพื้นที่นี้คือ 13.4 ชั่วโมงในการรวบรวมข้อมูลที่แตกต่างกัน 1,330 รายการ ส่งผลให้มีภาพการฝึกอบรม 2,818,745 ภาพสำหรับ Alamo Square เท่านั้น ดูกระดาษสำหรับรายละเอียดเพิ่มเติมเกี่ยวกับการรวบรวมข้อมูลสำหรับ Mission Bay

บล็อก-NeRF

 

เผยแพร่ครั้งแรก 11 กุมภาพันธ์ 2022