ปัญญาประดิษฐ์
NVIDIA Cosmos: เสริมศักยภาพ Physical AI ด้วยการจำลอง

การพัฒนาระบบ Physical AI เช่น หุ่นยนต์บนพื้นโรงงานและรถยนต์ไร้คนขับบนถนน ขึ้นอยู่กับชุดข้อมูลขนาดใหญ่และคุณภาพสูงสำหรับการฝึกอบรม อย่างไรก็ตาม การรวบรวมข้อมูลจากโลกแห่งความเป็นจริงมีค่าใช้จ่ายสูง ต้องใช้เวลา และมักจะจำกัดเฉพาะบริษัทเทคโนโลยีรายใหญ่เพียงไม่กี่แห่ง NVIDIA’s Cosmos จัดการกับความท้าทายนี้โดยใช้การจำลองฟิสิกส์ที่ซับซ้อนในการสร้างข้อมูลสังเคราะห์ที่มีลักษณะเหมือนจริงในระดับที่กว้างขวาง ซึ่งทำให้วิศวกรสามารถฝึกอบรมโมเดล AI ได้โดยไม่ต้องมีค่าใช้จ่ายและความล่าช้าที่เกี่ยวข้องกับการรวบรวมข้อมูลจากโลกแห่งความเป็นจริง บทความนี้อธิบายว่า Cosmos ปรับปรุงการเข้าถึงข้อมูลการฝึกอบรมที่จำเป็นและเร่งการพัฒนา AI ที่ปลอดภัยและเชื่อถือได้สำหรับการใช้งานในโลกแห่งความเป็นจริง
การทำความเข้าใจ Physical AI
Physical AI หมายถึงระบบปัญญาประดิษฐ์ที่สามารถรับรู้ เข้าใจ และกระทำการในโลกแห่งความเป็นจริง ไม่เหมือนกับ AI truyền thốngที่อาจวิเคราะห์ข้อความหรือภาพ Physical AI ต้องจัดการกับความซับซ้อนของโลกแห่งความเป็นจริง เช่น ความสัมพันธ์เชิงพื้นที่ แรงฟิสิกส์ และสภาพแวดล้อมที่เปลี่ยนแปลงได้ ตัวอย่างเช่น รถยนต์ไร้คนขับต้องสามารถรับรู้คนเดิน ถึงการเคลื่อนไหวของพวกเขา และปรับเปลี่ยนเส้นทางในเวลาจริง ในขณะเดียวกันก็พิจารณาปัจจัยต่างๆ เช่น สภาพอากาศและสภาพถนน ในทำนองเดียวกัน หุ่นยนต์ในคลังสินค้าต้องสามารถหลบหลีกอุปสรรคและจัดการวัตถุได้อย่างแม่นยำ
การพัฒนา Physical AI เป็นเรื่องที่ท้าทายเพราะต้องใช้ข้อมูลจำนวนมากในการฝึกอบรมโมเดลในสถานการณ์โลกแห่งความเป็นจริงที่หลากหลาย การรวบรวมข้อมูลนี้ ไม่ว่าจะเป็นชั่วโมงการบันทึกการขับขี่หรือการแสดงงานหุ่นยนต์ สามารถใช้เวลานานและต้องมีค่าใช้จ่าย นอกจากนี้ การทดสอบ AI ในโลกแห่งความเป็นจริงอาจมีความเสี่ยง เนื่องจากข้อผิดพลาดอาจนำไปสู่อุบัติเหตุ NVIDIA Cosmos จัดการกับความท้าทายนี้โดยใช้การจำลองฟิสิกส์ในการสร้างข้อมูลสังเคราะห์ที่มีลักษณะเหมือนจริง
อะไรคือ World Foundation Models?
ที่แก่นกลางของ NVIDIA Cosmos คือชุดของโมเดล AI ที่เรียกว่า world foundation models (WFMs) โมเดล AI เหล่านี้ได้รับการออกแบบมาเพื่อสร้างสภาพแวดล้อมเสมือนจริงที่เหมือนกับโลกแห่งความเป็นจริง โดยการสร้างวิดีโอหรือสถานการณ์ที่ตระหนักถึงฟิสิกส์ WFMs จำลองว่าวัตถุโต้ตอบกันอย่างไรตามความสัมพันธ์เชิงพื้นที่และกฎฟิสิกส์ ตัวอย่างเช่น WFM อาจจำลองรถยนต์ขับผ่านพายุฝน เพื่อแสดงว่าน้ำส่งผลต่อการยึดเกาะหรือการสะท้อนแสงไฟหน้าจากพื้นผิวที่เปียก
WFMs มีความสำคัญต่อ Physical AI เพราะพวกมันให้พื้นที่ที่ปลอดภัยและควบคุมได้ในการฝึกอบรมและทดสอบระบบ AI แทนที่จะรวบรวมข้อมูลจากโลกแห่งความเป็นจริง นักพัฒนาสามารถใช้ WFMs เพื่อสร้างข้อมูลสังเคราะห์ ซึ่งเป็นการจำลองสภาพแวดล้อมและปฏิสัมพันธ์ที่มีลักษณะเหมือนจริง วิธีการนี้ไม่เพียงแต่ลดค่าใช้จ่าย แต่ยังเร่งกระบวนการพัฒนาและทำให้สามารถทดสอบสถานการณ์ที่ซับซ้อนและหายาก (เช่น สถานการณ์จราจรที่ไม่ปกติ) โดยไม่มีความเสี่ยงที่เกี่ยวข้องกับการทดสอบในโลกแห่งความเป็นจริง WFMs เป็นโมเดลที่มีจุดประสงค์ทั่วไปที่สามารถปรับให้เหมาะสมสำหรับการใช้งานเฉพาะได้ เช่นเดียวกับโมเดลภาษาที่ใหญ่ที่ปรับให้เหมาะสมสำหรับงานเช่น การแปลหรือแชทบอท
การเปิดตัว NVIDIA Cosmos
NVIDIA Cosmos เป็นแพลตฟอร์มที่ออกแบบมาเพื่อให้นักพัฒนาสามารถสร้างและปรับแต่ง WFMs สำหรับการใช้งาน Physical AI โดยเฉพาะในรถยนต์ไร้คนขับ (AVs) และหุ่นยนต์ Cosmos รวมโมเดลที่สร้างขึ้นล่วงหน้า เครื่องมือประมวลผลข้อมูล และคุณลักษณะด้านความปลอดภัยเพื่อพัฒนาระบบ AI ที่โต้ตอบกับโลกแห่งความเป็นจริง แพลตฟอร์มนี้เปิด源 โดยมีโมเดลที่มีให้ใช้งานภายใต้ใบอนุญาตที่อนุญาตให้ใช้
ส่วนประกอบหลักของแพลตฟอร์มประกอบด้วย:
- Generative World Foundation Models (WFMs): โมเดลที่ได้รับการฝึกอบรมล่วงหน้าซึ่งจำลองสภาพแวดล้อมและปฏิสัมพันธ์ทางกายภาพ
- Advanced Tokenizers: เครื่องมือที่บีบอัดและประมวลผลข้อมูลได้อย่างมีประสิทธิภาพสำหรับการฝึกอบรมโมเดลที่เร็วขึ้น
- Accelerated Data Processing Pipeline: ระบบสำหรับการจัดการชุดข้อมูลขนาดใหญ่ โดยได้รับการสนับสนุนจากโครงสร้างพื้นฐานการคำนวณของ NVIDIA
สิ่งใหม่ที่สำคัญของ Cosmos คือโมเดลการให้เหตุผลสำหรับ Physical AI โมเดลนี้ให้ความสามารถแก่นักพัฒนาสำหรับการสร้างและปรับเปลี่ยนโลกเสมือน พวกเขาสามารถปรับแต่งการจำลองให้เหมาะสมกับความต้องการเฉพาะ เช่น ทดสอบความสามารถของหุ่นยนต์ในการจับวัตถุหรือประเมินการตอบสนองของ AV ต่ออุปสรรคที่เกิดขึ้นอย่างฉับพลัน
คุณลักษณะหลักของ NVIDIA Cosmos
NVIDIA Cosmos มีคุณลักษณะต่างๆ สำหรับการแก้ไขความท้าทายในการพัฒนา Physical AI:
- Cosmos Transfer WFMs: โมเดลเหล่านี้รับข้อมูลวิดีโอที่มีโครงสร้าง เช่น แผนที่การแบ่งส่วน แผนที่ความลึก หรือการสแกนไลดาร์ และสร้างวิดีโอเอาต์พุตที่มีลักษณะเหมือนจริงและควบคุมได้ ความสามารถนี้มีประโยชน์อย่างยิ่งสำหรับการสร้างข้อมูลสังเคราะห์เพื่อฝึกอบรมการรับรู้ AI เช่น ระบบที่ช่วยให้ AVs สามารถระบุวัตถุหรือหุ่นยนต์สามารถรับรู้สภาพแวดล้อมของตนเอง
- Cosmos Predict WFMs: โมเดล Cosmos Predict สร้างสถานะโลกเสมือนตามข้อมูลหลายรูปแบบ รวมถึงข้อความ ภาพ และวิดีโอ พวกมันสามารถคาดการณ์สถานการณ์ในอนาคต เช่น ว่าสถานการณ์จะพัฒนาไปอย่างไรในเวลาและสนับสนุนการสร้างเฟรมหลายเฟรมสำหรับลำดับที่ซับซ้อน นักพัฒนาสามารถปรับโมเดลเหล่านี้โดยใช้เซตข้อมูล Physical AI ของ NVIDIA เพื่อตอบสนองความต้องการเฉพาะ เช่น การคาดการณ์การเคลื่อนไหวของคนเดินหรือการกระทำของหุ่นยนต์
- Cosmos Reason WFM: โมเดล Cosmos Reason เป็น WFM ที่สามารถปรับแต่งได้อย่างเต็มที่ โดยมีความตระหนักรู้เชิงพื้นที่-เวลา ความสามารถในการให้เหตุผลของมันช่วยให้เข้าใจทั้งความสัมพันธ์เชิงพื้นที่และวิธีที่พวกมันเปลี่ยนแปลงไปตามเวลา โมเดลนี้ใช้การให้เหตุผลแบบเชื่อมโยงความคิดเพื่อวิเคราะห์ข้อมูลวิดีโอและคาดการณ์ผลลัพธ์ เช่น ว่าคนจะข้ามถนนหรือไม่ หรือกล่องจะหล่นจากชั้นวางหรือไม่
การประยุกต์ใช้และการใช้งาน
NVIDIA Cosmos มีผลกระทบอย่างมีนัยสำคัญต่ออุตสาหกรรมแล้ว โดยมีบริษัทชั้นนำหลายแห่งที่นำแพลตฟอร์มนี้ไปใช้สำหรับโครงการ Physical AI ของตน ผู้ใช้งานเหล่านี้เน้นย้ำถึงความสามารถและผลกระทบเชิงปฏิบัติของ Cosmos ในหลายภาคส่วน:
- 1X: ใช้ Cosmos สำหรับการพัฒนาหุ่นยนต์ขั้นสูงเพื่อปรับปรุงความสามารถในการพัฒนาโรบอทที่ขับเคลื่อนด้วย AI
- Agility Robotics: ขยายความร่วมมือกับ NVIDIA เพื่อใช้ Cosmos สำหรับระบบหุ่นยนต์แบบมนุษย์
- Figure AI: ใช้ Cosmos เพื่อพัฒนาหุ่นยนต์แบบมนุษย์ โดยมุ่งเน้นไปที่ AI ที่สามารถทำงานที่ซับซ้อน
- Foretellix: ใช้ Cosmos ในการจำลอง AV เพื่อสร้างสถานการณ์ทดสอบที่หลากหลาย
- Skild AI: ใช้ Cosmos เพื่อพัฒนาโซลูชันที่ขับเคลื่อนด้วย AI สำหรับการใช้งานต่างๆ
- Uber: รวม Cosmos เข้ากับการพัฒนารถยนต์ไร้คนขับเพื่อปรับปรุงข้อมูลการฝึกอบรมสำหรับระบบขับขี่อัตโนมัติ
- Oxa: ใช้ Cosmos เพื่อเร่งการเคลื่อนไหวอัตโนมัติทางอุตสาหกรรม
- Virtual Incision: ตรวจสอบ Cosmos สำหรับหุ่นยนต์ศัลยกรรมเพื่อปรับปรุงความแม่นยำในการดูแลสุขภาพ
การใช้งานเหล่านี้แสดงให้เห็นว่า Cosmos สามารถตอบสนองความต้องการที่หลากหลาย ตั้งแต่การขนส่งไปจนถึงการดูแลสุขภาพ โดยการให้ข้อมูลสังเคราะห์สำหรับการฝึกอบรมระบบ Physical AI เหล่านี้
ผลกระทบในอนาคต
การเปิดตัวของ NVIDIA Cosmos มีความสำคัญต่อการพัฒนาระบบ Physical AI โดยการนำเสนอแพลตฟอร์มที่เปิด源พร้อมเครื่องมือและโมเดลที่ทรงพลัง NVIDIA ทำให้การพัฒนา Physical AI เข้าถึงได้สำหรับนักพัฒน์และองค์กรในวงกว้างมากขึ้น ซึ่งอาจนำไปสู่ความก้าวหน้าที่สำคัญในหลายพื้นที่
ในด้านการขนส่งอัตโนมัติ ข้อมูลการฝึกอบรมและสถานการณ์ที่ดีขึ้นอาจนำไปสู่รถยนต์ไร้คนขับที่ปลอดภัยและเชื่อถือได้มากขึ้น ในด้านหุ่นยนต์ การพัฒนาหุ่นยนต์ที่สามารถทำงานที่ซับซ้อนได้เร็วขึ้นอาจเปลี่ยนแปลงอุตสาหกรรมต่างๆ เช่น การผลิต การขนส่ง และการดูแลสุขภาพ ในด้านการดูแลสุขภาพ เทคโนโลยีเช่น หุ่นยนต์ศัลยกรรมที่ Virtual Incision ตรวจสอบอาจปรับปรุงความแม่นยำและผลลัพธ์ของการรักษา
สรุป
NVIDIA Cosmos มีบทบาทสำคัญในการพัฒนา Physical AI แพลตฟอร์มนี้ช่วยให้นักพัฒนาสามารถสร้างข้อมูลสังเคราะห์ที่มีคุณภาพสูงได้โดยการให้โมเดล world foundation (WFMs) ที่ได้รับการฝึกอบรมล่วงหน้าสำหรับการสร้างสถานการณ์ที่มีลักษณะเหมือนจริง ด้วยการเข้าถึงแบบเปิดแหล่งที่มา คุณลักษณะที่ซับซ้อน และมาตรการด้านจริยธรรม Cosmos ทำให้การพัฒนา AI เร็วขึ้นและได้ผลมากขึ้น แพลตฟอร์มนี้ได้ขับเคลื่อนความก้าวหน้าที่สำคัญในอุตสาหกรรมต่างๆ เช่น การขนส่ง หุ่นยนต์ และการดูแลสุขภาพ โดยการให้ข้อมูลสังเคราะห์สำหรับการสร้างระบบอัจฉริยะที่โต้ตอบกับโลกแห่งความเป็นจริง












