ปัญญาประดิษฐ์

NVIDIA Cosmos: เอ็มเพาเวอริ่ง Physical AI ด้วยซิมูเลชั่น

mm

การพัฒนา Physical AI ระบบ เช่น โรบอทในโรงงานและยานพาหนะอัตโนมัติในถนน ขึ้นอยู่กับข้อมูลขนาดใหญ่และคุณภาพสูงในการฝึกอบรม อย่างไรก็ตาม การรวบรวมข้อมูลจากโลกแห่งความเป็นจริงมีค่าใช้จ่ายสูง ใช้เวลานาน และมักจะจำกัดอยู่เพียงบริษัทเทคโนโลยีหลักๆ เท่านั้น NVIDIA’s Cosmos แพลตฟอร์มที่แก้ไขปัญหานี้โดยใช้ซิมูเลชั่นฟิสิกส์ที่ซับซ้อนในการสร้างข้อมูลสังเคราะห์ที่มีลักษณะเหมือนจริงในระดับใหญ่ ซึ่งช่วยให้工程สามารถฝึกอบรมโมเดล AI ได้โดยไม่ต้องมีค่าใช้จ่ายและความล่าช้าที่เกี่ยวข้องกับการรวบรวมข้อมูลจากโลกแห่งความเป็นจริง บทความนี้อธิบายว่า Cosmos ปรับปรุงการเข้าถึงข้อมูลฝึกอบรมที่จำเป็นและเร่งการพัฒนา AI ที่ปลอดภัยและเชื่อถือได้สำหรับการใช้งานในโลกแห่งความเป็นจริง

การทำความเข้าใจ Physical AI

Physical AI หมายถึงระบบ AI ที่สามารถรับรู้ เข้าใจ และกระทำในโลกแห่งความเป็นจริง ไม่เหมือนกับ AI ทั่วไปที่อาจวิเคราะห์ข้อความหรือรูปภาพ Physical AI ต้องจัดการกับความซับซ้อนของโลกแห่งความเป็นจริง เช่น ความสัมพันธ์เชิงพื้นที่ แรงฟิสิกส์ และสภาพแวดล้อมที่เปลี่ยนแปลงได้ ตัวอย่างเช่น ยานพาหนะอัตโนมัติต้องตระหนักถึงคนเดิน รู้ว่าคนเดินจะเคลื่อนที่ไปที่ไหน และปรับเปลี่ยนเส้นทางในเวลาจริง โดยพิจารณาปัจจัย เช่น สภาพอากาศและถนน ในทำนองเดียวกัน โรบอทในคลังสินค้าต้องเดินผ่านอุปสรรคและจัดการวัตถุได้อย่างแม่นยำ
การพัฒนา Physical AI เป็นเรื่องที่ท้าทายเพราะต้องใช้ข้อมูลจำนวนมากในการฝึกอบรมโมเดลในสถานการณ์โลกแห่งความเป็นจริงที่หลากหลาย การรวบรวมข้อมูลนี้ ไม่ว่าจะเป็นชั่วโมงการบันทึกวิดีโอหรือการแสดงงานของโรบอท อาจใช้เวลานานและต้องใช้เงินมาก นอกจากนี้ การทดสอบ AI ในโลกแห่งความเป็นจริงอาจมีความเสี่ยง เนื่องจากข้อผิดพลาดอาจนำไปสู่อุบัติเหตุ NVIDIA Cosmos แก้ไขปัญหานี้โดยใช้ซิมูเลชั่นฟิสิกส์ที่ซับซ้อนในการสร้างข้อมูลสังเคราะห์ที่มีลักษณะเหมือนจริง

อะไรคือ World Foundation Models?

ที่แกนกลางของ NVIDIA Cosmos คือชุดของโมเดล AI ที่เรียกว่า world foundation models (WFMs) โมเดล AI เหล่านี้ได้รับการออกแบบมาโดยเฉพาะเพื่อซิมูเลตสภาพแวดล้อมเสมือนจริงที่เหมือนกับโลกแห่งความเป็นจริง โดยการสร้างวิดีโอหรือสถานการณ์ที่มีPhysics-aware WFMs ซิมูเลตว่าวัตถุโต้ตอบกันอย่างไรตามความสัมพันธ์เชิงพื้นที่และกฎฟิสิกส์ ตัวอย่างเช่น WFM อาจซิมูเลตยารถยนต์ขับผ่านพายุฝน โดยแสดงให้เห็นว่าน้ำส่งผลต่อการยึดเกาะหรือแสงไฟส่องสว่างบนพื้นผิวที่เปียก
WFMs มีความสำคัญต่อ Physical AI เนื่องจากพวกมันให้พื้นที่ที่ปลอดภัยและควบคุมได้ในการฝึกอบรมและทดสอบระบบ AI แทนที่จะรวบรวมข้อมูลจากโลกแห่งความเป็นจริง นักพัฒนาสามารถใช้ WFMs เพื่อสร้างข้อมูลสังเคราะห์ ซึ่งเป็นซิมูเลชั่นของสภาพแวดล้อมและปฏิสัมพันธ์ที่มีลักษณะเหมือนจริง วิธีการนี้ไม่เพียงแต่ลดค่าใช้จ่าย แต่ยังเร่งกระบวนการพัฒนาและช่วยให้สามารถทดสอบสถานการณ์ที่ซับซ้อนและหายาก (เช่น สถานการณ์จราจรที่ไม่ปกติ) โดยไม่มีความเสี่ยงที่เกี่ยวข้องกับการทดสอบในโลกแห่งความเป็นจริง WFMs เป็นโมเดลที่มีจุดประสงค์ทั่วไปที่สามารถปรับให้เหมาะสมสำหรับการใช้งานเฉพาะได้ เช่นเดียวกับโมเดลภาษาที่ใหญ่ที่ถูกปรับให้เหมาะสมสำหรับงาน เช่น การแปลหรือแชทบอท

การเปิดตัว NVIDIA Cosmos

NVIDIA Cosmos คือแพลตฟอร์มที่ออกแบบมาเพื่อให้นักพัฒนาสามารถสร้างและปรับแต่ง WFMs สำหรับการใช้งาน Physical AI โดยเฉพาะในด้านยานพาหนะอัตโนมัติ (AVs) และโรบอท Cosmos รวมโมเดลที่สร้างขึ้นล่วงหน้า เครื่องมือประมวลผลข้อมูล และคุณสมบัติด้านความปลอดภัยเพื่อพัฒนาระบบ AI ที่โต้ตอบกับโลกแห่งความเป็นจริง แพลตฟอร์มนี้เปิด源 โดยมีโมเดลที่มี sẵnภายใต้ใบอนุญาตที่อนุญาตให้ใช้
ส่วนประกอบหลักของแพลตฟอร์ม ได้แก่:

  • Generative World Foundation Models (WFMs): โมเดลที่ซิมูเลตสภาพแวดล้อมและปฏิสัมพันธ์ทางกายภาพ
  • Advanced Tokenizers: เครื่องมือที่บีบอัดและประมวลผลข้อมูลได้อย่างมีประสิทธิภาพสำหรับการฝึกอบรมโมเดลที่เร็วขึ้น
  • Accelerated Data Processing Pipeline: ระบบสำหรับการจัดการข้อมูลขนาดใหญ่ โดยได้รับการสนับสนุนจากโครงสร้างพื้นฐานการคำนวณของ NVIDIA

สิ่งใหม่ที่น่าสนใจของ Cosmos คือโมเดลการให้เหตุผลสำหรับ Physical AI โมเดลนี้ให้ความสามารถแก่นักพัฒนาสามารถสร้างและปรับเปลี่ยนโลกเสมือนได้ พวกเขาสามารถปรับซิมูเลชั่นให้เหมาะสมกับความต้องการเฉพาะ เช่น การทดสอบความสามารถของโรบอทในการจับวัตถุหรือการประเมินการตอบสนองของ AV ต่ออุปสรรคที่ไม่คาดคิด

คุณสมบัติหลักของ NVIDIA Cosmos

NVIDIA Cosmos มีคุณสมบัติต่างๆ สำหรับการแก้ไขปัญหาที่เฉพาะเจาะจงในการพัฒนา Physical AI:

  • Cosmos Transfer WFMs: โมเดลเหล่านี้รับข้อมูลวิดีโอแบบโครงสร้าง เช่น แผนที่การแบ่งส่วน ลึก หรือการสแกน lidar และสร้างวิดีโอเอาต์พุตที่มีลักษณะเหมือนจริงและควบคุมได้ ความสามารถนี้มีประโยชน์อย่างยิ่งสำหรับการสร้างข้อมูลสังเคราะห์เพื่อฝึกอบรมการรับรู้ AI เช่น ระบบที่ช่วยให้ AV ระบุวัตถุหรือโรบอทรับรู้สภาพแวดล้อม
  • Cosmos Predict WFMs: โมเดล Cosmos Predict สร้างสถานะโลกเสมือนตามข้อมูลหลายรูปแบบ รวมถึงข้อความ รูปภาพ และวิดีโอ โมเดลเหล่านี้สามารถคาดการณ์สถานการณ์ในอนาคต เช่น ว่าฉากจะพัฒนาไปอย่างไรในระยะเวลาหนึ่ง และสนับสนุนการสร้างหลายเฟรมสำหรับลำดับที่ซับซ้อน นักพัฒนาสามารถปรับโมเดลเหล่านี้โดยใช้เซตข้อมูล AI ของ NVIDIA เพื่อตอบสนองความต้องการเฉพาะ เช่น การคาดการณ์การเคลื่อนไหวของคนเดินหรือการกระทำของโรบอท
  • Cosmos Reason WFM: โมเดล Cosmos Reason เป็น WFM ที่ปรับแต่งได้อย่างเต็มที่ โดยมีความตระหนักรู้ด้านพื้นที่และเวลา โมเดลนี้ใช้การให้เหตุผลแบบเชื่อมโยงเพื่อวิเคราะห์วิดีโอและคาดการณ์ผลลัพธ์ เช่น ว่าคนจะเดินข้ามถนนหรือว่ากล่องจะหล่นจากชั้นวาง

การประยุกต์ใช้และการใช้งาน

NVIDIA Cosmos มีผลกระทบอย่างมีนัยสำคัญต่ออุตสาหกรรมแล้ว โดยมีบริษัทชั้นนำหลายแห่งที่นำแพลตฟอร์มนี้มาใช้สำหรับโครงการ Physical AI ของตน การนำร่องเหล่านี้เน้นย้ำถึงความสามารถและผลกระทบเชิงปฏิบัติของ Cosmos ในหลายภาคส่วน:

  • 1X: ใช้ Cosmos สำหรับโรบอทที่ซับซ้อนเพื่อปรับปรุงความสามารถในการพัฒนา AI ที่ขับเคลื่อนด้วย AI
  • Agility Robotics: ขยายความร่วมมือกับ NVIDIA เพื่อใช้ Cosmos สำหรับระบบโรบอทที่เหมือนมนุษย์
  • Figure AI: ใช้ Cosmos เพื่อพัฒนาโรบอทที่เหมือนมนุษย์ โดยเน้นไปที่ AI ที่สามารถทำงานที่ซับซ้อนได้
  • Foretellix: ใช้ Cosmos ในการซิมูเลตยานพาหนะอัตโนมัติเพื่อสร้างสถานการณ์ทดสอบที่หลากหลาย
  • Skild AI: ใช้ Cosmos เพื่อพัฒนาโซลูชันที่ขับเคลื่อนด้วย AI สำหรับการใช้งานต่างๆ
  • Uber: รวม Cosmos เข้ากับการพัฒนายานพาหนะอัตโนมัติเพื่อปรับปรุงข้อมูลฝึกอบรมสำหรับระบบขับเคลื่อนอัตโนมัติ
  • Oxa: ใช้ Cosmos เพื่อเร่งการเคลื่อนไหวอัตโนมัติในอุตสาหกรรม
  • Virtual Incision: ตรวจสอบ Cosmos สำหรับโรบอทศัลยกรรมเพื่อปรับปรุงความแม่นยำในการดูแลสุขภาพ

การนำร่องเหล่านี้แสดงให้เห็นว่า Cosmos สามารถตอบสนองความต้องการที่หลากหลาย ตั้งแต่การขนส่งไปจนถึงการดูแลสุขภาพ โดยการให้ข้อมูลสังเคราะห์สำหรับการฝึกอบรมระบบ Physical AI เหล่านี้

ผลกระทบในอนาคต

การเปิดตัวของ NVIDIA Cosmos มีความสำคัญต่อการพัฒนา Physical AI ระบบ โดยการนำเสนอแพลตฟอร์มที่เปิด源พร้อมเครื่องมือและโมเดลที่ทรงพลัง NVIDIA ทำให้การพัฒนา Physical AI เข้าถึงได้สำหรับนักพัฒนและองค์กรที่หลากหลายมากขึ้น ซึ่งอาจนำไปสู่ความก้าวหน้าที่สำคัญในหลายพื้นที่
ในด้านการขนส่งอัตโนมัติ ข้อมูลฝึกอบรมที่ดีขึ้นและซิมูเลชั่นอาจนำไปสู่การขับเคลื่อนอัตโนมัติที่ปลอดภัยและเชื่อถือได้มากขึ้น ในด้านโรบอท การพัฒนาโรบอทที่สามารถทำงานที่ซับซ้อนได้เร็วขึ้นอาจเปลี่ยนแปลงอุตสาหกรรม เช่น การผลิต การจัดการ物流 และการดูแลสุขภาพ ในด้านการดูแลสุขภาพ เทคโนโลยีเช่นการผ่าตัดด้วยโรบอทที่ Virtual Incision ตรวจสอบอาจปรับปรุงความแม่นยำและผลลัพธ์ของการผ่าตัด

สรุป

NVIDIA Cosmos มีบทบาทสำคัญในการพัฒนา Physical AI แพลตฟอร์มนี้ช่วยให้นักพัฒนาสามารถสร้างข้อมูลสังเคราะห์ที่มีคุณภาพสูงได้โดยใช้โมเดล world foundation ที่ซับซ้อนและเปิด源 ด้วยการเข้าถึงแบบเปิด คุณสมบัติที่ทันสมัย และมาตรการด้านจริยธรรม Cosmos ทำให้การพัฒนา AI เร็วขึ้นและมีประสิทธิภาพมากขึ้น แพลตฟอร์มนี้กำลังขับเคลื่อนความก้าวหน้าที่สำคัญในอุตสาหกรรม เช่น การขนส่ง โรบอท และการดูแลสุขภาพ โดยการให้ข้อมูลสังเคราะห์สำหรับการสร้างระบบ AI ที่โต้ตอบกับโลกแห่งความเป็นจริง

ดร. Tehseen Zia เป็น Professor ที่ COMSATS University Islamabad โดยได้รับ PhD ใน AI จาก Vienna University of Technology, Austria มีเชี่ยวชาญด้าน Artificial Intelligence, Machine Learning, Data Science, และ Computer Vision โดยมีส่วนร่วมที่สำคัญด้วยการเผยแพร่ในวารสารวิทยาศาสตร์ที่มีชื่อเสียง ดร. Tehseen ยังได้ดำเนินโครงการอุตสาหกรรมต่างๆ ในฐานะ Principal Investigator และให้บริการเป็นที่ปรึกษาด้าน AI