ผู้นำทางความคิด
ค่าใช้จ่ายที่แท้จริงในการฝึกหุ่นยนต์

ใน ส่วนแรก เราได้พูดถึงว่าหุ่นยนต์จะพัฒนาตัวเองจากกลไกพื้นฐานไปสู่การเข้าใจสภาพแวดล้อมของมัน ในช่วง “ไมล์สุดท้าย” – เมื่อหุ่นยนต์ฝึกอบรมหลังการฝึกสำหรับงานที่กำหนดและปรับแต่ง – อุปสรรคที่ไม่คาดคิดก็เกิดขึ้น มันเชื่อมโยงกับข้อมูล: การเก็บข้อมูล การจัดระเบียบ และการปรับขนาดในสถานการณ์จริง
มันคือช่วงเวลาที่ช่องว่างระหว่างแนวคิดและการนำไปใช้จะเห็นได้ชัดเจนที่สุด อะไรคืออุปสรรคหลัก และสามารถ 克服ได้อย่างไรด้วยการเสียโอกาสน้อยที่สุด?
ทำไมชั่วโมงการเก็บข้อมูลที่มีจำนวนพันจะกลายเป็นปีของการทำงาน
ลองนึกภาพว่าเรามีหุ่นยนต์ที่ได้รับการฝึกอบรมแล้วและผ่านการฝึกอบรมล่วงหน้า มันสามารถเดินไปรอบๆ สภาพแวดล้อมของมัน ย้ายตำแหน่ง หลีกเลี่ยงอุปสรรค และโต้ตอบกับวัตถุ มันเหมือนกับ “เด็กอายุ 10 ขวบ” ที่สามารถกระทำการได้อย่างอิสระขั้นต้น ขั้นตอนต่อไปคือการฝึกมันให้ทำการกระทำเฉพาะเจาะจงภายใต้สภาพแวดล้อมเฉพาะ เช่น การติดตั้งแผงกระจกและซีลสตริปบนเส้นการผลิตรถยนต์
เมื่อมองดูครั้งแรก การกระทำดูเหมือนง่ายกว่า มันเกี่ยวข้องกับการทำความเข้าใจสถานการณ์เดียว และปริมาณข้อมูลที่ต้องการจะน้อยกว่าในช่วงการฝึกอบรมล่วงหน้า การฝึกอบรมล่วงหน้าอาจต้องใช้เวลาหลายแสนชั่วโมง แต่การฝึกอบรมหลังการฝึกอาจใช้เวลาเพียงหลายพันชั่วโมง แต่ตัวเลขเหล่านี้ทำให้เข้าใจผิด
เมื่อแปลเป็นเวลาจริง กระบวนการจะแสดงความซับซ้อนของมันภายใต้กำหนดการทำงานมาตรฐาน บุคคลหนึ่งทำงานประมาณ 160 ชั่วโมงต่อเดือน แต่นี่ไม่ได้หมายความว่าทุกชั่วโมงสามารถใช้สำหรับการบันทึกได้
ในทางปฏิบัติ การหยุดชะงักจะเกิดขึ้นอย่างต่อเนื่อง: แบตเตอรี่หมด คาเมร่าเคลื่อนไหว เซ็นเซอร์ทำงานผิดปกติ อุปกรณ์ที่ซับซ้อนมากขึ้นจะเพิ่มความน่าจะเป็นของปัญหา แม้แต่ความล้มเหลวอย่างง่ายๆ เช่น เซ็นเซอร์บนถุงมือที่หยุดทำงานสามารถหยุดกระบวนการและทำให้เสียเวลา
ดังนั้น ความเร็วในการเก็บข้อมูลที่แท้จริงจึงช้าลง 2-3 เท่า ชั่วโมงการบันทึกคุณภาพสูงอาจต้องใช้เวลา 3 ชั่วโมงในการทำงานจริง สิ่งนี้เปลี่ยนแปลงการคำนวณ: 5,000 ชั่วโมงของข้อมูลแปลว่าประมาณ 15,000 ชั่วโมงในการทำงาน
ชั้นของความซับซ้อน
ในช่วงการฝึกอบรมล่วงหน้า อาจเพียงพอที่จะให้คนหนึ่งถือคาเมร่าและขอให้บันทึกกิจกรรมประจำวัน แต่ในช่วงนี้ การเข้าถึงสภาพแวดล้อมเฉพาะจึงจำเป็น เช่น โรงงาน สถานก่อสร้าง หรือโรงงานผลิตที่มีเอกลักษณ์เฉพาะ
สิ่งนี้ทำให้เกิดข้อจำกัดทางปฏิบัติทันที ตัวอย่างเช่น ในสถานที่ก่อสร้าง ผู้ปฏิบัติงานต้องสวมหมวกนิรภัย ซึ่งหมายความว่าอุปกรณ์เฉพาะต้องถูกพัฒนา: หมวกที่มีคาเมราที่ติดตั้งไว้แล้วและทนทานต่อฝุ่น ความชื้น และการกระแทก
จากนั้นจึงมีการเข้าถึงไซต์เอง สัญญาต้องทำกับเจ้าของไซต์ การอนุญาตต้องได้รับ และเงื่อนไขต้องเจรจา สิ่งนี้เกี่ยวข้องกับค่าใช้จ่ายเพิ่มเติมอย่างหลีกเลี่ยงไม่ได้: บริษัทต่างๆ คาดหวังการชดเชย และผู้ปฏิบัติงานคาดหวังให้ได้รับค่าจ้างสำหรับการมีส่วนร่วม
การประกันและความสอดคล้องกับมาตรการความปลอดภัยก็กลายเป็นข้อกังวลที่สำคัญ หากอุปกรณ์ไม่ตรงตามมาตรฐานที่ต้องการ การประกันอาจถูกยกเลิก ทำให้กระบวนการทั้งหมดต้องถูกปรับโครงสร้างใหม่
แม้แต่ในระดับการดำเนินงานประจำวัน ปัญหายังคงอยู่ คาเมร่าต้องถูกเปิดใช้งาน ติดตาม และบำรุงรักษา ผู้ปฏิบัติงานใช้ถุงมือและสภาพแวดล้อมที่รุนแรง อุปกรณ์จะสกปรก สึกหรอ และชำรุด คาเมราอาจปิดหลังจากไม่กี่นาที และบุคคลอาจไม่สังเกตเห็น
สิ่งนี้ทำให้เกิดความจำเป็นสำหรับผู้เข้าร่วมในการฝึกอบรมตนเอง – พวกเขาต้องเข้าใจวิธีการใช้อุปกรณ์ นอกจากนี้การดูแลอย่างต่อเนื่องยังจำเป็น – ควรจะมีคนตรวจสอบให้แน่ใจว่าการบันทึกกำลังดำเนินอยู่และอุปกรณ์ทำงานอย่างถูกต้อง
จากวิดีโอดิบเป็นข้อมูลฝึกอบรม
หลังจากการบันทึก ช่วงต่อไปเริ่มต้นขึ้น: การเก็บข้อมูล การอัปโหลด การจัดโครงสร้าง การตรวจสอบคุณภาพ และการทำเครื่องหมาย
ข้อมูลดิบใดๆ ประกอบด้วยสัญญาณวิดีโอและเซ็นเซอร์ เพื่อเปลี่ยนมันให้เป็นวัสดุฝึกอบรม มันจะต้องถูกจัดโครงสร้าง: วัตถุจะต้องถูกกำหนดให้เข้าใจ การกระทำจะต้องถูกจับภาพ และสถานะ การเคลื่อนไหว และการโต้ตอบกับสภาพแวดล้อมจะต้องถูกอธิบาย สิ่งนี้คือที่ที่การทำเครื่องหมายเข้ามา
คำถามเชิงตรรกะเกิดขึ้น – มาตรฐานทองคำสำหรับกระบวนการทำเครื่องหมายแบบใด?
ในบางกรณี บอกซ์ขอบเขตที่ง่ายๆ ก็เพียงพอสำหรับการระบุวัตถุในเฟรม ในกรณีอื่นๆ การทำเครื่องหมายตามเวลาเป็น必要ในการอธิบายลำดับการกระทำตามเวลา ในบางสถานการณ์ จุดสำคัญและแบบจำลองกระดูกถูกใช้เพื่อจับภาพการเคลื่อนไหวของร่างกาย ในกรณีที่ซับซ้อนมากขึ้น เมช 3 มิติหรือการตามรอยท่าทางมือถูกต้องการเพื่อแสดงกลไกการโต้ตอบอย่างแม่นยำ เซ็นเซอร์เสริม เช่น อนุภาคเร่งความเร็ว ถูกบูรณาการเข้าด้วยกันเพื่อจับภาพพลวัตการเคลื่อนไหวและแรงที่ใช้
โครงการเหล่านี้มักต้องการการขยายทีม การทำเครื่องหมายเป็นงานที่ใหญ่และซับซ้อนในตัวมันเอง ต้องการเวลา ความเชี่ยวชาญ และทรัพยากรมนุษย์จำนวนมาก สิ่งนี้คือที่ที่ผู้ให้บริการโซลูชันข้อมูลที่มีทีมทำเครื่องหมายในองค์กรเข้ามาเล่น เช่น Keymakr ซึ่งได้พิสูจน์แล้วว่ามีประสิทธิภาพเป็นพิเศษด้วยความสามารถในการขยายทีมให้ตรงกับปริมาณข้อมูลใดๆ ตั้งแต่ผู้เชี่ยวชาญคนเดียวไปจนถึงผู้ทำเครื่องหมายหลายร้อยคน
ยังไม่มีวิธีการฝึกอบรมที่ถูกต้อง
อุตสาหกรรมยังคงอยู่ในช่วงการสำรวจ เนื่องจากยังไม่มีความเห็นพ้องกันว่าข้อมูลที่ผสมผสานกันอย่างไรจึงจะได้ผลลัพธ์ที่ดีที่สุด วิธีการมากมายได้รับการยืนยันเชิงประจักษ์เพราะว่ามันทำงานในการทดลองเฉพาะๆ ดังนั้น ทีมต่างๆ จึงยังคงพึ่งพาเทคโนโลยีที่แตกต่างกัน ซึ่งถูกกำหนดโดยประสบการณ์ งาน และข้อจำกัดของตนเอง
ทั้งในระดับวิชาการและเชิงประยุกต์ สิ่งนี้นำไปสู่การกระจาย: ห้องปฏิบัติการและบริษัทต่างๆ กำลังเคลื่อนที่ไปในทิศทางที่แตกต่างกัน สถานการณ์นี้ทำให้นึกถึงวันแรกๆ ของการขับขี่อัตโนมัติ เมื่อ Tesla พึ่งพาวิธีการมองเห็นโดยไม่มี LiDAR ในขณะที่ผู้เล่นส่วนใหญ่อื่นๆ เลือก LiDAR เป็นเซ็นเซอร์หลัก
วันนี้ ระบบที่ใช้ LiDAR มักแสดงผลการทำงานที่เสถียรยิ่งขึ้น แต่วิธีการของ Tesla ยังคงพัฒนา ตัวแปรที่แตกต่างกันคือในด้านการขับขี่อัตโนมัติ ตลาดได้เติบโตอย่างมาก: สถาปัตยกรรมที่เสถียรได้ปรากฏขึ้น ข้อจำกัดได้รับการทำความเข้าใจ และความเชี่ยวชาญที่สำคัญได้ถูกสะสม
ในทางตรงกันข้าม สำหรับ Physical AI และการฝึกอบรมแบบจำลองที่คล้ายกัน ระดับการเติบโตนี้ยังไม่ได้รับการบรรลุ ตลาดยังคงกำลังสร้างขึ้น มาตรฐานยังคงไม่มี และความก้าวหน้าจำนวนมากถูกขับเคลื่อนด้วยการลองผิดลองถูก วิธีการใหม่ๆ สำหรับการฝึกอบรมแบบจำลอง การปรับปรุงประสิทธิภาพ และการปรับตัวให้เข้ากับสถานการณ์จริงยังคงปรากฏขึ้น ซึ่งบ่งชี้ว่าการพัฒนาที่สำคัญที่สุดในด้านนี้ยังคงอยู่ข้างหน้า
มนุษย์เป็นระบบการเสริมแรง
การทำเครื่องหมายไม่มีอยู่ในความโดดเดี่ยว nor สำหรับแบบจำลองเพียงอย่างเดียว มันใช้เป็นเครื่องมือสำหรับวิศวกรที่สร้างแบบจำลองนั้น ผ่านมัน พวกเขากำหนดความเป็นจริง ระบุพารามิเตอร์หลัก และกำหนดกฎการดำเนินงานของระบบ
งานของวิศวกรคือการฝึกให้ระบบดำเนินการได้อย่างถูกต้องในสภาพแวดล้อมจริง ตัวอย่างเช่น สถานการณ์พื้นฐานอาจประกอบด้วยการกระทำสี่อย่าง: รับแก้ว เปิดน้ำ เติมแก้ว และปิดน้ำ แต่ในความเป็นจริง การเบี่ยงเบนเกิดขึ้น – แก้วน้ำเกิน
ในขณะนั้น แบบจำลองคาดหวังให้เสร็จสิ้นสถานการณ์และดำเนินการเพิ่มเติม: หยุดการไหลของน้ำ ปรับระดับน้ำ และป้องกันการหกหล่น สิ่งนี้คือตรรกะการดำเนินงานตามความเข้าใจในบริบท
วิศวกรทำตามวงจร: ทำเครื่องหมายข้อมูล ฝึกอบรมแบบจำลอง ทดสอบมัน หากระบบทำงานได้ สมมติฐานจะได้รับการยืนยัน หากไม่ การวิเคราะห์จะเริ่มต้นขึ้น
ในบางจุด อาจชัดเจนว่าแบบจำลองขาดพารามิเตอร์ที่สำคัญ เช่น ระดับการเติมแก้ว ก่อนหน้านี้ ข้อมูลอาจมีการทำเครื่องหมายสำหรับวัตถุ (แก้ว น้ำ ที่จับ) และการกระทำ (เปิด เติม ปิด) แต่ไม่มีการทำเครื่องหมายสำหรับสถานะ เช่น ระดับการเติม
ชั้นใหม่จะถูกเพิ่มเข้าไปในกระบวนการ: การทำเครื่องหมายระดับการเติม ตามด้วยการกำหนดรูปแบบ เช่น การกำหนดสิ่งใดๆ ที่มากกว่า 85% เป็นสถานะวิกฤต
สิ่งนี้นำไปสู่การวนซ้ำการฝึกอบรมครั้งต่อไป คุณอาจมีการวนซ้ำหลายร้อยครั้ง
ไม่มีใครคาดหวังว่าระบบจะทำงานได้อย่างถูกต้องทันที ในทางตรงกันข้าม กระบวนการถูกสร้างขึ้นรอบๆ การประมาณค่าแบบต่อเนื่อง: อันดับแรก สร้างเวอร์ชันพื้นฐาน แล้วทดสอบในสถานการณ์จริงหรือใกล้จริง ช่องว่างถูกกำหนด และระบบถูกปรับให้เหมาะสม สิ่งนี้คือสิ่งที่ฉันพูดคุยกับลูกค้าบ่อยๆ ที่ Introspector โดยที่เราจะเดินทางไปตลอดเส้นทาง Physical AI ด้วยกัน
ในบางจุด ผลลัพธ์ที่ต้องการจะถูกบรรลุ แต่คุณค่าของมันไม่ได้อยู่เพียงในระบบที่เริ่มทำงาน แต่ยังอยู่ในประสบการณ์ที่สะสมซึ่งช่วยให้ผลลัพธ์นี้สามารถทำซ้ำได้อย่างคาดการณ์ได้
เศรษฐศาสตร์ที่ทุกคนลืม
ในช่วงปีที่ผ่านมา ฉันสังเกตเห็นว่าข้อผิดพลาดที่ใหญ่ที่สุดของบริษัทต่างๆ เมื่อทำงานกับข้อมูล egocentric มีน้อยมากที่จะเกี่ยวข้องกับเทคโนโลยี
ปัญหาหลักคือการประเมินเศรษฐศาสตร์ของโครงการต่ำเกินไป
ในขั้นตอนความคิด เทคโนโลยีเป็นศูนย์กลาง – แบบจำลองใดที่จะใช้ วิธีการฝึกอบรม และวิธีการที่จะนำไปใช้ คุณศึกษา วิจัย อภิปรายโครงสร้าง และทดสอบสมมติฐาน สิ่งนี้เป็นเรื่องธรรมดา: เทคโนโลยีดูเหมือนเป็นส่วนสำคัญที่สุดของปัญหา
แต่ไม่บ่อยนักในขั้นตอนนี้ ทีมจะถามคำถามโดยตรงและเป็นรูปธรรม: มันจะใช้เงินเท่าไร?
เมื่อโครงการเปลี่ยนจากทฤษฎีไปสู่การนำไปใช้ มันจะชัดเจนว่าเบื้องหลังทุกแบบจำลองมีหลายหมื่นชั่วโมงของข้อมูล การเก็บข้อมูลเหล่านี้ต้องการเวลา การเข้าถึงสภาพแวดล้อมจริง และการมีส่วนร่วมของผู้เชี่ยวชาญ การทำเครื่องหมายเพิ่มชั้นความซับซ้อนและค่าใช้จ่ายอีกชั้นหนึ่ง ดังนั้น ตัวเลขสุดท้ายจึงมักจะสูงกว่าที่คาดไว้หลายเท่า
สิ่งนี้ไม่ได้หมายความว่าโครงการเหล่านี้ไม่ควรดำเนินการต่อ ในทางตรงกันข้าม พวกมันคือสิ่งที่ขับเคลื่อนอุตสาหกรรมไปข้างหน้า
แต่สิ่งที่สำคัญคือการเข้าใจขนาดของความท้าทายตั้งแต่เริ่มต้น การรับรู้ว่าการฝึกอบรมแบบจำลอง มีงานเก็บข้อมูลที่ซับซ้อนและต้องการทรัพยากรอยู่เบื้องหลังทุกอัลกอริทึมที่น่าประทับใจ
แม้แต่ความคิดที่แข็งแกร่งก็ล้มเหลวในการบรรลุการนำไปใช้อย่างเต็มที่เมื่อค่าใช้จ่ายในการเก็บข้อมูลเริ่มสูงเกินกว่าหนึ่งล้าน
และอาจเป็นการเปลี่ยนแปลงที่สำคัญที่สุดในด้านหุ่นยนต์ในปัจจุบัน ซึ่งเชื่อมโยงกับการรับรู้นี้ อนาคตของระบบเหล่านี้จะถูกกำหนดโดยความ “ฉลาด” และโดยความแม่นยำและประสิทธิภาพของท่อข้อมูลทั้งหมด – ตั้งแต่การเก็บข้อมูลไปจนถึงการวิเคราะห์สุดท้าย












