Connect with us

ค่าใช้จ่ายที่แท้จริงในการฝึกหุ่นยนต์

ผู้นำทางความคิด

ค่าใช้จ่ายที่แท้จริงในการฝึกหุ่นยนต์

mm

ใน ส่วนแรก เราได้พูดถึงว่าหุ่นยนต์จะพัฒนาตัวเองจากกลไกพื้นฐานไปสู่การเข้าใจสภาพแวดล้อมของมัน ในช่วง “ไมล์สุดท้าย” – เมื่อหุ่นยนต์ฝึกอบรมหลังการฝึกสำหรับงานที่กำหนดและปรับแต่ง – อุปสรรคที่ไม่คาดคิดก็เกิดขึ้น มันเชื่อมโยงกับข้อมูล: การเก็บข้อมูล การจัดระเบียบ และการปรับขนาดในสถานการณ์จริง

มันคือช่วงเวลาที่ช่องว่างระหว่างแนวคิดและการนำไปใช้จะเห็นได้ชัดเจนที่สุด อะไรคืออุปสรรคหลัก และสามารถ 克服ได้อย่างไรด้วยการเสียโอกาสน้อยที่สุด?

ทำไมชั่วโมงการเก็บข้อมูลที่มีจำนวนพันจะกลายเป็นปีของการทำงาน

ลองนึกภาพว่าเรามีหุ่นยนต์ที่ได้รับการฝึกอบรมแล้วและผ่านการฝึกอบรมล่วงหน้า มันสามารถเดินไปรอบๆ สภาพแวดล้อมของมัน ย้ายตำแหน่ง หลีกเลี่ยงอุปสรรค และโต้ตอบกับวัตถุ มันเหมือนกับ “เด็กอายุ 10 ขวบ” ที่สามารถกระทำการได้อย่างอิสระขั้นต้น ขั้นตอนต่อไปคือการฝึกมันให้ทำการกระทำเฉพาะเจาะจงภายใต้สภาพแวดล้อมเฉพาะ เช่น การติดตั้งแผงกระจกและซีลสตริปบนเส้นการผลิตรถยนต์

เมื่อมองดูครั้งแรก การกระทำดูเหมือนง่ายกว่า มันเกี่ยวข้องกับการทำความเข้าใจสถานการณ์เดียว และปริมาณข้อมูลที่ต้องการจะน้อยกว่าในช่วงการฝึกอบรมล่วงหน้า การฝึกอบรมล่วงหน้าอาจต้องใช้เวลาหลายแสนชั่วโมง แต่การฝึกอบรมหลังการฝึกอาจใช้เวลาเพียงหลายพันชั่วโมง แต่ตัวเลขเหล่านี้ทำให้เข้าใจผิด

เมื่อแปลเป็นเวลาจริง กระบวนการจะแสดงความซับซ้อนของมันภายใต้กำหนดการทำงานมาตรฐาน บุคคลหนึ่งทำงานประมาณ 160 ชั่วโมงต่อเดือน แต่นี่ไม่ได้หมายความว่าทุกชั่วโมงสามารถใช้สำหรับการบันทึกได้

ในทางปฏิบัติ การหยุดชะงักจะเกิดขึ้นอย่างต่อเนื่อง: แบตเตอรี่หมด คาเมร่าเคลื่อนไหว เซ็นเซอร์ทำงานผิดปกติ อุปกรณ์ที่ซับซ้อนมากขึ้นจะเพิ่มความน่าจะเป็นของปัญหา แม้แต่ความล้มเหลวอย่างง่ายๆ เช่น เซ็นเซอร์บนถุงมือที่หยุดทำงานสามารถหยุดกระบวนการและทำให้เสียเวลา

ดังนั้น ความเร็วในการเก็บข้อมูลที่แท้จริงจึงช้าลง 2-3 เท่า ชั่วโมงการบันทึกคุณภาพสูงอาจต้องใช้เวลา 3 ชั่วโมงในการทำงานจริง สิ่งนี้เปลี่ยนแปลงการคำนวณ: 5,000 ชั่วโมงของข้อมูลแปลว่าประมาณ 15,000 ชั่วโมงในการทำงาน

ชั้นของความซับซ้อน

ในช่วงการฝึกอบรมล่วงหน้า อาจเพียงพอที่จะให้คนหนึ่งถือคาเมร่าและขอให้บันทึกกิจกรรมประจำวัน แต่ในช่วงนี้ การเข้าถึงสภาพแวดล้อมเฉพาะจึงจำเป็น เช่น โรงงาน สถานก่อสร้าง หรือโรงงานผลิตที่มีเอกลักษณ์เฉพาะ

สิ่งนี้ทำให้เกิดข้อจำกัดทางปฏิบัติทันที ตัวอย่างเช่น ในสถานที่ก่อสร้าง ผู้ปฏิบัติงานต้องสวมหมวกนิรภัย ซึ่งหมายความว่าอุปกรณ์เฉพาะต้องถูกพัฒนา: หมวกที่มีคาเมราที่ติดตั้งไว้แล้วและทนทานต่อฝุ่น ความชื้น และการกระแทก

จากนั้นจึงมีการเข้าถึงไซต์เอง สัญญาต้องทำกับเจ้าของไซต์ การอนุญาตต้องได้รับ และเงื่อนไขต้องเจรจา สิ่งนี้เกี่ยวข้องกับค่าใช้จ่ายเพิ่มเติมอย่างหลีกเลี่ยงไม่ได้: บริษัทต่างๆ คาดหวังการชดเชย และผู้ปฏิบัติงานคาดหวังให้ได้รับค่าจ้างสำหรับการมีส่วนร่วม

การประกันและความสอดคล้องกับมาตรการความปลอดภัยก็กลายเป็นข้อกังวลที่สำคัญ หากอุปกรณ์ไม่ตรงตามมาตรฐานที่ต้องการ การประกันอาจถูกยกเลิก ทำให้กระบวนการทั้งหมดต้องถูกปรับโครงสร้างใหม่

แม้แต่ในระดับการดำเนินงานประจำวัน ปัญหายังคงอยู่ คาเมร่าต้องถูกเปิดใช้งาน ติดตาม และบำรุงรักษา ผู้ปฏิบัติงานใช้ถุงมือและสภาพแวดล้อมที่รุนแรง อุปกรณ์จะสกปรก สึกหรอ และชำรุด คาเมราอาจปิดหลังจากไม่กี่นาที และบุคคลอาจไม่สังเกตเห็น

สิ่งนี้ทำให้เกิดความจำเป็นสำหรับผู้เข้าร่วมในการฝึกอบรมตนเอง – พวกเขาต้องเข้าใจวิธีการใช้อุปกรณ์ นอกจากนี้การดูแลอย่างต่อเนื่องยังจำเป็น – ควรจะมีคนตรวจสอบให้แน่ใจว่าการบันทึกกำลังดำเนินอยู่และอุปกรณ์ทำงานอย่างถูกต้อง

จากวิดีโอดิบเป็นข้อมูลฝึกอบรม

หลังจากการบันทึก ช่วงต่อไปเริ่มต้นขึ้น: การเก็บข้อมูล การอัปโหลด การจัดโครงสร้าง การตรวจสอบคุณภาพ และการทำเครื่องหมาย

ข้อมูลดิบใดๆ ประกอบด้วยสัญญาณวิดีโอและเซ็นเซอร์ เพื่อเปลี่ยนมันให้เป็นวัสดุฝึกอบรม มันจะต้องถูกจัดโครงสร้าง: วัตถุจะต้องถูกกำหนดให้เข้าใจ การกระทำจะต้องถูกจับภาพ และสถานะ การเคลื่อนไหว และการโต้ตอบกับสภาพแวดล้อมจะต้องถูกอธิบาย สิ่งนี้คือที่ที่การทำเครื่องหมายเข้ามา

คำถามเชิงตรรกะเกิดขึ้น – มาตรฐานทองคำสำหรับกระบวนการทำเครื่องหมายแบบใด?

ในบางกรณี บอกซ์ขอบเขตที่ง่ายๆ ก็เพียงพอสำหรับการระบุวัตถุในเฟรม ในกรณีอื่นๆ การทำเครื่องหมายตามเวลาเป็น必要ในการอธิบายลำดับการกระทำตามเวลา ในบางสถานการณ์ จุดสำคัญและแบบจำลองกระดูกถูกใช้เพื่อจับภาพการเคลื่อนไหวของร่างกาย ในกรณีที่ซับซ้อนมากขึ้น เมช 3 มิติหรือการตามรอยท่าทางมือถูกต้องการเพื่อแสดงกลไกการโต้ตอบอย่างแม่นยำ เซ็นเซอร์เสริม เช่น อนุภาคเร่งความเร็ว ถูกบูรณาการเข้าด้วยกันเพื่อจับภาพพลวัตการเคลื่อนไหวและแรงที่ใช้

โครงการเหล่านี้มักต้องการการขยายทีม การทำเครื่องหมายเป็นงานที่ใหญ่และซับซ้อนในตัวมันเอง ต้องการเวลา ความเชี่ยวชาญ และทรัพยากรมนุษย์จำนวนมาก สิ่งนี้คือที่ที่ผู้ให้บริการโซลูชันข้อมูลที่มีทีมทำเครื่องหมายในองค์กรเข้ามาเล่น เช่น Keymakr ซึ่งได้พิสูจน์แล้วว่ามีประสิทธิภาพเป็นพิเศษด้วยความสามารถในการขยายทีมให้ตรงกับปริมาณข้อมูลใดๆ ตั้งแต่ผู้เชี่ยวชาญคนเดียวไปจนถึงผู้ทำเครื่องหมายหลายร้อยคน

ยังไม่มีวิธีการฝึกอบรมที่ถูกต้อง

อุตสาหกรรมยังคงอยู่ในช่วงการสำรวจ เนื่องจากยังไม่มีความเห็นพ้องกันว่าข้อมูลที่ผสมผสานกันอย่างไรจึงจะได้ผลลัพธ์ที่ดีที่สุด วิธีการมากมายได้รับการยืนยันเชิงประจักษ์เพราะว่ามันทำงานในการทดลองเฉพาะๆ ดังนั้น ทีมต่างๆ จึงยังคงพึ่งพาเทคโนโลยีที่แตกต่างกัน ซึ่งถูกกำหนดโดยประสบการณ์ งาน และข้อจำกัดของตนเอง

ทั้งในระดับวิชาการและเชิงประยุกต์ สิ่งนี้นำไปสู่การกระจาย: ห้องปฏิบัติการและบริษัทต่างๆ กำลังเคลื่อนที่ไปในทิศทางที่แตกต่างกัน สถานการณ์นี้ทำให้นึกถึงวันแรกๆ ของการขับขี่อัตโนมัติ เมื่อ Tesla พึ่งพาวิธีการมองเห็นโดยไม่มี LiDAR ในขณะที่ผู้เล่นส่วนใหญ่อื่นๆ เลือก LiDAR เป็นเซ็นเซอร์หลัก

วันนี้ ระบบที่ใช้ LiDAR มักแสดงผลการทำงานที่เสถียรยิ่งขึ้น แต่วิธีการของ Tesla ยังคงพัฒนา ตัวแปรที่แตกต่างกันคือในด้านการขับขี่อัตโนมัติ ตลาดได้เติบโตอย่างมาก: สถาปัตยกรรมที่เสถียรได้ปรากฏขึ้น ข้อจำกัดได้รับการทำความเข้าใจ และความเชี่ยวชาญที่สำคัญได้ถูกสะสม

ในทางตรงกันข้าม สำหรับ Physical AI และการฝึกอบรมแบบจำลองที่คล้ายกัน ระดับการเติบโตนี้ยังไม่ได้รับการบรรลุ ตลาดยังคงกำลังสร้างขึ้น มาตรฐานยังคงไม่มี และความก้าวหน้าจำนวนมากถูกขับเคลื่อนด้วยการลองผิดลองถูก วิธีการใหม่ๆ สำหรับการฝึกอบรมแบบจำลอง การปรับปรุงประสิทธิภาพ และการปรับตัวให้เข้ากับสถานการณ์จริงยังคงปรากฏขึ้น ซึ่งบ่งชี้ว่าการพัฒนาที่สำคัญที่สุดในด้านนี้ยังคงอยู่ข้างหน้า

มนุษย์เป็นระบบการเสริมแรง

การทำเครื่องหมายไม่มีอยู่ในความโดดเดี่ยว nor สำหรับแบบจำลองเพียงอย่างเดียว มันใช้เป็นเครื่องมือสำหรับวิศวกรที่สร้างแบบจำลองนั้น ผ่านมัน พวกเขากำหนดความเป็นจริง ระบุพารามิเตอร์หลัก และกำหนดกฎการดำเนินงานของระบบ

งานของวิศวกรคือการฝึกให้ระบบดำเนินการได้อย่างถูกต้องในสภาพแวดล้อมจริง ตัวอย่างเช่น สถานการณ์พื้นฐานอาจประกอบด้วยการกระทำสี่อย่าง: รับแก้ว เปิดน้ำ เติมแก้ว และปิดน้ำ แต่ในความเป็นจริง การเบี่ยงเบนเกิดขึ้น – แก้วน้ำเกิน

ในขณะนั้น แบบจำลองคาดหวังให้เสร็จสิ้นสถานการณ์และดำเนินการเพิ่มเติม: หยุดการไหลของน้ำ ปรับระดับน้ำ และป้องกันการหกหล่น สิ่งนี้คือตรรกะการดำเนินงานตามความเข้าใจในบริบท

วิศวกรทำตามวงจร: ทำเครื่องหมายข้อมูล ฝึกอบรมแบบจำลอง ทดสอบมัน หากระบบทำงานได้ สมมติฐานจะได้รับการยืนยัน หากไม่ การวิเคราะห์จะเริ่มต้นขึ้น

ในบางจุด อาจชัดเจนว่าแบบจำลองขาดพารามิเตอร์ที่สำคัญ เช่น ระดับการเติมแก้ว ก่อนหน้านี้ ข้อมูลอาจมีการทำเครื่องหมายสำหรับวัตถุ (แก้ว น้ำ ที่จับ) และการกระทำ (เปิด เติม ปิด) แต่ไม่มีการทำเครื่องหมายสำหรับสถานะ เช่น ระดับการเติม

ชั้นใหม่จะถูกเพิ่มเข้าไปในกระบวนการ: การทำเครื่องหมายระดับการเติม ตามด้วยการกำหนดรูปแบบ เช่น การกำหนดสิ่งใดๆ ที่มากกว่า 85% เป็นสถานะวิกฤต

สิ่งนี้นำไปสู่การวนซ้ำการฝึกอบรมครั้งต่อไป คุณอาจมีการวนซ้ำหลายร้อยครั้ง

ไม่มีใครคาดหวังว่าระบบจะทำงานได้อย่างถูกต้องทันที ในทางตรงกันข้าม กระบวนการถูกสร้างขึ้นรอบๆ การประมาณค่าแบบต่อเนื่อง: อันดับแรก สร้างเวอร์ชันพื้นฐาน แล้วทดสอบในสถานการณ์จริงหรือใกล้จริง ช่องว่างถูกกำหนด และระบบถูกปรับให้เหมาะสม สิ่งนี้คือสิ่งที่ฉันพูดคุยกับลูกค้าบ่อยๆ ที่ Introspector โดยที่เราจะเดินทางไปตลอดเส้นทาง Physical AI ด้วยกัน

ในบางจุด ผลลัพธ์ที่ต้องการจะถูกบรรลุ แต่คุณค่าของมันไม่ได้อยู่เพียงในระบบที่เริ่มทำงาน แต่ยังอยู่ในประสบการณ์ที่สะสมซึ่งช่วยให้ผลลัพธ์นี้สามารถทำซ้ำได้อย่างคาดการณ์ได้

เศรษฐศาสตร์ที่ทุกคนลืม

ในช่วงปีที่ผ่านมา ฉันสังเกตเห็นว่าข้อผิดพลาดที่ใหญ่ที่สุดของบริษัทต่างๆ เมื่อทำงานกับข้อมูล egocentric มีน้อยมากที่จะเกี่ยวข้องกับเทคโนโลยี

ปัญหาหลักคือการประเมินเศรษฐศาสตร์ของโครงการต่ำเกินไป

ในขั้นตอนความคิด เทคโนโลยีเป็นศูนย์กลาง – แบบจำลองใดที่จะใช้ วิธีการฝึกอบรม และวิธีการที่จะนำไปใช้ คุณศึกษา วิจัย อภิปรายโครงสร้าง และทดสอบสมมติฐาน สิ่งนี้เป็นเรื่องธรรมดา: เทคโนโลยีดูเหมือนเป็นส่วนสำคัญที่สุดของปัญหา

แต่ไม่บ่อยนักในขั้นตอนนี้ ทีมจะถามคำถามโดยตรงและเป็นรูปธรรม: มันจะใช้เงินเท่าไร?

เมื่อโครงการเปลี่ยนจากทฤษฎีไปสู่การนำไปใช้ มันจะชัดเจนว่าเบื้องหลังทุกแบบจำลองมีหลายหมื่นชั่วโมงของข้อมูล การเก็บข้อมูลเหล่านี้ต้องการเวลา การเข้าถึงสภาพแวดล้อมจริง และการมีส่วนร่วมของผู้เชี่ยวชาญ การทำเครื่องหมายเพิ่มชั้นความซับซ้อนและค่าใช้จ่ายอีกชั้นหนึ่ง ดังนั้น ตัวเลขสุดท้ายจึงมักจะสูงกว่าที่คาดไว้หลายเท่า

สิ่งนี้ไม่ได้หมายความว่าโครงการเหล่านี้ไม่ควรดำเนินการต่อ ในทางตรงกันข้าม พวกมันคือสิ่งที่ขับเคลื่อนอุตสาหกรรมไปข้างหน้า

แต่สิ่งที่สำคัญคือการเข้าใจขนาดของความท้าทายตั้งแต่เริ่มต้น การรับรู้ว่าการฝึกอบรมแบบจำลอง มีงานเก็บข้อมูลที่ซับซ้อนและต้องการทรัพยากรอยู่เบื้องหลังทุกอัลกอริทึมที่น่าประทับใจ

แม้แต่ความคิดที่แข็งแกร่งก็ล้มเหลวในการบรรลุการนำไปใช้อย่างเต็มที่เมื่อค่าใช้จ่ายในการเก็บข้อมูลเริ่มสูงเกินกว่าหนึ่งล้าน

และอาจเป็นการเปลี่ยนแปลงที่สำคัญที่สุดในด้านหุ่นยนต์ในปัจจุบัน ซึ่งเชื่อมโยงกับการรับรู้นี้ อนาคตของระบบเหล่านี้จะถูกกำหนดโดยความ “ฉลาด” และโดยความแม่นยำและประสิทธิภาพของท่อข้อมูลทั้งหมด – ตั้งแต่การเก็บข้อมูลไปจนถึงการวิเคราะห์สุดท้าย

Michael Abramov เป็นผู้ก่อตั้งและ CEO ของ Introspector โดยนำประสบการณ์มากกว่า 15 ปี ในด้านวิศวกรรมซอฟต์แวร์และระบบ AI วิชั่นคอมพิวเตอร์มาใช้ในการสร้างเครื่องมือระบุระดับองค์กร

Michael เริ่มต้นอาชีพของเขาในฐานะวิศวกรซอฟต์แวร์และผู้จัดการ R&D โดยสร้างระบบข้อมูลที่มีความสามารถในการปรับขนาดและจัดการทีมวิศวกรรมที่มีหน้าที่หลากหลายจนถึงปี 2025 เขาได้รับตำแหน่งเป็น CEO ของ Keymakr บริษัทที่ให้บริการระบุฉลากข้อมูล โดยที่เขานำแนวคิดการทำงานแบบ human-in-the-loop, ระบบ QA ที่มีความก้าวหน้า และเครื่องมือที่ออกแบบมาเฉพาะเพื่อสนับสนุนความต้องการข้อมูลวิชั่นคอมพิวเตอร์และความเป็นอิสระในระดับใหญ่

เขามีปริญญาตรีสาขาวิทยาศาสตร์คอมพิวเตอร์และมีประสบการณ์ทางด้านวิศวกรรมและศิลปะสร้างสรรค์ ซึ่งช่วยให้เขามีมุมมองที่หลากหลายในการแก้ปัญหาที่ยาก Michael อาศัยอยู่ที่จุดตัดระหว่างนวัตกรรมเทคโนโลยี, การนำผลิตภัณฑ์เชิงกลยุทธ์ และผลกระทบในโลกแห่งความเป็นจริง โดยผลักดันให้เกิดรูปแบบใหม่ของระบบอัตโนมัติและระบบอัตโนมัติที่มีความฉลาด