ผู้นำทางความคิด

ค่าใช้จ่ายที่แท้จริงในการฝึกหุ่นยนต์

เผยแพร่ 29 เมษายน 2026

อัปเดต 16 พฤษภาคม 2026

Michael Abramov, ผู้ก่อตั้งและซีอีโอของ Introspector

ใน ส่วนแรก เราได้พูดถึงว่าหุ่นยนต์จะพัฒนาตัวเองจากกลไกพื้นฐานไปสู่การเข้าใจสภาพแวดล้อมของพวกมัน ในช่วง “ไมล์สุดท้าย” – เมื่อหุ่นยนต์ฝึกอบรมหลังการฝึกอบรมสำหรับงานที่เฉพาะเจาะจงและกำหนดเอง – อุปสรรคที่ไม่คาดคิดจะเกิดขึ้น มันเกี่ยวข้องกับข้อมูล: การรวบรวม การจัดระเบียบ และการปรับขนาดในสถานการณ์จริง

มันคือจุดที่ช่องว่างระหว่างแนวคิดและความเป็นจริงจะกลายเป็นที่ชัดเจนที่สุด อะไรคืออุปสรรคหลัก และสามารถเอาชนะมันได้อย่างไรโดยมีการเสียดสีน้อยที่สุด?

ทำไมชั่วโมงการทำงานหลายพันชั่วโมงจึงกลายเป็นปีของการทำงาน

ลองนึกภาพว่าเรามีหุ่นยนต์ที่ได้รับการฝึกอบรมแล้ว ซึ่งผ่านการฝึกอบรมก่อนหน้านี้ มันสามารถเคลื่อนที่ได้ หลีกเลี่ยงอุปสรรค และโต้ตอบกับวัตถุ มันเหมือนกับ “เด็กอายุ 10 ขวบ” ที่สามารถกระทำการได้ด้วยตนเอง ขั้นตอนต่อไปคือการฝึกมันให้ทำการกระทำที่เฉพาะเจาะจงภายใต้สภาพที่เฉพาะเจาะจง เช่น การติดตั้งแผงกระจกและแผ่นปิดผนึกบนเส้นการผลิตรถยนต์

ในตอนแรก ดูเหมือนว่างานจะง่ายกว่า มันเกี่ยวข้องกับการทำความเข้าใจสถานการณ์เดียว และปริมาณข้อมูลที่ต้องการจะน้อยกว่าในการฝึกอบรมก่อนหน้านี้ ในขณะที่การฝึกอบรมพื้นฐานอาจต้องใช้เวลาสิบพันชั่วโมง การฝึกอบรมหลังการฝึกอบรมอาจต้องใช้เวลาเพียงพันชั่วโมง แต่ตัวเลขเหล่านี้ทำให้เข้าใจผิด

เมื่อแปลงเป็นเวลาจริง กระบวนการจะแสดงความซับซ้อนที่แท้จริงของมัน ภายใต้กำหนดการทำงานมาตรฐาน บุคคลหนึ่งทำงานประมาณ 160 ชั่วโมงต่อเดือน แต่นี่ไม่ได้หมายความว่าทุกชั่วโมงสามารถใช้สำหรับการบันทึกได้

ในทางปฏิบัติ การหยุดชะงักจะเกิดขึ้นอย่างต่อเนื่อง: แบตเตอรี่หมด กล้องถ่ายรูปเปลี่ยน位置 อุปกรณ์ตรวจจับล้มเหลว ความซับซ้อนของการตั้งค่าอุปกรณ์จะส่งผลต่อความน่าจะเป็นของปัญหา แม้แต่ความล้มเหลวอย่างง่ายๆ เช่น อุปกรณ์ตรวจจับบนถุงมือที่หยุดทำงานสามารถหยุดกระบวนการและทำให้สูญเสียเวลา

ดังนั้น ความเร็วในการรวบรวมข้อมูลที่แท้จริงจึงช้าลง 2-3 เท่า ชั่วโมงการบันทึกคุณภาพสูงอาจต้องใช้เวลาทำงานจริง 3 ชั่วโมง ซึ่งเปลี่ยนแปลงการคำนวณ: 5,000 ชั่วโมงของข้อมูลจะเท่ากับประมาณ 15,000 ชั่วโมงในการทำงาน

ชั้นความซับซ้อนบนชั้นความซับซ้อน

ในช่วงการฝึกอบรมก่อนหน้านี้ อาจเพียงพอแล้วที่จะให้กล้องถ่ายรูปแก่บุคคลและขอให้บันทึกกิจกรรมประจำวัน แต่ในขั้นตอนนี้ การเข้าถึงสภาพแวดล้อมที่เฉพาะเจาะจง เช่น โรงงาน สถานก่อสร้าง หรือโรงงานผลิตที่มีเอกลักษณ์เฉพาะตัว

สิ่งนี้ทำให้เกิดข้อจำกัดเชิงปฏิบัติในทันที ตัวอย่างเช่น ในสถานที่ก่อสร้าง ผู้ปฏิบัติงานต้องสวมหมวกนิรภัย ซึ่งหมายความว่าต้องมีการพัฒนาอุปกรณ์เฉพาะ: หมวกนิรภัยที่มีกล้องถ่ายรูปในตัวที่ทนต่อฝุ่น ความชื้น และการกระแทก

จากนั้นจึงมีการเข้าถึงสถานที่ดังกล่าว ซึ่งต้องมีการตกลงร่วมกับเจ้าของสถานที่ การอนุญาต และการเจรจาเงื่อนไข ซึ่งเกี่ยวข้องกับค่าใช้จ่ายเพิ่มเติมเกือบทุกครั้ง: บริษัทต่างๆ คาดหวังการชดเชย และผู้ปฏิบัติงานคาดหวังให้ได้รับค่าจ้างสำหรับการมีส่วนร่วม

การประกันภัยและความปลอดภัยยังเป็นข้อกังวลที่สำคัญ หากอุปกรณ์ไม่ตรงตามมาตรฐานที่กำหนด การประกันภัยอาจถูกยกเลิก ทำให้กระบวนการทั้งหมดต้องถูกRestructure

แม้ในระดับการดำเนินงานประจำวัน ปัญหายังคงอยู่ กล้องถ่ายรูปต้องถูกเปิดใช้งาน ตรวจสอบ และบำรุงรักษา ผู้ปฏิบัติงานจะทำงานในสภาพแวดล้อมที่ยากลำบาก อุปกรณ์จะเสื่อมสภาพและชำรุด กล้องถ่ายรูปอาจปิดหลังจากไม่กี่นาที และบุคคลอาจไม่สังเกตเห็น

สิ่งนี้ทำให้เกิดความจำเป็นในการฝึกอบรมผู้เข้าร่วม – พวกเขาต้องเข้าใจวิธีการใช้อุปกรณ์ นอกจากนี้ยังต้องมีการดูแลอย่างต่อเนื่อง – ควรจะมีใครบางคนตรวจสอบให้แน่ใจว่าการบันทึกกำลังดำเนินอยู่ และอุปกรณ์ทำงานได้อย่างถูกต้อง

จากวิดีโอดิบเป็นข้อมูลฝึกอบรม

หลังจากการบันทึก กระบวนการถัดไปจะเริ่มต้น: การรวบรวมข้อมูล การอัปโหลด การจัดระเบียบ การตรวจสอบคุณภาพ และการทำเครื่องหมาย

ข้อมูลดิบใดๆ ประกอบด้วยสัญญาณวิดีโอและเซ็นเซอร์ เพื่อแปลงมันเป็นข้อมูลฝึกอบรม จะต้องมีการจัดระเบียบ: วัตถุจะต้องถูกระบุ การกระทำจะต้องถูกจับภาพ และสถานะ การเคลื่อนไหว และการโต้ตอบกับสภาพแวดล้อมจะต้องถูกอธิบาย สิ่งนี้คือที่ที่การทำเครื่องหมายมีบทบาท

ในบางกรณี กล่องขอบเขตที่ง่ายๆ ก็เพียงพอแล้วที่จะระบุวัตถุในเฟรม ในกรณีอื่นๆ การทำเครื่องหมายตามเวลาเป็น必要เพื่ออธิบายลำดับการกระทำตามเวลา ในบางสถานการณ์ จุดสำคัญและแบบจำลองกระดูกจะถูกใช้เพื่อจับภาพการเคลื่อนไหวของร่างกาย ในกรณีที่ซับซ้อนมากขึ้น เมช 3 มิติหรือการตรวจสอบท่าทางมือจะถูกต้องการเพื่ออธิบายกลไกการโต้ตอบอย่างถูกต้อง เซ็นเซอร์เสริม เช่น ตรวจจับการเร่งความเร็ว จะถูกบูรณาการเข้ากับระบบเพื่อจับภาพพลวัตการเคลื่อนไหวและแรงที่ใช้

โครงการเหล่านี้มักต้องการการขยายทีม การทำเครื่องหมายเป็นงานที่ซับซ้อนและต้องการเวลา ความเชี่ยวชาญ และทรัพยากรมนุษย์อย่างมาก นี่คือที่ที่ผู้ให้บริการข้อมูลที่มีทีมทำเครื่องหมายในองค์กรเข้ามาเกี่ยวข้อง เช่น Keymakr ซึ่งได้พิสูจน์แล้วว่ามีประสิทธิภาพสูงเนื่องจากความสามารถในการขยายทีมให้ตรงกับปริมาณข้อมูลใดๆ ตั้งแต่ผู้เชี่ยวชาญคนเดียวไปจนถึงหลายร้อยคน

ยังไม่มีวิธีการฝึกอบรมที่ถูกต้อง

อุตสาหกรรมยังคงอยู่ในขั้นการสำรวจ เนื่องจากยังไม่มีข้อตกลงเกี่ยวกับว่าข้อมูลใดที่ให้ผลลัพธ์ที่ดีที่สุด วิธีการต่างๆ ได้รับการยืนยันเชิงประจักษ์เพราะมันทำงานใน实验์เฉพาะ นี่ทำให้ทีมต่างๆ ยังคงพึ่งพาเทคโนโลยีที่แตกต่างกัน ซึ่งถูกกำหนดโดยประสบการณ์ งาน และข้อจำกัดของตนเอง

ทั้งในระดับวิชาการและประยุกต์ นำไปสู่การกระจาย: ห้องปฏิบัติการและบริษัทต่างๆ กำลังเคลื่อนที่ไปในทิศทางที่แตกต่างกัน สถานการณ์นี้ทำให้นึกถึงช่วงแรกๆ ของการขับขี่อัตโนมัติ เมื่อ Tesla พึ่งพาแนวทางที่มองเห็นโดยไม่มี LiDAR ในขณะที่ผู้เล่นส่วนใหญ่อื่นๆ เลือก LiDAR เป็นเซ็นเซอร์หลัก

ปัจจุบัน ระบบที่ใช้ LiDAR มีแนวโน้มที่จะแสดงผลการทำงานที่มั่นคงมากขึ้น แต่วิธีการของ Tesla ยังคงพัฒนา แต่ความแตกต่างคือในด้านการขับขี่อัตโนมัติ ตลาดได้เติบโตและยังคงสร้างความมั่นคง: สถาปัตยกรรมที่มั่นคงได้ปรากฏขึ้น ข้อจำกัดได้รับการทำความเข้าใจ และความเชี่ยวชาญที่สำคัญได้ถูกสะสม

ในทางตรงกันข้าม สำหรับ Physical AI และการฝึกอบรมแบบจำลองที่คล้ายกัน ระดับความเป็นมืออาชีพนี้ยังไม่ได้รับการบรรลุ ตลาดยังคงกำลังสร้างขึ้น มาตรฐานยังคงไม่มี และความก้าวหน้าจำนวนมากถูกขับเคลื่อนโดยการทดลอง วิธีการใหม่ๆ สำหรับการฝึกอบรมแบบจำลอง การปรับปรุงประสิทธิภาพ และการปรับตัวให้เข้ากับสถานการณ์จริงยังคงปรากฏตัวขึ้น ซึ่งบ่งชี้ว่าการพัฒนาที่สำคัญที่สุดในด้านนี้ยังคงอยู่ข้างหน้า

มนุษย์เป็นระบบการเสริมแรง

การทำเครื่องหมายไม่ได้ดำรงอยู่เพียงอย่างเดียว หรือสำหรับแบบจำลองเท่านั้น มันใช้เป็นเครื่องมือสำหรับวิศวกรที่สร้างแบบจำลองนั้น ผ่านมัน พวกเขากำหนดความเป็นจริง ระบุพารามิเตอร์หลัก และกำหนดกฎการทำงานของระบบ

งานของวิศวกรคือการฝึกให้ระบบกระทำการอย่างถูกต้องในสภาพแวดล้อมจริง ตัวอย่างเช่น สถานการณ์พื้นฐานอาจประกอบด้วยการกระทำสี่อย่าง: รับแก้ว เปิดน้ำ ใส่น้ำ และปิดน้ำ แต่ในความเป็นจริง การเบี่ยงเบนจะเกิดขึ้น – แก้วจะล้น

ในขณะนั้น แบบจำลองคาดหวังให้ทำเสร็จสิ้นสถานการณ์และดำเนินการเพิ่มเติม: หยุดการไหลของน้ำ ปรับระดับน้ำ และป้องกันการหก

วิศวกรทำตามวงจร: ทำเครื่องหมายข้อมูล ฝึกอบรมแบบจำลอง และทดสอบ หากระบบทำงานได้ สมมติฐานจะได้รับการยืนยัน หากไม่ การวิเคราะห์จะเริ่มต้นขึ้น

ในบางจุด อาจชัดเจนว่าแบบจำลองขาดพารามิเตอร์ที่สำคัญ เช่น ระดับการเติมแก้ว ก่อนหน้านี้ ข้อมูลอาจมีการทำเครื่องหมายสำหรับวัตถุ (แก้ว น้ำ ตัวเปิด-ปิด) และการกระทำ (เปิด ใส่ ปิด) แต่ไม่มีการทำเครื่องหมายสำหรับสถานะ เช่น ระดับการเติม

ชั้นใหม่จะถูกเพิ่มเข้าไปในกระบวนการ: การทำเครื่องหมายระดับการเติม ตามด้วยการกำหนดรูปแบบ เช่น การกำหนดสิ่งใดๆ ที่มากกว่า 85% เป็นสถานะวิกฤต

สิ่งนี้นำไปสู่การฝึกอบรมอีกครั้ง คุณสามารถมีการวนซ้ำหลายร้อยครั้ง

ไม่มีใครคาดหวังว่าระบบจะทำงานได้อย่างถูกต้องในทันที ในทางกลับกัน กระบวนการถูกสร้างขึ้นรอบๆ การประมาณค่าแบบต่อเนื่อง: ก่อนอื่น สร้างเวอร์ชันพื้นฐาน แล้วทดสอบในสถานการณ์จริงหรือใกล้เคียงกับสถานการณ์จริง ระบุช่องว่าง และปรับปรุงระบบ

สิ่งนี้คือสิ่งที่ฉันพูดคุยกับลูกค้าหลายครั้งที่ Introspector โดยที่เราจะเดินทางไปพร้อมกันตลอดการเดินทางของ Physical AI

เมื่อถึงจุดหนึ่ง ผลลัพธ์ที่ต้องการจะถูกบรรลุ แต่คุณค่าของมันไม่ได้อยู่เพียงในระบบที่เริ่มทำงานเท่านั้น แต่ยังอยู่ในประสบการณ์ที่สะสมซึ่งช่วยให้สามารถทำซ้ำผลลัพธ์ได้อย่างคาดการณ์ได้

เศรษฐศาสตร์ที่ทุกคนลืม

ในช่วงปีที่ผ่านมา ฉันสังเกตเห็นว่าข้อผิดพลาดที่ใหญ่ที่สุดของบริษัทต่างๆ เมื่อทำงานกับข้อมูล egocentric มีน้อยมากที่เกี่ยวข้องกับเทคโนโลยี

ปัญหาหลักคือการประเมินเศรษฐศาสตร์ของโครงการต่ำเกินไป

ในขั้นตอนความคิด เทคโนโลยีเป็นจุดสนใจ – แบบจำลองใดที่จะใช้ วิธีการฝึกอบรม และแนวทางใดที่จะใช้ คุณศึกษา วิจัย อภิปรายโครงสร้าง และทดสอบสมมติฐาน สิ่งนี้เป็นเรื่องธรรมดา: เทคโนโลยีดูเหมือนเป็นส่วนหนึ่งของปัญหาที่เป็นรูปธรรมและชัดเจนที่สุด

แต่ไม่ค่อยมีใครถามคำถามโดยตรงและเป็นรูปธรรมในขั้นตอนนี้: มันจะมีค่าใช้จ่ายเท่าใด?

เมื่อโครงการเปลี่ยนจากทฤษฎีไปสู่การนำไปใช้ จะชัดเจนว่าเบื้องหลังแบบจำลองทุกแบบมีหลายพันชั่วโมงของข้อมูล การรวบรวมข้อมูลนี้ต้องใช้เวลา การเข้าถึงสภาพแวดล้อมจริง และการมีส่วนร่วมของผู้เชี่ยวชาญ การทำเครื่องหมายเพิ่มอีกชั้นหนึ่งของความซับซ้อนและค่าใช้จ่าย

สิ่งนี้ไม่ได้หมายความว่าโครงการเหล่านี้ไม่ควรดำเนินการต่อ ในทางกลับกัน พวกมันคือสิ่งที่ขับเคลื่อนอุตสาหกรรมไปข้างหน้า

แต่สิ่งที่สำคัญคือการเข้าใจขนาดของความท้าทายตั้งแต่เริ่มต้น การตระหนักว่าการฝึกอบรมแบบจำลองมีงานข้อมูลที่ซับซ้อนและต้องการทรัพยากรอยู่เบื้องหลัง

แม้ความคิดที่แข็งแกร่งก็ล้มเหลวในการบรรลุการนำไปใช้อย่างเต็มที่เมื่อค่าใช้จ่ายของข้อมูลเริ่มสูงเกินกว่าหนึ่งล้านเหรียญสหรัฐฯ

และอาจเป็นการเปลี่ยนแปลงที่สำคัญที่สุดในด้านหุ่นยนต์ในปัจจุบันซึ่งเชื่อมโยงกับการตระหนักนี้ อนาคตของระบบเหล่านี้จะถูกกำหนดโดยความ “ฉลาด” ของพวกมัน และโดยความมีประสิทธิภาพและความแม่นยำของท่อข้อมูลทั้งหมดที่สร้างขึ้น – ตั้งแต่การรวบรวมข้อมูลจนถึงการวิเคราะห์สุดท้าย

Michael Abramov, ผู้ก่อตั้งและซีอีโอของ Introspector

ไมเคิล อับรามอฟ เป็นผู้ก่อตั้งและซีอีโอของ Introspector โดยนำประสบการณ์มากกว่า 15 ปีในด้านวิศวกรรมซอฟต์แวร์และระบบ AI วิสัยทัศน์คอมพิวเตอร์มาใช้ในการสร้างเครื่องมือระบุฉลากระดับองค์กร

ไมเคิลเริ่มอาชีพของเขาในฐานะวิศวกรซอฟต์แวร์และผู้จัดการ R&D โดยสร้างระบบข้อมูลที่มีการปรับขนาดและจัดการทีมวิศวกรรมแบบข้ามฟังก์ชันจนถึงปี 2025 เขาได้รับตำแหน่งซีอีโอของ Keymakr ซึ่งเป็นบริษัทให้บริการระบุฉลากข้อมูล โดยเขาเป็นผู้บุกเบิกการทำงานแบบ human-in-the-loop ระบบ QA ที่ซับซ้อน และเครื่องมือแบบกำหนดเองเพื่อสนับสนุนความต้องการข้อมูลวิสัยทัศน์คอมพิวเตอร์และความเป็นอิสระในระดับใหญ่

เขามีปริญญาตรีสาขาวิทยาศาสตร์คอมพิวเตอร์และมีพื้นฐานมาจากวิศวกรรมและศิลปะสร้างสรรค์ โดยนำมุมมองแบบ đa สาขา มาใช้ในการแก้ปัญหาที่ยาก ไมเคิลอาศัยอยู่ที่จุดตัดระหว่างนวัตกรรมเทคโนโลยี การนำผลิตภัณฑ์เชิงกลยุทธ์ และผลกระทบในโลกแห่งความเป็นจริง โดยผลักดันให้ระบบอัตโนมัติและระบบอัตโนมัติแบบฉลาดไปสู่ขอบเขตใหม่

Unite.AI