Pemimpin pemikiran
Biaya Sebenarnya dari Pelatihan Robot

Dalam bagian pertama, kita membahas bagaimana robot berkembang dari mekanika dasar ke pemahaman lingkungan mereka. Pada tahap “mil terakhir” – ketika robot menjalani pelatihan pascapengetahuan untuk tugas khusus dan kustom – sebuah hambatan tak terduga muncul. Ini terkait dengan data: pengumpulannya, organisasinya, dan penskalaannya dalam kondisi dunia nyata.
Tepat pada tahap ini bahwa kesenjangan antara konsep dan implementasi menjadi paling jelas. Apa saja bottleneck kunci, dan bagaimana mereka dapat diatasi dengan gesekan minimal?
Mengapa ribuan jam data berubah menjadi tahun kerja
Jadi, mari kita bayangkan kita sudah memiliki robot yang terlatih yang telah menjalani prapelatihan. Ia dapat menavigasi sekitarnya, bergerak, menghindari hambatan, dan berinteraksi dengan objek. Ini seperti “anak berusia sepuluh tahun” yang umumnya mampu bertindak secara mandiri. Langkah selanjutnya adalah mengajarinya untuk melakukan tindakan spesifik di bawah kondisi spesifik, misalnya, memasang panel kaca dan strip penyegel pada lini produksi otomotif.
Pada pandangan pertama, tugas ini tampak lebih sederhana. Ini melibatkan menguasai satu skenario, dan volume data yang diperlukan jauh lebih kecil daripada selama prapelatihan. Sementara pelatihan dasar mungkin memerlukan ratusan ribu jam, pelatihan pascapengetahuan mungkin hanya membutuhkan ribuan jam. Namun, angka-angka ini menyesatkan.
Ketika diterjemahkan ke dalam waktu nyata, proses ini mengungkapkan kompleksitas sebenarnya. Di bawah jadwal kerja standar, seseorang bekerja sekitar 160 jam per bulan. Namun, ini tidak berarti semua waktu itu dapat digunakan untuk merekam.
Dalam prakteknya, gangguan konstan terjadi: baterai habis, kamera bergeser, sensor gagal. Semakin kompleks pengaturan peralatan, semakin tinggi kemungkinan masalah. Bahkan kegagalan sederhana seperti sensor pada sarung tangan berhenti berfungsi dapat menghentikan proses dan menghasilkan waktu yang hilang.
Sebagai hasilnya, kecepatan pengumpulan data yang sebenarnya 2-3 kali lebih rendah. Satu jam perekaman berkualitas tinggi dapat memerlukan hingga tiga jam kerja nyata. Ini secara radikal mengubah perhitungan: 5.000 jam data diterjemahkan menjadi sekitar 15.000 jam kerja.
Lapisan demi lapisan kompleksitas
Selama prapelatihan, mungkin cukup untuk memberi seseorang kamera dan meminta mereka merekam kegiatan sehari-hari. Pada tahap ini, bagaimanapun, akses ke lingkungan spesifik diperlukan, seperti pabrik, situs konstruksi, atau fasilitas produksi khusus.
Ini segera memperkenalkan kendala praktis. Misalnya, di situs konstruksi, pekerja diharuskan mengenakan helm keselamatan, yang berarti peralatan khusus harus dikembangkan: helm dengan kamera terintegrasi yang tahan debu, kelembaban, dan dampak.
Kemudian datang akses ke situs itu sendiri. Perjanjian harus dibuat dengan pemilik situs, izin diperoleh, dan kondisi dinegosiasikan. Ini hampir selalu melibatkan biaya tambahan: perusahaan mengharapkan kompensasi, dan pekerja mengharapkan dibayar untuk partisipasi.
Asuransi dan kepatuhan keselamatan juga menjadi perhatian kritis. Jika peralatan tidak memenuhi standar yang diperlukan, asuransi mungkin dibatalkan, memaksa proses keseluruhan untuk direstrukturisasi.
Bahkan pada tingkat operasional sehari-hari, tantangan berlanjut. Kamera harus dihidupkan, dipantau, dan dipelihara. Pekerja beroperasi dengan sarung tangan dan kondisi yang keras. Peralatan menjadi kotor, aus, dan rusak. Kamera mungkin mati setelah beberapa menit, dan orang mungkin tidak menyadari.
Ini menciptakan kebutuhan bagi peserta untuk melatih diri mereka sendiri – mereka harus memahami cara menggunakan peralatan. Selain itu, pengawasan terus-menerus diperlukan – seseorang harus memastikan bahwa perekaman sedang berlangsung dan perangkat berfungsi dengan baik.
Dari video mentah ke data pelatihan
Setelah perekaman, tahap berikutnya dimulai: pengumpulan data, mengunggah, mengatur, memvalidasi kualitasnya, dan melabelinya.
Data mentah apa pun terdiri dari video dan sinyal sensor. Untuk mengubahnya menjadi bahan pelatihan, harus diatur: objek perlu diidentifikasi, tindakan ditangkap, dan keadaan, gerakan, dan interaksi dengan lingkungan dijelaskan. Ini adalah tempat annotasi masuk.
Pertanyaan logis muncul – apa standar emas untuk alur kerja annotasi seperti itu?
Dalam beberapa kasus, kotak pembatas sederhana cukup untuk mengidentifikasi objek dalam bingkai. Dalam kasus lain, anotasi temporal diperlukan untuk menjelaskan urutan tindakan selama waktu. Dalam skenario tertentu, kunci dan model kerangka digunakan untuk menangkap gerakan tubuh. Dalam kasus yang lebih kompleks, mesh 3D atau pelacakan pose tangan diperlukan untuk merepresentasikan mekanika interaksi dengan akurat. Sensor tambahan, seperti akselerometer, sering diintegrasikan untuk menangkap dinamika gerakan dan gaya yang diterapkan.
Proyek seperti ini juga sering memerlukan penskalaan tim. Pelabelan adalah tugas besar dan kompleks, yang memerlukan waktu, keahlian, dan sumber daya manusia yang substansial. Ini adalah tempat penyedia solusi data dengan tim annotasi internal masuk, seperti Keymakr, yang telah terbukti sangat efektif berkat kemampuan mereka untuk menskalakan tim untuk mencocokkan volume data apa pun, dari satu spesialis hingga ratusan annotator.
Tidak ada pendekatan yang benar untuk pelatihan
Industri masih dalam fase eksplorasi, karena tidak ada kesepakatan tentang kombinasi data mana yang menghasilkan hasil terbaik. Banyak pendekatan divalidasi secara empiris karena mereka bekerja dalam eksperimen tertentu. Sebagai hasilnya, tim yang berbeda terus mengandalkan teknologi yang berbeda, yang dibentuk oleh pengalaman, tugas, dan kendala mereka.
Pada tingkat akademis dan terapan, ini menyebabkan fragmentasi: laboratorium dan perusahaan bergerak dalam arah yang berbeda. Situasi ini mengingatkan pada hari-hari awal mengemudi otonom ketika Tesla bertaruh pada pendekatan berbasis visi tanpa LiDAR, sementara sebagian besar pemain lain memilih LiDAR sebagai sensor inti.
Hari ini, sistem berbasis LiDAR cenderung menunjukkan kinerja yang lebih stabil, namun pendekatan Tesla terus berkembang. Perbedaannya adalah bahwa dalam mengemudi otonom, pasar telah sebagian besar matang: arsitektur yang stabil telah muncul, keterbatasan dipahami dengan baik, dan pengetahuan yang signifikan telah dikumpulkan.
Dalam kontras, untuk Physical AI dan pelatihan model serupa, tingkat kematangan ini belum tercapai. Pasar masih terbentuk, standar tidak ada, dan banyak kemajuan didorong oleh eksperimen. Metode baru untuk melatih model, meningkatkan efisiensi, dan beradaptasi dengan skenario dunia nyata terus muncul, menunjukkan bahwa terobosan paling penting dalam bidang ini masih ada di depan.
Manusia sebagai sistem penguatan
Pelabelan tidak ada dalam isolasi, atau untuk model saja. Ini berfungsi sebagai alat untuk insinyur yang membangun model tersebut. Melalui itu, mereka memformalkan kenyataan, mengidentifikasi parameter kunci, dan mendefinisikan aturan perilaku sistem.
Tugas insinyur adalah mengajar sistem untuk melakukan tindakan dengan benar dalam kondisi dunia nyata. Misalnya, skenario dasar mungkin terdiri dari empat tindakan: mengambil gelas, menyalakan keran, mengisinya, dan menutup keran. Namun, dalam kenyataan, deviasi terjadi – gelas meluap.
Pada saat itu, model diharapkan untuk menyelesaikan skenario dan melakukan tindakan tambahan: menghentikan aliran air, menyesuaikan tingkat air, dan mencegah tumpahan. Ini adalah logika perilaku berdasarkan pemahaman kontekstual.
Insinyur mengikuti siklus: melabeli data, melatih model, mengujinya. Jika sistem bekerja, hipotesis dikonfirmasi. Jika tidak, analisis dimulai.
Pada suatu titik, mungkin menjadi jelas bahwa model tersebut kehilangan parameter penting, seperti tingkat pengisian gelas. Sebelumnya, data mungkin telah mencakup anotasi untuk objek (gelas, keran, pegangan) dan tindakan (membuka, mengisi, menutup), tetapi tidak ada anotasi untuk keadaan, seperti derajat kekosongan.
Lapisan baru kemudian ditambahkan ke proses: melabeli tingkat pengisian, diikuti dengan formalisasi, misalnya, mendefinisikan apa pun di atas 85% sebagai keadaan kritis.
Ini menyebabkan iterasi berikutnya dari pelatihan. Anda bisa memiliki ratusan iterasi seperti itu.
Tidak ada yang berasumsi bahwa sistem akan bekerja dengan benar segera. Sebaliknya, proses ini dibangun di sekitar aproksimasi berturut-turut: pertama, versi dasar dibuat; kemudian diuji dalam kondisi nyata atau hampir nyata; kesenjangan diidentifikasi; dan sistem diperbarui. Ini adalah sesuatu yang sering saya diskusikan dengan klien di Introspector, dengan siapa kita melalui seluruh perjalanan Physical AI bersama.
Pada titik tertentu, hasil yang diinginkan dicapai. Namun, nilainya tidak hanya terletak pada sistem yang mulai bekerja, tetapi pada pengalaman yang terkumpul yang memungkinkan hasil ini untuk direproduksi dengan lebih dapat diprediksi.
Ekonomi yang dilupakan semua orang
Selama setahun terakhir, saya telah menyadari bahwa kesalahan terbesar yang dilakukan perusahaan saat bekerja dengan data egosentrik memiliki sedikit hubungan dengan teknologi.
Masalah inti sebenarnya adalah dalam memperkirakan ekonomi proyek.
Pada tahap ide, teknologi menduduki posisi terdepan – apa model yang digunakan, bagaimana melatihnya, dan pendekatan apa yang diterapkan. Anda mempelajari, melakukan penelitian, mendiskusikan arsitektur, dan menguji hipotesis. Ini adalah hal yang alami: teknologi terasa seperti bagian paling nyata dan jelas dari masalah.
Namun, jauh lebih sedikit pada tahap ini tim bertanya pertanyaan langsung dan praktis: berapa biayanya?
Ketika proyek berpindah dari teori ke implementasi, menjadi jelas bahwa di balik setiap model ada puluhan ribu jam data. Mengumpulkan data ini memerlukan waktu, akses ke lingkungan nyata, dan keterlibatan spesialis. Pelabelan menambahkan lapisan kompleksitas dan biaya lain. Sebagai hasilnya, angka-angka akhir seringkali beberapa kali lipat lebih tinggi dari yang diharapkan.
Ini tidak berarti proyek seperti itu tidak boleh dikejar. Sebaliknya, mereka adalah yang mendorong industri maju.
Namun, yang penting adalah memahami skala tantangan dari awal. Mengakui bahwa dalam pelatihan model, di balik setiap algoritma yang luar biasa ada pekerjaan data yang kompleks dan intensif sumber daya.
Bahkan ide yang kuat gagal mencapai implementasi penuh ketika biaya data mulai meningkat jauh di atas tujuh digit.
Dan mungkin perubahan paling penting yang terjadi dalam robotika hari ini terkait dengan realisasi ini. Masa depan sistem ini akan ditentukan oleh seberapa “pintar” mereka dan seberapa efektif dan presisi seluruh pipa data dibangun – dari pengumpulan data hingga interpretasi akhir.












