Pemimpin pemikiran
Di Balik Perlombaan Robotika Baru: Data, Model, dan Manufaktur

Inovasi jarang muncul dalam isolasi. Lebih sering, inovasi lahir dari percakapan di antara insinyur, pendiri, peneliti, dan investor yang berusaha memahami ke mana teknologi akan menuju.
Selama setahun, saya menghadiri puluhan konferensi di seluruh dunia. Perjalanan bisnis terkadang berlangsung selama berbulan-bulan, dan pertemuan dengan mitra dan klien berlangsung dari Asia hingga Amerika Utara. Namun, salah satu perjalanan saya ke Swiss terbukti sangat menarik – terutama karena orang-orang dan percakapan yang terjadi di sana.
Zurich terbukti menjadi salah satu tempat di mana masa depan robotika dan Physical AI secara aktif dibahas hari ini. Dan semakin dalam percakapan tersebut, semakin jelas bahwa perlombaan sebenarnya di robotika sedang berlangsung di sekitar data.
Lembah Silikon Eropa
Zurich secara tradisional dikaitkan dengan sektor keuangan, tetapi dalam beberapa tahun terakhir, kota ini semakin disebut sebagai Lembah Silikon Eropa. Sebagian besar reputasi ini terkait dengan ETH Zurich, salah satu universitas teknik paling dihormati di Eropa. Universitas ini menarik peneliti, mahasiswa PhD, wirausaha, dan insinyur dari seluruh dunia. Sebagai hasilnya, sebuah ekosistem teknologi yang kuat terbentuk di sekitar universitas, di mana penelitian, startup, dan proyek industri berkembang hampir secara bersamaan.
Salah satu alasan saya melakukan perjalanan ini adalah untuk memahami lebih dalam apa yang dapat ditawarkan Introspector kepada pasar robotika, yang telah booming sejak awal 2025. Ini adalah industri yang banyak startup coba masuki, sementara terobosan teknologi dari perusahaan teknologi besar secara aktif mengubahnya. Namun, meskipun semua momentum ini, bidang ini masih menimbulkan lebih banyak pertanyaan daripada jawaban.
Zurich juga merupakan rumah bagi mitra kami Lightly, yang membantu memperkenalkan saya kepada rekan-rekan yang bekerja di persimpangan robotika, penglihatan komputer, dan AI. Ada satu aspek penting dari ekosistem teknologi lokal yang ingin saya soroti: orang-orang di sini sangat terbuka dan ramah. Mereka tidak takut untuk berbagi ide dan hipotesis, membicarakan tantangan yang mereka coba selesaikan, dan eksperimen yang mereka jalankan. Sebagai hasilnya, Anda mulai memahami konteks pasar yang sebenarnya dan ke mana industri tersebut menuju dengan lebih cepat.
Saya ingin menambahkan bahwa ketika orang bertanya kepada saya bagaimana “Lembah Silikon” Eropa berbeda dari yang di Amerika, jawabannya sering kali mengejutkan mereka. Di Zurich, keseimbangan antara pekerjaan dan kehidupan terasa lebih kuat: olahraga di pagi hari, pekerjaan yang fokus sepanjang hari dengan irama yang tenang dan produktif, dan malam yang dihabiskan di pegunungan dengan keluarga atau hanya bersantai. Di San Francisco, sering kali ada perasaan bahwa Anda harus terus membuktikan bahwa Anda bekerja lebih keras daripada orang lain. Di Zurich, ritmenya berbeda – lebih berkelanjutan. Namun, tingkat ambisi teknologi di sini tidak lebih rendah.
Data yang Lebih Baik Sebelum Robot yang Lebih Baik
Salah satu kesimpulan utama dari perjalanan ini adalah pengamatan yang cukup sederhana: banyak orang hari ini ingin bekerja di bidang robotika. Namun, meskipun minat besar dalam industri ini, banyak tim masih dalam fase eksplorasi, mencoba memahami peran apa yang dapat mereka mainkan dalam gelombang baru robotika dan Physical AI, dan apa kontribusi yang dapat mereka berikan.
Banyak percakapan akhirnya berkumpul pada topik yang sama: data. Hari ini, industri kekurangan data pada tugas dexterity, yaitu keterampilan motorik halus. Dalam area ini, kemampuan robot masih sangat terbatas. Apa yang manusia lakukan dengan tangan mereka hampir secara otomatis – mengambil objek, memutarnya, meletakkannya dengan hati-hati, atau melakukan manipulasi kecil – masih merupakan salah satu tugas paling menantang bagi robot.
Kunci kemajuan di sini terletak terutama pada dataset besar yang dikumpulkan dengan benar. Hari ini, orang-orang sering membicarakan tentang dataset egosentris, yang direkam dari perspektif orang pertama, di mana sistem menangkap tindakan manusia seolah-olah mereka sendiri yang melakukannya. Namun, dalam prakteknya, ternyata konsep “dataset egosentris” dapat memiliki makna yang sangat berbeda dan menimbulkan sejumlah pertanyaan teknis. Di mana kamera harus ditempatkan? Di dahi, di dada, atau mungkin pada tingkat mata? Sensor apa yang harus menyertainya? Jika kita merekam gerakan tangan, apakah operator harus menggunakan sarung tangan khusus? Dan jika ya, apakah sarung tangan tersebut harus dilengkapi dengan sensor taktil, giroskop, atau sistem pelacakan gerak lainnya?
Pertanyaan yang lebih kompleks muncul: bagaimana cara merekam kedalaman gerakan dengan benar. Setelah semua, penting untuk memahami tidak hanya posisi tangan dalam bidang dua dimensi, tetapi juga bagaimana tangan bergerak melalui ruang tiga dimensi – ke depan, ke belakang, ke atas, atau ke bawah.
Sampai sekarang, industri belum mencapai jawaban yang seragam. Itulah mengapa banyak tim hari ini bereksperimen dengan konfigurasi sensor yang berbeda, metode perekaman, dan format dataset.
Sistem Multimodal
Segera setelah percakapan berubah ke pengumpulan data untuk robotika, topik lain dengan cepat muncul – sensor tambahan dan multimodalitas, yang memungkinkan penangkapan gerakan tubuh, tindakan tangan, dan interaksi objek dengan presisi yang lebih tinggi. Mereka juga membantu mengurangi kesalahan selama pengumpulan dataset.
Ketika seseorang merekam tindakan mereka pada kamera, selalu ada risiko bahwa sebagian materi tersebut tidak dapat digunakan. Kamera mungkin bergeser sedikit, sudut pengambilan gambar mungkin salah, operator mungkin secara tidak sengaja berbalik ke arah yang salah, atau operator mungkin melakukan gerakan terlalu cepat. Sebagai hasilnya, sebagian besar materi yang direkam dibuang. Contoh sederhana: untuk mendapatkan satu jam video yang benar-benar dapat digunakan, operator sering perlu merekam sekitar dua jam bahan mentah.
Sensor tambahan membantu mengkompensasi beberapa masalah ini. Bahkan jika kamera bergeser sedikit, data sensor masih memungkinkan untuk merekonstruksi gerakan tangan atau posisi tubuh di ruang. Sebagai hasilnya, bukan dua jam perekaman, mungkin hanya membutuhkan sekitar satu jam dan dua puluh menit untuk mendapatkan jumlah data yang dapat digunakan yang sama. Ini secara signifikan meningkatkan efisiensi pengumpulan dataset dan mengurangi biaya pembuatan dataset.
Itulah mengapa tidak mengherankan bahwa banyak tim juga memperhatikan minat yang meningkat dalam anotasi data multimodal. Ini telah menjadi salah satu tren yang lebih terlihat secara langsung terkait dengan pengembangan robotika dan AI yang memiliki tubuh.
Poin berikutnya adalah pelabelan dataset tersebut. Kami telah menemukan pertanyaan serupa di Keymakr ketika bekerja dengan dataset klien untuk kasus robotika: seperti apa label tersebut seharusnya dalam prakteknya? Apakah harus bersifat skeletal? Dua dimensi atau tiga dimensi? Apakah harus mengincorporasi elemen pembelajaran penguatan ke dalam pipa? Ada puluhan pertanyaan seperti itu. Insinyur sendiri mengakui bahwa tidak ada yang dapat mengatakan dengan pasti konfigurasi data mana yang akhirnya akan mengarah pada terobosan teknologi yang sebenarnya.
Kekhawatiran ini dapat dipahami. Membangun dataset yang kompleks adalah proses yang mahal. Setiap kesalahan dalam struktur data dapat menghabiskan biaya ribuan atau bahkan jutaan dolar. Mungkin untuk mengumpulkan “dataset yang salah” atau merekamnya di bawah kondisi yang sulit direproduksi di dunia nyata, pada akhirnya melemahkan seluruh proyek. Itulah mengapa hari ini, perhatian yang lebih besar diberikan pada model itu sendiri dan kualitas serta arsitektur data yang digunakan untuk melatih model tersebut.
Jenis Robot Apa yang Dibutuhkan Pasar?
Robot industri klasik, yang telah beroperasi di jalur perakitan otomotif selama dekade, sebenarnya memerlukan sangat sedikit penglihatan komputer atau model AI yang kompleks. Tugas mereka sangat spesifik: melakukan gerakan yang sangat berulang – kiri, kanan, atas, bawah – dengan presisi dan konsistensi yang tinggi. Dalam area ini, mereka telah lama melampaui kemampuan manusia.
Kategori yang sama sekali berbeda adalah robot humanoid. Sistem ini memerlukan “otak”: kemampuan untuk menavigasi ruang, memahami lingkungan sekitar, memahami konteks situasi, dan mengontrol manipulator tidak melalui trajektori yang diprogram sebelumnya, tetapi dengan menyesuaikan diri dengan dunia nyata.
Meskipun dengan tingkat otomatisasi yang tinggi di lantai pabrik modern, banyak tugas masih dilakukan oleh manusia. Menggerakkan objek, mengambil kotak, mengatur bagian, memasang komponen, atau mengatur bahan – ini adalah tindakan kecil yang memerlukan fleksibilitas dan koordinasi. Area ini masih merupakan salah satu yang paling sulit untuk diotomatisasi, dan itulah di mana sistem humanoid mungkin menemukan peran mereka.
Banyak tim yang saya bicarakan menggunakan model bisnis yang serupa. Mereka mendatangi pabrik dan mengusulkan untuk menyelesaikan kasus produksi tertentu. Misalnya, seorang pekerja mungkin menghabiskan seluruh hari untuk memindahkan kotak antara zona gudang. Insinyur menyarankan eksperimen yang relatif sederhana: melengkapi pekerja dengan kamera dan set sensor, merekam ribuan jam tindakan mereka, dan menggunakan data ini untuk melatih model yang akan mengontrol robot humanoid. Dengan cara ini, robot belajar melakukan tugas yang sama dengan yang dilakukan oleh pekerja manusia.
Pada dasarnya, perusahaan membeli platform humanoid, sedangkan tim pengembangan membangun model kustom yang meniru perilaku operator tertentu. Ini bukanlah kecerdasan universal yang dapat menyelesaikan tugas apa pun. Melainkan, ini adalah sekumpulan keterampilan yang dilatih untuk skenario atau sekumpulan tugas produksi tertentu. Bagi banyak insinyur hari ini, pendekatan ini tampaknya lebih realistis. Alih-alih mencoba membuat robot universal seketika, tim fokus pada skenario otomatisasi yang sempit tetapi secara ekonomi layak.
Dimensi Bisnis
Jika masa depan terletak pada model kustom, penting untuk memahami bahwa dari perspektif ekonomi, ini adalah jalur pengembangan yang cukup panjang.
Setiap industri pada dasarnya adalah dunianya sendiri. Setiap lingkungan produksi memiliki proses, alur kerja, dan pengecualian yang unik. Robot yang dilatih untuk beroperasi di pabrik otomotif tidak dapat langsung dipindahkan ke manufaktur makanan atau logistik gudang. Di setiap kasus, sistem harus dilatih ulang dari awal.
Ini membawa kita ke pertanyaan logis berikutnya: siapa yang akan menjadi pelanggan pertama teknologi ini?
Pada tahap ini, pengadopsi utama kemungkinan besar adalah perusahaan besar – mereka yang memiliki anggaran dan bagi siapa otomatisasi dapat menghasilkan dampak ekonomi yang signifikan. Hari ini, robot humanoid berharga sekitar $60.000-$90.000 untuk perangkat keras saja. Ini hanya konfigurasi dasar. Di atas itu, ada biaya pemeliharaan, baterai, stasiun pengisian, infrastruktur, dan perangkat lunak.
Sebagai hasilnya, perusahaan yang paling mampu bereksperimen dengan sistem tersebut adalah organisasi besar, produsen otomotif, perusahaan makanan, dan perusahaan industri besar.
Tentu saja, sektor yang lebih kecil mungkin juga melihat beberapa pelanggan awal. Beberapa perusahaan mungkin membeli satu atau dua robot untuk tugas tertentu. Namun, dalam kebanyakan kasus, bisnis ini tidak siap untuk berinvestasi ratusan ribu euro dalam mengumpulkan dan menganotasi dataset kustom yang diperlukan untuk melatih sistem untuk skenario operasional yang sangat spesifik. Bagi mereka, tenaga kerja manusia masih merupakan pilihan yang lebih murah.
Permainan Panjang Inovasi Robotika
Kami akhirnya tiba pada pertanyaan ekonomi yang mendasar: apa yang lebih efisien – manusia atau robot? Jika kita melihat ekonomi hari ini, jawabannya jelas: tenaga kerja manusia lebih murah, beradaptasi lebih cepat dengan kondisi baru, dan tidak memerlukan infrastruktur yang kompleks.
Jadi, mengapa industri terus berinvestasi dalam robotika hari ini? Jawabannya sebagian besar strategis.
Banyak perusahaan memahami bahwa semacam perlombaan untuk kepemimpinan teknologi sedang berlangsung. Mereka sudah mengembangkan solusi, meskipun biayanya tinggi, untuk memimpin ketika ekonomi robotika bergeser.
Ketika elektronik berkembang, biaya komponen menurun, dan efisiensi komputasi meningkat, robotika pasti akan menjadi lebih terjangkau. Dan ketika itu terjadi, keuntungan akan menjadi milik perusahaan yang telah membangun model, mengumpulkan data, dan membangun infrastruktur teknologi yang diperlukan.
Bayangkan, misalnya, bahwa peraturan baru muncul yang memungkinkan penggunaan besar-besaran robot humanoid di manufaktur. Atau bahwa pemerintah mulai mensubsidi robotisasi industri. Dalam skenario seperti itu, pasar bisa tumbuh secara dramatis dalam waktu hanya beberapa tahun. Dan mereka yang telah mempersiapkan diri sebelumnya, mereka yang memiliki model, penelitian, dataset, dan tumpukan teknologi yang siap, akan menjadi yang paling diuntungkan.
Itulah mengapa pengembangan terus berlanjut, bahkan sekarang, meskipun ekonomi bisnis mungkin tidak terlihat ideal. Bagi banyak perusahaan, ini adalah investasi di masa depan – di saat teknologi menjadi lebih mudah diakses, dan permintaan meningkat secara tajam.
Dan dalam perlombaan ini, seperti dalam banyak revolusi teknologi, satu faktor sering terbukti menentukan: siapa yang memulai lebih awal. Dalam hal ini, robotika hari ini sangat mirip dengan tahap awal kecerdasan buatan. Saat itu, juga ada lebih banyak pertanyaan daripada jawaban. Namun, tim yang mulai bekerja dengan data dan infrastruktur lebih awal dari yang lain akhirnya membentuk arah industri secara keseluruhan.












