Terhubung dengan kami

Pemimpin Pikiran

Fatamorgana AI Tiongkok: Bagaimana “Open Source” Menyembunyikan Hal yang Paling Penting

mm

Dengan pemain Big Tech seperti Google, Microsoft, dan Meta yang bersaing untuk mendominasi pasar AI, High Flyer, Baidu, Moonshot, dan Alibaba dari Tiongkok telah menjadi berita utama karena merilis Pencarian MendalamERNI 4.5Kimi K2, dan Qwen3 model bahasa besar, masing-masing, sebagai sumber terbuka. Pergeseran dari merilis model GenAI yang dilindungi dan berpemilik ini telah diterima sebagai tanda bahwa industri AI Tiongkok merangkul kekuatan sumber terbuka untuk mendemokratisasi pengembangan AI dan memacu inovasi.

Namun, seperti banyak pemain yang menggembar-gemborkan produk mereka sebagai sumber terbuka dan bahkan mencantumkannya dalam nama perusahaan mereka, High Flyer, Baidu, dan Moonshot belum benar-benar membagikan bagian penting seperti kumpulan data yang menjadi inti model mereka. Karena model-model besar ini berusaha menjadi komoditas yang diandalkan para pengembang, transparansi sumber terbuka sejati yang dapat diuji, diselidiki, dan diiterasi sangat penting untuk menciptakan teknologi yang tidak bias, etis, dan bermanfaat yang dapat kita percayai bersama. Semua model "sumber terbuka" ini sebenarnya "berbobot terbuka", yang berarti dapat diunduh dan digunakan, tetapi tidak dapat diperiksa secara signifikan tanpa data.

Seperti yang disukai pemain AS AI terbuka dan meta Meskipun tampaknya mulai menjauh dari sumber terbuka, undangan terbuka Baidu untuk memanfaatkan rangkaian model ERNIE 4.5 yang tersedia secara gratis memang dapat memacu inovasi dan kolaborasi dengan para pengembang yang ingin menciptakan aplikasi yang lebih kecil dan canggih. Di saat yang sama, perusahaan yang serupa dengan Google di Tiongkok ini telah memberikan keunggulan kompetitif dengan mendorong adopsi dan memperkuat modelnya di ekosistem AI yang sedang berkembang.

Hal serupa berlaku untuk DeepSeek, Kimi K2 berharga murah, dan Qwen3 terbaru—yang menawarkan benchmark yang menantang model tertutup seperti Claude Opus 4 dan GPT-4o-0327.

Para pemain AI ini telah memposisikan diri dengan baik dalam perlombaan untuk menjadi model komoditas pilihan dan pembaruan inovatif terbaru Qwen3 bahkan terinspirasi oleh masukan komunitas sumber terbuka.

Namun, seperti banyak orang yang menggembar-gemborkan model AI besar mereka sebagai sumber terbuka, komunitas AI Tiongkok sebenarnya tidak membagikan data atau bagian penting lainnya dari sistem AI mereka. Sebaliknya, mereka meminta para pengembang global untuk menaruh kepercayaan buta mereka pada model-model yang tidak dapat mereka pahami atau selidiki sepenuhnya.

Mempertaruhkan klaim masa depan dengan model AI komoditas sumber terbuka

Ketika iPhone muncul di pasaran pada tahun 2007, beberapa orang berasumsi Mac akan menguasai pasar smartphone dengan iOS, namun partisipasi sumber terbuka merupakan bagian penting bagi perusahaan rintisan, sekaligus memacu pertumbuhan kewirausahaan dan ekonomi di seluruh dunia—dan Android, perusahaan rintisan yang diakuisisi Google pada tahun 2005, mengikuti jalan ini menuju kemenangan.

Dengan merilis perangkat lunak sumber terbuka yang dapat dilihat, dimodifikasi, diadopsi, dan dibagikan, Android mengundang akademisi, pengembang, dan bahkan pesaing untuk berkolaborasi dalam pengembangan perangkat lunak. Hal ini mempercepat proses inovasi, mendemokratisasi persaingan, dan pada akhirnya, menurunkan harga. Android memasuki pasar setahun setelah iPhone pertama dan pada awal tahun ini, menguasai 71.88 persen pangsa pasar global, sementara iOS 27.65 persen.

Dalam revolusi teknologi yang seolah terjadi dalam semalam, ponsel pintar menjadi hal yang umum, dan meskipun perangkat lunak, perangkat keras, dan antarmuka pengguna terus berkembang, industri ini telah berkembang jauh melampaui upaya merevolusi cara kerja ponsel pintar. Dengan ponsel yang kini menjadi komoditas, inovasi yang ada saat ini terletak pada aplikasi yang berjalan di dalamnya, dan untuk menjadi pesaing, penyedia ponsel pintar harus mempertahankan ekosistem yang mengundang para pengembang.

Belum genap tiga tahun setelah peluncuran ChatGPT, industri AI berada di jurang yang sama. Setiap pemain di industri AI global berlomba-lomba menjadikan model mereka sebagai penerus Android atau bahkan iOS, dan dengan menggunakan sumber terbuka seperti DeepSeek, ERNIE 4.5, dan model Kimi K2, para inovator Tiongkok berupaya untuk menguasai ekosistem yang sedang berkembang.

Meskipun hal ini dapat menguntungkan mereka, namun hal ini tidak menumbuhkan transparansi sejati dari sumber terbuka yang penting tidak hanya untuk menghasilkan inovasi, tetapi juga menghasilkan inovasi yang dapat kita percaya.

Data adalah bagian yang hilang dalam sebagian besar AI sumber terbuka

Dengan model AI yang jauh lebih rumit untuk dibuat dan dibagikan daripada perangkat lunak tradisional, permintaan untuk AI sumber terbuka sepenuhnya bukanlah hal yang mudah. Alih-alih hanya kode sumber sederhana, sistem AI terdiri dari tujuh komponen—termasuk kode sumber, parameter model, kumpulan data, hiperparameter, kode sumber pelatihan, pembuatan angka acak, dan kerangka kerja perangkat lunak.

Setiap bagian harus bekerja sama agar sebuah model dapat memberikan hasil yang diinginkan, yang berarti pengembang membutuhkan visibilitas penuh untuk berbagi, memodifikasi, dan mengadopsi sistem serta memahami apa yang terjadi. Namun, dengan reproduktifitas sebagai fondasi metode ilmiah, industri AI memiliki kebiasaan penggunaan istilah sumber terbuka untuk merujuk pada rilis gratis atau berharga murah yang disediakan dengan akses ke beberapa bagian teka-teki.

Baidu, misalnya, menyediakan sepuluh model ERNIE 4.5 secara gratis. Selain berbagi model dan parameter, perusahaan juga membuka sumber ERNIEKit dan perangkat penyebaran FastDeploy. Perangkat-perangkat ini memungkinkan para pengembang untuk membangun aplikasi AI yang canggih dengan menyediakan kapabilitas kelas industri, alur kerja pelatihan dan inferensi yang hemat sumber daya, serta kompatibilitas multi-perangkat keras.

Dengan kata lain, Baidu telah menyediakan para pengembang dengan berbagai alat yang menarik yang memberdayakan mereka untuk melepaskan inovasi dengan lebih cepat, yang mereka harapkan pada gilirannya akan menarik mereka untuk memilih ERNIE 4.5 dibanding pesaingnya.

Namun, pengembang yang memanfaatkan ERNIE 4.5 diminta untuk memercayai model tersebut secara membabi buta, karena Baidu telah menyembunyikan banyak hal, termasuk kumpulan data yang menginformasikan dan mengajarkan modelnya.

Kekuatan model AI sumber terbuka yang transparan

Meskipun setiap bagian dari teka-teki AI sangat penting untuk membuat model berfungsi, 80 persen proyek AI gagal, dan data adalah inti masalahnyaKumpulan data yang tidak akurat, tidak lengkap, dan bias menyebabkan model tidak berperilaku sesuai prediksi atau sesuai harapan.

 baru-baru ini merilis video kecelakaan fatal Tesla Full-Self-Driving (FSD) 2023, misalnya, mengungkap skenario terburuk yang mungkin terjadi ketika dataset dan model tidak mencapai target. Saat Tesla Model Y melaju kencang menuju matahari terbenam yang cerah, sistem yang sebagian otomatis tidak dapat memahami atau bereaksi dengan tepat terhadap apa yang dilihat—atau tidak dilihat—oleh kameranya. Sementara mobil yang dikendarai manusia melambat dan menepi, kebingungan FSD mengakibatkan kematian seorang wanita.

Kegagalan yang fatal ini mencerminkan data visual yang tidak lengkap, serta kurangnya mekanisme keamanan yang memperhitungkan titik buta tersebut. Ketika pengembang tidak memiliki akses ke data mereka, mereka tidak dapat melihat bagaimana data tersebut berinteraksi dengan model, yang berarti mereka tidak dapat menemukan kesalahan tersebut dan melakukan iterasi untuk mencapai kinerja yang andal.

Yang lebih memprihatinkan, tanpa data yang mendukung model tersebut, mereka terpaksa memercayainya secara membabi buta.

Namun, ketika kumpulan data bersifat sumber terbuka, komunitas AI telah membuktikan bahwa mereka akan mampu mengatasi masalah-masalah yang mengganggu, seperti yang mereka lakukan dengan mengungkap lebih dari 1,000 URL berisi Materi Pelecehan Seksual Anak yang terverifikasi di LAION 5BDengan dataset yang digunakan untuk model pembangkitan teks ke gambar AI yang menjadi dasar dalam pembuatan aplikasi seperti Stable Diffusion dan Midjourney, industri AI akan sangat terdampak jika pengguna mulai memproduksi gambar fotorealistik ilegal. Namun, sifat terbuka dari dataset ini memungkinkan komunitas untuk mengungkap konten berbahaya dan mendorong perbaikan, kata Liaison B.

Selain itu, sebagian besar kumpulan data pertama tersebut memanfaatkan pengikisan web yang dilakukan oleh Common Crawl yang sangat besar, yang juga dimanfaatkan untuk model ChatGPT dan LLAMA. Bahkan ketika Perayap AI terus menimbulkan kekhawatiran tentang copywriting, privasi, dan pelabelan yang bias dan rasisNamun, para pengembang di komunitas AI sedang berupaya menemukan cara untuk membersihkan bagian-bagian dari kumpulan data sumber terbuka Common Crawl yang terus berkembang agar dapat digunakan dengan lebih aman.

Karena pengembang tidak hanya bertujuan membangun AI yang kuat, tetapi juga AI yang dapat dipercaya, baik pengguna maupun industri dilindungi oleh transparansi dan kolaborasi sumber terbuka yang sesungguhnya.

Merangkul jalur sumber terbuka

Dengan banyaknya orang yang masih waspada terhadap teknologi yang sedang berkembang pesat ini, perlombaan untuk menjadi iOS atau Android dari model komoditas AI yang besar sedang berlangsung—dan seiring komunitas AI global secara harfiah membangun apa yang akan menjadi standar untuk masa depan dan sistem AI sudah mengendarai mobil dan menawarkan penilaian medis, membangun kepercayaan dengan menciptakan AI yang tidak bias, andal, dan aman tidak pernah lebih penting dari sebelumnya.

Dengan komunitas AI Tiongkok yang berupaya memposisikan diri sebagai pelopor inovasi terbuka, jalan menuju AI yang aman hanya ditemukan dalam transparansi sumber terbuka sejati yang telah terbukti selama puluhan tahun inovasi perangkat lunak. Menerapkan istilah tersebut pada sistem yang tidak berbagi bagian penting seperti data tidak memungkinkan pengembang untuk menyelidiki, mereplikasi, dan melakukan iterasi. Meskipun daya tarik model yang tersedia seperti DeepSeek, ERNIE 4.5, Kimi K2, dan Qwen3 tidak dapat disangkal, pengembang yang memanfaatkannya menukar transparansi yang mendorong kolaborasi dan inovasi dengan kenyamanan.

Komunitas AI harus memilih: merangkul transparansi radikal melalui sumber terbuka yang asli, atau mengambil risiko membangun sistem penting masa depan di atas kotak hitam saat ini.

Dr. Jason Corso adalah salah satu pendiri dan Chief Science Officer di voxel51, dan seorang Profesor Robotika, Teknik Elektro & Ilmu Komputer di Universitas Michigan. Sebagai veteran di bidang visi komputer, Dr. Corso telah mendedikasikan lebih dari 20 tahun untuk penelitian akademis di bidang pemahaman video, robotika, dan ilmu data.