Terhubung dengan kami

Pemimpin Pikiran

Memikirkan Kembali Open Source di Era AI Generatif

mm

Model sumber terbuka – sebuah etos pengembangan perangkat lunak di mana kode sumbernya tersedia secara bebas untuk didistribusikan ulang atau dimodifikasi oleh publik – telah lama menjadi katalisator inovasi. Cita-cita ini lahir pada tahun 1983 ketika Richard Stallman, seorang pengembang perangkat lunak, merasa frustrasi dengan sifat kotak hitam dari printer sumber tertutupnya yang rusak.

Visinya memicu gerakan perangkat lunak bebas, membuka jalan bagi ekosistem sumber terbuka yang menggerakkan sebagian besar inovasi internet dan perangkat lunak saat ini.

Namun itu sudah lebih dari 40 tahun yang lalu.

Saat ini, AI Generatif, dengan tantangan teknis dan etikanya yang unik, sedang membentuk kembali makna “keterbukaan”, menuntut kita untuk meninjau kembali dan memikirkan kembali paradigma sumber terbuka – bukan untuk meninggalkannya, melainkan untuk mengadaptasinya.

AI dan Kebebasan Sumber Terbuka

Empat kebebasan mendasar dari perangkat lunak sumber terbuka – kemampuan untuk menjalankan, mempelajari, memodifikasi, dan mendistribusikan ulang kode perangkat lunak apa pun – bertentangan dengan sifat AI generatif dalam beberapa hal:

  • Menjalankan: Model AI seringkali membutuhkan infrastruktur dan biaya komputasi yang sangat tinggi, yang membatasi mengakses karena keterbatasan sumber daya.
  • Pelajari dan modifikasi: Model AI sangatlah kompleks, jadi memahami dan mengubahnya tanpa akses ke kode dan data yang menginformasikannya merupakan tantangan yang signifikan.
  • Redistribusi:Banyak model AI membatasi redistribusi berdasarkan desain, terutama yang memiliki bobot terlatih dan kumpulan data hak milik yang dimiliki oleh penyedia platform.

Erosi prinsip-prinsip inti ini bukan disebabkan oleh niat jahat, melainkan oleh kompleksitas dan biaya sistem AI modern. Memang, tuntutan finansial untuk melatih model AI mutakhir telah meningkat drastis dalam beberapa tahun terakhir – GPT-4 OpenAI dilaporkan menghabiskan biaya pelatihan sebesar hingga $ 78 juta, tidak termasuk gaji staf, dengan total pengeluaran melebihi $ 100 juta. A.

Kompleksitas AI “Open Source”

Model AI yang benar-benar terbuka membutuhkan transparansi penuh atas kode sumber inferensi, kode sumber pelatihan, bobot model, dan data pelatihan. Namun, banyak model yang diberi label "terbuka" hanya akan merilis kode inferensi atau bobot parsial, sementara yang lain menawarkan lisensi terbatas atau membatasi penggunaan komersial sepenuhnya.

Keterbukaan yang tidak memihak ini menciptakan ilusi prinsip sumber terbuka, namun gagal dalam praktik.

Pertimbangkan bahwa analisis oleh Open Source Initiative (OSI) menemukan bahwa beberapa model bahasa besar yang populer mengklaim sebagai sumber terbuka – termasuk Llama2 dan Llama 3.x (dikembangkan oleh Meta), Grok (X), Phi-2 (Microsoft), dan Mixtral (Mistral AI) – secara struktural tidak kompatibel dengan prinsip sumber terbuka.

Tantangan Keberlanjutan dan Insentif

Sebagian besar perangkat lunak sumber terbuka dibangun atas upaya sukarela atau hibah, alih-alih infrastruktur yang intensif komputasi dan berbiaya tinggi. Di sisi lain, model AI mahal untuk dilatih dan dipelihara, dan biayanya diperkirakan akan terus meningkat. CEO Anthropic, Dario Amodei, memperkirakan bahwa biayanya pada akhirnya bisa mencapai $ 100 miliar untuk melatih model mutakhir.

Tanpa model pendanaan berkelanjutan atau struktur insentif, pengembang menghadapi pilihan antara membatasi akses melalui lisensi sumber tertutup atau nonkomersial atau mengambil risiko keruntuhan finansial.

Kesalahpahaman Seputar “Open Weights” dan Lisensi

Aksesibilitas model AI semakin membingungkan, dengan banyak platform yang memasarkan diri sebagai "terbuka" namun menerapkan batasan yang secara fundamental bertentangan dengan prinsip-prinsip sumber terbuka yang sebenarnya. "Kecurangan" ini terwujud dalam berbagai cara:

  • Model yang diberi label “bobot terbuka” mungkin melarang penggunaan komersial sepenuhnya, dan lebih menjadikannya sebagai keingintahuan akademis daripada alat bisnis praktis yang dapat dijelajahi dan dikembangkan oleh masyarakat.
  • Beberapa penyedia menawarkan akses ke model yang telah dilatih sebelumnya tetapi sangat menjaga kumpulan data dan metodologi pelatihannya, sehingga mustahil untuk mereproduksi atau memverifikasi temuannya secara bermakna.
  • Banyak platform menerapkan pembatasan distribusi ulang yang mencegah pengembang membangun atau meningkatkan model untuk komunitas mereka, meskipun mereka dapat sepenuhnya “mengakses” kode tersebut.

Dalam hal ini, "terbuka untuk riset" hanyalah bahasa kiasan untuk "tertutup untuk bisnis." Hasilnya adalah bentuk ketergantungan vendor yang tidak jujur, di mana organisasi menginvestasikan waktu dan sumber daya ke dalam platform yang tampaknya dapat diakses secara terbuka, hanya untuk kemudian menemukan keterbatasan kritis ketika mencoba meningkatkan skala atau mengomersialkan aplikasi tersebut.

Kebingungan yang dihasilkan tidak hanya membuat frustrasi para pengembang. Kebingungan ini secara aktif merusak kepercayaan terhadap ekosistem AI. Kebingungan ini menciptakan ekspektasi yang tidak realistis di antara para pemangku kepentingan yang berasumsi bahwa AI "terbuka" sebanding dengan komunitas perangkat lunak sumber terbuka, yang menjunjung tinggi transparansi, hak modifikasi, dan kebebasan komersial.

Keterlambatan Hukum

Kemajuan pesat GenAI telah melampaui pengembangan kerangka hukum yang tepat, sehingga menciptakan jaringan tantangan kekayaan intelektual yang rumit dan memperparah kekhawatiran yang sudah ada sebelumnya.

Medan pertempuran hukum besar pertama berpusat pada penggunaan data pelatihan. Model pembelajaran mendalam mengambil data dalam jumlah besar dari internet, seperti gambar yang tersedia untuk umum dan teks halaman web. Pengumpulan data besar-besaran ini telah memicu perdebatan sengit tentang hak kekayaan intelektual. Perusahaan teknologi berargumen bahwa sistem AI mereka mempelajari dan mempelajari materi berhak cipta untuk menciptakan konten baru yang transformatif. Namun, pemilik hak cipta berpendapat bahwa perusahaan-perusahaan AI ini menyalin karya mereka secara ilegal, menghasilkan konten pesaing yang mengancam mata pencaharian mereka.

Kepemilikan karya turunan yang dihasilkan AI menghadirkan ambiguitas hukum lainnya. Tidak ada yang yakin bagaimana mengklasifikasikan konten yang dihasilkan AI, kecuali Kantor Hak Cipta AS, yang menyatakan bahwa "jika AI sepenuhnya menghasilkan konten, konten tersebut tidak dapat dilindungi oleh hak cipta."

Ketidakpastian hukum seputar GenAI – khususnya mengenai pelanggaran hak cipta, kepemilikan karya yang dihasilkan AI, dan konten tanpa lisensi dalam data pelatihan – menjadi lebih menegangkan karena model-model AI fundamental muncul sebagai alat-alat yang memiliki kepentingan geopolitik: Negara-negara yang berlomba-lomba mengembangkan kemampuan AI yang unggul mungkin kurang cenderung membatasi akses data, sehingga menempatkan negara-negara dengan perlindungan IP yang lebih ketat pada posisi yang kurang menguntungkan secara kompetitif.

Apa yang Harus Menjadi Open Source di Era AI

Kereta GenAI telah meninggalkan stasiun dan tidak menunjukkan tanda-tanda melambat. Kami berharap dapat membangun masa depan di mana AI mendorong, alih-alih menghambat, inovasi. Dalam hal ini, para pemimpin teknologi membutuhkan kerangka kerja yang memastikan penggunaan komersial yang aman dan transparan, mendorong inovasi yang bertanggung jawab, menangani kepemilikan dan lisensi data, serta membedakan antara "terbuka" dan "gratis".

Sebuah konsep yang sedang berkembang, yaitu Lisensi Sumber Komersial Terbuka, dapat menawarkan jalan ke depan dengan mengusulkan akses gratis untuk penggunaan nonkomersial, akses berlisensi untuk penggunaan komersial, dan pengakuan serta penghormatan terhadap asal-usul dan kepemilikan data.​​

Untuk beradaptasi dengan realitas baru ini, komunitas sumber terbuka harus mengembangkan model lisensi terbuka khusus AI, membentuk kemitraan publik-swasta untuk mendanai model ini, dan menetapkan standar tepercaya untuk transparansi, keamanan, dan etika.

Sumber terbuka pernah mengubah dunia. AI generatif mengubahnya lagi. Untuk menjaga semangat keterbukaan, kita harus mengembangkan hukumnya, mengakui tuntutan unik AI sekaligus mengatasi tantangannya secara langsung untuk menciptakan ekosistem yang inklusif dan berkelanjutan.

Dr. Yair Adato adalah pendiri & CEO Bria, perusahaan yang didirikan untuk membangun platform terbuka AI generatif yang bebas risiko. Visinya adalah menciptakan platform AI Generatif yang mengikuti prinsip-prinsip AI yang bertanggung jawab dan mendefinisikan ulang konsep hak cipta dan kekayaan intelektual sehingga kepemilikan data dan AI generatif dapat hidup berdampingan.

Seorang visioner di bidangnya, Dr. Adato meraih gelar Ph.D. dalam Ilmu Komputer di bidang visi komputer dari Universitas Ben-Gurion, bekerja sama dengan Universitas Harvard. Dengan lebih dari 50 paten yang menjembatani AI dan penggunaan komersial, Dr. Adato memiliki rekam jejak yang luar biasa dalam mendorong inovasi AI. Sebelum memimpin Bria, Dr. Adato menjabat sebagai CTO di Trax Retail, yang memungkinkan pertumbuhan pesat Trax dari startup tahap awal dengan 20 karyawan menjadi unicorn dengan hampir 1000 karyawan. Beliau menjabat atau pernah menjabat sebagai anggota dewan penasihat untuk beberapa perusahaan, termasuk Sparx, Vicomi, Tasq, DataGen, dan Anima.