Kecerdasan buatan
Dataset AI yang Diambil dari Web dan Privasi: Mengapa CommonPool Layak Dipertimbangkan

Kecerdasan Buatan (AI) telah menjadi bagian dari kehidupan sehari-hari. Ini terlihat dalam chatbot medis yang membantu pasien dan dalam alat generatif yang membantu seniman, penulis, dan pengembang. Sistem ini tampak canggih, namun mereka bergantung pada satu sumber daya esensial: data.
Sebagian besar data yang digunakan untuk melatih sistem AI berasal dari internet publik. Program otomatis mengumpulkan volume besar teks, gambar, dan audio dari platform online. Kumpulan ini membentuk dasar model-model terkenal seperti GPT-4, Stable Diffusion, dan banyak lainnya. Kumpulan besar ini, bagaimanapun, menimbulkan kekhawatiran yang belum terpecahkan tentang privasi, kepemilikan, dan persetujuan yang diberitahukan.
Pasar untuk dataset pelatihan mencerminkan skala kegiatan ini. Saat ini, nilai global dataset AI diperkirakan sebesar 3,2 miliar dolar. Menurut proyeksi, ini dapat tumbuh menjadi 16,3 miliar dolar pada 2034, dengan tingkat pertumbuhan tahunan sebesar 20,5 persen. Di balik angka-angka ini terdapat tantangan penting. Sebagian besar materi yang dikumpulkan diperoleh tanpa izin eksplisit. Ini sering mengandung data pribadi, karya berhak cipta, dan konten sensitif lainnya yang tidak pernah dimaksudkan untuk sistem pembelajaran mesin.
Sebagai tanggapan atas masalah-masalah ini, pendekatan alternatif untuk tata kelola data sedang diexplorasi. Salah satu contoh adalah CommonPool, yang dirilis pada April 2023 sebagai bagian dari DataComp benchmark. Ini adalah dataset besar yang terdiri dari 12,8 miliar pasangan gambar-teks yang dirancang untuk penelitian multimodal AI. Tidak seperti upaya pengambilan data tradisional, ini menerapkan metode filtering, menekankan transparansi, dan melibatkan partisipasi komunitas dalam pengembangannya. Meskipun masih menjadi bahan perdebatan, CommonPool menunjukkan upaya untuk membangun praktik yang lebih bertanggung jawab dan dapat diaudit untuk data pelatihan AI. Inisiatif seperti ini menyoroti kebutuhan akan standar etika dalam masa depan kecerdasan buatan.
Peran Data yang Diambil dari Web dalam Meningkatkan Kecerdasan Buatan
Data adalah sentral untuk AI, dengan kinerja sistem yang erat terkait dengan jumlah dan keragaman informasi yang tersedia untuk pelatihan. Dalam beberapa tahun terakhir, Web scraping telah menjadi metode standar untuk mengumpulkan dataset besar dalam skala besar. Dengan mengumpulkan konten online yang dapat diakses secara publik, peneliti dan pengembang telah memperoleh sumber daya data yang luas dan beragam.
Contoh populer adalah Common Crawl, yang pada 2025 telah menyimpan petabyte teks yang dikumpulkan melalui pencarian bulanan lebih dari 250 terabyte masing-masing. Dataset ini secara luas digunakan untuk melatih model AI berbasis teks. Contoh lain adalah LAION-5B, yang berisi sekitar 5,85 miliar pasangan gambar-teks. Ini telah penting untuk aplikasi seperti Stable Diffusion, yang dapat membuat gambar realistis dari prompt tulisan.
Dataset ini berharga karena mereka meningkatkan akurasi model, memperbaiki generalisasi melalui konten yang beragam, dan memungkinkan kelompok yang lebih kecil, termasuk universitas, untuk berpartisipasi dalam pengembangan AI. Indeks AI Stanford 2025 menunjukkan bahwa sebagian besar model canggih masih bergantung pada data yang diambil, dengan dataset tumbuh dengan cepat dalam ukuran. Permintaan ini juga telah mendorong investasi besar, mencapai lebih dari 57 miliar dolar pada 2024 untuk pusat data dan kekuatan komputasi.
Pada saat yang sama, web scraping tidak bebas dari tantangan. Ini menimbulkan pertanyaan tentang privasi, kepemilikan, dan hak hukum, karena sebagian besar konten yang dikumpulkan tidak diciptakan untuk penggunaan mesin. Kasus pengadilan dan diskusi kebijakan menunjukkan bahwa tantangan-tantangan ini menjadi lebih mendesak. Masa depan pengumpulan data AI akan bergantung pada menemukan keseimbangan antara kemajuan dan tanggung jawab etika.
Masalah Privasi dengan Data yang Diambil
Alat web scraping mengumpulkan informasi tanpa pemisahan yang jelas antara konten umum dan detail sensitif. Bersama dengan teks dan gambar, mereka sering menangkap Informasi yang Dapat Diidentifikasi Secara Pribadi (PII) seperti nama, alamat email, dan foto wajah.
Sebuah audit dari dataset CommonPool pada Juli 2025 mengungkapkan bahwa bahkan setelah filtering, 0,1% dari sampel masih mengandung wajah yang tidak diblur, ID pemerintah, dan dokumen seperti résumé dan paspor. Meskipun persentase ini tampak kecil, pada skala miliaran catatan, ini berarti ratusan juta individu yang terkena dampak. Ulasan dan audit keamanan mengkonfirmasi bahwa kehadiran materi tersebut tidak biasa, dan risikonya termasuk pencurian identitas, pelecehan yang ditargetkan, dan pengungkapan data pribadi yang tidak diinginkan.
Sengketa hukum juga meningkat karena kekhawatiran tentang kepemilikan data dan penggunaan yang adil bergerak ke pengadilan. Antara 2023 dan 2024, perusahaan seperti OpenAI dan Stability AI menghadapi gugatan hukum untuk menggunakan data pribadi dan berhak cipta tanpa persetujuan. Pada Februari 2025, sebuah pengadilan federal AS memutuskan bahwa pelatihan AI pada informasi pribadi yang tidak dilisensikan dianggap sebagai pelanggaran. Keputusan ini telah mendorong lebih banyak kasus class-action. Hak cipta juga merupakan masalah besar. Banyak dataset yang diambil mengandung buku, artikel, seni, dan kode. Penulis dan seniman berpendapat bahwa karya mereka digunakan tanpa persetujuan atau pembayaran. Kasus New York Times v. OpenAI yang sedang berlangsung mempertanyakan apakah sistem AI mereproduksi konten yang dilindungi secara hukum. Seniman visual juga mengajukan keluhan serupa, dengan mengklaim bahwa AI menyalin gaya individual mereka. Pada Juni 2025, sebuah pengadilan AS mendukung perusahaan AI di bawah fair use, tetapi para ahli mengatakan bahwa putusan tersebut tidak konsisten dan kerangka hukum masih belum jelas.
Kurangnya persetujuan dalam pelatihan AI telah melemahkan kepercayaan publik. Banyak orang menemukan bahwa blog, karya kreatif, atau kode mereka termasuk dalam dataset tanpa sepengetahuan mereka. Ini telah menimbulkan kekhawatiran etika dan seruan untuk lebih transparan. Sebagai tanggapan, pemerintah bergerak menuju pengawasan yang lebih ketat melalui hukum yang mempromosikan pengembangan model AI yang adil dan penggunaan data yang hati-hati.
Mengapa Dataset yang Diambil Sulit Digantikan
Meskipun kekhawatiran tentang privasi dan persetujuan, dataset yang diambil masih diperlukan untuk pelatihan AI. Alasannya adalah skala. Model AI modern memerlukan triliunan token dari teks, gambar, dan media lainnya. Membangun dataset seperti itu hanya melalui sumber yang dilisensikan atau dikurasi akan menelan biaya ratusan juta dolar. Ini tidak praktis untuk sebagian besar perusahaan rintisan atau universitas.
Biaya tinggi bukanlah satu-satunya tantangan dengan dataset yang dikurasi. Mereka seringkali kekurangan keanekaragaman dan cenderung fokus pada bahasa, wilayah, atau komunitas tertentu. Cakupan yang sempit ini membuat model AI kurang seimbang. Sebaliknya, data yang diambil, meskipun berisik dan tidak sempurna, menangkap berbagai budaya, topik, dan pandangan. Keanekaragaman ini memungkinkan sistem AI untuk berkinerja lebih baik ketika diterapkan pada penggunaan dunia nyata.
Namun, risikonya adalah bahwa peraturan yang ketat dapat membatasi akses ke data yang diambil. Jika ini terjadi, organisasi yang lebih kecil mungkin akan bergelut untuk bersaing. Perusahaan besar dengan dataset pribadi atau milik, seperti Google atau Meta, akan terus maju. Ketidakseimbangan ini dapat mengurangi persaingan dan memperlambat inovasi terbuka dalam AI.
Untuk saat ini, dataset yang diambil tetap sentral untuk penelitian AI. Pada saat yang sama, proyek seperti CommonPool sedang menjelajahi cara untuk membangun koleksi yang luas, bersumber etis. Upaya ini diperlukan untuk menjaga ekosistem AI lebih terbuka, adil, dan bertanggung jawab.
CommonPool: Menuju Teknik Pengembangan Data Bertanggung Jawab
CommonPool adalah salah satu upaya paling ambisius secara teknis untuk membangun dataset multimodal besar yang terbuka. Dengan sekitar 12,8 miliar pasangan gambar-teks, ini sesuai dengan skala LAION-5B tetapi mengintegrasikan mekanisme rekayasa data dan tata kelola yang lebih kuat. Tujuan desain utama bukan hanya untuk memaksimalkan skala tetapi juga untuk selaras dengan prinsip reproduktifitas, provenance data, dan kepatuhan regulasi.
Pembangunan dataset CommonPool mengikuti pipa tiga tahap yang terstruktur. Tahap pertama melibatkan ekstraksi sampel mentah dari snapshot Common Crawl yang dikumpulkan antara 2014 dan 2022. Baik gambar dan teks yang terkait, seperti caption atau kalimat sekitarnya, dikumpulkan. Untuk mengevaluasi keselarasan semantik, pengelola menerapkan skoring kesamaan berbasis CLIP, membuang pasangan dengan korespondensi lemah antara embedding gambar dan teks. Langkah filtering awal ini secara substansial mengurangi kebisingan dibandingkan dengan pipa pengambilan data naif.
Pada tahap kedua, dataset menjalani deduplikasi skala besar. Teknik hashing perseptual dan MinHash digunakan untuk mengidentifikasi dan menghapus gambar duplikat, mencegah redundansi mendominasi pelatihan model. Filter tambahan diterapkan untuk mengecualikan file yang rusak, tautan yang rusak, dan gambar dengan resolusi rendah. Pada titik ini, pipa juga termasuk normalisasi teks dan identifikasi bahasa otomatis, memungkinkan pembuatan subset spesifik domain atau bahasa untuk penelitian yang ditargetkan.
Tahap ketiga fokus pada keamanan dan kepatuhan. Deteksi wajah otomatis dan pemburaman diterapkan, sementara gambar anak dan pengidentifikasi pribadi seperti nama, alamat email, dan alamat pos dihapus. Pipa juga mencoba mendeteksi materi berhak cipta. Meskipun tidak ada metode otomatis yang dapat menjamin filtering yang sempurna pada skala Web, pengamanan ini mewakili perbaikan teknis yang signifikan dibandingkan dengan LAION-5B, di mana filtering sebagian besar terbatas pada konten dewasa dan heuristik toksisitas.
Di luar pemrosesan data, CommonPool memperkenalkan model tata kelola yang membedakannya dari rilis dataset statis. Ini dipelihara sebagai dataset hidup dengan rilis versi, metadata terstruktur, dan siklus pembaruan yang didokumentasikan. Setiap sampel mencakup informasi lisensi di mana tersedia, mendukung kepatuhan dengan peraturan hak cipta. Protokol penghapusan memungkinkan individu dan lembaga untuk meminta penghapusan konten sensitif, mengatasi kekhawatiran yang diajukan oleh Undang-Undang AI UE dan kerangka regulasi terkait. Metadata seperti URL sumber dan skor filtering meningkatkan transparansi dan reproduktifitas, memungkinkan peneliti untuk melacak keputusan inklusi dan eksklusi.
Hasil benchmark dari inisiatif DataComp menggambarkan efek teknis dari pilihan desain ini. Ketika arsitektur visi-bahasa yang identik dilatih pada LAION-5B dan CommonPool, yang terakhir menghasilkan model dengan kinerja hilir yang lebih stabil, terutama pada tugas pengambilan dan klasifikasi nol-geser. Hasil ini menunjukkan bahwa kualitas keselarasan yang lebih tinggi dari CommonPool mengkompensasi beberapa keuntungan skala dari dataset yang kurang difilter. Namun, audit independen pada 2025 mengungkapkan risiko residu: sekitar 0,1% dari dataset masih mengandung wajah yang tidak diblur, dokumen pribadi sensitif, dan catatan medis. Ini menyoroti batasan dari bahkan pipa filtering otomatis yang paling mutakhir.
Secara keseluruhan, CommonPool mewakili pergeseran dalam rekayasa dataset dari prioritas skala mentah ke keseimbangan skala, kualitas, dan kepatuhan. Bagi peneliti, ini menyediakan fondasi yang dapat direproduksi dan relatif lebih aman untuk pelatihan skala besar. Bagi regulator, ini menunjukkan bahwa mekanisme privasi dan akuntabilitas dapat disematkan langsung ke dalam konstruksi dataset. Berbeda dengan LAION, CommonPool mengilustrasikan bagaimana pipa filtering, praktik tata kelola, dan kerangka benchmark dapat mengubah data web skala besar menjadi sumber daya yang lebih teknis dan etis untuk AI multimodal.
Membandingkan CommonPool dengan Dataset yang Diambil dari Web Tradisional
Tidak seperti dataset yang diambil dari web skala besar sebelumnya seperti LAION-5B (5,85M sampel), COYO-700M (700M sampel), dan WebLI (400M sampel), CommonPool menekankan struktur, reproduktifitas, dan tata kelola. Ini mempertahankan metadata seperti URL dan timestamp, yang mendukung jejakability dan pemeriksaan lisensi sebagian. Selain itu, ini menerapkan filtering semantik berbasis CLIP untuk menghapus pasangan gambar-teks berkualitas rendah atau lemah, menghasilkan kualitas data yang lebih baik.
Dibandingkan dengan itu, LAION-5B dan COYO disusun dari Common Crawl dengan filtering terbatas dan tanpa dokumentasi lisensi yang rinci. Dataset ini sering mengandung materi sensitif, termasuk catatan medis, dokumen identitas, dan wajah yang tidak diblur. WebLI, yang digunakan secara internal oleh OpenAI, juga kekurangan transparansi, karena tidak pernah dirilis untuk tinjauan atau replikasi eksternal.
CommonPool berusaha untuk mengatasi masalah-masalah ini dengan mengecualikan PII dan konten NSFW, sementara mengakui bahwa persetujuan pengguna penuh masih belum terpecahkan. Ini membuatnya relatif lebih dapat diandalkan dan selaras dengan etika dibandingkan dengan alternatif sebelumnya.
Intinya
Pengembangan CommonPool mencerminkan transisi penting dalam cara dataset AI skala besar dikonseptualisasikan dan dipelihara. Sementara koleksi sebelumnya seperti LAION-5B dan COYO memprioritaskan skala dengan pengawasan terbatas, CommonPool menunjukkan bahwa transparansi, filtering, dan tata kelola dapat disematkan ke dalam konstruksi dataset tanpa merusak kegunaan untuk penelitian.
Dengan mempertahankan metadata, menerapkan pemeriksaan keselarasan semantik, dan menyematkan pengaman privasi, ini menawarkan sumber daya yang lebih dapat direproduksi dan akuntabel. Pada saat yang sama, audit independen mengingatkan kita bahwa pengaman otomatis tidak dapat sepenuhnya menghilangkan risiko, menyoroti kebutuhan akan kewaspadaan terus-menerus.












