Pemimpin pemikiran
Dilema Data AI: Privasi, Regulasi, dan Masa Depan AI Etis

Solusi yang didorong oleh AI sedang diadopsi secara luas di berbagai industri, layanan, dan produk setiap hari. Namun, efektivitasnya bergantung sepenuhnya pada kualitas data yang mereka latih – aspek yang sering salah dipahami atau diabaikan dalam proses pembuatan dataset.
Karena otoritas perlindungan data meningkatkan pengawasan tentang bagaimana teknologi AI sesuai dengan privasi dan peraturan perlindungan data, perusahaan menghadapi tekanan yang meningkat untuk mendapatkan, menandai, dan menghaluskan dataset dengan cara yang patuh dan etis.
Apakah ada pendekatan etis untuk membangun dataset AI? Apa tantangan etis terbesar perusahaan, dan bagaimana mereka mengatasi tantangan tersebut? Dan bagaimana kerangka hukum yang berkembang mempengaruhi ketersediaan dan penggunaan data pelatihan? Mari kita jelajahi pertanyaan-pertanyaan ini.
Privasi Data dan AI
Oleh sifatnya, AI memerlukan banyak data pribadi untuk mengeksekusi tugas. Ini telah menimbulkan kekhawatiran tentang pengumpulan, penyimpanan, dan penggunaan informasi ini. Banyak hukum di seluruh dunia mengatur dan membatasi penggunaan data pribadi, dari GDPR dan Undang-Undang AI yang baru diperkenalkan di Eropa hingga HIPAA di AS, yang mengatur akses ke data pasien di industri medis.
Referensi untuk mengetahui seberapa ketat hukum perlindungan data di seluruh dunia / DLA Piper
Misalnya, empat belas negara bagian AS saat ini memiliki hukum privasi data yang komprehensif, dengan enam lagi yang akan berlaku pada 2025 dan awal 2026. Administrasi baru telah menandakan pergeseran dalam pendekatannya terhadap penegakan privasi data di tingkat federal. Fokus utama adalah regulasi AI, menekankan untuk mendorong inovasi daripada mengenakan pembatasan. Perubahan ini termasuk mencabut perintah eksekutif sebelumnya tentang AI dan memperkenalkan direktif baru untuk memandu pengembangan dan penerapannya.
Legislasi perlindungan data berkembang di berbagai negara: di Eropa, hukumnya lebih ketat, sedangkan di Asia atau Afrika, mereka cenderung kurang ketat.
Namun, informasi yang dapat diidentifikasi secara pribadi (PII) — seperti gambar wajah, dokumen resmi seperti paspor, atau data pribadi sensitif lainnya — umumnya dibatasi di sebagian besar negara hingga tingkat tertentu. Menurut UN Trade & Development, pengumpulan, penggunaan, dan pembagian informasi pribadi kepada pihak ketiga tanpa pemberitahuan atau persetujuan konsumen adalah masalah besar bagi sebagian besar dunia. 137 dari 194 negara memiliki peraturan yang menjamin perlindungan data dan privasi. Akibatnya, sebagian besar perusahaan global mengambil tindakan pencegahan untuk menghindari penggunaan PII untuk pelatihan model karena peraturan seperti yang ada di UE secara ketat melarang praktik tersebut, dengan pengecualian langka yang ditemukan di niche yang sangat diatur seperti penegakan hukum.
Seiring waktu, hukum perlindungan data menjadi lebih komprehensif dan diterapkan secara global. Perusahaan menyesuaikan praktik mereka untuk menghindari tantangan hukum dan memenuhi persyaratan etis dan hukum yang muncul.
Metode Apa yang Digunakan Perusahaan untuk Mendapatkan Data?
Jadi, ketika mempelajari masalah perlindungan data untuk melatih model, penting untuk memahami terlebih dahulu dari mana perusahaan memperoleh data ini. Ada tiga sumber data utama.
- Pengumpulan Data
Metode ini memungkinkan pengumpulan data dari platform crowdsourcing, stok media, dan dataset sumber terbuka.
Penting untuk dicatat bahwa stok media publik tunduk pada perjanjian lisensi yang berbeda. Bahkan lisensi penggunaan komersial sering secara eksplisit menyatakan bahwa konten tidak dapat digunakan untuk pelatihan model. Harapan ini berbeda dari platform ke platform dan memerlukan bisnis untuk mengonfirmasi kemampuan mereka untuk menggunakan konten dengan cara yang mereka butuhkan.
Bahkan ketika perusahaan AI memperoleh konten secara legal, mereka masih dapat menghadapi beberapa masalah. Kemajuan pesat pelatihan model AI telah jauh melampaui kerangka hukum, yang berarti aturan dan peraturan yang mengatur data pelatihan AI masih berkembang. Akibatnya, perusahaan harus tetap mendapatkan informasi tentang perkembangan hukum dan secara hati-hati meninjau perjanjian lisensi sebelum menggunakan konten stok untuk pelatihan AI.
- Pembuatan Data
Salah satu metode persiapan dataset yang paling aman melibatkan pembuatan konten unik, seperti merekam orang-orang dalam lingkungan yang dikendalikan seperti studio atau lokasi luar. Sebelum berpartisipasi, individu menandatangani formulir persetujuan untuk menggunakan PII mereka, yang menentukan apa data yang dikumpulkan, bagaimana dan di mana data akan digunakan, dan siapa yang akan memiliki akses ke data tersebut. Ini memastikan perlindungan hukum penuh dan memberikan perusahaan kepercayaan bahwa mereka tidak akan menghadapi klaim penggunaan data ilegal.
Kerugian utama dari metode ini adalah biayanya, terutama ketika data dibuat untuk kasus tepi atau proyek skala besar. Namun, perusahaan besar dan perusahaan terus menggunakan pendekatan ini karena dua alasan. Pertama, ini memastikan kepatuhan penuh dengan semua standar dan peraturan hukum. Kedua, ini memberikan perusahaan data yang sepenuhnya disesuaikan dengan skenario dan kebutuhan spesifik mereka, menjamin akurasi tertinggi dalam pelatihan model.
- Generasi Data Sintetis
Menggunakan perangkat lunak untuk membuat gambar, teks, atau video berdasarkan skenario yang diberikan. Namun, data sintetis memiliki keterbatasan: ini dibuat berdasarkan parameter yang telah ditentukan sebelumnya dan kekurangan variabilitas alami dari data nyata.
Kekurangan ini dapat secara negatif mempengaruhi model AI. Meskipun tidak relevan untuk semua kasus dan tidak selalu terjadi, masih penting untuk diingat “keruntuhan model” — titik di mana ketergantungan yang berlebihan pada data sintetis menyebabkan model memburuk, menghasilkan output berkualitas rendah.
Data sintetis masih dapat sangat efektif untuk tugas dasar, seperti mengenali pola umum, mengidentifikasi objek, atau membedakan elemen visual dasar seperti wajah.
Namun, ini bukanlah pilihan terbaik ketika perusahaan perlu melatih model sepenuhnya dari awal atau menangani skenario yang jarang atau sangat spesifik.
Situasi yang paling mengungkapkan terjadi di lingkungan dalam kabin, seperti pengemudi yang terganggu oleh anak, seseorang yang tampak lelah di balik roda, atau bahkan contoh mengemudi yang ceroboh. Data poin ini tidak umum tersedia dalam dataset publik — dan seharusnya tidak — karena mereka melibatkan individu nyata dalam pengaturan pribadi. Karena model AI bergantung pada data pelatihan untuk menghasilkan output sintetis, mereka berjuang untuk merepresentasikan skenario yang mereka belum pernah temui secara akurat.
Ketika data sintetis gagal, data yang dibuat — dikumpulkan melalui lingkungan yang dikendalikan dengan aktor nyata — menjadi solusi.
Penyedia solusi data seperti Keymakr meletakkan kamera di mobil, merekrut aktor, dan merekam aksi seperti merawat bayi, minum dari botol, atau menunjukkan tanda kelelahan. Aktor menandatangani kontrak yang secara eksplisit memberikan persetujuan untuk menggunakan data mereka untuk pelatihan AI, memastikan kepatuhan dengan hukum privasi.
Tanggung Jawab dalam Proses Pembuatan Dataset
Setiap peserta dalam proses, dari klien hingga perusahaan anotasi, memiliki tanggung jawab spesifik yang tercantum dalam perjanjian mereka. Langkah pertama adalah membangun kontrak, yang merinci sifat hubungan, termasuk klausa tentang non-pengungkapan dan hak cipta.
Mari kita pertimbangkan opsi pertama untuk bekerja dengan data, yaitu ketika data dibuat dari awal. Hak cipta menyatakan bahwa semua data yang dibuat oleh penyedia milik perusahaan yang mempekerjakan, yang berarti dibuat atas nama mereka. Ini juga berarti penyedia harus memastikan bahwa data diperoleh secara legal dan benar.
Sebagai perusahaan solusi data, Keymakr memastikan kepatuhan data dengan pertama-tama memeriksa yurisdiksi di mana data dibuat, memperoleh persetujuan yang tepat dari semua individu yang terlibat, dan menjamin bahwa data dapat digunakan secara legal untuk pelatihan AI.
Penting juga untuk dicatat bahwa setelah data digunakan untuk pelatihan model AI, menjadi hampir mustahil untuk menentukan data spesifik apa yang menyumbang pada model karena AI mencampurnya semua. Jadi, output spesifik tidak cenderung menjadi outputnya, terutama ketika membahas jutaan gambar.
Karena perkembangannya yang cepat, bidang ini masih menetapkan pedoman yang jelas untuk mendistribusikan tanggung jawab. Ini mirip dengan kompleksitas yang mengelilingi mobil swakemudi, di mana pertanyaan tentang tanggung jawab — apakah itu pengemudi, produsen, atau perusahaan perangkat lunak — masih memerlukan distribusi yang jelas.
Dalam kasus lain, ketika penyedia anotasi menerima dataset untuk anotasi, mereka menganggap bahwa klien telah memperoleh data secara legal. Jika ada tanda-tanda yang jelas bahwa data telah diperoleh secara ilegal, penyedia harus melaporkannya. Namun, kasus yang jelas seperti itu sangat jarang.
Penting juga untuk dicatat bahwa perusahaan besar, perusahaan, dan merek yang menghargai reputasi mereka sangat berhati-hati tentang dari mana mereka memperoleh data, bahkan jika data tersebut tidak dibuat dari awal tetapi diambil dari sumber lain yang legal.
Secara singkat, tanggung jawab setiap peserta dalam proses kerja data tergantung pada perjanjian. Anda bisa mempertimbangkan proses ini sebagai bagian dari “rantai keberlanjutan” yang lebih luas, di mana setiap peserta memiliki peran kritis dalam mempertahankan standar hukum dan etis.
Apa Miskonsepsi yang Ada tentang Bagian Belakang Pengembangan AI?
Miskonsepsi besar tentang pengembangan AI adalah bahwa model AI bekerja serupa dengan mesin pencari, mengumpulkan dan mengagregatkan informasi untuk disajikan kepada pengguna berdasarkan pengetahuan yang dipelajari. Namun, model AI, terutama model bahasa, sering berfungsi berdasarkan probabilitas daripada pemahaman yang sebenarnya. Mereka memprediksi kata atau istilah berdasarkan kemungkinan statistik, menggunakan pola yang terlihat dalam data sebelumnya. AI tidak “tahu” apa-apa; itu melakukan ekstrapolasi, menebak, dan menyesuaikan probabilitas.
Selain itu, banyak yang menganggap bahwa melatih AI memerlukan dataset yang sangat besar, tetapi sebagian besar apa yang AI butuhkan untuk mengenali — seperti anjing, kucing, atau manusia — sudah mapan dengan baik. Fokus sekarang adalah pada meningkatkan akurasi dan memperbaiki model daripada menciptakan kembali kemampuan pengenalan. Sebagian besar pengembangan AI saat ini berkisar pada menutup celah kecil terakhir dalam akurasi daripada memulai dari awal.
Tantangan Etis dan Dampak Regulasi Uni Eropa dan Mitigasi Regulasi AS terhadap Pasar AI Global
Ketika membahas etika dan legalitas bekerja dengan data, juga penting untuk memahami dengan jelas apa yang mendefinisikan “etis” AI.
Tantangan etis terbesar yang dihadapi perusahaan saat ini dalam AI adalah menentukan apa yang dianggap tidak dapat diterima untuk AI lakukan atau diajari. Ada kesepakatan luas bahwa AI etis harus membantu dan tidak merugikan manusia serta menghindari penipuan. Namun, sistem AI dapat melakukan kesalahan atau “berhalusinasi”, yang menantang penentuan apakah kesalahan ini memenuhi syarat sebagai disinformasi atau merugikan.
Etika AI adalah debat besar dengan organisasi seperti UNESCO terlibat — dengan prinsip kunci yang mengelilingi auditabilitas dan jejakability dari output.
Kerangka hukum yang mengatur akses data dan pelatihan AI memainkan peran signifikan dalam membentuk lanskap etis AI. Negara dengan lebih sedikit pembatasan penggunaan data memungkinkan data pelatihan yang lebih mudah diakses, sedangkan negara dengan hukum data yang lebih ketat membatasi ketersediaan data untuk pelatihan AI.
Misalnya, Eropa, yang mengadopsi Undang-Undang AI, dan AS, yang telah menggulirkan kembali banyak regulasi AI, menawarkan pendekatan yang kontras yang menunjukkan lanskap global saat ini.
Undang-Undang AI Uni Eropa secara signifikan mempengaruhi perusahaan yang beroperasi di Eropa. Ini menerapkan kerangka regulasi yang ketat, membuatnya sulit bagi bisnis untuk menggunakan atau mengembangkan model AI tertentu. Perusahaan harus memperoleh lisensi khusus untuk bekerja dengan teknologi tertentu, dan dalam banyak kasus, regulasi secara efektif membuatnya terlalu sulit bagi bisnis kecil untuk mematuhi aturan ini.
Akibatnya, beberapa startup mungkin memilih untuk meninggalkan Eropa atau menghindari beroperasi di sana sama sekali, serupa dengan dampak yang terlihat dengan regulasi cryptocurrency. Perusahaan besar yang dapat membiayai investasi yang diperlukan untuk memenuhi persyaratan kepatuhan mungkin beradaptasi. Namun, Undang-Undang ini dapat mengusir inovasi AI dari Eropa demi pasar seperti AS atau Israel, di mana regulasi kurang ketat.
Keputusan AS untuk menginvestasikan sumber daya besar dalam pengembangan AI dengan lebih sedikit pembatasan juga dapat memiliki kelemahan tetapi mengundang lebih banyak keragaman di pasar. Sementara Uni Eropa fokus pada keamanan dan kepatuhan regulasi, AS kemungkinan akan mendorong lebih banyak pengambilan risiko dan eksperimen yang berani.













