Terhubung dengan kami

Pemimpin Pikiran

Dilema Data AI: Privasi, Regulasi, dan Masa Depan AI yang Etis

mm

Solusi berbasis AI diadopsi dengan cepat di berbagai industri, layanan, dan produk setiap hari. Namun, efektivitasnya bergantung sepenuhnya pada kualitas data yang digunakan – aspek yang sering disalahpahami atau diabaikan dalam proses pembuatan kumpulan data.

Karena otoritas perlindungan data meningkatkan pengawasan terhadap bagaimana teknologi AI selaras dengan peraturan privasi dan perlindungan data, perusahaan menghadapi tekanan yang semakin besar untuk mencari sumber, membuat anotasi, dan menyempurnakan kumpulan data dengan cara yang patuh dan etis.

Apakah benar-benar ada pendekatan etis untuk membangun set data AI? Apa saja tantangan etika terbesar yang dihadapi perusahaan, dan bagaimana mereka mengatasinya? Dan bagaimana kerangka hukum yang terus berkembang memengaruhi ketersediaan dan penggunaan data pelatihan? Mari kita telusuri pertanyaan-pertanyaan ini.

Privasi Data dan AI

Berdasarkan sifatnya, AI membutuhkan banyak data pribadi untuk menjalankan tugas. Hal ini menimbulkan kekhawatiran tentang pengumpulan, penyimpanan, dan penggunaan informasi ini. Banyak undang-undang di seluruh dunia mengatur dan membatasi penggunaan data pribadi, mulai dari GDPR dan Undang-Undang AI yang baru diperkenalkan di Eropa hingga HIPAA di AS, yang mengatur akses ke data pasien dalam industri medis.

Referensi tentang seberapa ketatnya undang-undang perlindungan data di seluruh dunia / DLA Piper

Misalnya, empat belas negara bagian AS saat ini memiliki undang-undang privasi data yang komprehensif, dengan enam negara bagian lainnya akan mulai berlaku pada tahun 2025 dan awal tahun 2026. Pemerintahan baru telah mengisyaratkan adanya perubahan dalam pendekatannya terhadap penegakan privasi data di tingkat federal. Fokus utamanya adalah regulasi AI, yang menekankan pada pengembangan inovasi daripada memaksakan pembatasan. pergeseran termasuk mencabut perintah eksekutif sebelumnya tentang AI dan memperkenalkan arahan baru untuk memandu pengembangan dan penerapannya.

Undang-undang perlindungan data berkembang di berbagai negara: di Eropa, undang-undang lebih ketat, sementara di Asia atau Afrika, undang-undang cenderung kurang ketat.

Namun, informasi identitas pribadi (PII) — seperti gambar wajah, dokumen resmi seperti paspor, atau data pribadi sensitif lainnya — umumnya dibatasi di sebagian besar negara hingga batas tertentu. Menurut Perdagangan & Pembangunan PBB, pengumpulan, penggunaan, dan pembagian informasi pribadi kepada pihak ketiga tanpa pemberitahuan atau persetujuan konsumen merupakan masalah utama bagi sebagian besar dunia. 137 dari negara 194 memiliki peraturan yang menjamin perlindungan data dan privasi. Akibatnya, sebagian besar perusahaan global mengambil tindakan pencegahan yang ekstensif untuk menghindari penggunaan PII untuk pelatihan model karena peraturan seperti yang ada di Uni Eropa secara tegas melarang praktik tersebut, dengan pengecualian langka yang ditemukan di bidang yang sangat diatur seperti penegakan hukum.

Seiring berjalannya waktu, undang-undang perlindungan data menjadi lebih komprehensif dan diberlakukan secara global. Perusahaan menyesuaikan praktik mereka untuk menghindari tuntutan hukum dan memenuhi persyaratan hukum dan etika yang muncul.

Metode Apa yang Digunakan Perusahaan untuk Mendapatkan Data?

Jadi, ketika mempelajari isu perlindungan data untuk model pelatihan, penting untuk terlebih dahulu memahami dari mana perusahaan memperoleh data ini. Ada tiga sumber data utama dan primer.

  • Pengumpulan data

Metode ini memungkinkan pengumpulan data dari platform crowdsourcing, saham media, dan kumpulan data sumber terbuka.

Penting untuk dicatat bahwa media stok publik tunduk pada perjanjian lisensi yang berbeda. Bahkan lisensi penggunaan komersial sering kali secara eksplisit menyatakan bahwa konten tidak dapat digunakan untuk pelatihan model. Harapan ini berbeda-beda pada setiap platform dan mengharuskan bisnis untuk mengonfirmasi kemampuan mereka dalam menggunakan konten dengan cara yang mereka perlukan.

Bahkan ketika perusahaan AI memperoleh konten secara legal, mereka masih dapat menghadapi beberapa masalah. Kemajuan pesat pelatihan model AI telah jauh melampaui kerangka hukum, yang berarti aturan dan regulasi seputar data pelatihan AI masih terus berkembang. Akibatnya, perusahaan harus tetap mendapatkan informasi tentang perkembangan hukum dan meninjau perjanjian lisensi dengan saksama sebelum menggunakan konten stok untuk pelatihan AI.

  • Pembuatan Data

Salah satu metode penyiapan kumpulan data yang paling aman adalah dengan membuat konten yang unik, seperti merekam orang-orang di lingkungan yang terkendali seperti studio atau lokasi luar ruangan. Sebelum berpartisipasi, individu menandatangani formulir persetujuan untuk menggunakan PII mereka, yang menentukan data apa yang dikumpulkan, bagaimana dan di mana data tersebut akan digunakan, dan siapa yang akan memiliki akses ke data tersebut. Hal ini memastikan perlindungan hukum penuh dan memberi perusahaan keyakinan bahwa mereka tidak akan menghadapi tuntutan atas penggunaan data ilegal.

Kelemahan utama metode ini adalah biayanya, terutama saat data dibuat untuk kasus khusus atau proyek berskala besar. Namun, perusahaan dan badan usaha besar semakin banyak menggunakan pendekatan ini setidaknya karena dua alasan. Pertama, pendekatan ini memastikan kepatuhan penuh terhadap semua standar dan peraturan hukum. Kedua, pendekatan ini menyediakan data yang sepenuhnya disesuaikan dengan skenario dan kebutuhan spesifik perusahaan, sehingga menjamin akurasi tertinggi dalam pelatihan model.

  • Pembuatan Data Sintetis

Menggunakan perangkat lunak untuk membuat gambar, teks, atau video berdasarkan skenario tertentu. Namun, data sintetis memiliki keterbatasan: data tersebut dibuat berdasarkan parameter yang telah ditetapkan sebelumnya dan tidak memiliki variabilitas alami seperti data nyata.

Kekurangan ini dapat berdampak negatif pada model AI. Meskipun tidak relevan untuk semua kasus dan tidak selalu terjadi, tetap penting untuk diingat bahwa "keruntuhan model” — titik di mana ketergantungan berlebihan pada data sintetis menyebabkan model mengalami penurunan kualitas, sehingga menghasilkan keluaran berkualitas buruk.

Data sintetis masih sangat efektif untuk tugas-tugas dasar, seperti mengenali pola umum, mengidentifikasi objek, atau membedakan elemen visual mendasar seperti wajah.

Namun, ini bukan pilihan terbaik ketika perusahaan perlu melatih model sepenuhnya dari awal atau menangani skenario yang jarang terjadi atau sangat spesifik.

Situasi yang paling mengungkap terjadi di lingkungan dalam kabin, seperti pengemudi yang terganggu oleh seorang anak, seseorang yang tampak lelah saat mengemudi, atau bahkan kejadian mengemudi secara ugal-ugalan. Titik data ini tidak umum tersedia dalam kumpulan data publik — dan seharusnya tidak demikian — karena melibatkan individu nyata dalam lingkungan pribadi. Karena model AI bergantung pada data pelatihan untuk menghasilkan keluaran sintetis, model tersebut kesulitan untuk menggambarkan skenario yang belum pernah ditemuinya secara akurat.

Ketika data sintetis gagal, data yang dibuat — yang dikumpulkan melalui lingkungan yang terkendali dengan pelaku nyata — menjadi solusinya.

Penyedia solusi data seperti Pembuat kunci memasang kamera di mobil, menyewa aktor, dan merekam berbagai tindakan seperti mengurus bayi, minum dari botol, atau menunjukkan tanda-tanda kelelahan. Para aktor menandatangani kontrak yang secara tegas menyetujui penggunaan data mereka untuk pelatihan AI, memastikan kepatuhan terhadap undang-undang privasi.

Tanggung Jawab dalam Proses Pembuatan Dataset

Setiap peserta dalam proses ini, dari klien hingga perusahaan anotasi, memiliki tanggung jawab khusus yang diuraikan dalam perjanjian mereka. Langkah pertama adalah membuat kontrak, yang merinci sifat hubungan, termasuk klausul tentang kerahasiaan dan hak kekayaan intelektual.

Mari kita pertimbangkan opsi pertama untuk mengolah data, yaitu saat data tersebut dibuat dari awal. Hak kekayaan intelektual menyatakan bahwa data apa pun yang dibuat oleh penyedia adalah milik perusahaan yang mempekerjakan, artinya data tersebut dibuat atas nama mereka. Ini juga berarti penyedia harus memastikan data tersebut diperoleh secara sah dan benar.

Sebagai perusahaan solusi data, Keymakr memastikan kepatuhan data dengan terlebih dahulu memeriksa yurisdiksi tempat data dibuat, memperoleh persetujuan yang tepat dari semua individu yang terlibat, dan menjamin bahwa data tersebut dapat digunakan secara legal untuk pelatihan AI.

Penting juga untuk dicatat bahwa setelah data digunakan untuk pelatihan model AI, hampir mustahil untuk menentukan data spesifik apa yang berkontribusi pada model karena AI memadukan semuanya. Jadi, keluaran spesifik tidak cenderung menjadi keluarannya, terutama saat membahas jutaan gambar.

Karena perkembangannya yang pesat, bidang ini masih menetapkan pedoman yang jelas untuk pembagian tanggung jawab. Hal ini serupa dengan kompleksitas seputar mobil tanpa pengemudi, di mana pertanyaan tentang tanggung jawab—baik itu pengemudi, produsen, atau perusahaan perangkat lunak—masih memerlukan pembagian tanggung jawab yang jelas.

Dalam kasus lain, saat penyedia anotasi menerima kumpulan data untuk anotasi, ia berasumsi bahwa klien telah memperoleh data tersebut secara sah. Jika ada tanda-tanda yang jelas bahwa data tersebut diperoleh secara ilegal, penyedia harus melaporkannya. Namun, kasus yang tampak seperti itu sangat jarang terjadi.

Penting juga untuk dicatat bahwa perusahaan besar, korporasi, dan merek yang menghargai reputasi mereka sangat berhati-hati tentang dari mana mereka mendapatkan data, bahkan jika data tersebut tidak dibuat dari awal tetapi diambil dari sumber legal lainnya.

Singkatnya, tanggung jawab setiap peserta dalam proses kerja data bergantung pada kesepakatan. Anda dapat menganggap proses ini sebagai bagian dari "rantai keberlanjutan" yang lebih luas, di mana setiap peserta memiliki peran penting dalam menjaga standar hukum dan etika.

Kesalahpahaman Apa yang Ada Tentang Back End Pengembangan AI?

Kesalahpahaman utama tentang pengembangan AI adalah bahwa model AI bekerja mirip dengan mesin pencari, mengumpulkan dan menggabungkan informasi untuk disajikan kepada pengguna berdasarkan pengetahuan yang dipelajari. Namun, model AI, khususnya model bahasa, sering kali berfungsi berdasarkan probabilitas, bukan pemahaman yang sebenarnya. Model tersebut memprediksi kata atau istilah berdasarkan kemungkinan statistik, menggunakan pola yang terlihat pada data sebelumnya. AI tidak "mengetahui" apa pun; ia mengekstrapolasi, menebak, dan menyesuaikan probabilitas.

Lebih jauh, banyak yang berasumsi bahwa pelatihan AI memerlukan kumpulan data yang sangat banyak, tetapi banyak hal yang perlu dikenali AI — seperti anjing, kucing, atau manusia — sudah mapan. Fokusnya sekarang adalah pada peningkatan akurasi dan penyempurnaan model daripada menciptakan kembali kemampuan pengenalan. Sebagian besar pengembangan AI saat ini berputar di sekitar penutupan celah kecil terakhir dalam akurasi daripada memulai dari awal.

Tantangan Etika dan Dampak UU AI Uni Eropa dan Mitigasi Regulasi AS terhadap Pasar AI Global

Saat membahas etika dan legalitas bekerja dengan data, penting juga untuk memahami dengan jelas apa yang dimaksud dengan AI yang “etis”.

Tantangan etika terbesar yang dihadapi perusahaan saat ini dalam bidang AI adalah menentukan apa yang dianggap tidak dapat diterima untuk dilakukan atau diajarkan dalam AI. Ada konsensus luas bahwa AI yang etis seharusnya membantu daripada merugikan manusia dan menghindari penipuan. Namun, sistem AI dapat membuat kesalahan atau "berhalusinasi", yang menantang penentuan apakah kesalahan ini memenuhi syarat sebagai disinformasi atau bahaya.

Etika AI merupakan perdebatan besar yang melibatkan organisasi seperti UNESCO — dengan prinsip-prinsip utama yang menyertainya auditabilitas dan ketertelusuran dari keluaran.

Kerangka hukum seputar akses data dan pelatihan AI memainkan peran penting dalam membentuk lanskap etika AI. Negara-negara dengan pembatasan penggunaan data yang lebih sedikit memungkinkan data pelatihan yang lebih mudah diakses, sementara negara-negara dengan undang-undang data yang lebih ketat membatasi ketersediaan data untuk pelatihan AI.

Misalnya, Eropa, yang mengadopsi Undang-Undang AI, dan AS, yang telah mencabut banyak regulasi AI, menawarkan pendekatan kontras yang menunjukkan lanskap global saat ini.

Undang-Undang AI Uni Eropa berdampak signifikan terhadap perusahaan yang beroperasi di Eropa. Undang-undang ini memberlakukan kerangka regulasi yang ketat, sehingga menyulitkan bisnis untuk menggunakan atau mengembangkan model AI tertentu. Perusahaan harus memperoleh lisensi khusus untuk bekerja dengan teknologi tertentu, dan dalam banyak kasus, regulasi tersebut secara efektif mempersulit bisnis kecil untuk mematuhi aturan ini.

Akibatnya, beberapa perusahaan rintisan mungkin memilih untuk meninggalkan Eropa atau menghindari beroperasi di sana sama sekali, mirip dengan dampak yang terlihat pada regulasi mata uang kripto. Perusahaan besar yang mampu membiayai investasi yang dibutuhkan untuk memenuhi persyaratan kepatuhan dapat beradaptasi. Namun, Undang-Undang tersebut dapat mendorong inovasi AI keluar dari Eropa demi pasar seperti AS atau Israel, yang regulasinya tidak terlalu ketat.

Keputusan AS untuk menginvestasikan sumber daya besar dalam pengembangan AI dengan batasan yang lebih sedikit mungkin juga memiliki kekurangan, tetapi justru mengundang lebih banyak keragaman di pasar. Meskipun Uni Eropa berfokus pada keselamatan dan kepatuhan regulasi, AS kemungkinan akan mendorong lebih banyak pengambilan risiko dan eksperimen mutakhir.

CEO dan Co-Founder dari Pembuat kunci — sebuah perusahaan anotasi data, dan Keylabs.ai — platform anotasi data. Michael adalah penggemar teknologi dan penjelajah yang bersemangat akan hal-hal luar biasa dan inovasi. Ia telah menjalankan banyak peran sekaligus mempertahankan keahlian mendalam di berbagai bidang utama. Sebagai seorang insinyur perangkat lunak dengan pengalaman dalam pengumpulan data dan latar belakang sebagai manajer R&D, Michael memiliki dasar yang kuat dalam peran teknis dan strategis, bekerja sama erat dengan pengembangan produk dan solusi berbasis AI. Michael mendukung perusahaan rintisan dan perusahaan dalam menyempurnakan operasi bisnis mereka, mencapai kesesuaian produk dengan pasar, dan mendorong pertumbuhan yang lebih cepat. Bekerja dengan AI dan anotasi memungkinkannya untuk terlibat langsung dengan berbagai industri — dari otomotif hingga pertanian — dan berperan dalam mendorong kemajuan dan terobosan mereka.