Terhubung dengan kami

Kecerdasan Buatan

Monokultur Data dalam AI: Ancaman terhadap Keberagaman dan Inovasi

mm
Updated on

AI mengubah dunia, mulai dari mengubah layanan kesehatan hingga mereformasi pendidikan. AI mengatasi tantangan lama dan membuka kemungkinan yang tidak pernah kita duga sebelumnya. Data merupakan pusat revolusi ini—bahan bakar yang menggerakkan setiap model AI. Data memungkinkan sistem ini membuat prediksi, menemukan pola, dan memberikan solusi yang memengaruhi kehidupan kita sehari-hari.

Namun, meskipun data yang melimpah ini mendorong inovasi, dominasi kumpulan data yang seragam—yang sering disebut sebagai monokultur data—menimbulkan risiko yang signifikan terhadap keberagaman dan kreativitas dalam pengembangan AI. Ini seperti pertanian monokultur, di mana menanam tanaman yang sama di lahan yang luas membuat ekosistem menjadi rapuh dan rentan terhadap hama dan penyakit. Dalam AI, mengandalkan kumpulan data yang seragam menciptakan model yang kaku, bias, dan sering kali tidak dapat diandalkan.

Artikel ini mengupas tuntas konsep monokultur data, mengkaji apa itu, mengapa hal itu masih ada, risiko yang ditimbulkannya, dan langkah-langkah yang dapat kita ambil untuk membangun sistem AI yang lebih cerdas, lebih adil, dan lebih inklusif.

Memahami Monokultur Data

Monokultur data terjadi ketika satu set data atau sekumpulan sumber data yang sempit mendominasi pelatihan sistem AI. Pengenalan wajah adalah contoh monokultur data yang terdokumentasi dengan baik dalam AI. Studi dari MIT Media Lab menemukan bahwa model yang dilatih terutama pada gambar individu berkulit terang kesulitan mengenali wajah berkulit gelap. Tingkat kesalahan untuk wanita berkulit gelap mencapai 34.7%, dibandingkan dengan hanya 0.8% untuk pria berkulit terang. Hasil ini menyoroti dampak data pelatihan yang tidak menyertakan cukup keragaman warna kulit.

Masalah serupa muncul di bidang lain. Misalnya, model bahasa besar (LLM) seperti GPT milik OpenAI dan Bard milik Google dilatih pada kumpulan data yang sangat bergantung pada konten berbahasa Inggris yang sebagian besar bersumber dari konteks Barat. Kurangnya keragaman ini membuat mereka kurang akurat dalam memahami bahasa dan nuansa budaya dari belahan dunia lain. Negara-negara seperti India berkembang LLM yang lebih mencerminkan bahasa dan nilai budaya lokal.

Masalah ini bisa jadi kritis, terutama di bidang seperti perawatan kesehatan. Misalnya, alat diagnostik medis yang terutama dilatih pada data dari populasi Eropa mungkin tidak berfungsi dengan baik di wilayah dengan faktor genetik dan lingkungan yang berbeda.

Dari Mana Datangnya Monokultur Data

Monokultur data dalam AI terjadi karena berbagai alasan. Kumpulan data populer seperti IMAGEnet dan COCO sangat besar, mudah diakses, dan digunakan secara luas. Namun, data tersebut sering kali mencerminkan pandangan yang sempit dan berpusat pada Barat. Mengumpulkan data yang beragam tidaklah murah, sehingga banyak organisasi yang lebih kecil bergantung pada kumpulan data yang ada ini. Ketergantungan ini memperkuat kurangnya variasi.

Standardisasi juga merupakan faktor kunci. Peneliti sering kali menggunakan kumpulan data yang dikenal luas untuk membandingkan hasil mereka, yang secara tidak sengaja menghambat eksplorasi sumber-sumber alternatif. Tren ini menciptakan siklus umpan balik di mana setiap orang mengoptimalkan tolok ukur yang sama alih-alih memecahkan masalah dunia nyata.

Terkadang, masalah ini terjadi karena kelalaian. Pembuat kumpulan data mungkin secara tidak sengaja mengabaikan kelompok, bahasa, atau wilayah tertentu. Misalnya, versi awal asisten suara seperti Siri tidak dapat menangani aksen non-Barat dengan baik. Alasannya adalah karena pengembang tidak menyertakan cukup data dari wilayah tersebut. Kelalaian ini menciptakan alat yang gagal memenuhi kebutuhan audiens global.

Mengapa hal itu penting

Seiring dengan semakin menonjolnya peran AI dalam pengambilan keputusan, monokultur data dapat menimbulkan konsekuensi di dunia nyata. Model AI dapat memperkuat diskriminasi ketika mewarisi bias dari data pelatihannya. algoritma perekrutan dilatih dengan data dari industri yang didominasi laki-laki mungkin secara tidak sengaja lebih mengutamakan kandidat laki-laki, sehingga mengesampingkan perempuan yang memenuhi syarat dari pertimbangan.

Representasi budaya adalah tantangan lainnya. Sistem rekomendasi seperti Netflix dan Spotify sering kali disukai Preferensi Barat, mengesampingkan konten dari budaya lain. Diskriminasi ini membatasi pengalaman pengguna dan menghambat inovasi dengan membuat ide-ide tetap sempit dan repetitif.

Sistem AI juga bisa menjadi rapuh jika dilatih dengan data yang terbatas. Selama pandemi COVID-19, model medis dilatih dengan data pra-pandemi gagal untuk beradaptasi dengan kompleksitas krisis kesehatan global. Kekakuan ini dapat membuat sistem AI kurang berguna saat menghadapi situasi yang tidak terduga.

Monokultur data juga dapat menimbulkan masalah etika dan hukum. Perusahaan seperti Twitter dan Apple telah menghadapi reaksi keras dari publik karena algoritma yang bias. Alat pemotongan gambar Twitter dituduh bias rasial, sementara algoritma kredit Apple Card diduga menawarkan batasan yang lebih rendah bagi perempuan. Kontroversi ini merusak kepercayaan terhadap produk dan menimbulkan pertanyaan tentang akuntabilitas dalam pengembangan AI.

Cara Memperbaiki Monokultur Data

Memecahkan masalah monokultur data menuntut perluasan jangkauan data yang digunakan untuk melatih sistem AI. Tugas ini memerlukan pengembangan alat dan teknologi yang memudahkan pengumpulan data dari berbagai sumber. Proyek seperti Suara Umum Mozilla, misalnya, mengumpulkan sampel suara dari orang-orang di seluruh dunia, menciptakan kumpulan data yang lebih kaya dengan berbagai aksen dan bahasa—demikian pula, inisiatif seperti Data for AI milik UNESCO berfokus pada penyertaan komunitas yang kurang terwakili.

Menetapkan pedoman etika adalah langkah penting lainnya. Kerangka kerja seperti Deklarasi Toronto mempromosikan transparansi dan inklusivitas untuk memastikan bahwa sistem AI dirancang secara adil. Kebijakan tata kelola data yang kuat terinspirasi oleh GDPR Peraturan juga dapat membuat perbedaan besar. Peraturan tersebut mengharuskan dokumentasi sumber data yang jelas dan meminta pertanggungjawaban organisasi untuk memastikan keberagaman.

Platform sumber terbuka juga dapat membuat perbedaan. Misalnya, memeluk wajahRepositori Dataset memungkinkan peneliti untuk mengakses dan berbagi data yang beragam. Model kolaboratif ini mempromosikan ekosistem AI, mengurangi ketergantungan pada dataset yang sempit. Transparansi juga memainkan peran penting. Menggunakan AI yang bisa dijelaskan sistem dan penerapan pemeriksaan rutin dapat membantu mengidentifikasi dan mengoreksi bias. Penjelasan ini penting untuk menjaga agar model tetap adil dan adaptif.

Membangun tim yang beragam mungkin merupakan langkah yang paling berdampak dan mudah. ​​Tim dengan latar belakang yang beragam lebih baik dalam menemukan titik buta dalam data dan merancang sistem yang berfungsi untuk lebih banyak pengguna. Tim yang inklusif menghasilkan hasil yang lebih baik, membuat AI lebih cerdas dan lebih adil.

The Bottom Line

AI memiliki potensi yang luar biasa, tetapi efektivitasnya bergantung pada kualitas datanya. Monokultur data membatasi potensi ini, menghasilkan sistem yang bias dan tidak fleksibel yang terputus dari kebutuhan dunia nyata. Untuk mengatasi tantangan ini, pengembang, pemerintah, dan masyarakat harus berkolaborasi untuk mendiversifikasi kumpulan data, menerapkan praktik yang etis, dan membina tim yang inklusif.
Dengan menangani masalah ini secara langsung, kita dapat menciptakan AI yang lebih cerdas dan adil, yang mencerminkan keberagaman dunia yang ingin dilayaninya.

Dr. Tehseen Zia adalah Associate Professor Tetap di COMSATS University Islamabad, memegang gelar PhD di bidang AI dari Vienna University of Technology, Austria. Mengkhususkan diri dalam Kecerdasan Buatan, Pembelajaran Mesin, Ilmu Data, dan Visi Komputer, ia telah memberikan kontribusi yang signifikan dengan publikasi di jurnal ilmiah terkemuka. Dr. Tehseen juga memimpin berbagai proyek industri sebagai Penyelidik Utama dan menjabat sebagai Konsultan AI.