Connect with us

Kecerdasan buatan

Ilmuwan Komputer Menangani Bias di AI

mm

Ilmuwan komputer dari Princeton dan Stanford University sekarang menangani masalah bias di kecerdasan buatan (AI). Mereka bekerja pada metode yang menghasilkan kumpulan data yang lebih adil yang berisi gambar orang. Peneliti bekerja sama dengan ImageNet, yang merupakan database lebih dari 13 juta gambar. Selama dekade terakhir, ImageNet telah membantu kemajuan penglihatan komputer. Dengan menggunakan metode mereka, peneliti kemudian merekomendasikan perbaikan untuk database. 

ImageNet termasuk gambar objek, lanskap, dan orang. Peneliti yang membuat algoritma pembelajaran mesin yang mengklasifikasikan gambar menggunakan ImageNet sebagai sumber data. Karena ukuran database yang sangat besar, diperlukan pengumpulan gambar otomatis dan anotasi gambar crowdsourced. Sekarang, tim ImageNet bekerja untuk memperbaiki bias dan masalah lainnya. Gambar sering kali berisi orang yang merupakan konsekuensi tidak sengaja dari konstruksi ImageNet.

Olga Russakovsky adalah co-penulis dan asisten profesor ilmu komputer di Princeton. 

“Penglihatan komputer sekarang bekerja sangat baik, yang berarti itu diterapkan di mana-mana dalam berbagai konteks,” katanya. “Ini berarti bahwa sekarang adalah waktu untuk membicarakan tentang dampaknya terhadap dunia dan memikirkan tentang masalah kesetaraan ini.”

Dalam makalah baru, tim ImageNet secara sistematis mengidentifikasi konsep non-visual dan kategori ofensif. Kategori ini termasuk karakterisasi rasial dan seksual, dan tim mengusulkan menghapusnya dari database. Tim juga mengembangkan alat yang memungkinkan pengguna untuk menentukan dan mengambil kumpulan gambar orang, dan dapat dilakukan dengan usia, ekspresi gender, dan warna kulit. Tujuannya adalah untuk menciptakan algoritma yang lebih adil mengklasifikasikan wajah dan aktivitas orang dalam gambar. 

Pekerjaan yang dilakukan oleh peneliti dipresentasikan pada 30 Januari di Konferensi Asosiasi untuk Mesin Komputasi tentang Kesetaraan, Akuntabilitas, dan Transparansi di Barcelona, Spanyol. 

“Ada kebutuhan yang sangat besar bagi peneliti dan laboratorium dengan keahlian teknis inti dalam hal ini untuk terlibat dalam diskusi ini,” kata Russakovsky. “Mengingat kenyataan bahwa kita perlu mengumpulkan data dalam skala besar, mengingat kenyataan bahwa itu akan dilakukan dengan crowdsourcing karena itu adalah pipa yang paling efisien dan mapan, bagaimana kita melakukannya dengan cara yang lebih adil — yang tidak jatuh ke dalam lubang yang sama? Pesan inti dari makalah ini adalah tentang solusi konstruktif.”

ImageNet diluncurkan pada 2009 oleh sekelompok ilmuwan komputer di Princeton dan Stanford. Ini dimaksudkan untuk berfungsi sebagai sumber daya untuk peneliti akademis dan pendidik. Pembuatan sistem ini dipimpin oleh alumni dan anggota fakultas Princeton Fei-Fei Li. 

ImageNet dapat menjadi database gambar yang dilabeli yang sangat besar melalui penggunaan crowdsourcing. Salah satu platform utama yang digunakan adalah Amazon Mechanical Turk (MTurk), dan pekerja dibayar untuk memverifikasi gambar kandidat. Ini menyebabkan beberapa masalah, dan ada banyak bias dan kategorisasi yang tidak tepat. 

Penulis utama Kaiyu Yang adalah mahasiswa pascasarjana ilmu komputer. 

“Ketika Anda meminta orang untuk memverifikasi gambar dengan memilih gambar yang benar dari kumpulan kandidat yang besar, orang merasa terpaksa untuk memilih beberapa gambar dan gambar tersebut cenderung memiliki fitur yang khas atau stereotip,” katanya. 

Bagian pertama dari studi ini melibatkan penyaringan kategori orang yang berpotensi ofensif atau sensitif dari ImageNet. Kategori ofensif didefinisikan sebagai kategori yang berisi kata-kata kasar atau kata-kata rasial atau gender. Salah satu kategori sensitif adalah klasifikasi orang berdasarkan orientasi seksual atau agama. Dua belas mahasiswa pascasarjana dari latar belakang yang beragam dibawa untuk menganotasi kategori, dan mereka diberi instruksi untuk menandai kategori sebagai sensitif jika mereka tidak yakin. Sekitar 54% dari kategori dihilangkan, atau 1.593 dari 2.932 kategori orang di ImageNet. 

Pekerja MTurk kemudian menilai “imageability” dari kategori yang tersisa pada skala 1 hingga 5. 158 kategori diklasifikasikan sebagai aman dan dapat diimajinasikan, dengan peringkat 4 atau lebih tinggi. Kumpulan kategori yang disaring ini termasuk lebih dari 133.000 gambar, yang dapat sangat berguna untuk melatih algoritma penglihatan komputer. 

Peneliti mempelajari representasi demografis orang dalam gambar, dan tingkat bias di ImageNet dievaluasi. Konten yang disumber dari mesin pencari sering kali memberikan hasil yang lebih banyak mewakili laki-laki, orang dengan kulit terang, dan dewasa antara usia 18 dan 40.

“Orang telah menemukan bahwa distribusi demografi dalam hasil pencarian gambar sangat berat sebelah, dan ini adalah alasan mengapa distribusi di ImageNet juga berat sebelah,” kata Yang. “Dalam makalah ini kita mencoba memahami seberapa berat sebelahnya, dan juga untuk mengusulkan metode untuk menyeimbangkan distribusi.”

Peneliti mempertimbangkan tiga atribut yang juga dilindungi oleh hukum anti-diskriminasi AS: warna kulit, ekspresi gender, dan usia. Pekerja MTurk kemudian menganotasi setiap atribut dari setiap orang dalam gambar. 

Hasilnya menunjukkan bahwa konten ImageNet memiliki bias yang cukup besar. Yang paling kurang terwakili adalah orang dengan kulit gelap, perempuan, dan dewasa di atas usia 40.

Alat antarmuka web dirancang yang memungkinkan pengguna untuk mendapatkan kumpulan gambar yang seimbang secara demografis dengan cara yang dipilih pengguna. 

“Kita tidak ingin mengatakan apa cara yang benar untuk menyeimbangkan demografi, karena itu bukanlah masalah yang sederhana,” kata Yang. “Distribusi bisa berbeda di berbagai bagian dunia — distribusi warna kulit di AS berbeda dengan di negara-negara Asia, misalnya. Jadi kita meninggalkan pertanyaan itu kepada pengguna kita, dan kita hanya menyediakan alat untuk mengambil subset gambar yang seimbang.”

Tim ImageNet sekarang bekerja pada pembaruan teknis perangkat keras dan database. Mereka juga berusaha untuk menerapkan penyaringan kategori orang dan alat penyeimbangan yang dikembangkan dalam penelitian ini. ImageNet akan segera dirilis ulang dengan pembaruan, bersama dengan panggilan untuk umpan balik dari komunitas penelitian penglihatan komputer. 

Makalah ini juga ditulis oleh mahasiswa Ph.D. Princeton Klint Qinami dan Asisten Profesor Ilmu Komputer Jia Deng. Penelitian ini didukung oleh National Science Foundation.  

Alex McFarland adalah seorang jurnalis dan penulis AI yang menjelajahi perkembangan terbaru dalam kecerdasan buatan. Ia telah berkolaborasi dengan berbagai startup dan publikasi AI di seluruh dunia.