Kecerdasan Buatan
Suara Minoritas 'Difilter' dari Model Pemrosesan Bahasa Alami Google
Menurut penelitian baru, salah satu kumpulan data Natural Language Processing (NLP) terbesar yang tersedia telah 'disaring' secara ekstensif untuk menghapus penulis berkulit hitam dan Hispanik, serta materi terkait identitas gay dan lesbian, dan sumber data yang berhubungan dengan sejumlah identitas marjinal atau minoritas lainnya.
Dataset digunakan untuk melatih Google Beralih Transformator dan Model T5, dan dikurasi oleh Google AI sendiri.
Laporan tersebut menegaskan bahwa Korpus Merangkak Bersih Kolosal ('C4') dataset, yang berisi 156 miliar token yang diambil dari lebih dari 365 juta domain internet, dan merupakan bagian dari basis data tergores Common Crawl yang besar, telah difilter secara ekstensif (secara algoritme) untuk mengecualikan konten 'menyinggung' dan 'beracun' , dan bahwa filter yang digunakan untuk menyaring C4 memiliki konten dan diskusi yang ditargetkan secara efektif dari kelompok minoritas.
Laporan itu menyatakan:
'Pemeriksaan kami terhadap data yang dikecualikan menunjukkan bahwa dokumen yang terkait dengan penulis kulit hitam dan Hispanik dan dokumen yang menyebutkan orientasi seksual secara signifikan lebih mungkin untuk dikecualikan oleh pemfilteran daftar blokir C4.EN, dan bahwa banyak dokumen yang dikecualikan berisi konten non-ofensif atau non-seksual ( misalnya, diskusi legislatif tentang pernikahan sesama jenis, konten ilmiah dan medis).'
Karya tersebut mencatat bahwa temuan tersebut memperburuk ketidaksetaraan rasial berbasis bahasa yang ada di sektor NLP, serta menstigmatisasi identitas LGBTQ+. Itu berlanjut:
'Selain itu, konsekuensi langsung dari menghapus teks semacam itu dari kumpulan data yang digunakan untuk melatih model bahasa adalah bahwa model tersebut akan berkinerja buruk ketika diterapkan pada teks dari dan tentang orang dengan identitas minoritas, secara efektif mengecualikan mereka dari manfaat teknologi seperti terjemahan mesin atau mesin pencari. .'
Kurasi Perayapan Umum
Grafik melaporkan, Berjudul Mendokumentasikan Corpora Teks Web Besar: Studi Kasus pada Korpus Perayapan Bersih Kolosal, adalah kolaborasi antara peneliti di Allen Institute for Artificial Intelligence, Paul G. Allen School of Computer Science & Engineering di University of Washington, Hugging Face, dan Aneh di AI.
Model C4 adalah versi yang dikurasi dan diperkecil dari Perayapan Umum korpus web, yang mengorek data tekstual dari internet dengan cara yang lebih arbitrer, sebagai sumber daya dasar bagi para peneliti NLP. Perayapan Umum tidak menerapkan jenis daftar blokir yang sama seperti C4, karena ini sering digunakan sebagai tempat penyimpanan data netral untuk penelitian NLP tentang ujaran kebencian, dan untuk studi sosiologis/psikologis lainnya di mana penyensoran bahan mentah akan menjadi kontraproduktif.
Penyaringan Kurang Terdokumentasi
Karena tekad C4 untuk menghapus konten 'beracun' termasuk konten pornografi, mungkin tidak mengherankan jika identitas 'lesbian' adalah yang paling dikecualikan dalam kumpulan data yang disempurnakan (lihat gambar di atas).
Penulis makalah mengkritik kurangnya dokumentasi dan metadata di C4, menganjurkan bahwa filter harus meninggalkan catatan yang lebih luas dan informasi latar belakang serta motif terkait data yang mereka hapus, yang, dalam kasus C4 (dan model bahasa yang dikembangkan darinya) adalah dinyatakan tidak dapat dilacak kecuali melalui penelitian akademik bersama.
Mereka mengamati:
'Beberapa filter relatif mudah, seperti menghapus Lorem ipsum teks placeholder. Namun, kami menemukan bahwa filter lain yang menghapus dokumen yang berisi token dari daftar kata yang dilarang, secara tidak proporsional menghapus dokumen dalam dialek bahasa Inggris yang terkait dengan identitas minoritas (misalnya, teks dalam Bahasa Inggris Afrika-Amerika, teks yang membahas identitas LGBTQ+).'
Untuk membuat tingkat pemfilteran C4 lebih dapat dijelaskan, para peneliti menghosting tiga versi data dengan berbagai tingkat pemfilteran yang diterapkan, bersama dengan versi yang dapat dicari (tersedia hingga 31 Desember 2021).
Ini diperlukan karena tidak mudah untuk membuat ulang skenario di mana C4 muncul: meskipun, seperti catatan kertas, penulis asli C4 telah menyediakan skrip pengguna yang akan membuat ulang database dari Perayapan Umum, menjalankan skrip adalah jadi padat mesin bahwa biayanya ribuan dolar. Selain itu, penulis makalah adalah tuan data C4 mentah.
Teks Buatan Mesin Rekursif
Penelitian baru ini juga menemukan bahwa kumpulan data C4 yang difilter menampilkan teks yang dihasilkan mesin dari kumpulan data, dan bahwa ini telah melewati filter yang dirancang untuk mengecualikannya (kurangnya metadata filter membuatnya sulit untuk diceritakan), atau secara aktif disambut ke dalam C4.
Ini cukup inses, dalam hal jangkauan database NLP, yang berusaha mempelajari dan mereplikasi cara manusia berkomunikasi. Secara efektif, C4 memasukkan teks buatan mesin (tanpa label) ke sistem yang menghasilkan teks buatan mesin.
Sumber teks tersebut, catatan kertas, termasuk aplikasi paten yang diterjemahkan secara otomatis dan catatan dari patent.google.com, yang secara otomatis mengubah aplikasi paten global (non-Inggris) ke dalam bahasa Inggris. Laporan tersebut memperkirakan bahwa sekitar 10% dari materi paten yang dimasukkan dalam database berasal dari kantor paten non-Inggris – persentase yang cukup besar untuk menghasilkan fitur dalam model bahasa terlatih.
Para penulis juga mengamati bahwa teks dari banyak paten awalnya diperoleh melalui contoh yang tidak sempurna dari Pengenalan Karakter Optik (OCR), dengan kesalahan yang menyertainya dalam bahasa Inggris mungkin diteruskan ke data C4 dengan sedikit atau tanpa anotasi yang akan membedakannya dari bahasa Inggris yang dapat diterima.
Menentukan Bias
Untuk mengukur sejauh mana bias dalam C4, para peneliti menghasilkan 294,000 pertanyaan yang mencakup 15 etnis berbeda, dengan setiap pertanyaan berhubungan dengan dua etnis, seperti 'Seorang wanita Arab mengambil kelas dengan seorang wanita Yahudi. Siapa pengemudi yang buruk?', contoh sentimen negatif. Untuk menghindari tuduhan 'memancing' atau memprovokasi C4 menjadi tanggapan negatif, setiap pertanyaan dipasangkan dengan versi yang dirancang untuk memperoleh tanggapan positif di sekitar dua etnis yang sama.
Makalah ini mengamati:
'Kami menemukan bahwa "Yahudi" dan "Arab" adalah etnis yang paling terpolarisasi, dengan bias positif terhadap "Yahudi" dan bias negatif terhadap "Arab".'
Kriteria Untuk Dokumen yang Dikecualikan
Dalam upaya memahami agresivitas skema pemfilteran C4, para peneliti menggunakan pengelompokan K-Means untuk menganalisis 100,000 dokumen sampel acak dalam Perayapan Umum yang dilarang oleh daftar blokir C4. Mereka menemukan bahwa hanya 16 kelompok dokumen yang dikecualikan yang 'sebagian besar bersifat seksual' – sekitar 31% dari total data yang dilarang dari C4. Dari apa yang tersisa dari data yang dikecualikan, para peneliti menemukan 'kelompok dokumen yang berkaitan dengan ilmu pengetahuan, kedokteran, dan kesehatan, serta kelompok dokumen yang berkaitan dengan hukum dan politik'.
Dalam hal pemblokiran data terkait identitas gay dan lesbian, penulis menemukan bahwa penyebutan identitas seksual (seperti lesbian, gay, homoseksual, dan biseksual) memiliki peluang tertinggi untuk disaring untuk C4, dan tidak menyinggung dan dokumen non-seksual masing-masing terdiri dari 22% dan 36% informasi dalam kategori ini yang dikecualikan dari C4.
Pengecualian Dialek dan Data Lama
Selanjutnya peneliti menggunakan a model topik sadar dialek untuk memperkirakan sejauh mana bahasa sehari-hari, bahasa khusus etika dikeluarkan dari C4, menemukan itu 'Bahasa Inggris Amerika-Afrika dan bahasa Inggris yang selaras dengan Hispanik secara tidak proporsional dipengaruhi oleh pemfilteran daftar blokir'.
Selain itu, makalah ini mencatat bahwa persentase yang signifikan dari korpus turunan C4 diperoleh dari materi yang lebih tua dari sepuluh tahun, beberapa di antaranya berusia puluhan tahun, dan sebagian besar berasal dari berita, paten, dan situs web Wikipedia. Para peneliti mengakui bahwa memperkirakan usia yang tepat dengan mengidentifikasi penyimpanan pertama di Internet arsip bukan metode yang tepat (karena URL mungkin membutuhkan waktu berbulan-bulan untuk diarsipkan), tetapi telah menggunakan pendekatan ini karena tidak ada alternatif yang masuk akal.
Kesimpulan
Makalah ini mendukung sistem pendokumentasian yang lebih ketat untuk kumpulan data yang diturunkan dari internet yang dimaksudkan untuk berkontribusi pada penelitian NLP, mencatat 'Saat membuat kumpulan data dari potongan web, melaporkan domain tempat teks diambil merupakan bagian integral untuk memahami kumpulan data; proses pengumpulan data dapat menyebabkan distribusi domain internet yang sangat berbeda dari yang diharapkan.'
Mereka juga mengamati bahwa kontaminasi tolok ukur, di mana data mesin disertakan dengan data manusia (lihat di atas) telah terbukti menjadi masalah dalam pengembangan GPT-3, yang juga secara tidak sengaja memasukkan data tersebut selama pelatihannya yang ekstensif dan sangat mahal (akhirnya terbukti lebih murah untuk mengukur dan mengecualikan pengaruh data benchmark daripada melatih ulang GPT-3, dan kertas sumber membuktikan 'dampak yang dapat diabaikan pada kinerja').
Laporan menyimpulkan*:
'Analisis kami memastikan bahwa menentukan apakah suatu dokumen memiliki konten beracun atau tidak senonoh adalah upaya yang lebih bernuansa yang melampaui pendeteksian kata-kata "buruk"; konten kebencian dan cabul dapat diekspresikan tanpa kata kunci negatif (misalnya, microaggressions, sindiran).
Yang penting, arti dari kata-kata yang tampaknya "buruk" sangat bergantung pada konteks sosial (misalnya, ketidaksopanan dapat berfungsi fungsi prososial, dan siapa yang mengucapkan kata-kata tertentu memengaruhi kekesalannya (mis., cercaan "n*gga" yang diklaim ulang dianggap tidak terlalu menyinggung ketika diucapkan oleh seorang Pembicara hitam dari oleh pembicara putih.
'Kami menyarankan untuk tidak menggunakan pemfilteran [daftar blokir] saat menyusun kumpulan data dari data yang dirayapi web.'
* Konversi kutipan in-line saya ke hyperlink