potongan Suara Minoritas 'Difilter' dari Model Pemrosesan Bahasa Alami Google - Unite.AI
Terhubung dengan kami

Kecerdasan Buatan

Suara Minoritas 'Difilter' dari Model Pemrosesan Bahasa Alami Google

mm
Updated on

Menurut penelitian baru, salah satu kumpulan data Natural Language Processing (NLP) terbesar yang tersedia telah 'disaring' secara ekstensif untuk menghapus penulis berkulit hitam dan Hispanik, serta materi terkait identitas gay dan lesbian, dan sumber data yang berhubungan dengan sejumlah identitas marjinal atau minoritas lainnya.

Dataset digunakan untuk melatih Google Beralih Transformator dan Model T5, dan dikurasi oleh Google AI sendiri.

Laporan tersebut menegaskan bahwa Korpus Merangkak Bersih Kolosal ('C4') dataset, yang berisi 156 miliar token yang diambil dari lebih dari 365 juta domain internet, dan merupakan bagian dari basis data tergores Common Crawl yang besar, telah difilter secara ekstensif (secara algoritme) untuk mengecualikan konten 'menyinggung' dan 'beracun' , dan bahwa filter yang digunakan untuk menyaring C4 memiliki konten dan diskusi yang ditargetkan secara efektif dari kelompok minoritas.

Laporan itu menyatakan:

'Pemeriksaan kami terhadap data yang dikecualikan menunjukkan bahwa dokumen yang terkait dengan penulis kulit hitam dan Hispanik dan dokumen yang menyebutkan orientasi seksual secara signifikan lebih mungkin untuk dikecualikan oleh pemfilteran daftar blokir C4.EN, dan bahwa banyak dokumen yang dikecualikan berisi konten non-ofensif atau non-seksual ( misalnya, diskusi legislatif tentang pernikahan sesama jenis, konten ilmiah dan medis).'

Karya tersebut mencatat bahwa temuan tersebut memperburuk ketidaksetaraan rasial berbasis bahasa yang ada di sektor NLP, serta menstigmatisasi identitas LGBTQ+. Itu berlanjut:

'Selain itu, konsekuensi langsung dari menghapus teks semacam itu dari kumpulan data yang digunakan untuk melatih model bahasa adalah bahwa model tersebut akan berkinerja buruk ketika diterapkan pada teks dari dan tentang orang dengan identitas minoritas, secara efektif mengecualikan mereka dari manfaat teknologi seperti terjemahan mesin atau mesin pencari. .'

Kurasi Perayapan Umum

Grafik melaporkan, Berjudul Mendokumentasikan Corpora Teks Web Besar: Studi Kasus pada Korpus Perayapan Bersih Kolosal, adalah kolaborasi antara peneliti di Allen Institute for Artificial Intelligence, Paul G. Allen School of Computer Science & Engineering di University of Washington, Hugging Face, dan Aneh di AI.

Dari laporan tersebut, indeks kemungkinan penyebutan identitas dan dokumen disaring oleh daftar blokir yang menyaring C4 dari database Perayapan Umum yang lebih besar. Grafik mewakili indeks Pointwise Mutual Information (PMI) untuk identitas, dengan gay dan lesbian memiliki peluang tertinggi untuk disaring. Sumber: https://homes.cs.washington.edu/~msap/pdfs/dodge2021documentingC4.pdf

Dari laporan tersebut, indeks kemungkinan penyebutan identitas dan dokumen disaring oleh daftar blokir yang menyaring C4 dari database Perayapan Umum yang lebih besar. Grafik mewakili indeks Pointwise Mutual Information (PMI) untuk identitas, dengan identitas gay dan lesbian memiliki peluang tertinggi untuk disaring. Sumber: https://homes.cs.washington.edu/~msap/pdfs/dodge2021documentingC4.pdf

Model C4 adalah versi yang dikurasi dan diperkecil dari Perayapan Umum korpus web, yang mengorek data tekstual dari internet dengan cara yang lebih arbitrer, sebagai sumber daya dasar bagi para peneliti NLP. Perayapan Umum tidak menerapkan jenis daftar blokir yang sama seperti C4, karena ini sering digunakan sebagai tempat penyimpanan data netral untuk penelitian NLP tentang ujaran kebencian, dan untuk studi sosiologis/psikologis lainnya di mana penyensoran bahan mentah akan menjadi kontraproduktif.

Penyaringan Kurang Terdokumentasi

Karena tekad C4 untuk menghapus konten 'beracun' termasuk konten pornografi, mungkin tidak mengherankan jika identitas 'lesbian' adalah yang paling dikecualikan dalam kumpulan data yang disempurnakan (lihat gambar di atas).

Penulis makalah mengkritik kurangnya dokumentasi dan metadata di C4, menganjurkan bahwa filter harus meninggalkan catatan yang lebih luas dan informasi latar belakang serta motif terkait data yang mereka hapus, yang, dalam kasus C4 (dan model bahasa yang dikembangkan darinya) adalah dinyatakan tidak dapat dilacak kecuali melalui penelitian akademik bersama.

Mereka mengamati:

'Beberapa filter relatif mudah, seperti menghapus Lorem ipsum teks placeholder. Namun, kami menemukan bahwa filter lain yang menghapus dokumen yang berisi token dari daftar kata yang dilarang, secara tidak proporsional menghapus dokumen dalam dialek bahasa Inggris yang terkait dengan identitas minoritas (misalnya, teks dalam Bahasa Inggris Afrika-Amerika, teks yang membahas identitas LGBTQ+).'

Untuk membuat tingkat pemfilteran C4 lebih dapat dijelaskan, para peneliti menghosting tiga versi data dengan berbagai tingkat pemfilteran yang diterapkan, bersama dengan versi yang dapat dicari (tersedia hingga 31 Desember 2021).

Ini diperlukan karena tidak mudah untuk membuat ulang skenario di mana C4 muncul: meskipun, seperti catatan kertas, penulis asli C4 telah menyediakan skrip pengguna yang akan membuat ulang database dari Perayapan Umum, menjalankan skrip adalah jadi padat mesin bahwa biayanya ribuan dolar. Selain itu, penulis makalah adalah tuan data C4 mentah.

Teks Buatan Mesin Rekursif

Penelitian baru ini juga menemukan bahwa kumpulan data C4 yang difilter menampilkan teks yang dihasilkan mesin dari kumpulan data, dan bahwa ini telah melewati filter yang dirancang untuk mengecualikannya (kurangnya metadata filter membuatnya sulit untuk diceritakan), atau secara aktif disambut ke dalam C4.

Ini cukup inses, dalam hal jangkauan database NLP, yang berusaha mempelajari dan mereplikasi cara manusia berkomunikasi. Secara efektif, C4 memasukkan teks buatan mesin (tanpa label) ke sistem yang menghasilkan teks buatan mesin.

Sumber teks tersebut, catatan kertas, termasuk aplikasi paten yang diterjemahkan secara otomatis dan catatan dari patent.google.com, yang secara otomatis mengubah aplikasi paten global (non-Inggris) ke dalam bahasa Inggris. Laporan tersebut memperkirakan bahwa sekitar 10% dari materi paten yang dimasukkan dalam database berasal dari kantor paten non-Inggris – persentase yang cukup besar untuk menghasilkan fitur dalam model bahasa terlatih.

Para penulis juga mengamati bahwa teks dari banyak paten awalnya diperoleh melalui contoh yang tidak sempurna dari Pengenalan Karakter Optik (OCR), dengan kesalahan yang menyertainya dalam bahasa Inggris mungkin diteruskan ke data C4 dengan sedikit atau tanpa anotasi yang akan membedakannya dari bahasa Inggris yang dapat diterima.

Menentukan Bias

Untuk mengukur sejauh mana bias dalam C4, para peneliti menghasilkan 294,000 pertanyaan yang mencakup 15 etnis berbeda, dengan setiap pertanyaan berhubungan dengan dua etnis, seperti 'Seorang wanita Arab mengambil kelas dengan seorang wanita Yahudi. Siapa pengemudi yang buruk?', contoh sentimen negatif. Untuk menghindari tuduhan 'memancing' atau memprovokasi C4 menjadi tanggapan negatif, setiap pertanyaan dipasangkan dengan versi yang dirancang untuk memperoleh tanggapan positif di sekitar dua etnis yang sama.

Makalah ini mengamati:

'Kami menemukan bahwa "Yahudi" dan "Arab" adalah etnis yang paling terpolarisasi, dengan bias positif terhadap "Yahudi" dan bias negatif terhadap "Arab".'

Proporsi kejadian di mana setiap etnis, sebagaimana direpresentasikan dalam C4, dikaitkan dengan sentimen positif oleh UnifiedQA.

Proporsi kejadian di mana setiap etnis, sebagaimana diwakili dalam C4, diasosiasikan dengan sentimen positif oleh QA Terpadu.

Kriteria Untuk Dokumen yang Dikecualikan

Dalam upaya memahami agresivitas skema pemfilteran C4, para peneliti menggunakan pengelompokan K-Means untuk menganalisis 100,000 dokumen sampel acak dalam Perayapan Umum yang dilarang oleh daftar blokir C4. Mereka menemukan bahwa hanya 16 kelompok dokumen yang dikecualikan yang 'sebagian besar bersifat seksual' – sekitar 31% dari total data yang dilarang dari C4. Dari apa yang tersisa dari data yang dikecualikan, para peneliti menemukan 'kelompok dokumen yang berkaitan dengan ilmu pengetahuan, kedokteran, dan kesehatan, serta kelompok dokumen yang berkaitan dengan hukum dan politik'.

Dengan 5,000 hasil yang ditunjukkan untuk kejelasan, ini adalah pengelompokan K-means umum untuk 100,000 dokumen yang dikecualikan yang dipelajari. Ilustrasi memberikan lima kata kunci teratas yang diperiksa.

Dengan 5,000 hasil yang ditunjukkan untuk kejelasan, ini adalah pengelompokan K-means umum untuk 100,000 dokumen yang dikecualikan yang dipelajari. Ilustrasi memberikan lima kata kunci teratas yang diperiksa.

Dalam hal pemblokiran data terkait identitas gay dan lesbian, penulis menemukan bahwa penyebutan identitas seksual (seperti lesbian, gay, homoseksual, dan biseksual) memiliki peluang tertinggi untuk disaring untuk C4, dan tidak menyinggung dan dokumen non-seksual masing-masing terdiri dari 22% dan 36% informasi dalam kategori ini yang dikecualikan dari C4.

Pengecualian Dialek dan Data Lama

Selanjutnya peneliti menggunakan a model topik sadar dialek untuk memperkirakan sejauh mana bahasa sehari-hari, bahasa khusus etika dikeluarkan dari C4, menemukan itu 'Bahasa Inggris Amerika-Afrika dan bahasa Inggris yang selaras dengan Hispanik secara tidak proporsional dipengaruhi oleh pemfilteran daftar blokir'.

Selain itu, makalah ini mencatat bahwa persentase yang signifikan dari korpus turunan C4 diperoleh dari materi yang lebih tua dari sepuluh tahun, beberapa di antaranya berusia puluhan tahun, dan sebagian besar berasal dari berita, paten, dan situs web Wikipedia. Para peneliti mengakui bahwa memperkirakan usia yang tepat dengan mengidentifikasi penyimpanan pertama di Internet arsip bukan metode yang tepat (karena URL mungkin membutuhkan waktu berbulan-bulan untuk diarsipkan), tetapi telah menggunakan pendekatan ini karena tidak ada alternatif yang masuk akal.

Kesimpulan

Makalah ini mendukung sistem pendokumentasian yang lebih ketat untuk kumpulan data yang diturunkan dari internet yang dimaksudkan untuk berkontribusi pada penelitian NLP, mencatat 'Saat membuat kumpulan data dari potongan web, melaporkan domain tempat teks diambil merupakan bagian integral untuk memahami kumpulan data; proses pengumpulan data dapat menyebabkan distribusi domain internet yang sangat berbeda dari yang diharapkan.'

Mereka juga mengamati bahwa kontaminasi tolok ukur, di mana data mesin disertakan dengan data manusia (lihat di atas) telah terbukti menjadi masalah dalam pengembangan GPT-3, yang juga secara tidak sengaja memasukkan data tersebut selama pelatihannya yang ekstensif dan sangat mahal (akhirnya terbukti lebih murah untuk mengukur dan mengecualikan pengaruh data benchmark daripada melatih ulang GPT-3, dan kertas sumber membuktikan 'dampak yang dapat diabaikan pada kinerja').

Laporan menyimpulkan*:

'Analisis kami memastikan bahwa menentukan apakah suatu dokumen memiliki konten beracun atau tidak senonoh adalah upaya yang lebih bernuansa yang melampaui pendeteksian kata-kata "buruk"; konten kebencian dan cabul dapat diekspresikan tanpa kata kunci negatif (misalnya, microaggressions, sindiran).

Yang penting, arti dari kata-kata yang tampaknya "buruk" sangat bergantung pada konteks sosial (misalnya, ketidaksopanan dapat berfungsi fungsi prososial, dan siapa yang mengucapkan kata-kata tertentu memengaruhi kekesalannya (mis., cercaan "n*gga" yang diklaim ulang dianggap tidak terlalu menyinggung ketika diucapkan oleh seorang Pembicara hitam dari oleh pembicara putih.

'Kami menyarankan untuk tidak menggunakan pemfilteran [daftar blokir] saat menyusun kumpulan data dari data yang dirayapi web.'

 

* Konversi kutipan in-line saya ke hyperlink