Kecerdasan buatan

Solusi Apple untuk Menerjemahkan Bahasa yang Bersifat Gender

Published October 8, 2024

Updated April 3, 2026

Martin Anderson

A photo of the Rosetta Stone, with a woman out of focus in the background, looking at the stone. Source: https://smarthistory.org/the-rosetta-stone/

Apple baru saja menerbitkan sebuah makalah, bekerja sama dengan USC, yang mengeksplorasi metode pembelajaran mesin yang digunakan untuk memberi pengguna sistem operasi iOS18 lebih banyak pilihan tentang gender ketika menerjemahkan.

Di iOS18, pengguna dapat memilih saran gender alternatif untuk kata yang diterjemahkan di aplikasi Terjemahkan asli. Sumber: https://support.apple.com/guide/iphone/translate-text-voice-and-conversations-iphd74cb450f/ios

Meskipun masalah yang ditangani dalam karya (yang Apple umumkan di sini) terlibat, sampai batas tertentu, dalam debat topikal saat ini tentang definisi gender, itu berfokus pada masalah yang jauh lebih lama: fakta bahwa 84 dari 229 bahasa yang diketahui di dunia menggunakan sistem gender berbasis kelamin.

Titik merah menunjukkan bahasa yang menggunakan sistem gender berbasis kelamin. Sumber: https://wals.info/feature/31A#map

Secara mengejutkan, bahasa Inggris jatuh ke dalam kategori berbasis kelamin, karena itu menetapkan kata ganti tunggal maskulin atau feminin.

Sebaliknya, semua bahasa Roman (termasuk lebih dari setengah miliar penutur Spanyol) – dan beberapa bahasa populer lainnya, seperti Rusia – memerlukan kesepakatan gender dengan cara yang memaksa sistem penerjemahan untuk menangani penugasan kelamin dalam bahasa.

Makalah baru ini menggambarkan hal ini dengan mengamati semua terjemahan Spanyol yang mungkin dari kalimat Sekretaris itu marah dengan bos:

Dari makalah baru, contoh penugasan gender potensial dalam kalimat ‘Sekretaris itu marah dengan bos’, menerjemahkan dari Inggris ke Spanyol. Sumber: https://arxiv.org/pdf/2407.20438

Penerjemahan naif jauh dari cukup untuk teks yang lebih panjang, yang mungkin menetapkan gender di awal (‘Dia’, ‘Dia’, dll.) dan setelah itu tidak merujuk pada gender lagi. Namun, penerjemahan harus mengingat penugasan gender peserta sepanjang teks.

Hal ini dapat menantang untuk pendekatan berbasis token yang menangani terjemahan dalam potongan diskrit, dan berisiko kehilangan konteks gender sepanjang durasi konten.

Lebih parah, sistem yang menyediakan terjemahan alternatif untuk penugasan gender yang bias tidak dapat melakukan ini secara sembarangan, yaitu dengan hanya menggantikan kata benda gender, tetapi harus memastikan bahwa semua bagian bahasa lainnya setuju dengan kata benda gender yang diubah.

Dalam contoh ini dari makalah Apple/USC, kita melihat bahwa meskipun Sekretaris telah ditetapkan sebagai gender maskulin, kata kerja tunggal adalah telah dibiarkan sebagai feminin (estaba):

Penggantian gender kasar dapat mengabaikan kesepakatan gender yang diperlukan. Dalam contoh ini, kata ‘enojada’ harus ‘enojado’, untuk setuju dengan maskulin ‘El secretario’.

Sistem penerjemahan juga harus menangani kekhasan bahasa tertentu dalam hal gender. Seperti yang ditunjukkan makalah, kata ganti Aku bersifat gender dalam bahasa Hindi, yang menyediakan petunjuk yang tidak biasa tentang gender.

Masalah Gender

Dalam makalah baru, berjudul Generating Gender Alternatives in Machine Translation, peneliti Apple dan USC mengusulkan metode semi-supervised untuk mengubah entitas yang ambigu gender menjadi array alternatif tingkat entitas.

Sistem, yang digunakan untuk menginformasikan penerjemahan dari aplikasi Terjemahkan Apple di iOS18, membangun skema bahasa dengan menggunakan model bahasa besar (LLM), dan dengan fine-tuning model penerjemahan mesin terbuka yang sudah dilatih sebelumnya.

Hasil dari terjemahan sistem ini kemudian dilatih ke dalam arsitektur yang mengandung struktur gender – grup frasa yang mengandung bentuk yang beragam dari kata benda yang bersifat gender yang mewakili entitas yang sama.

Makalah menyatakan*:

‘Bias gender yang ada dalam data pelatihan dikenal dapat berdarah ke sistem pemrosesan bahasa alami (NLP), menghasilkan penyebaran dan penguatan potensial dari bias tersebut. Bias tersebut sering juga merupakan penyebab akar dari kesalahan.

‘Sistem penerjemahan mesin (MT) mungkin, misalnya, menerjemahkan dokter ke istilah Spanyol médico (maskulin) bukan médica (feminin), diberikan input “Dokter itu meminta perawat untuk membantunya dalam prosedur”.

‘Untuk menghindari menetapkan penugasan gender yang salah, sistem MT perlu membedakan gender melalui konteks. Ketika gender yang benar tidak dapat ditentukan melalui konteks, menyediakan beberapa alternatif penerjemahan yang mencakup semua pilihan gender yang valid adalah pendekatan yang masuk akal.’

Pendekatan yang diusulkan oleh peneliti secara efektif mengubah penerjemahan dari satu token menjadi array yang dikendalikan pengguna.

(Meskipun makalah tidak menyebutkannya, ini membuka kemungkinan, baik di Apple Terjemahkan atau di portal serupa yang menawarkan layanan penerjemahan, untuk pilihan pengguna yang diberikan kembali ke iterasi model selanjutnya)

Model yang dikembangkan oleh Apple dan USC dievaluasi pada GATE dan MT-GenEval set tes. GATE mengandung kalimat sumber dengan hingga 3 entitas yang ambigu gender, sedangkan MT-GenEval mengandung materi di mana gender tidak dapat disimpulkan, yang, menurut penulis, membantu memahami kapan alternatif pilihan gender tidak harus ditawarkan kepada pengguna.

Dalam kedua kasus, set tes harus dianotasi ulang, untuk selaras dengan tujuan proyek.

Untuk melatih sistem, peneliti bergantung pada algoritma augmentasi data otomatis yang baru, berbeda dengan set tes yang disebutkan sebelumnya, yang dianotasi oleh manusia.

Dataset yang berkontribusi untuk kurasi Apple adalah Europarl; WikiTitles; dan WikiMatrix. Korpus ini dibagi menjadi G-Tag (dengan 12.000 kalimat), yang mencakup kalimat dengan kata kunci untuk semua entitas, bersama dengan anotasi yang ambigu gender; dan G-Trans (dengan 50.000 kalimat), yang mengandung entitas yang ambigu gender dan keselarasan gender.