Terhubung dengan kami

Kecerdasan Buatan

Facebook Membuat Model Terjemahan Mesin Yang Bisa Langsung Menerjemahkan Antara 100 Bahasa Berbeda

mm

Facebook baru-baru ini berkembang model terjemahan mesin baru yang dapat menerjemahkan teks antara pasangan bahasa tertentu dari 100 bahasa. Sementara sistem terjemahan mesin lainnya ada, sebagian besar sistem terjemahan AI lainnya beroperasi dengan terlebih dahulu menerjemahkan teks ke bahasa Inggris dan kemudian mengonversi teks dari sana.  Seperti yang dilaporkan Engadget, penerjemah AI Facebook beroperasi tanpa menggunakan bahasa Inggris sebagai perantara, dan dilaporkan mampu mencapai akurasi sekitar 90%.

Data pelatihan Facebook untuk model AI terdiri dari sekitar 7.5 miliar pasang kalimat, didistribusikan dalam 100 bahasa berbeda. Data dikumpulkan dari web menggunakan serangkaian perayap web, dan bahasa yang ada dalam data yang dikumpulkan diidentifikasi menggunakan model bahasa yang disebut FastText. Setelah data terkumpul, itu dijalankan melalui alat yang disebut LASER 2.0 untuk mengekstrak arti dari contoh kalimat yang berbeda dan mencocokkan kalimat dalam berbagai bahasa berdasarkan maknanya. LASER 2.0 dikembangkan oleh Facebook dan menggunakan algoritme pembelajaran tanpa pengawasan untuk membuat penyematan. Penyematan kalimat berisi informasi tentang hubungan antara berbagai kalimat berdasarkan fitur seperti frekuensi penggunaan dan seberapa dekat kalimat muncul satu sama lain. LASER 2.0 kemudian mampu membuat kumpulan kalimat yang memiliki arti sangat mirip.

Data pelatihan tidak hanya dipasangkan berdasarkan makna kalimat. Bahasa sendiri dikelompokkan bersama. Tujuannya adalah untuk merancang sebuah sistem yang tidak memerlukan bahasa Inggris untuk digunakan sebagai media antara dua bahasa, dengan Angela Fan dari Facebook, yang memimpin proyek tersebut, mencatat bahwa banyak wilayah di dunia menggunakan dua bahasa yang bukan bahasa Inggris. Insinyur Facebook melakukan pelatihan dengan berfokus pada memasangkan bahasa yang umumnya diterjemahkan ke dan dari satu sama lain. Empat belas kelompok bahasa yang berbeda dibuat, berdasarkan variabel seperti budaya, kesamaan linguistik, dan geografi. Sebagai contoh, salah satu kelompok linguistik yang dibuat oleh para peneliti berisi bahasa yang paling umum di seluruh India, termasuk bahasa Urdu, Tamil, Hindi, dan Bengali. Ini dilakukan agar bahasa yang dipasangkan secara umum akan menerima terjemahan berkualitas tinggi.

Metode pelatihan yang berfokus pada kelompok bahasa menghasilkan beberapa hasil yang menarik. Ditemukan bahwa model terjemahan yang dihasilkan memiliki akurasi yang lebih besar daripada model yang ada saat ini untuk pasangan bahasa tertentu. Saat menerjemahkan antara bahasa Inggris dan bahasa Belarusia, misalnya, AI mampu menerapkan pola tertentu yang dipelajarinya saat menerjemahkan bahasa Rusia karena bahasa Belarusia memiliki kesamaan linguistik dengan bahasa Rusia. Demikian pula, upaya penerjemahan antara bahasa Spanyol dan Portugis meningkat karena bahasa Spanyol adalah bahasa kedua yang paling banyak digunakan dan ada sejumlah besar data pelatihan untuk tugas tersebut.

Ada sekitar enam puluh bahasa yang belum tercakup oleh sistem terjemahan, dan akurasi model pada bahasa tanpa banyak data pelatihan perlu ditingkatkan sebelum siap digunakan. Banyak bahasa di Asia Tenggara dan Afrika kekurangan volume data yang diperlukan untuk melatih model yang andal. Tim peneliti perlu menentukan beberapa cara untuk mengkompensasi kekurangan data ini. Tim peneliti juga perlu menentukan cara mengontrol pola rasis, seksis, atau tidak senonoh yang mungkin telah dipelajari oleh model tersebut. Sementara tim peneliti telah menggunakan filter kata-kata kotor, filter tersebut bekerja terutama pada data berbahasa Inggris.

Sistem terjemahan mesin belum digunakan di platform media sosial Facebook. Model saat ini hanya untuk tujuan penelitian. Namun, Facebook bersiap untuk merancang model serupa dan meminta mereka menangani sekitar 20 miliar permintaan terjemahan yang diterima situs tersebut setiap hari.