Pemimpin pemikiran

Dampak Transformer: Apakah Mesin Penerjemahan Telah Diselesaikan?

Published July 29, 2024

Updated April 4, 2026

Irina Barskaya, PhD, Head Data Scientist at Yandex

Google baru-baru ini mengumumkan peluncuran 110 bahasa baru di Google Translate sebagai bagian dari inisiatif 1000 bahasa yang diluncurkan pada 2022. Pada 2022, di awal mereka menambahkan 24 bahasa. Dengan 110 bahasa tambahan, sekarang ada 243 bahasa. Ekspansi cepat ini memungkinkan berkat Zero-Shot Machine Translation, teknologi di mana model pembelajaran mesin belajar menerjemahkan ke bahasa lain tanpa contoh sebelumnya. Tapi di masa depan kita akan melihat bersama apakah kemajuan ini dapat menjadi solusi ultimate untuk tantangan mesin penerjemahan, dan sementara itu kita dapat menjelajahi cara-cara itu dapat terjadi. Tapi pertama-tama ceritanya.

Bagaimana Sebelumnya?

Statistical Machine Translation (SMT)

Ini adalah metode asli yang digunakan Google Translate. Ini bergantung pada model statistik. Mereka menganalisis korpus paralel besar, koleksi terjemahan kalimat yang diselaraskan, untuk menentukan terjemahan yang paling mungkin. Pertama sistem menerjemahkan teks ke dalam bahasa Inggris sebagai langkah tengah sebelum mengubahnya menjadi bahasa target, dan perlu melakukan cross-referensi frasa dengan dataset ekstensif dari transkrip Perserikatan Bangsa-Bangsa dan Parlemen Eropa. Ini berbeda dengan pendekatan tradisional yang memerlukan kompilasi aturan tata bahasa yang menyeluruh. Dan pendekatan statistiknya memungkinkan untuk beradaptasi dan belajar dari data tanpa bergantung pada kerangka linguistik statis yang dapat dengan cepat menjadi tidak perlu.

Tapi ada beberapa kelemahan pada pendekatan ini juga. Pertama Google Translate menggunakan terjemahan berbasis frasa di mana sistem memecah kalimat menjadi frasa dan menerjemahkannya secara individual. Ini adalah perbaikan dari terjemahan kata-per-kata tapi masih memiliki keterbatasan seperti frasa yang tidak tepat dan kesalahan konteks. Ini hanya tidak sepenuhnya memahami nuansa seperti kita. Juga, SMT sangat bergantung pada adanya korpus paralel, dan bahasa yang relatif jarang akan sulit diterjemahkan karena tidak memiliki cukup data paralel.

Neural Machine Translation (NMT)

Pada 2016, Google beralih ke Neural Machine Translation. Ini menggunakan model pembelajaran dalam untuk menerjemahkan kalimat secara keseluruhan dan sekaligus, memberikan terjemahan yang lebih lancar dan akurat. NMT beroperasi secara mirip dengan memiliki asisten multibahasa yang canggih di dalam komputer. Menggunakan arsitektur urutan-ke-urutan (seq2seq) NMT memproses kalimat dalam satu bahasa untuk memahami maknanya. Kemudian – menghasilkan kalimat yang sesuai dalam bahasa lain. Metode ini menggunakan dataset besar untuk pembelajaran, berbeda dengan Statistical Machine Translation yang bergantung pada model statistik yang menganalisis korpus paralel besar untuk menentukan terjemahan yang paling mungkin. Tidak seperti SMT, yang berfokus pada terjemahan berbasis frasa dan memerlukan banyak upaya manual untuk mengembangkan dan memelihara aturan linguistik dan kamus, kemampuan NMT untuk memproses urutan kata secara keseluruhan memungkinkan untuk menangkap konteks nuansa bahasa lebih efektif. Jadi ini telah meningkatkan kualitas terjemahan di berbagai pasangan bahasa, sering mencapai tingkat kelancaran dan akurasi yang setara dengan penerjemah manusia.

Pada kenyataannya, model NMT tradisional menggunakan Jaringan Saraf Berulang – RNN – sebagai arsitektur inti, karena mereka dirancang untuk memproses data berurutan dengan mempertahankan keadaan tersembunyi yang berkembang ketika setiap input baru (kata atau token) diproses. Keadaan tersembunyi ini berfungsi sebagai jenis memori yang menangkap konteks input sebelumnya, memungkinkan model untuk belajar ketergantungan dari waktu ke waktu. Tapi, RNN mahal secara komputasi dan sulit untuk diparalelkan secara efektif, yang membatasi seberapa skalabel mereka.

Pengenalan Transformer

Pada 2017, Google Research menerbitkan makalah berjudul “Attention is All You Need,” memperkenalkan transformer ke dunia dan menandai pergeseran penting dari RNN dalam arsitektur jaringan saraf.

Transformer bergantung hanya pada mekanisme perhatian, – perhatian diri, yang memungkinkan model penerjemahan mesin saraf untuk fokus secara selektif pada bagian paling kritis dari urutan input. Tidak seperti RNN, yang memproses kata dalam urutan dalam kalimat, perhatian diri mengevaluasi setiap token di seluruh teks, menentukan mana yang penting untuk memahami konteksnya. Perhitungan simultan dari semua kata memungkinkan transformer untuk secara efektif menangkap ketergantungan jangka pendek dan panjang tanpa bergantung pada koneksi berulang atau filter konvolusi.

Jadi dengan menghilangkan kejadian berulang, transformer menawarkan beberapa keuntungan kunci:

Paralelisasi: Mekanisme perhatian dapat dihitung secara paralel di seluruh segmen urutan yang berbeda, yang mempercepat pelatihan pada perangkat keras modern seperti GPU.
Efisiensi Pelatihan: Mereka juga memerlukan waktu pelatihan yang jauh lebih singkat dibandingkan dengan model berbasis RNN atau CNN tradisional, memberikan kinerja yang lebih baik dalam tugas seperti penerjemahan mesin.

Zero-Shot Machine Translation dan PaLM 2

Pada 2022, Google merilis dukungan untuk 24 bahasa baru menggunakan Zero-Shot Machine Translation, menandai tonggak penting dalam teknologi penerjemahan mesin. Mereka juga mengumumkan Inisiatif 1.000 Bahasa, yang bertujuan untuk mendukung 1.000 bahasa yang paling banyak digunakan di dunia. Mereka sekarang telah meluncurkan 110 bahasa tambahan. Zero-shot machine translation memungkinkan terjemahan tanpa data paralel antara bahasa sumber dan target, menghilangkan kebutuhan untuk membuat data pelatihan untuk setiap pasangan bahasa — proses yang sebelumnya mahal dan memakan waktu, dan untuk beberapa pasangan bahasa juga mustahil.

Kemajuan ini menjadi mungkin karena arsitektur dan mekanisme perhatian diri dari transformer. Kemampuan model transformer untuk mempelajari hubungan kontekstual di seluruh bahasa, sebagai kombinasi dengan kemampuan skalabilitasnya untuk menangani beberapa bahasa secara bersamaan, memungkinkan pengembangan sistem terjemahan multibahasa yang lebih efisien dan efektif. Namun, model zero-shot umumnya menunjukkan kualitas yang lebih rendah daripada model yang dilatih pada data paralel.

Kemudian, membangun pada kemajuan transformer, Google memperkenalkan PaLM 2 pada 2023, yang membuka jalan untuk peluncuran 110 bahasa baru pada 2024. PaLM 2 secara signifikan meningkatkan kemampuan Terjemahkan untuk mempelajari bahasa yang terkait erat seperti Awadhi dan Marwadi (terkait dengan Hindi) dan kreol Perancis seperti Seychellois dan Mauritian Creole. Peningkatan pada PaLM 2, seperti penskalaan komputasi yang optimal, dataset yang ditingkatkan, dan desain yang dirancang ulang—memungkinkan pembelajaran bahasa yang lebih efisien dan mendukung upaya Google yang berkelanjutan untuk membuat dukungan bahasa lebih baik dan lebih besar serta menampung nuansa linguistik yang beragam.

Apakah Kita Dapat Mengklaim bahwa Tantangan Penerjemahan Mesin Telah Diselesaikan dengan Transformer?

Evolusi yang kita bicarakan mengambil 18 tahun dari adopsi Google terhadap SMT hingga 110 bahasa tambahan menggunakan Zero-Shot Machine Translation. Ini mewakili lompatan besar yang dapat berpotensi mengurangi kebutuhan untuk mengumpulkan korpus paralel yang ekstensif—tugas yang secara historis dan sangat memakan waktu yang telah dikejar industri selama lebih dari dua dekade. Tapi, mengklaim bahwa penerjemahan mesin telah sepenuhnya diselesaikan akan terlalu dini, mengingat pertimbangan teknis dan etis.

Model saat ini masih bergumul dengan konteks dan kohesi dan membuat kesalahan halus yang dapat mengubah makna yang Anda maksudkan untuk sebuah teks. Masalah-masalah ini sangat hadir dalam kalimat yang lebih panjang dan kompleks di mana mempertahankan aliran logis dan memahami nuansa diperlukan untuk hasil. Juga, nuansa budaya dan ekspresi idiomatis sering hilang atau kehilangan makna, menyebabkan terjemahan yang mungkin secara gramatikal benar tapi tidak memiliki dampak yang diinginkan atau terdengar tidak alami.

Data untuk Pelatihan Awal: PaLM 2 dan model serupa dilatih sebelumnya pada korpus teks multibahasa yang beragam, melampaui pendahulunya PaLM. Peningkatan ini memungkinkan PaLM 2 untuk unggul dalam tugas multibahasa, menekankan pentingnya dataset tradisional untuk meningkatkan kualitas terjemahan.

Bahasa Spesifik Domain atau Bahasa Langka: Di domain khusus seperti hukum, medis, atau bidang teknis, korpus paralel memastikan model mengalami terminologi dan nuansa bahasa khusus. Model canggih mungkin bergumul dengan jargon domain khusus atau tren bahasa yang berkembang, menimbulkan tantangan untuk Zero-Shot Machine Translation. Juga Bahasa Sumber Daya Rendah masih diterjemahkan dengan buruk, karena mereka tidak memiliki data yang mereka butuhkan untuk melatih model yang akurat

Benchmarking: Korpus paralel tetap penting untuk mengevaluasi dan membandingkan kinerja model terjemahan, terutama menantang untuk bahasa yang tidak memiliki cukup data korpus paralel. Metrik otomatis seperti BLEU, BLERT, dan METEOR memiliki keterbatasan dalam menilai nuansa dalam kualitas terjemahan selain tata bahasa. Tapi, kita manusia terhalang oleh bias kita. Juga, tidak ada banyak evaluator bilingual yang berkualifikasi di luar sana, dan menemukan evaluator bilingual yang ideal untuk setiap pasangan bahasa untuk menangkap kesalahan halus.

Intensitas Sumber Daya: Sifat intensif sumber daya dari pelatihan dan penerapan LLM tetap menjadi hambatan, membatasi aksesibilitas untuk beberapa aplikasi atau organisasi.

Pelestarian Budaya. Dimensi etis sangat mendalam. Seperti yang dijelaskan oleh Isaac Caswell, Ilmuwan Peneliti Google Translate, tentang Zero-Shot Machine Translation: “Anda dapat memikirkan ini sebagai poliglot yang mengetahui banyak bahasa. Tapi kemudian tambahan, itu mendapatkan untuk melihat teks dalam 1.000 bahasa lain yang tidak diterjemahkan. Anda dapat membayangkan jika Anda adalah poliglot besar, dan kemudian Anda hanya mulai membaca novel dalam bahasa lain, Anda dapat mulai merangkai apa yang bisa berarti berdasarkan pengetahuan Anda tentang bahasa secara umum.” Namun, sangat penting untuk mempertimbangkan dampak jangka panjang pada bahasa minor yang tidak memiliki korpus paralel, yang berpotensi memengaruhi pelestarian budaya ketika ketergantungan bergeser dari bahasa itu sendiri.

Irina Barskaya, PhD, Head Data Scientist at Yandex

Irina Barskaya, PhD, adalah seorang ilmuwan data terkemuka dengan lebih dari satu dekade pengalaman, mencakup analitik produk dan analitik untuk teknologi canggih. Ia memimpin pembuatan dan analitik untuk Yasmina, asisten suara berbasis AI pertama yang sepenuhnya fungsional dan dilokalkan untuk Arab Saudi, menangani pelokalan data kompleks dan pelabelan untuk Bahasa Arab Modern dan dialek Arab Saudi. Saat ini, Irina memimpin analitik kualitas di Yandex, mendorong kemajuan dalam teknologi AI.