Kecerdasan buatan
Kondisi Multilingual LLMs: Melangkah Melampaui Bahasa Inggris

Menurut penelitian Microsoft, sekitar 88% dari bahasa di dunia, yang digunakan oleh 1,2 miliar orang, kekurangan akses ke Large Language Models (LLMs). Hal ini karena sebagian besar LLMs berfokus pada bahasa Inggris, yaitu mereka sebagian besar dibangun dengan data bahasa Inggris dan untuk penutur bahasa Inggris. Dominasi bahasa Inggris ini juga berlaku dalam pengembangan LLM dan telah menghasilkan kesenjangan bahasa digital, yang berpotensi mengecualikan sebagian besar orang dari manfaat LLMs. Untuk memecahkan masalah ini untuk LLMs, diperlukan LLM yang dapat dilatih dalam berbagai bahasa dan melakukan tugas dalam berbagai bahasa. Masuklah Multilingual LLMs!
Apa itu Multilingual LLMs?
Multilingual LLM dapat memahami dan menghasilkan teks dalam beberapa bahasa. Mereka dilatih pada dataset yang berisi berbagai bahasa dan dapat melakukan berbagai tugas dalam lebih dari satu bahasa dari prompt pengguna.
Aplikasi Multilingual LLM sangat besar, termasuk menerjemahkan literatur ke dalam dialek lokal, komunikasi multibahasa waktu nyata, pembuatan konten multibahasa, dan lain-lain. Mereka akan membantu semua orang mengakses informasi dan berbicara satu sama lain dengan mudah, tidak peduli bahasa mereka.
Selain itu, multilingual LLMs menangani tantangan seperti kurangnya nuansa budaya dan konteks, keterbatasan data pelatihan, dan potensi kehilangan pengetahuan selama penerjemahan.
Bagaimana Multilingual LLMs Bekerja?
Membangun multilingual LLM melibatkan mempersiapkan corpus teks yang seimbang dalam berbagai bahasa dan memilih arsitektur dan teknik pelatihan yang sesuai untuk melatih model, lebih disukai Transformer model, yang ideal untuk pembelajaran multibahasa.

Sumber: Gambar oleh penulis
Salah satu teknik adalah berbagi embeddings, yang menangkap makna semantik kata-kata di seluruh bahasa yang berbeda. Ini membuat LLM mempelajari kesamaan dan perbedaan setiap bahasa, memungkinkan untuk memahami bahasa yang berbeda dengan lebih baik.
Pengetahuan ini juga memberdayakan LLM untuk beradaptasi dengan berbagai tugas linguistik, seperti menerjemahkan bahasa, menulis dalam gaya yang berbeda, dan lain-lain. Teknik lain yang digunakan adalah cross-lingual transfer learning, di mana model dilatih sebelumnya pada korpus multibahasa besar sebelum diperhalus pada tugas tertentu.
Proses dua langkah ini memastikan model memiliki fondasi yang kuat dalam pemahaman bahasa multibahasa, membuatnya dapat disesuaikan dengan berbagai aplikasi downstream.
Contoh Multilingual Large Language Models

Sumber: Ruder.io
Beberapa contoh terkenal dari multilingual LLMs telah muncul, masing-masing memenuhi kebutuhan linguistik dan konteks budaya yang spesifik. Mari kita jelajahi beberapa di antaranya:
1. BLOOM
BLOOM adalah multilingual LLM akses terbuka yang memprioritaskan bahasa yang beragam dan aksesibilitas. Dengan 176 miliar parameter, BLOOM dapat menangani tugas dalam 46 bahasa alami dan 13 bahasa pemrograman, membuatnya salah satu LLM terbesar dan paling beragam.
Sifat open-source BLOOM memungkinkan peneliti, pengembang, dan komunitas bahasa untuk memanfaatkan kemampuannya dan berkontribusi pada perbaikannya.
2. YAYI 2
YAYI 2 adalah LLM open-source yang dirancang khusus untuk bahasa Asia, mempertimbangkan kompleksitas dan nuansa budaya wilayah tersebut. Ini dilatih dari awal pada korpus multibahasa dari lebih dari 16 bahasa Asia yang berisi 2,65 triliun token yang disaring.
Hal ini membuat model memberikan hasil yang lebih baik, memenuhi kebutuhan spesifik bahasa dan budaya di Asia.
3. PolyLM
PolyLM adalah LLM ‘poliglot’ open-source yang fokus pada menangani tantangan bahasa dengan sumber daya rendah dengan menawarkan kemampuan adaptasi. Ini dilatih pada dataset sekitar 640 miliar token dan tersedia dalam dua ukuran model: 1,7B dan 13B. PolyLM mengetahui lebih dari 16 bahasa yang berbeda.
Ini memungkinkan model yang dilatih pada bahasa dengan sumber daya tinggi untuk diperhalus untuk bahasa dengan sumber daya rendah dengan data terbatas. Fleksibilitas ini membuat LLMs lebih berguna dalam berbagai situasi bahasa dan tugas.
4. XGLM
XGLM, dengan 7,5 miliar parameter, adalah multilingual LLM yang dilatih pada korpus yang mencakup berbagai bahasa lebih dari 20 bahasa menggunakan teknik pembelajaran few-shot. Ini adalah bagian dari keluarga LLM multibahasa skala besar yang dilatih pada dataset teks dan kode yang besar.
Ini bertujuan untuk mencakup banyak bahasa secara menyeluruh, yang mengapa fokus pada inklusivitas dan keragaman linguistik. XGLM menunjukkan potensi untuk membangun model yang memenuhi kebutuhan komunitas bahasa yang berbeda.
5. mT5
mT5 (massively multilingual Text-to-Text Transfer Transformer) dikembangkan oleh Google AI. Dilatih pada dataset common crawl, mt5 adalah multilingual LLM mutakhir yang dapat menangani 101 bahasa, mulai dari bahasa Spanyol dan Tionghoa yang banyak digunakan hingga bahasa dengan sumber daya rendah seperti Basque dan Quechua.
Ini juga unggul dalam tugas multibahasa seperti penerjemahan, ringkasan, pertanyaan-jawaban, dan lain-lain.
Apakah LLM Universal Mungkin?
Konsep LLM yang netral bahasa, yang dapat memahami dan menghasilkan bahasa tanpa bias terhadap bahasa tertentu, sangat menarik.
Meskipun mengembangkan LLM universal yang sebenarnya masih jauh, multilingual LLM saat ini telah menunjukkan kesuksesan yang signifikan. Sekali dikembangkan sepenuhnya, mereka dapat memenuhi kebutuhan bahasa yang kurang terwakili dan komunitas yang beragam.
Misalnya, penelitian menunjukkan bahwa sebagian besar multilingual LLMs dapat memfasilitasi transfer cross-lingual zero-shot dari bahasa dengan sumber daya kaya ke bahasa dengan sumber daya rendah tanpa data pelatihan tugas khusus.
Juga, model seperti YAYI dan BLOOM, yang fokus pada bahasa dan komunitas tertentu, telah menunjukkan potensi pendekatan berbasis bahasa dalam mendorong kemajuan dan inklusivitas.
Untuk membangun LLM universal atau memperbaiki Multilingual LLMs saat ini, individu dan organisasi harus melakukan hal-hal berikut:
- Mengumpulkan penutur asli untuk keterlibatan komunitas dan kurasi dataset bahasa.
- Mendukung upaya komunitas terkait kontribusi open-source dan pendanaan untuk penelitian dan pengembangan multibahasa.
Tantangan Multilingual LLMs
Meskipun konsep LLM multilingual universal menjanjikan, mereka juga menghadapi beberapa tantangan yang harus diatasi sebelum kita dapat memanfaatkan manfaatnya:
1. Kuantitas Data
Model multibahasa memerlukan kosakata yang lebih besar untuk mewakili token dalam banyak bahasa daripada model monobahasa, tetapi banyak bahasa kekurangan dataset skala besar. Ini membuatnya sulit untuk melatih model ini secara efektif.
2. Kualitas Data
Memastikan akurasi dan kesesuaian budaya dari output LLM multibahasa di seluruh bahasa adalah kekhawatiran yang signifikan. Model harus dilatih dan diperhalus dengan perhatian yang teliti terhadap nuansa linguistik dan budaya untuk menghindari bias dan ketidakakuratan.
3. Keterbatasan Sumber Daya
Melatih dan menjalankan model multibahasa memerlukan sumber daya komputasi yang substansial seperti GPU yang kuat (misalnya, NVIDIA A100 GPU). Biaya tinggi ini menimbulkan tantangan, terutama untuk bahasa dengan sumber daya rendah dan komunitas dengan akses terbatas ke infrastruktur komputasi.
4. Arsitektur Model
Mengadaptasi arsitektur model untuk mengakomodasi struktur linguistik dan kompleksitas yang beragam adalah tantangan yang berkelanjutan. Model harus dapat menangani bahasa dengan urutan kata, variasi morfologis, dan sistem penulisan yang berbeda sambil mempertahankan kinerja dan efisiensi yang tinggi.
5. Kompleksitas Evaluasi
Mengevaluasi kinerja LLM multibahasa di luar benchmark bahasa Inggris sangat penting untuk mengukur efektivitasnya yang sebenarnya. Ini memerlukan mempertimbangkan nuansa budaya, kekhasan linguistik, dan persyaratan domain-spesifik.
Multilingual LLMs memiliki potensi untuk menghancurkan hambatan bahasa, memberdayakan bahasa dengan sumber daya rendah, dan memfasilitasi komunikasi yang efektif di seluruh komunitas yang beragam.
Jangan lewatkan berita dan analisis terbaru dalam AI dan ML – kunjungi unite.ai hari ini.










