Kecerdasan Buatan

Keadaan LLM Multibahasa: Melampaui Bahasa Inggris

Diterbitkan

bulan 4 lalu

Februari 10, 2024

Menurut penelitian Microsoft, sekitar 88% bahasa di dunia, yang diucapkan oleh 1.2 miliar orang, tidak memiliki akses terhadap bahasa tersebut Model Bahasa Besar (LLM). Hal ini karena sebagian besar LLM berpusat pada bahasa Inggris, yaitu sebagian besar dibangun dengan data bahasa Inggris dan untuk penutur bahasa Inggris. Dominasi bahasa Inggris juga terjadi dalam pengembangan LLM dan mengakibatkan kesenjangan bahasa digital, yang berpotensi mengecualikan sebagian besar orang dari LLM manfaat LLM. Untuk mengatasi masalah LLM ini, diperlukan LLM yang dapat dilatih dalam berbagai bahasa dan melakukan tugas dalam berbagai bahasa. Masuki LLM Multibahasa!

Apa itu LLM Multibahasa?

LLM multibahasa dapat memahami dan menghasilkan teks dalam berbagai bahasa. Mereka dilatih tentang kumpulan data yang berisi bahasa berbeda dan dapat melakukan berbagai tugas dalam lebih dari satu bahasa berdasarkan perintah pengguna.

Aplikasi LLM multibahasa sangat besar, termasuk menerjemahkan literatur ke dalam dialek lokal, komunikasi multibahasa real-time, pembuatan konten multibahasa, dll. Aplikasi ini akan membantu semua orang mengakses informasi dan berbicara satu sama lain dengan mudah, apa pun bahasa mereka.

Selain itu, LLM multibahasa mengatasi tantangan seperti kurangnya nuansa dan konteks budaya, keterbatasan data pelatihan, dan potensi hilangnya pengetahuan selama penerjemahan.

Bagaimana Cara Kerja LLM Multibahasa?

Membangun LLM multibahasa melibatkan persiapan korpus teks yang seimbang dalam berbagai bahasa dengan hati-hati dan memilih arsitektur dan teknik pelatihan yang sesuai untuk melatih model, lebih disukai yang Model transformator, yang sempurna untuk pembelajaran multibahasa.

Langkah-langkah untuk membangun LLM multibahasa

Sumber: Gambar oleh penulis

Salah satu tekniknya adalah dengan berbagi embeddings, yang menangkap makna semantik kata-kata dalam berbagai bahasa. Hal ini membuat LLM mempelajari persamaan dan perbedaan setiap bahasa, memungkinkannya memahami berbagai bahasa dengan lebih baik.

Pengetahuan ini juga memberdayakan LLM untuk beradaptasi dengan berbagai tugas linguistik, seperti menerjemahkan bahasa, menulis dalam gaya yang berbeda, dll. Teknik lain yang digunakan adalah pembelajaran transfer lintas bahasa, yang modelnya telah dilatih sebelumnya pada kumpulan besar data multibahasa sebelum disesuaikan dengan tugas tertentu.

Proses dua langkah ini memastikan model memiliki dasar yang kuat dalam pemahaman bahasa multibahasa, sehingga dapat beradaptasi dengan berbagai aplikasi hilir.

Contoh Model Bahasa Besar Multibahasa

Bagan perbandingan LLM multibahasa

Sumber: Ruder.io

Beberapa contoh penting LLM multibahasa telah muncul, masing-masing melayani kebutuhan linguistik dan konteks budaya tertentu. Mari kita jelajahi beberapa di antaranya:

1. MEKAR

BERKEMBANG adalah LLM multibahasa akses terbuka yang memprioritaskan beragam bahasa dan aksesibilitas. Dengan 176 miliar parameter, BLOOM dapat menangani tugas dalam 46 bahasa alami dan 13 bahasa pemrograman, menjadikannya salah satu LLM terbesar dan paling beragam.

Sifat sumber terbuka BLOOM memungkinkan peneliti, pengembang, dan komunitas bahasa mendapatkan manfaat dari kemampuannya dan berkontribusi terhadap peningkatannya.

2.YAYI 2

YAYI 2 adalah LLM sumber terbuka yang dirancang khusus untuk bahasa-bahasa Asia, dengan mempertimbangkan kompleksitas dan nuansa budaya kawasan. Itu telah dilatih sebelumnya dari awal pada korpus multibahasa lebih dari 16 bahasa Asia yang berisi 2.65 triliun token yang disaring.

Hal ini membuat model ini memberikan hasil yang lebih baik, memenuhi persyaratan spesifik bahasa dan budaya di Asia.

3. PoliLM

PolyLM adalah LLM 'polyglot' sumber terbuka yang berfokus pada mengatasi tantangan bahasa dengan sumber daya rendah dengan menawarkan kemampuan adaptasi. Itu dilatih pada kumpulan data sekitar 640 miliar token dan tersedia dalam dua ukuran model: 1.7B dan 13B. PolyLM mengetahui lebih dari 16 bahasa berbeda.

Hal ini memungkinkan model yang dilatih pada bahasa sumber daya tinggi untuk disesuaikan dengan bahasa sumber daya rendah dengan data terbatas. Fleksibilitas ini membuat LLM lebih berguna dalam berbagai situasi dan tugas bahasa.

4.XGLM

XGLM, yang memiliki 7.5 miliar parameter, adalah LLM multibahasa yang dilatih pada korpus yang mencakup beragam lebih dari 20 bahasa menggunakan teknik pembelajaran beberapa kali. Ini adalah bagian dari keluarga LLM multibahasa berskala besar yang dilatih pada kumpulan data teks dan kode yang sangat besar.

Tujuannya adalah untuk mencakup banyak bahasa secara lengkap, oleh karena itu fokusnya adalah pada inklusivitas dan keragaman bahasa. XGLM menunjukkan potensi dalam membangun model yang memenuhi kebutuhan berbagai komunitas bahasa.

5.mT5

mT5 (Trafo Transfer Teks-ke-Teks multibahasa secara besar-besaran) dikembangkan oleh Google AI. Dilatih di kumpulan data perayapan umum, mt5 adalah LLM multibahasa canggih yang dapat menangani 101 bahasa, mulai dari bahasa Spanyol dan Cina yang banyak digunakan hingga bahasa yang memiliki sumber daya terbatas seperti Basque dan Quechua.

Ia juga unggul dalam tugas-tugas multibahasa seperti terjemahan, ringkasan, menjawab pertanyaan, dll.

Apakah LLM Universal Mungkin?

Konsep LLM yang netral bahasa, yang mampu memahami dan menghasilkan bahasa tanpa bias terhadap bahasa tertentu, sangatlah menarik.

Meskipun pengembangan LLM yang benar-benar universal masih jauh, LLM multibahasa saat ini telah menunjukkan keberhasilan yang signifikan. Setelah dikembangkan sepenuhnya, bahasa-bahasa tersebut dapat memenuhi kebutuhan bahasa-bahasa yang kurang terwakili dan komunitas yang beragam.

Misalnya, penelitian menunjukkan bahwa sebagian besar LLM multibahasa dapat memfasilitasi transfer lintas bahasa dari bahasa yang kaya sumber daya ke bahasa yang kekurangan sumber daya tanpa data pelatihan khusus tugas.

Selain itu, model seperti YAYI dan BLOOM, yang berfokus pada bahasa dan komunitas tertentu, telah menunjukkan potensi pendekatan yang berpusat pada bahasa dalam mendorong kemajuan dan inklusivitas.

Untuk membangun LLM universal atau meningkatkan LLM Multibahasa saat ini, individu dan organisasi harus melakukan hal berikut:

Crowdsource penutur asli untuk keterlibatan komunitas dan kurasi kumpulan data bahasa.
Mendukung upaya komunitas terkait kontribusi sumber terbuka dan pendanaan untuk penelitian dan pengembangan multibahasa.

Tantangan LLM Multibahasa

Meskipun konsep LLM multibahasa universal sangat menjanjikan, konsep tersebut juga menghadapi beberapa tantangan yang harus diatasi sebelum kita dapat mengambil manfaat darinya:

1. Kuantitas Data

Model multibahasa memerlukan kosakata yang lebih banyak untuk merepresentasikan token dalam banyak bahasa dibandingkan model monolingual, namun banyak bahasa tidak memiliki kumpulan data berskala besar. Hal ini mempersulit pelatihan model ini secara efektif.

2. Masalah Kualitas Data

Memastikan keakuratan dan kesesuaian budaya dari keluaran LLM multibahasa di berbagai bahasa merupakan masalah yang signifikan. Model harus dilatih dan disempurnakan dengan perhatian cermat terhadap nuansa linguistik dan budaya untuk menghindari bias dan ketidakakuratan.

3. Keterbatasan Sumber Daya

Pelatihan dan menjalankan model multibahasa memerlukan sumber daya komputasi yang besar seperti GPU yang kuat (misalnya, GPU NVIDIA A100). Tingginya biaya menimbulkan tantangan, terutama bagi bahasa dengan sumber daya rendah dan komunitas dengan akses terbatas terhadap infrastruktur komputasi.

4. Model Arsitektur

Mengadaptasi arsitektur model untuk mengakomodasi beragam struktur dan kompleksitas linguistik merupakan tantangan yang berkelanjutan. Model harus mampu menangani bahasa dengan susunan kata, variasi morfologi, dan sistem penulisan yang berbeda dengan tetap menjaga performa dan efisiensi tinggi.

5. Kompleksitas Evaluasi

Mengevaluasi kinerja LLM multibahasa di luar standar bahasa Inggris sangat penting untuk mengukur efektivitas sebenarnya. Hal ini memerlukan pertimbangan nuansa budaya, kekhasan linguistik, dan persyaratan spesifik domain.

LLM multibahasa mempunyai potensi untuk memecahkan hambatan bahasa, memberdayakan bahasa yang kekurangan sumber daya, dan memfasilitasi komunikasi yang efektif di berbagai komunitas.

Jangan lewatkan berita dan analisis terkini tentang AI dan ML – kunjungi bersatu.ai hari ini.