Kecerdasan buatan

MOSEL: Meningkatkan Pengumpulan Data Ucapan untuk Semua Bahasa Eropa

Published October 7, 2024

Updated April 27, 2026

Alex McFarland

Pengembangan model bahasa AI telah didominasi oleh bahasa Inggris, sehingga banyak bahasa Eropa yang kurang terwakili. Hal ini telah menciptakan ketidakseimbangan yang signifikan dalam cara teknologi AI memahami dan merespons bahasa dan budaya yang berbeda. MOSEL bertujuan untuk mengubah narasi ini dengan membuat koleksi data ucapan yang komprehensif dan open-source untuk 24 bahasa resmi Uni Eropa. Dengan menyediakan data bahasa yang beragam, MOSEL berusaha untuk memastikan bahwa model AI lebih inklusif dan representatif dari lanskap linguistik Eropa yang kaya.

Keanekaragaman bahasa sangat penting untuk memastikan inklusivitas dalam pengembangan AI. Mengandalkan model yang berfokus pada bahasa Inggris dapat menghasilkan teknologi yang kurang efektif atau bahkan tidak dapat diakses oleh penutur bahasa lain. Dataset multibahasa membantu menciptakan sistem AI yang melayani semua orang, tanpa memandang bahasa yang mereka gunakan. Menghargai keanekaragaman bahasa meningkatkan aksesibilitas teknologi dan memastikan representasi yang adil dari budaya dan komunitas yang berbeda. Dengan mempromosikan inklusivitas linguistik, AI dapat benar-benar mencerminkan kebutuhan dan suara penggunanya.

Ikhtisar MOSEL

MOSEL, atau Massive Open-source Speech data untuk Bahasa Eropa, adalah proyek yang berani yang bertujuan untuk membangun koleksi data ucapan yang ekstensif dan open-source yang mencakup semua 24 bahasa resmi Uni Eropa. Dikembangkan oleh tim internasional peneliti, MOSEL mengintegrasikan data dari 18 proyek yang berbeda, seperti CommonVoice, LibriSpeech, dan VoxPopuli. Koleksi ini termasuk rekaman ucapan yang telah ditranskripsi dan data audio yang tidak berlabel, menawarkan sumber daya yang signifikan untuk meningkatkan pengembangan AI multibahasa.
Salah satu kontribusi utama MOSEL adalah inklusi data yang telah ditranskripsi dan tidak berlabel. Data yang telah ditranskripsi menyediakan fondasi yang dapat diandalkan untuk melatih model AI, sedangkan data audio yang tidak berlabel dapat digunakan untuk penelitian dan eksperimen lebih lanjut, terutama untuk bahasa yang sumber dayanya terbatas. Kombinasi dataset ini menciptakan kesempatan unik untuk mengembangkan model bahasa yang lebih inklusif dan mampu memahami lanskap linguistik Eropa yang beragam.

Mengatasi Kesenjangan Data untuk Bahasa yang Kurang Terwakili

Distribusi data ucapan di seluruh bahasa Eropa sangat tidak merata, dengan bahasa Inggris mendominasi sebagian besar dataset yang tersedia. Kesenjangan ini menyajikan tantangan signifikan untuk mengembangkan model AI yang dapat memahami dan merespons bahasa yang kurang terwakili dengan akurat. Banyak bahasa resmi UE, seperti Malta atau Irlandia, memiliki data yang sangat terbatas, yang menghambat kemampuan teknologi AI untuk efektif melayani komunitas linguistik ini.
MOSEL bertujuan untuk mengatasi kesenjangan data ini dengan menggunakan model Whisper dari OpenAI untuk mentranskripsi otomatis 441.000 jam data audio yang sebelumnya tidak berlabel. Pendekatan ini telah secara signifikan memperluas ketersediaan bahan pelatihan, terutama untuk bahasa yang kekurangan data yang telah ditranskripsi secara ekstensif. Meskipun transkripsi otomatis tidak sempurna, itu menyediakan titik awal yang berharga untuk pengembangan lebih lanjut, memungkinkan model bahasa yang lebih inklusif untuk dibangun.
Namun, tantangan tersebut sangat jelas untuk bahasa tertentu. Misalnya, model Whisper mengalami kesulitan dengan bahasa Malta, mencapai tingkat kesalahan kata lebih dari 80 persen. Tingkat kesalahan yang tinggi seperti itu menyoroti kebutuhan untuk pekerjaan tambahan, termasuk perbaikan model transkripsi dan pengumpulan data yang lebih berkualitas dan telah ditranskripsi secara manual. Tim MOSEL berkomitmen untuk melanjutkan upaya ini, memastikan bahwa bahasa yang sumber dayanya terbatas juga dapat memanfaatkan kemajuan teknologi AI.

Peran Akses Terbuka dalam Mengarahkan Inovasi AI

Ketersediaan open-source MOSEL adalah faktor kunci dalam mengarahkan inovasi dalam penelitian AI Eropa. Dengan membuat data ucapan tersedia secara gratis, MOSEL memberdayakan peneliti dan pengembang untuk bekerja dengan dataset yang ekstensif dan berkualitas tinggi yang sebelumnya tidak tersedia atau terbatas. Aksesibilitas ini mendorong kolaborasi dan eksperimen, memfasilitasi pendekatan yang berbasis komunitas untuk meningkatkan teknologi AI untuk semua bahasa Eropa.
Peneliti dan pengembang dapat menggunakan data MOSEL untuk melatih, menguji, dan memperbaiki model bahasa AI, terutama untuk bahasa yang kurang terwakili dalam lanskap AI. Sifat terbuka dari data ini juga memungkinkan organisasi yang lebih kecil dan lembaga akademis untuk berpartisipasi dalam penelitian AI mutakhir, menghancurkan hambatan yang sering memihak perusahaan teknologi besar dengan sumber daya eksklusif.

Arah Masa Depan dan Jalan Menuju Kesana

Menghadap ke depan, tim MOSEL berencana untuk terus memperluas dataset, terutama untuk bahasa yang kurang terwakili. Dengan mengumpulkan lebih banyak data dan memperbaiki akurasi transkripsi otomatis, MOSEL bertujuan untuk menciptakan sumber daya yang lebih seimbang dan inklusif untuk pengembangan AI. Upaya ini sangat penting untuk memastikan bahwa semua bahasa Eropa, terlepas dari jumlah penuturnya, memiliki tempat dalam lanskap AI yang terus berkembang.
Keberhasilan MOSEL juga dapat menginspirasi inisiatif serupa secara global, mempromosikan keanekaragaman linguistik dalam AI di luar Eropa. Dengan menetapkan preseden untuk akses terbuka dan pengembangan kolaboratif, MOSEL membuka jalan bagi proyek masa depan yang memprioritaskan inklusivitas dan representasi dalam AI, pada akhirnya menyumbang pada masa depan teknologi yang lebih adil.

Alex McFarland

Alex McFarland adalah seorang jurnalis dan penulis AI yang menjelajahi perkembangan terbaru dalam kecerdasan buatan. Ia telah berkolaborasi dengan berbagai startup dan publikasi AI di seluruh dunia.