Моделі та платформи ШІ

Стан мовних моделей LLM: рух за межі англійської

mm
Multilingual LLMs Blog image

За даними дослідження Microsoft, близько 88% мов світу, якими говорять 1,2 мільярда людей, не мають доступу до багатомовних моделей великих мов (LLM). Це відбувається через те, що більшість LLM орієнтовані на англійську мову, тобто вони переважно будуються з англійських даних і для англомовних користувачів. Ця англійська домінанта також поширена в розробці LLM і призвела до цифрової мовної прогалини, потенційно виключивши більшість людей з переваг моделей LLM. Щоб вирішити цю проблему для LLM, потрібна модель, яка може бути навчена на різних мовах і виконувати завдання на різних мовах. Зустрічайте багатомовні LLM!

Що таке багатомовні LLM?

Багатомовна модель LLM може розуміти і генерувати текст на декількох мовах. Вони навчаються на наборах даних, які містять різні мови, і можуть виконувати різні завдання в більш ніж одній мові з підказки користувача.

Застосування багатомовних LLM величезні, вони включають переклад літератури на місцеві діалекти, реальний багатоцільовий діалог, багатоцільову генерацію контенту тощо. Вони допоможуть кожному легко отримувати інформацію і спілкуватися незалежно від мови.

Також багатомовні LLM вирішують проблеми, такі як відсутність культурних нюансів і контексту, обмеження навчальних даних і потенційна втрата знань під час перекладу.

Як працюють багатомовні LLM?

Створення багатомовної моделі LLM включає в себе ретельну підготовку збалансованого корпусу тексту на різних мовах і вибір відповідної архітектури та методу навчання для навчання моделі, переважно моделі Transformer, яка ідеальна для багатомовного навчання.

Кроки створення багатомовної моделі LLM

Джерело: зображення автора

Одним з методів є спільне використання вкладень, які захоплюють семантичний зміст слів у різних мовах. Це дозволяє моделі LLM вивчити подібності і відмінності кожної мови, що дозволяє їй краще розуміти різні мови.

Ці знання також дозволяють моделі LLM адаптуватися до різних лінгвістичних завдань, таких як переклад мов, написання в різних стилях тощо. Іншим методом є перенос навчання між мовами, коли модель попередньо навчається на великому корпусі багатомовних даних, перш ніж бути донастроєною на конкретних завданнях.

Цей двоступеневий процес забезпечує, що модель має сильну основу у багатомовному розумінні мови, що робить її адаптованою до різних застосувань.

Приклади багатомовних великих мовних моделей

Порівняльна таблиця багатомовних LLM

Джерело: Ruder.io

Було створено кілька помітних прикладів багатомовних LLM, кожен з яких відповідає конкретним лінгвістичним потребам і культурному контексту. Давайте розглянемо деякі з них:

1. BLOOM

BLOOM – це відкрита багатомовна модель LLM, яка пріоритезує різноманітні мови і доступність. З 176 мільярдами параметрів BLOOM може виконувати завдання на 46 природних і 13 програмних мовах, що робить її однією з найбільших і найрізноманітніших моделей LLM.

Відкрита природа BLOOM дозволяє дослідникам, розробникам і мовним спільнотам користуватися її можливостями і внески у її покращення.

2. YAYI 2

YAYI 2 – це відкрита модель LLM, розроблена спеціально для азійських мов, враховуючи складності і культурні нюанси регіону. Вона була попередньо навчена з нуля на багатомовному корпусі з понад 16 азійських мов, що містить 2,65 трильйона фільтрованих токенів.

Це робить модель більш результативною, задовольняючи конкретні потреби мов і культур в Азії.

3. PolyLM

PolyLM – це відкрита “поліглотна” модель LLM, яка фокусується на вирішенні проблем низькоресурсних мов, пропонуючи можливості адаптації. Вона була навчена на наборі даних близько 640 мільярдів токенів і доступна у двох розмірах моделі: 1,7 млрд і 13 млрд. PolyLM знає понад 16 різних мов.

Це дозволяє моделям, навченим на високоресурсних мовах, бути донастроєними для низькоресурсних мов з обмеженими даними. Ця гнучкість робить моделі LLM більш корисними в різних мовних ситуаціях і завданнях.

4. XGLM

XGLM, яка має 7,5 мільярдів параметрів, – це багатомовна модель LLM, навчена на корпусі, що охоплює різноманітний набір понад 20 мов, використовуючи техніку навчання з少шими даними. Вона є частиною сім’ї великомасштабних багатомовних моделей LLM, навчених на величезному наборі текстів і коду.

Мета полягає в тому, щоб охопити багато мов повністю, тому вона фокусується на інклюзивності і лінгвістичному різноманітті. XGLM демонструє потенціал для побудови моделей, що відповідають потребам різних мовних спільнот.

5. mT5

mT5 (масштабно багатомовна текст-у-текст модель) була розроблена компанією Google AI. Навчена на корпусі Common Crawl, mT5 – це сучасна багатомовна модель LLM, яка може обробляти 101 мову, від широко поширених іспанської і китайської до менш ресурсних мов, таких як баскська і кечуа.

Також вона excels у багатомовних завданнях, таких як переклад, підсумовування, відповіді на питання тощо.

Чи можлива універсальна модель LLM?

Концепція мовно-нейтральної моделі LLM, здатної розуміти і генерувати мову без упередженості щодо будь-якої конкретної мови, є цікавою.

Хоча розробка真正ної універсальної моделі LLM ще далека, сучасні багатомовні моделі LLM продемонстрували значний успіх. Як тільки вони будуть повністю розроблені, вони зможуть задовольняти потреби мов, які зараз недостатньо представлені, і різноманітних спільнот.

Наприклад, дослідження показують, що більшість багатомовних моделей LLM можуть забезпечувати нульове навчання з перекриттям мов без завдань-специфічних навчальних даних.

Також моделі, такі як YAYI і BLOOM, які фокусуються на конкретних мовах і спільнотах, продемонстрували потенціал мовно-орієнтованих підходів у розвитку прогресу і інклюзивності.

Щоб побудувати універсальну модель LLM або покращити сучасні багатомовні моделі LLM, окремим особам і організаціям необхідно зробити наступне:

  • Зібрати носіїв мови для спільної діяльності і кураторства мовних наборів даних.
  • Підтримати спільні зусилля щодо відкритих внесків і фінансування багатомовних досліджень і розробок.

Виклики багатомовних моделей LLM

Хоча концепція універсальних багатомовних моделей LLM має великий потенціал, вони також стикаються з декількома викликами, які необхідно вирішити, перш ніж ми зможемо скористатися ними:

1. Кількість даних

Багатомовні моделі вимагають більший словник для представлення токенів у багатьох мовах, ніж моно мовні моделі, але багато мов не мають великомасштабних наборів даних. Це робить навчання цих моделей ефективно складним.

2. Проблеми якості даних

Забезпечення точності і культурної відповідності виводів багатомовних моделей LLM у різних мовах є значним проблемою. Моделі повинні бути навчені і донастроєні з ретельним увагою до лінгвістичних і культурних нюансів, щоб уникнути упередженості і неточностей.

3. Обмеження ресурсів

Навчання і виконання багатомовних моделей вимагають суттєвих обчислювальних ресурсів, таких як потужні графічні процесори (наприклад, NVIDIA A100 GPU). Висока вартість створює проблеми, особливо для мов з обмеженими ресурсами і спільнот з обмеженим доступом до обчислювальної інфраструктури.

4. Архітектура моделі

Адаптація архітектури моделей для задоволення різноманітних лінгвістичних структур і складностей є тривалим викликом. Моделі повинні бути здатні обробляти мови з різними порядками слів, морфологічними варіаціями і системами письма, зберігаючи при цьому високу продуктивність і ефективність.

5. Складності оцінки

Оцінка продуктивності багатомовних моделей LLM за межами англійських стандартів є важливою для вимірювання їхньої справжньої ефективності. Це вимагає врахування культурних нюансів, лінгвістичних особливостей і галузевих вимог.

Багатомовні моделі LLM мають потенціал зруйнувати мовні бар’єри, наділити мови з обмеженими ресурсами і забезпечити ефективну комунікацію між різними спільнотами.

Не пропустіть останні новини і аналіз у сфері штучного інтелекту і машинного навчання – відвідайте unite.ai сьогодні.

Haziqa є вченим-даними з великим досвідом написання технічного контенту для компаній AI та SaaS.