Штучний інтелект
Стан мовно-незалежних великомасштабних моделей мови: рух за межі англійської

За даними дослідження компанії Microsoft, близько 88% мов світу, якими говорять 1,2 мільярда людей, не мають доступу до великомасштабних моделей мови (LLM). Це відбувається через те, що більшість LLM орієнтовані на англійську мову, тобто вони переважно будуються з англійських даних і для англомовних користувачів. Ця англійська домінанта також поширена в розробці LLM і призвела до цифрової мовної пропасти, потенційно виключивши більшість людей з переваг великомасштабних моделей мови. Щоб вирішити цю проблему для LLM, потрібна великомасштабна модель мови, яку можна навчати на різних мовах і виконувати завдання на різних мовах. Зустрічайте мовно-незалежні великомасштабні моделі мови!
Що таке мовно-незалежні великомасштабні моделі мови?
Мовно-незалежна великомасштабна модель мови може розуміти та генерувати текст декількома мовами. Їх навчено на наборах даних, які містять різні мови, і вони можуть виконувати різні завдання більш ніж однією мовою з підказки користувача.
Застосування мовно-незалежних великомасштабних моделей мови величезне, до них належать переклад літератури на місцеві діалекти, реальний багатомовний зв’язок, багатомовне створення контенту тощо. Вони допоможуть кожному отримувати доступ до інформації та спілкуватися одне з одним легко, незалежно від мови.
Також мовно-незалежні великомасштабні моделі мови вирішують такі проблеми, як відсутність культурних нюансів і контексту, обмеження навчальних даних та потенційна втрата знань під час перекладу.
Як працюють мовно-незалежні великомасштабні моделі мови?
Створення мовно-незалежної великомасштабної моделі мови включає ретельну підготовку збалансованого корпусу текстів різними мовами та вибір відповідної архітектури та методу навчання моделі, переважно модель Transformer, яка ідеально підходить для багатомовного навчання.

Джерело: Зображення автора
Одним з методів є спільне використання вкладень, які захоплюють семантичний зміст слів різних мов. Це дозволяє великомасштабній моделі мови вивчити подібності та відмінності кожної мови, що дозволяє їй краще розуміти різні мови.
Ці знання також надають великомасштабній моделі мови можливість адаптуватися до різних лінгвістичних завдань, таких як переклад мов, написання в різних стилях тощо. Іншим методом є перенос навчання між мовами, при якому модель попередньо навчається на великому корпусі багатомовних даних, а потім донастроюється для конкретних завдань.
Цей двоступеневий процес забезпечує, щоб модель мала сильну основу у розумінні багатомовної мови, що робить її придатною для різних застосунків.
Приклади мовно-незалежних великомасштабних моделей мови

Джерело: Ruder.io
Виникло кілька помітних прикладів мовно-незалежних великомасштабних моделей мови, кожна з яких відповідає конкретним лінгвістичним потребам і культурному контексту. Давайте розглянемо деякі з них:
1. BLOOM
BLOOM — це відкрита багатомовна великомасштабна модель мови, яка пріоритезує різноманітні мови та доступність. З 176 мільярдами параметрів BLOOM може виконувати завдання 46 природних і 13 програмних мов, що робить її однією з найбільших і найрізноманітніших великомасштабних моделей мови.
Відкрита природа BLOOM дозволяє дослідникам, розробникам та мовним спільнотам користуватися її можливостями та внеском у її покращення.
2. YAYI 2
YAYI 2 — це відкрита великомасштабна модель мови, розроблена спеціально для азійських мов, враховуючи складності та культурні нюанси регіону. Її попередньо навчили з нуля на багатомовному корпусі з понад 16 азійських мов, що містить 2,65 трильйона відфільтрованих токенів.
Це робить модель більш ефективною, відповідаючи конкретним вимогам мов і культур в Азії.
3. PolyLM
PolyLM — це відкрита «поліглотична» великомасштабна модель мови, що зосереджується на вирішенні проблем низькоресурсних мов, пропонуючи можливості адаптації. Її навчено на наборі даних близько 640 мільярдів токенів і доступна у двох розмірах моделей: 1,7 мільярда і 13 мільярдів. PolyLM знає понад 16 різних мов.
Це дозволяє моделям, навченим на високоресурсних мовах, донастроюватися для низькоресурсних мов з обмеженими даними. Ця гнучкість робить великомасштабні моделі мови більш корисними в різних мовних ситуаціях та завданнях.
4. XGLM
XGLM, що має 7,5 мільярдів параметрів, — це багатомовна великомасштабна модель мови, навчена на корпусі, що охоплює різноманітний набір понад 20 мов, використовуючи техніку навчання з少енькими прикладами. Це частина сім’ї великомасштабних багатомовних великомасштабних моделей мови, навчених на величезному наборі текстів і коду.
Мета полягає в тому, щоб охопити багато мов повністю, тому вона зосереджена на інклюзивності та лінгвістичному розмаїтті. XGLM демонструє потенціал для будівництва моделей, що відповідають потребам різних мовних спільнот.
5. mT5
mT5 (масштабно багатомовний трансформатор тексту в текст) був розроблений компанією Google AI. Навчений на наборі даних common crawl, mT5 — це державна великомасштабна модель мови, що може обробляти 101 мову, від широко поширених іспанської та китайської до низькоресурсних мов, таких як баскська та кечуа.
Він також excels у багатомовних завданнях, таких як переклад, підсумовування, відповідь на питання тощо.
Чи можлива універсальна великомасштабна модель мови?
Концепція мовно-незалежної великомасштабної моделі мови, здатної розуміти та генерувати мову без упередженості щодо будь-якої конкретної мови, є цікавою.
Хоча розробка справжньої універсальної великомасштабної моделі мови ще далеко, сучасні багатомовні великомасштабні моделі мови продемонстрували значний успіх. Як тільки вони будуть повністю розроблені, вони зможуть задовольнити потреби низькоресурсних мов і різноманітних спільнот.
Наприклад, дослідження показують, що більшість багатомовних великомасштабних моделей мови можуть забезпечити нульове перехресне навчання між мовами з мови з великими ресурсами в мову з обмеженими ресурсами без завдань-специфічного навчального набору даних.
Також моделі, такі як YAYI та BLOOM, які зосереджені на конкретних мовах і спільнотах, продемонстрували потенціал мовно-орієнтованих підходів для стимулювання прогресу та інклюзивності.
Щоб побудувати універсальну великомасштабну модель мови або покращити сучасні багатомовні великомасштабні моделі мови, окремим особам та організаціям необхідно зробити наступне:
- Зібрати носіїв мови для участі спільноти та кураторів мовних наборів даних.
- Підтримати зусилля спільноти щодо відкритих внесків та фінансування багатомовних досліджень та розробок.
Виїди багатомовних великомасштабних моделей мови
Хоча концепція універсальних багатомовних великомасштабних моделей мови має великий потенціал, вони також стикаються з декількома викликами, які потрібно вирішити, перш ніж ми зможемо з них користуватися:
1. Кількість даних
Багатомовні моделі потребують більший словник для представлення токенів багатьох мов, ніж одномовні моделі, але багато мов не мають великомасштабних наборів даних. Це робить навчання цих моделей ефективно складним.
2. Проблеми якості даних
Забезпечення точності та культурної відповідності виводів багатомовних великомасштабних моделей мови через мови є суттєвою проблемою. Моделі повинні бути навчені та донастроєні з ретельною увагою до лінгвістичної та культурної нюансів, щоб уникнути упередженості та неточностей.
3. Обмеження ресурсів
Навчання та виконання багатомовних моделей потребують суттєвих обчислювальних ресурсів, таких як потужні графічні процесори (наприклад, NVIDIA A100 GPU). Висока вартість становить виклик, особливо для низькоресурсних мов і спільнот з обмеженим доступом до обчислювальної інфраструктури.
4. Архітектура моделі
Адаптація архітектури моделей для задоволення різноманітних лінгвістичних структур та складностей є постійним викликом. Моделі повинні бути здатні обробляти мови з різним порядком слів, морфологічними варіаціями та системами письма, зберігаючи при цьому високу продуктивність та ефективність.
5. Складності оцінки
Оцінка продуктивності багатомовних великомасштабних моделей мови за межами англійських стандартів є важливою для вимірювання їх справжньої ефективності. Це вимагає врахування культурних нюансів, лінгвістичних особливостей та галузевих вимог.
Багатомовні великомасштабні моделі мови мають потенціал зламати мовні бар’єри, наділити низькоресурсні мови та забезпечити ефективну комунікацію між різноманітними спільнотами.
Не пропустіть останні новини та аналіз у сфері штучного інтелекту та машинного навчання — відвідайте unite.ai сьогодні.










