Вештачка интелигенција

Стање вишејезичних ЛЛМ-а: Померање даље од енглеског

објављен

КСНУМКС месеци пре

10. фебруара 2024. године

Према Мицрософт истраживању, око 88% светских језика, који говори 1.2 милијарде људи, немају приступ Велики језички модели (ЛЛМ). То је зато што је већина ЛЛМ-ова усмерена на енглески језик, тј. углавном су изграђени са подацима на енглеском и за говорнике енглеског језика. Ова доминација енглеског такође преовладава у развоју ЛЛМ и резултирала је јазом у дигиталном језику, потенцијално искључујући већину људи из предности ЛЛМ-а. Да би се решио овај проблем за ЛЛМ, потребан је ЛЛМ који може да се обучава на различитим језицима и да обавља задатке на различитим језицима. Унесите вишејезичне ЛЛМ!

Шта су вишејезични ЛЛМ?

Вишејезични ЛЛМ може да разуме и генерише текст на више језика. Они су обучени за скупове података који садрже различите језике и могу преузети различите задатке на више од једног језика из корисничког упита.

Вишејезичне ЛЛМ апликације су огромне, укључују превођење литературе на локалне дијалекте, вишејезичну комуникацију у реалном времену, креирање вишејезичног садржаја, итд. Оне би свима помогле да приступе информацијама и да лако разговарају једни са другима, без обзира на језик.

Такође, вишејезични ЛЛМ се баве изазовима као што су недостатак културних нијанси и контекста, ограничења података о обуци и потенцијални губитак знања током превођења.

Како функционишу вишејезични ЛЛМ?

Изградња вишејезичног ЛЛМ-а укључује пажљиво припремање уравнотеженог корпуса текста на различитим језицима и одабир одговарајуће архитектуре и технике обуке за обуку модела, пожељно Модел трансформатора, што је савршено за вишејезично учење.

Кораци за изградњу вишејезичног ЛЛМ

Извор: Слика аутора

Једна техника је дељење уградњи, које обухватају семантичко значење речи на различитим језицима. Ово чини да ЛЛМ научи сличности и разлике сваког језика, омогућавајући му да боље разуме различите језике.

Ово знање такође омогућава ЛЛМ да се прилагоди различитим лингвистичким задацима, као што су превођење језика, писање у различитим стиловима, итд. Друга техника која се користи је међујезичко трансферно учење, где је модел претходно обучен на великом корпусу вишејезичних података пре него што буде фино подешен за специфичне задатке.

Овај процес у два корака осигурава да модел има јаку основу у разумевању вишејезичног језика, чинећи га прилагодљивим различитим апликацијама које се налазе на низу.

Примери вишејезичних модела великих језика

Вишејезична упоредна табела ЛЛМ

Извор: Рудер.ио

Појавило се неколико значајних примера вишејезичних ЛЛМ, од којих сваки задовољава специфичне језичке потребе и културни контекст. Хајде да истражимо неке од њих:

1. БЛООМ

БЛООМ је вишејезични ЛЛМ отвореног приступа који даје приоритет различитим језицима и приступачности. Са 176 милијарди параметара, БЛООМ може да се носи са задацима у 46 природних и 13 програмских језика, што га чини једним од највећих и најразноврснијих ЛЛМ.

БЛООМ-ова природа отвореног кода омогућава истраживачима, програмерима и језичким заједницама да искористе његове могућности и допринесу њиховом побољшању.

2. ИАИИ 2

ИАИИ 2 је ЛЛМ отвореног кода дизајниран посебно за азијске језике, с обзиром на сложеност и културне нијансе региона. Претходно је обучен од нуле на вишејезичном корпусу од преко 16 азијских језика који садржи 2.65 трилиона филтрираних токена.

Ово чини да модел даје боље резултате, испуњавајући специфичне захтеве језика и култура у Азији.

3. ПолиЛМ

ПолиЛМ је 'полиглот' ЛЛМ отвореног кода који се фокусира на решавање изазова језика са ниским ресурсима нудећи могућности прилагођавања. Обучен је на скупу података од око 640 милијарди токена и доступан је у две величине модела: 1.7Б и 13Б. ПолиЛМ познаје преко 16 различитих језика.

Омогућава да се модели обучени на језицима са високим ресурсима фино подесе за језике са ниским ресурсима са ограниченим подацима. Ова флексибилност чини ЛЛМ кориснијим у различитим језичким ситуацијама и задацима.

4. КСГЛМ

КСГЛМ, који се може похвалити 7.5 милијарди параметара, је вишејезични ЛЛМ обучен на корпусу који покрива разноврстан скуп од преко 20 језика користећи технику учења неколико снимака. То је део породице великих вишејезичних ЛЛМ-а обучених на огромном скупу података текста и кода.

Циљ му је да у потпуности покрије многе језике, због чега се фокусира на инклузивност и језичку разноликост. КСГЛМ показује потенцијал за изградњу модела који задовољавају потребе различитих језичких заједница.

5. мТ5

мТ5 (масовно вишејезични Трансформер за пренос текста у текст) је развио Гоогле АИ. Обучен на заједнички скуп података пописивања, мт5 је најсавременији вишејезични ЛЛМ који може да обрађује 101 језик, у распону од шпанског и кинеског који се широко говори до језика са мање ресурса као што су баскијски и кечуа.

Такође се истиче у вишејезичним задацима као што су превођење, сумирање, одговарање на питања итд.

Да ли је универзални ЛЛМ могућ?

Концепт језички неутралног ЛЛМ, способног да разуме и генерише језик без пристрасности према било ком одређеном језику, је интригантан.

Док је развој заиста универзалног ЛЛМ-а још увек далеко, садашњи вишејезични ЛЛМ су показали значајан успех. Када се у потпуности развију, могу задовољити потребе недовољно заступљених језика и различитих заједница.

На пример, истраживање показује да већина вишејезичних ЛЛМ-ова може олакшати вишејезични трансфер са језика богатог ресурсима на језик који је лишен ресурса без података о обуци за специфичне задатке.

Такође, модели као што су ИАИИ и БЛООМ, који се фокусирају на специфичне језике и заједнице, показали су потенцијал приступа усмерених на језик у покретању напретка и инклузивности.

Да би изградили универзални ЛЛМ или побољшали тренутне вишејезичне ЛЛМ, појединци и организације морају да ураде следеће:

Цровдсоурце изворни говорници за ангажовање заједнице и курирање скупова података језика.
Подржите напоре заједнице у вези са доприносима отвореног кода и финансирањем вишејезичног истраживања и развоја.

Изазови вишејезичних ЛЛМ

Иако концепт универзалних вишејезичних ЛЛМ обећава, они се такође суочавају са неколико изазова који се морају решити пре него што можемо имати користи од њих:

1. Количина података

Вишејезични модели захтевају већи речник за представљање токена на многим језицима него једнојезични модели, али многим језицима недостају скупови података великих размера. То отежава ефикасно обучавање ових модела.

2. Забринутост за квалитет података

Осигурање тачности и културолошке прикладности вишејезичних ЛЛМ резултата на различитим језицима представља значајан проблем. Модели морају да се обучавају и фино подешавају са посебном пажњом на језичке и културне нијансе како би избегли пристрасности и нетачности.

3. Ограничења ресурса

Обука и покретање вишејезичних модела захтевају значајне рачунарске ресурсе као што су моћни ГПУ-ови (нпр. НВИДИА А100 ГПУ). Висока цена представља изазове, посебно за језике са ниским ресурсима и заједнице са ограниченим приступом рачунарској инфраструктури.

4. Архитектура модела

Прилагођавање архитектуре модела за прилагођавање различитим језичким структурама и сложености је стални изазов. Модели морају бити у стању да рукују језицима са различитим редоследом речи, морфолошким варијацијама и системима писања уз одржавање високих перформанси и ефикасности.

5. Сложености евалуације

Процена перформанси вишејезичних ЛЛМ-ова изван енглеских стандарда је критична за мерење њихове стварне ефикасности. То захтева разматрање културних нијанси, језичких посебности и захтева специфичних за домен.

Вишејезични ЛЛМ имају потенцијал да разбију језичке баријере, оснаже језике са недовољно ресурса и олакшају ефикасну комуникацију у различитим заједницама.

Не пропустите најновије вести и анализе у АИ и МЛ – посетите ујединити.аи данас.