Kunstig intelligens
Status for Multisprogede LLM’er: Bevægelse Beyond English

Ifølge Microsofts forskning har omkring 88% af verdens sprog, som tales af 1,2 milliarder mennesker, ikke adgang til Large Language Models (LLM’er). Dette skyldes, at de fleste LLM’er er engelsk-centrerede, dvs. de er primært bygget med engelske data og til engelske talere. Denne engelske dominans findes også i LLM-udviklingen og har resulteret i en digital sprogkløft, der potentielt udelukker de fleste mennesker fra fordelene ved LLM’er. For at løse dette problem for LLM’er er der behov for en LLM, der kan trænes på forskellige sprog og udføre opgaver på forskellige sprog. Indtast Multisprogede LLM’er!
Hvad er Multisprogede LLM’er?
En multisproget LLM kan forstå og generere tekst på flere sprog. De trænes på datasæt, der indeholder forskellige sprog, og kan udføre forskellige opgaver på mere end ét sprog fra en brugers prompt.
Multisprogede LLM-anvendelser er enorme, de omfatter oversættelse af litteratur til lokale dialekter, realtidsmultisproget kommunikation, multisproget indholdsskabelse osv. De vil hjælpe alle med at få adgang til information og tale med hinanden let, uanset deres sprog.
Desuden adresserer multisprogede LLM’er udfordringer som manglen på kulturelle nuancer og kontekst, begrænsninger i træningsdata og den potentielle tab af viden under oversættelse.
Hvordan fungerer Multisprogede LLM’er?
Opbygning af en multisproget LLM indebærer omhyggelig forberedelse af et balanceret korpus af tekst på forskellige sprog og valg af en passende arkitektur og træningsteknik til at træne modellen, foretrækkeligt en Transformer-model, som er perfekt til multisproget læring.

Kilde: Billede af forfatteren
En teknik er at dele indlejring, der fanger den semantiske betydning af ord på tværs af forskellige sprog. Dette gør, at LLM’er lærer lignende og forskelle mellem hvert sprog, hvilket giver mulighed for at forstå de forskellige sprog bedre.
Denne viden giver også LLM’er mulighed for at tilpasse sig forskellige sprogopgaver, som f.eks. oversættelse af sprog, skrivning i forskellige stile osv. En anden teknik, der anvendes, er cross-lingual transfer learning, hvor modellen først trænes på et stort korpus af multisproget data, før den afkaldes på specifikke opgaver.
Denne to-trinsproces sikrer, at modellen har en solid grund i multisproget sprogforståelse, hvilket gør den tilpasningsdygtig til forskellige downstream-applikationer.
Eksempler på Multisprogede Store Sprogmodeller

Kilde: Ruder.io
Flere bemærkelsesværdige eksempler på multisprogede LLM’er er dukket op, hver især tilpasset specifikke sprogbehov og kulturelle sammenhænge. Lad os udforske nogle af dem:
1. BLOOM
BLOOM er en åben-adgang multisproget LLM, der prioriterer diverse sprog og tilgængelighed. Med 176 milliarder parametre kan BLOOM håndtere opgaver på 46 naturlige og 13 programmeringssprog, hvilket gør det til en af de største og mest diverse LLM’er.
BLOOM’s åbne kilde-natur giver forskere, udviklere og sprogfællesskaber mulighed for at nyde godt af dets egenskaber og bidrage til dets forbedring.
2. YAYI 2
YAYI 2 er en åben-kilde LLM, der specifikt er designet til asiatiske sprog, hvor man tager hensyn til regionens kompleksiteter og kulturelle nuancer. Den blev fortrænet fra scratch på et multisproget korpus af over 16 asiatiske sprog, der indeholder 2,65 billioner filtrerede tokens.
Dette giver modellen bedre resultater, der opfylder de specifikke krav til sprog og kulturer i Asien.
3. PolyLM
PolyLM er en åben-kilde ‘polyglot’ LLM, der fokuserer på at løse udfordringerne ved lavresourcede sprog ved at tilbyde tilpasningsmuligheder. Den blev trænet på et datasæt på omkring 640 milliarder tokens og er tilgængelig i to modellærer: 1,7B og 13B. PolyLM kender over 16 forskellige sprog.
Den giver mulighed for, at modeller, der er trænet på højresourcede sprog, kan afkaldes til lavresourcede sprog med begrænsede data. Denne fleksibilitet gør LLM’er mere nyttige i forskellige sprogtilfælde og opgaver.
4. XGLM
XGLM, der har 7,5 milliarder parametre, er en multisproget LLM, der er trænet på et korpus, der dækker en divers samling af over 20 sprog ved hjælp af few-shot-læringsteknikken. Den er en del af en familie af store multisprogede LLM’er, der er trænet på et massivt datasæt af tekst og kode.
Den søger at dække mange sprog fuldstændigt, hvilket er årsagen til, at den fokuserer på inklusivitet og sproglig diversitet. XGLM demonstrerer potentialet for at bygge modeller, der kan imødekomme behovene for forskellige sprogfællesskaber.
5. mT5
mT5 (massivt multisproget Tekst-til-Tekst-Transfer-Transformer) blev udviklet af Google AI. Trænet på common crawl-datasættet, er mt5 en state-of-the-art multisproget LLM, der kan håndtere 101 sprog, lige fra bredt talte sprog som spansk og kinesisk til mindre ressourcede sprog som baskisk og quechua.
Den udmærker sig også i multisprogede opgaver som oversættelse, sammenfatning, spørgsmål-svar osv.
Er en Universal LLM mulig?
Konceptet om en sprog-uafhængig LLM, der kan forstå og generere sprog uden bias over for noget bestemt sprog, er interessant.
Selv om udviklingen af en rigtig universal LLM endnu er langt væk, har nuværende multisprogede LLM’er vist betydelig succes. Når de er fuldt udviklet, kan de imødekomme behovene for underrepræsenterede sprog og diverse fællesskaber.
For eksempel viser forskning, at de fleste multisprogede LLM’er kan facilitere zero-shot cross-lingual transfer fra et ressourcerigt sprog til et ressourcerigt sprog uden opgave-specifik træning.
Desuden har modeller som YAYI og BLOOM, der fokuserer på specifikke sprog og fællesskaber, demonstreret potentialet for sprog-centrerede tilgange til at drive fremgang og inklusivitet.
For at bygge en universal LLM eller forbedre nuværende Multisprogede LLM’er, skal enkeltpersoner og organisationer gøre følgende:
- Crowdsourcings af native talere til fællesskabsengagement og kurering af sprogdatasættene.
- Støtte til fællesskabsindsats omkring åbne kilde-bidrag og finansiering til multisproget forskning og udvikling.
Udfordringer for Multisprogede LLM’er
Selv om konceptet om universelle multisprogede LLM’er har stor potentiale, står de også over for flere udfordringer, der skal løses, før vi kan nyde godt af dem:
1. Datakvantitet
Multisprogede modeller kræver en større ordforråd til at repræsentere tokens i mange sprog end monolingske modeller, men mange sprog mangler store datasæt. Dette gør det svært at træne disse modeller effektivt.
2. Datakvalitetsbekymringer
At sikre nøjagtigheden og kulturelle passende af multisprogede LLM-udgaver på tværs af sprog er en betydelig bekymring. Modellerne skal trænes og afkaldes med omhyggelig opmærksomhed på sproglige og kulturelle nuancer for at undgå bias og uregelmæssigheder.
3. Ressourcerestriktioner
Træning og kørsel af multisprogede modeller kræver betydelige beregningsressourcer, såsom kraftfulde GPU’er (f.eks. NVIDIA A100 GPU). Den høje omkostning stiller udfordringer, især for lavresourcede sprog og fællesskaber med begrænsede muligheder for adgang til beregningsinfrastruktur.
4. Modelarkitektur
Tilpasning af modelarkitekturer til at imødekomme diverse sproglige strukturer og kompleksiteter er en fortsat udfordring. Modellerne skal kunne håndtere sprog med forskellige ordorden, morfologiske variationer og skriftsystemer, mens de opretholder høj præstation og effektivitet.
5. Evaluationskompleksiteter
Evaluering af multisprogede LLM’ers præstation ud over engelske benchmarks er afgørende for at måle deres virkelige effektivitet. Det kræver overvejelse af kulturelle nuancer, sproglige særheder og domænespecifikke krav.
Multisprogede LLM’er har potentialet for at bryde sprogbarrierer, styrke lavresourcede sprog og facilitere effektiv kommunikation på tværs af diverse fællesskaber.
Miss ikke de seneste nyheder og analyser i AI og ML – besøg unite.ai i dag.










