Artificiell intelligens

Tillståndet för multilingvala LLM: Att gå utöver engelska

Published February 10, 2024

Updated April 27, 2026

Haziqa Sajid

Enligt Microsofts forskning saknar cirka 88% av världens språk, talade av 1,2 miljarder människor, tillgång till Large Language Models (LLM). Detta beror på att de flesta LLM är engelskcentrerade, dvs. de är i huvudsak byggda med engelska data och för engelsktalande. Denna engelska dominans råder också inom LLM-utveckling och har lett till en digital språkgap, som potentiellt kan exkludera de flesta människor från fördelarna med LLM. För att lösa detta problem för LLM behövs en LLM som kan tränas i olika språk och utföra uppgifter på olika språk. Stig in i multilingvala LLM!

Vad är multilingvala LLM?

En multilingval LLM kan förstå och generera text på flera språk. De tränas på datamängder som innehåller olika språk och kan utföra olika uppgifter på mer än ett språk från en användares prompt.

Tillämpningarna av multilingvala LLM är enorma, de inkluderar översättning av litteratur till lokala dialekt, realtids multilingval kommunikation, multilingval innehållsskapande osv. De skulle hjälpa alla att få tillgång till information och prata med varandra lätt, oavsett deras språk.

Dessutom adresserar multilingvala LLM utmaningar som brist på kulturella nyanser och sammanhang, begränsningar i träningsdata och den potentiella förlusten av kunskap under översättning.

Hur fungerar multilingvala LLM?

Att bygga en multilingval LLM innebär att man noggrant förbereder en balanserad korpus av text på olika språk och väljer en lämplig arkitektur och träningsmetod för att träna modellen, helst en Transformer-modell, som är perfekt för multilingvalt lärande.

Steg för att bygga en multilingval LLM

Källa: Bild av författaren

En teknik är att dela inbäddningar, som fångar den semantiska betydelsen av ord på olika språk. Detta gör att LLM lär sig likheterna och olikheterna mellan varje språk, vilket möjliggör förståelse av olika språk.

Denna kunskap ger också LLM möjlighet att anpassa sig till olika lingvistiska uppgifter, som översättning av språk, skrivande i olika stilar osv. En annan teknik som används är cross-lingval överföringslärande, där modellen först tränas på en stor korpus av multilingval data innan den finjusteras för specifika uppgifter.

Denna tvåstegsprocess säkerställer att modellen har en stark grund i multilingvalt språkförståelse, vilket gör den anpassningsbar till olika nedströmsapplikationer.

Exempel på multilingvala stora språkmodeller

Jämförelse av multilingvala LLM

Källa: Ruder.io

Flera noterbara exempel på multilingvala LLM har dykt upp, var och en som tillgodoser specifika språkliga behov och kulturella sammanhang. Låt oss undersöka några av dem:

1. BLOOM

BLOOM är en öppen multilingval LLM som prioriterar mångfaldiga språk och tillgänglighet. Med 176 miljarder parametrar kan BLOOM hantera uppgifter på 46 naturliga och 13 programmeringsspråk, vilket gör den till en av de största och mest varierade LLM.

BLOOMs öppna natur tillåter forskare, utvecklare och språkgemenskaper att dra nytta av dess förmågor och bidra till dess förbättring.

2. YAYI 2

YAYI 2 är en öppen LLM som är speciellt utformad för asiatiska språk, med hänsyn till regionens komplexiteter och kulturella nyanser. Den tränades från scratch på en multilingval korpus av över 16 asiatiska språk som innehåller 2,65 biljoner filtrerade token.

Detta gör att modellen ger bättre resultat, som uppfyller de specifika kraven för språk och kulturer i Asien.

3. PolyLM

PolyLM är en öppen “polyglot” LLM som fokuserar på att hantera utmaningarna med lågresursspråk genom att erbjuda anpassningsförmåga. Den tränades på en datamängd av cirka 640 miljarder token och finns i två modellstorlekar: 1,7B och 13B. PolyLM känner till över 16 olika språk.

Den möjliggör för modeller som tränats på högresursspråk att finjusteras för lågresursspråk med begränsad data. Denna flexibilitet gör LLM mer användbar i olika språksituationer och uppgifter.

4. XGLM

XGLM, som har 7,5 miljarder parametrar, är en multilingval LLM som tränats på en korpus som täcker en mångfaldig uppsättning av över 20 språk med hjälp av few-shot-lärandet. Den är en del av en familj av storskaliga multilingvala LLM som tränats på en enorm datamängd av text och kod.

Den syftar till att täcka många språk fullständigt, vilket är varför den fokuserar på inklusivitet och språklig mångfald. XGLM demonstrerar potentialen för att bygga modeller som tillgodoser behoven hos olika språkgemenskaper.

5. mT5

mT5 (massivt multilingvalt Text-till-Text-Transfer-Transformer) utvecklades av Google AI. Tränad på common crawl-dataset, är mT5 en state-of-the-art multilingval LLM som kan hantera 101 språk, från väletablerade språk som spanska och kinesiska till mindre resursspråk som baskiska och quechua.

Den excellerar också i multilingvala uppgifter som översättning, sammanfattning, frågesvar osv.

Är en universell LLM möjlig?

Konceptet med en språkneutral LLM, som kan förstå och generera språk utan fördomar mot något specifikt språk, är intressant.

Medan utvecklingen av en riktigt universell LLM fortfarande är långt borta, har nuvarande multilingvala LLM visat betydande framgång. När de är fullt utvecklade kan de tillgodose behoven hos underrepresenterade språk och mångfaldiga gemenskaper.

Till exempel visar forskning att de flesta multilingvala LLM kan underlätta zero-shot cross-lingval överföring från ett resursrikt språk till ett resursfattigt språk utan uppgiftsspecifik träningsdata.

Också modeller som YAYI och BLOOM, som fokuserar på specifika språk och gemenskaper, har visat potentialen för språkcentrerade tillvägagångssätt för att driva framåt och inklusivitet.

För att bygga en universell LLM eller förbättra nuvarande multilingvala LLM måste individer och organisationer göra följande:

Crowdsourca native speakers för communityengagemang och kurering av språkdatabasen.
Stöd communityinsatser gällande öppen källkodsbidrag och finansiering till multilingval forskning och utveckling.

Utmaningar för multilingvala LLM

Medan konceptet med universella multilingvala LLM har stort löfte, står de också inför flera utmaningar som måste lösas innan vi kan dra nytta av dem:

1. Datakvantitet

Multilingvala modeller kräver en större ordförråd för att representera token på många språk än monolingvala modeller, men många språk saknar storskaliga datamängder. Detta gör det svårt att träna dessa modeller effektivt.

2. Datakvalitetsproblem

Att säkerställa noggrannheten och kulturella lämpligheten hos multilingvala LLM-utdata över språk är en betydande utmaning. Modeller måste tränas och finjusteras med noggrann uppmärksamhet på lingvistiska och kulturella nyanser för att undvika fördomar och fel.

3. Resursbegränsningar

Att träna och köra multilingvala modeller kräver betydande beräkningsresurser som kraftfulla GPU:er (t.ex. NVIDIA A100 GPU). Den höga kostnaden utgör utmaningar, särskilt för lågresursspråk och gemenskaper med begränsad tillgång till beräkningsinfrastruktur.

4. Modellarkitektur

Att anpassa modellarkitekturer för att hantera olika lingvistiska strukturer och komplexiteter är en pågående utmaning. Modeller måste kunna hantera språk med olika ordordning, morfologiska variationer och skriftsystem samtidigt som de upprätthåller hög prestanda och effektivitet.

5. Utvärderingskomplexiteter

Att utvärdera prestandan hos multilingvala LLM bortom engelska benchmark är avgörande för att mäta deras verkliga effektivitet. Det kräver att man beaktar kulturella nyanser, lingvistiska egenheter och domänspecifika krav.

Multilingvala LLM har potentialen att bryta språkbarriärer, ge kraft åt underresursspråk och underlätta effektiv kommunikation mellan olika gemenskaper.

Miss inte den senaste nyheten och analysen inom AI och ML – besök unite.ai idag.