Umělá inteligence
Stav multijazyčných LLM: Přesáhnutí angličtiny

Podle výzkumu společnosti Microsoft kolem 88% světových jazyků, kterými hovoří 1,2 miliardy lidí, chybí přístup k Velkým jazykovým modelům (LLM). To je způsobeno tím, že většina LLM je zaměřena na angličtinu, tj. jsou většinou vyvíjeny s anglickými daty a pro anglicky mluvící osoby. Tato anglická dominance také převládá ve vývoji LLM a vedla k digitální jazykové propasti, která může vyloučit většinu lidí z přínosů LLM. Aby se tento problém vyřešil, je potřeba LLM, který lze trénovat v různých jazycích a provádět úkoly v různých jazycích. Vstoupíme do Multijazyčných LLM!
Co jsou Multijazyčné LLM?
Multijazyčný LLM může rozumět a generovat text v několika jazycích. Jsou trénovány na datech, která obsahují různé jazyky, a mohou provádět různé úkoly ve více než jednom jazyce na základě podnětu uživatele.
Aplikace multijazyčných LLM jsou enormní, zahrnují překlad literatury do místních dialektů, reálnou multijazyčnou komunikaci, tvorbu multijazyčného obsahu atd. Pomohou všem získat přístup k informacím a mluvit si snadno, bez ohledu na jazyk.
Kromě toho multijazyčné LLM řeší výzvy, jako je nedostatek kulturních nuancí a kontextu, omezení trénovacích dat a potenciální ztráta znalostí během překladu.
Jak fungují Multijazyčné LLM?
Stavba multijazyčného LLM zahrnuje pečlivé přípravu vyvážené sbírky textu v různých jazycích a výběr vhodné architektury a trénovací techniky pro trénování modelu, ideálně Transformer model, který je vhodný pro multijazyčné učení.

Zdroj: Obrázek od autora
Jedna technika spočívá ve sdílení vnoření, které zachycuje semantický význam slov napříč různými jazyky. To umožňuje LLM naučit se podobnosti a rozdíly každého jazyka, což mu umožňuje lépe rozumět různým jazykům.
Tato znalost také umožňuje LLM adaptovat se na různé lingvistické úkoly, jako je překlad jazyků, psaní v různých stylech atd. Další technika, která se používá, je překrojové učení, kde je model předtrénován na velkém korpusu multijazyčných dat, než je jemně upraven pro konkrétní úkoly.
Tento dvoufázový proces zajišťuje, že model má silný základ v multijazyčném jazykovém porozumění, což mu umožňuje přizpůsobit se různým aplikacím.
Příklady Multijazyčných velkých jazykových modelů

Zdroj: Ruder.io
Několik pozoruhodných příkladů multijazyčných LLM se objevilo, každý z nich uspokojuje specifické lingvistické potřeby a kulturní kontexty. Pojďme prozkoumat několik z nich:
1. BLOOM
BLOOM je otevřený multijazyčný LLM, který prioritizuje rozmanité jazyky a přístupnost. S 176 miliardami parametrů může BLOOM zpracovat úkoly v 46 přirozených a 13 programovacích jazycích, což z něj činí jeden z největších a nejrozmanitějších LLM.
Otevřená povaha BLOOM umožňuje výzkumníkům, vývojářům a jazykovým komunitám využít jeho schopností a přispět k jeho zlepšení.
2. YAYI 2
YAYI 2 je otevřený LLM, který je speciálně navržen pro asijské jazyky, s ohledem na složitosti a kulturní nuance regionu. Byl předtrénován od začátku na multijazyčném korpusu více než 16 asijských jazyků, obsahujícím 2,65 bilionu filtrovaných tokenů.
To umožňuje modelu dosáhnout lepší výsledky, které splňují specifické požadavky jazyků a kultur v Asii.
3. PolyLM
PolyLM je otevřený „polyglot“ LLM, který se zaměřuje na řešení problémů s nízkozdrojovými jazyky, nabízí adaptační schopnosti. Byl trénován na datové sadě o velikosti asi 640 miliard tokenů a je k dispozici ve dvou velikostech modelu: 1,7B a 13B. PolyLM zná více než 16 různých jazyků.
Umožňuje modelům, které jsou trénovány na jazycích s vysokými zdroji, být jemně upraveny pro nízkozdrojové jazyky s omezenými daty. Tato flexibilita činí LLM více užitečnými v různých jazykových situacích a úkolech.
4. XGLM
XGLM, s 7,5 miliardami parametrů, je multijazyčný LLM, který byl trénován na korpusu pokrývajícím rozmanitou sadu více než 20 jazyků pomocí techniky few-shot učení. Je součástí rodiny velkých multijazyčných LLM, které byly trénovány na obrovské datové sadě textu a kódu.
Cílem je pokrýt co nejvíce jazyků, a proto se zaměřuje na inkluzivitu a lingvistickou rozmanitost. XGLM demonstruje potenciál pro stavbu modelů, které uspokojují potřeby různých jazykových komunit.
5. mT5
mT5 (masivně multijazyčný Text-to-Text Transfer Transformer) byl vyvinut společností Google AI. Trénován na common crawl dataset, mt5 je špičkový multijazyčný LLM, který může zpracovat 101 jazyků, od široce používané španělštiny a čínštiny po méně zdrojové jazyky, jako je baskičtina a kečuánština.
Také vyniká v multijazyčných úkolech, jako je překlad, shrnutí, zodpovězení otázek atd.
Je možné vytvořit univerzální LLM?
Koncept jazykově neutrálního LLM, který může rozumět a generovat jazyk bez偏ení vůči jakémukoliv konkrétnímu jazyku, je fascinující.
Zatímco vývoj skutečně univerzálního LLM je stále daleko, současné multijazyčné LLM prokázaly významný úspěch. Jakmile budou plně vyvinuty, mohou uspokojit potřeby jazyků, které jsou nedostatečně zastoupeny, a různých komunit.
Například výzkum ukazuje, že většina multijazyčných LLM může usnadnit nulový shot překrojového učení z jazyka s bohatými zdroji do jazyka s omezenými zdroji bez úkolu-specifického trénovacího dat.
Výzvy Multijazyčných LLM
Zatímco koncept univerzálních multijazyčných LLM slibuje mnoho, také čelí několika výzvám, které musí být řešeny, než budeme moci využít jejich přínosů:
1. Množství dat
Multijazyčné modely vyžadují větší slovník pro reprezentaci tokenů v mnoha jazycích než monojazyčné modely, ale mnoho jazyků postrádá velké datové sady. To činí obtížným efektivní trénování těchto modelů.
2. Obavy o kvalitu dat
Zajištění přesnosti a kulturní vhodnosti výstupů multijazyčných LLM napříč jazyky je významnou obavou. Modely musí být trénovány a jemně upraveny s pečlivou pozorností k lingvistickým a kulturním nuancím, aby se zabránilo biasům a nepřesnostem.
3. Omezení zdrojů
Trénování a spouštění multijazyčných modelů vyžaduje podstatné výpočetní zdroje, jako jsou výkonné GPU (například NVIDIA A100 GPU). Vysoké náklady představují výzvy, zejména pro nízkozdrojové jazyky a komunity s omezeným přístupem k výpočetní infrastruktuře.
4. Architektura modelu
Adaptace architektury modelu pro zvládnutí rozmanitých lingvistických struktur a složitostí je pokračující výzvou. Modely musí být schopny zpracovat jazyky s odlišnými slovosledy, morfologickými variacemi a systémy psaní, zatímco zachovávají vysoký výkon a efektivitu.
5. Komplexity hodnocení
Hodnocení výkonu multijazyčných LLM beyond anglických benchmarků je kritické pro měření jejich skutečné efektivity. To vyžaduje zohlednění kulturních nuancí, lingvistických zvláštností a požadavků specifických pro doménu.
Multijazyčné LLM mají potenciál prolomit jazykové bariéry, posílit jazyky s nízkými zdroji a usnadnit efektivní komunikaci napříč různými komunitami.
Nepropásněte nejnovější zprávy a analýzy v oblasti AI a ML – navštivte unite.ai dnes.










