Connect with us

Sztuczna inteligencja

Stan Multilingual LLM: Przekraczanie Granic Języka Angielskiego

mm
Multilingual LLMs Blog image

Zgodnie z badaniami przeprowadzonymi przez firmę Microsoft, około 88% języków świata, używanych przez 1,2 miliarda ludzi, nie ma dostępu do Large Language Models (LLM). Jest to spowodowane tym, że większość LLM jest ukierunkowana na język angielski, tzn. są one budowane głównie z danych w języku angielskim i dla użytkowników języka angielskiego. ​Ten dominujący charakter języka angielskiego również przeważa w rozwoju LLM i doprowadził do powstania cyfrowej przepaści językowej, potencjalnie wykluczając większość ludzi z korzyści LLM. Aby rozwiązać ten problem w LLM, potrzebny jest LLM, który może być szkolony w różnych językach i wykonywać zadania w różnych językach. Wkraczają Multilingual LLM!

Co to są Multilingual LLM?

Multilingual LLM może rozumieć i generować tekst w wielu językach. Są one szkolone na zbiorach danych, które zawierają różne języki i mogą wykonywać różne zadania w więcej niż jednym języku na podstawie podpowiedzi użytkownika.

Zastosowania Multilingual LLM są ogromne, obejmują one tłumaczenie literatury na dialekty lokalne, komunikację w czasie rzeczywistym w wielu językach, tworzenie zawartości w wielu językach itp. Pomogą one każdemu uzyskać dostęp do informacji i porozmawiać ze sobą łatwo, niezależnie od języka.

Ponadto, multilingual LLM rozwiązują wyzwania takie jak brak niuansów kulturowych i kontekstu, ograniczenia danych szkoleniowych oraz potencjalna utrata wiedzy podczas tłumaczenia.

Jak działają Multilingual LLM?

Budowanie multilingual LLM wymaga starannego przygotowania zbalansowanego korpusu tekstu w różnych językach oraz wyboru odpowiedniej architektury i techniki szkolenia modelu, preferowanej Transformer model, który jest idealny do wielojęzycznych uczeń.

Steps to build a multilingual LLM

Source: Image by author

Jedną z technik jest udostępnianie osadzeń, które przechwytują znaczenie semantyczne słów w różnych językach. To pozwala LLM nauczyć się podobieństw i różnic każdego języka, umożliwiając lepsze zrozumienie różnych języków.

Ta wiedza również upoważnia LLM do adaptacji do różnych zadań językowych, takich jak tłumaczenie języków, pisanie w różnych stylach itp. Inną techniką jest cross-lingual transfer learning, gdzie model jest wstępnie szkolony na dużym korpusie danych wielojęzycznych przed dopasowaniem do konkretnych zadań.

Ten dwuetapowy proces zapewnia, że model ma silne podstawy w rozumieniu języka wielojęzycznego, co pozwala mu dostosować się do różnych aplikacji.

Przykłady Multilingual Large Language Models

Multilingual LLM comparison chart

Source: Ruder.io

Wystąpiło kilka godnych uwagi przykładów multilingual LLM, każdy z nich odpowiada konkretnym potrzebom językowym i kontekstom kulturowym. Zobaczmy kilka z nich:

1. BLOOM

BLOOM to otwarty dostęp do multilingual LLM, który priorytetowo traktuje różnorodne języki i dostępność. Z 176 miliardami parametrów BLOOM może wykonywać zadania w 46 językach naturalnych i 13 językach programowania, co czyni go jednym z największych i najbardziej różnorodnych LLM.

Otwarta natura BLOOM pozwala badaczom, deweloperom i społecznościom językowym korzystać z jego możliwości i przyczyniać się do jego ulepszania.

2. YAYI 2

YAYI 2 to otwarty LLM zaprojektowany specjalnie dla języków azjatyckich, biorąc pod uwagę złożoności i niuanse kulturowe regionu. Został on wstępnie szkolony od podstaw na korpusie wielojęzycznym obejmującym 16 języków azjatyckich zawierających 2,65 biliona przefiltrowanych tokenów.

To sprawia, że model daje lepsze wyniki, spełniając konkretnymi wymagania języków i kultur w Azji.

3. PolyLM

PolyLM to otwarty “wielojęzyczny” LLM, który koncentruje się na rozwiązywaniu problemów języków o niskich zasobach, oferując możliwości adaptacji. Został on szkolony na zbiorze danych o około 640 miliardach tokenów i jest dostępny w dwóch rozmiarach modelu: 1,7B i 13B. PolyLM zna ponad 16 różnych języków.

Umożliwia modelom szkolonym w językach o wysokich zasobach dostosowanie do języków o niskich zasobach z ograniczonymi danymi. Ta elastyczność sprawia, że LLM są bardziej przydatne w różnych sytuacjach językowych i zadaniach.

4. XGLM

XGLM, posiadający 7,5 miliardów parametrów, to multilingual LLM szkolony na korpusie obejmującym różnorodny zbiór ponad 20 języków przy użyciu techniki few-shot learning. Jest on częścią rodziny dużych, wielojęzycznych LLM szkolonych na ogromnym zbiorze tekstu i kodu.

Celem jest objęcie wielu języków w pełni, dlatego koncentruje się na inkluzji i różnorodności językowej. XGLM demonstruje potencjał budowy modeli odpowiadających potrzebom różnych społeczności językowych.

5. mT5

mT5 (massively multilingual Text-to-Text Transfer Transformer) został opracowany przez Google AI. Szkolony na common crawl dataset, mt5 to model LLM, który może obsługiwać 101 języków, od powszechnie używanych języków hiszpańskiego i chińskiego po mniej zasobne języki, takie jak baskijski i keczua.

Wyróżnia się również w zadaniach wielojęzycznych, takich jak tłumaczenie, streszczenie, odpowiedzi na pytania itp.

Czy możliwy jest Uniwersalny LLM?

Koncept językowo-neutralnego LLM, który mógłby zrozumieć i generować język bez uprzedzeń wobec jakiegokolwiek konkretnego języka, jest interesujący.

Chociaż rozwój prawdziwie uniwersalnego LLM jest jeszcze daleko, obecne multilingual LLM wykazały znaczny sukces. Gdy zostaną w pełni rozwinięte, będą mogły odpowiadać potrzebom języków niedoreprezentowanych i różnorodnych społeczności.

Na przykład, badania pokazują, że większość multilingual LLM może ułatwić transfer zero-shot między językiem o wysokich zasobach a językiem o niskich zasobach bez konieczności szkolenia danych specyficznych dla zadania.

Ponadto, modele takie jak YAYI i BLOOM, które koncentrują się na konkretnych językach i społecznościach, wykazały potencjał podejść ukierunkowanych na język w napędzaniu postępu i inkluzji.

Aby zbudować uniwersalny LLM lub udoskonalić obecne Multilingual LLM, osoby i organizacje muszą:

  • Zbierać dane od rodzimych użytkowników języka w celu zaangażowania społeczności i kuracji zbiorów danych językowych.
  • Wspierać wysiłki społeczności w zakresie wkładu open-source i finansowania badań i rozwoju wielojęzycznego.

Wyzwania Multilingual LLM

Chociaż koncept uniwersalnych multilingual LLM obiecuje wiele, stoją one również przed kilkoma wyzwaniami, które muszą być rozwiązane, zanim będziemy mogli skorzystać z nich:

1. Ilość danych

Modele wielojęzyczne wymagają większego słownictwa, aby reprezentować tokeny w wielu językach, niż modele monojęzyczne, ale wiele języków nie posiada dużych zbiorów danych. To utrudnia skuteczne szkolenie tych modeli.

2. Problemy z jakością danych

Gwarantowanie dokładności i odpowiedniości kulturowej danych wyjściowych multilingual LLM we wszystkich językach jest znaczącym problemem. Modele muszą być szkolone i dopasowywane z uwagą na niuanse językowe i kulturowe, aby uniknąć uprzedzeń i nieścisłości.

3. Ograniczenia zasobów

Szkolenie i uruchamianie modeli wielojęzycznych wymaga znacznych zasobów obliczeniowych, takich jak potężne karty graficzne (np. NVIDIA A100 GPU). Wysoki koszt stanowi wyzwanie, szczególnie dla języków o niskich zasobach i społeczności z ograniczonym dostępem do infrastruktury obliczeniowej.

4. Architektura modelu

Dostosowanie architektury modelu do potrzeb różnorodnych struktur językowych i złożoności jest ciągłym wyzwaniem. Modele muszą być w stanie obsługiwać języki o różnych kolejnościach słów, odmianach morfologicznych i systemach pisma, jednocześnie utrzymując wysoką wydajność.

5. Złożoności oceny

Ocena skuteczności multilingual LLM poza benchmarkami języka angielskiego jest kluczowa dla pomiaru ich prawdziwej skuteczności. Wymaga to uwzględnienia niuansów kulturowych, cech językowych i wymagań specyficznych dla domeny.

Multilingual LLM mają potencjał łamania barier językowych, umożliwiając językom o niskich zasobach i ułatwiając skuteczną komunikację między różnorodnymi społecznościami.

Nie przegap najnowszych wiadomości i analiz w dziedzinie AI i ML – odwiedź unite.ai już dziś.

Haziqa jest naukowcem danych z bogatym doświadczeniem w tworzeniu treści technicznych dla firm AI i SaaS.