Connect with us

Sztuczna inteligencja

Odkrywanie Meta Llama 3: Skok w przód w dużych modelach językowych

mm

W dziedzinie generatywnego AI, Meta kontynuuje prowadzenie z zaangażowaniem w dostępność open-source, rozpowszechniając swoje zaawansowane Duże Modele Językowe Meta AI (Llama) serii na całym świecie dla deweloperów i badaczy. Budując na swoich postępach, Meta niedawno wprowadziła trzecią iterację tej serii, Llama 3. Ta nowa edycja znacznie poprawia Llama 2, oferując liczne ulepszenia i ustanawiając benchmarki, które wyzywają branżowych konkurentów, takich jak Google, Mistral i Anthropic. Artykuł ten eksploruje znaczące postępy Llama 3 i jak porównuje się do swojego poprzednika, Llama 2.

Seria Llama Meta: Od ekskluzywności do otwartego dostępu i zwiększonej wydajności

Meta zainicjowała swoją serię Llama w 2022 roku z uruchomieniem Llama 1, modelu ograniczonego do niekomercyjnego użytku i dostępnego tylko dla wybranych instytucji badawczych ze względu na ogromne wymagania obliczeniowe i charakterystykę własnościową, która charakteryzowała najnowsze LLM w tamtym czasie. W 2023 roku, wraz z wprowadzeniem Llama 2, Meta AI przesunęła się w kierunku większej otwartości, oferując model bezpłatnie zarówno do celów badawczych, jak i komercyjnych. Ten krok został zaprojektowany w celu udemokratyzowania dostępu do zaawansowanych technologii generatywnego AI, umożliwiając szerszemu gronu użytkowników, w tym startupom i mniejszym zespołom badawczym, innowacje i rozwój aplikacji bez wysokich kosztów związanych z dużymi modelami. Kontynuując ten trend w kierunku otwartości, Meta wprowadziła Llama 3, która koncentruje się na poprawie wydajności mniejszych modeli w różnych benchmarkach przemysłowych.

Wprowadzenie Llama 3

Llama 3 jest drugą generacją otwartych, dużych modeli językowych Meta (LLM), prezentując zarówno wstępnie wyszkolone, jak i dostosowane do instrukcji modele z 8B i 70B parametrów. W linii z poprzednikami, Llama 3 wykorzystuje tylko-dekodującą architekturę transformatora i kontynuuje praktykę autoregresyjnego, samouczącego się szkolenia w celu przewidzenia następnych tokenów w sekwencjach tekstu. Llama 3 jest wstępnie szkolona na zbiorze danych, który jest siedem razy większy niż ten użyty dla Llama 2, zawierający ponad 15 bilionów tokenów pochodzących z nowo opracowanego mixu publicznie dostępnych danych online. Ten ogromny zbiór danych jest przetwarzany przy użyciu dwóch klastrów wyposażonych w 24 000 GPU. Aby utrzymać wysoką jakość tego szkolenia, zastosowano różne techniki AI zorientowane na dane, w tym filtry heurystyczne i NSFW, semantyczną deduplikację oraz klasyfikację jakości tekstu. Dostosowany do aplikacji dialogowych, model Llama 3 Instruct został znacznie udoskonalony, zawierając ponad 10 milionów próbek danych opatrzonych adnotacjami ludzkimi i wykorzystując zaawansowany mix metod szkoleniowych, takich jak nadzorowane doskonalenie (SFT), rejection sampling, optymalizacja polityki bliskiej (PPO) oraz bezpośrednia optymalizacja polityki (DPO).

Llama 3 vs. Llama 2: Kluczowe ulepszenia

Llama 3 wprowadza kilka ulepszeń w porównaniu z Llama 2, znacznie zwiększając swoją funkcjonalność i wydajność:

  • Rozszerzona słownictwo: Llama 3 zwiększyła swoje słownictwo do 128 256 tokenów, w porównaniu z 32 000 tokenami Llama 2. To ulepszenie wspiera bardziej efektywną kodowanie tekstu zarówno dla wejść, jak i wyjść i wzmacnia jej możliwości wielojęzyczne.
  • Wydlużona długość kontekstu: Modele Llama 3 oferują długość kontekstu 8 000 tokenów, podwajając 4 090 tokenów obsługiwanych przez Llama 2. To zwiększenie pozwala na obsługę bardziej obszernych treści, obejmując zarówno wprowadzane przez użytkownika dane wejściowe, jak i odpowiedzi modelu.
  • Ulepszona baza danych szkoleniowych: Zbiór danych szkoleniowych dla Llama 3 jest siedem razy większy niż ten dla Llama 2, zawierając czterokrotnie więcej kodu. Zawiera ponad 5% wysokiej jakości, nieangielskich danych, obejmujących ponad 30 języków, co jest kluczowe dla obsługi aplikacji wielojęzycznych. Te dane przechodzą rygorystyczne kontrole jakości przy użyciu zaawansowanych technik, takich jak filtry heurystyczne i NSFW, semantyczna deduplikacja oraz klasyfikatory tekstu.
  • Doskonalone instrukcje i ocena: Odbiegając od Llama 2, Llama 3 wykorzystuje zaawansowane techniki dostosowania do instrukcji, w tym nadzorowane doskonalenie (SFT), rejection sampling, optymalizację polityki bliskiej (PPO) oraz bezpośrednią optymalizację polityki (DPO). Aby uzupełnić ten proces, wprowadzono nowy, wysokiej jakości zestaw oceny ludzkiej, składający się z 1 800 danych wejściowych, obejmujących różne przypadki użycia, takie jak porady, burza mózgów, klasyfikacja, kodowanie itp., zapewniając kompleksową ocenę i dostosowanie możliwości modelu.
  • Zaawansowana bezpieczeństwo AI: Llama 3, podobnie jak Llama 2, włącza surowe środki bezpieczeństwa, takie jak dostosowanie do instrukcji i kompleksowe testy czerwone, aby złagodzić ryzyka, szczególnie w krytycznych obszarach, takich jak cyberbezpieczeństwo i zagrożenia biologiczne. W ramach tych wysiłków Meta wprowadziła również Llama Guard 2, dostosowany do wersji 8B Llama 3. Ten nowy model ulepsza serię Llama Guard przez klasyfikację wejść i wyjść LLM w celu identyfikacji potencjalnie niebezpiecznych treści, co czyni go idealnym dla środowisk produkcyjnych.

Dostępność Llama 3

Modele Llama 3 są teraz zintegrowane z ekosystemem Hugging Face, zwiększając dostępność dla deweloperów. Modele są również dostępne za pośrednictwem platform model-as-a-service, takich jak Perplexity Labs i Fireworks.ai, oraz na platformach chmurowych, takich jak AWS SageMaker, Azure ML oraz Vertex AI. Meta planuje dalej rozszerzyć dostępność Llama 3, w tym na platformy, takie jak Google Cloud, Kaggle, IBM WatsonX, NVIDIA NIM oraz Snowflake. Dodatkowo, wsparcie sprzętowe dla Llama 3 zostanie rozszerzone o platformy od AMD, AWS, Dell, Intel, NVIDIA oraz Qualcomm.

Nadchodzące ulepszenia w Llama 3

Meta ujawniła, że bieżące wydanie Llama 3 jest tylko pierwszą fazą w ich szerszej wizji pełnej wersji Llama 3. Rozwijają zaawansowany model z ponad 400 miliardami parametrów, który wprowadzi nowe funkcje, w tym wielomodalność i możliwość obsługi wielu języków. Ta ulepszona wersja będzie również posiadać znacznie wydłużone okno kontekstowe i ulepszoną ogólną wydajność.

Podsumowanie

Llama 3 Meta stanowi znaczącą ewolucję w krajobrazie dużych modeli językowych, napędzając serię nie tylko w kierunku większej dostępności open-source, ale także znacznie zwiększając swoje możliwości wydajności. Z bazą danych szkoleniowych siedem razy większą niż jej poprzednik i funkcjami, takimi jak rozszerzone słownictwo i zwiększona długość kontekstu, Llama 3 ustanawia nowe standardy, które wyzywają nawet najsilniejszych konkurentów branżowych.

Trzecia iteracja nie tylko kontynuuje udemokratyzowanie technologii AI, czyniąc wysokiej jakości możliwości dostępnymi dla szerszego grona deweloperów, ale również wprowadza znaczące postępy w zakresie bezpieczeństwa i precyzji szkolenia. Poprzez integrację tych modeli z platformami, takimi jak Hugging Face, oraz rozszerzanie dostępności za pośrednictwem głównych usług chmurowych, Meta zapewnia, że Llama 3 jest tak wszechobecna, jak i potężna.

Spoglądając w przyszłość, ciągły rozwój Meta obiecuje jeszcze bardziej zaawansowane możliwości, w tym wielomodalność i rozszerzoną obsługę języków, ustanawiając scenę dla Llama 3, aby nie tylko konkurować, ale potencjalnie przewyższyć inne główne modele AI na rynku. Llama 3 jest świadectwem zaangażowania Meta w prowadzenie rewolucji AI, dostarczając narzędzi, które nie tylko są bardziej dostępne, ale również znacznie bardziej zaawansowane i bezpieczniejsze dla globalnej bazy użytkowników.

Dr. Tehseen Zia jest profesorem nadzwyczajnym w COMSATS University Islamabad, posiada tytuł doktora w dziedzinie sztucznej inteligencji na Vienna University of Technology, Austria. Specjalizując się w sztucznej inteligencji, uczeniu maszynowym, nauce o danych i widzeniu komputerowym, wniósł znaczący wkład poprzez publikacje w renomowanych czasopismach naukowych. Dr. Tehseen Zia również kierował różnymi projektami przemysłowymi jako główny badacz i pełnił funkcję konsultanta ds. sztucznej inteligencji.