Sztuczna inteligencja

Odkrywanie Meta Llama 3: Skok w przód w dużych modelach językowych

mm

W dziedzinie generatywnego AI, Meta kontynuuje prowadzenie w dostępności open-source, rozpowszechniając swoje zaawansowane duże modele językowe Meta AI (Llama) na całym świecie dla deweloperów i badaczy. Rozwijając swoje postępowe inicjatywy, Meta niedawno wprowadziła trzecią iterację tej serii, Llama 3. Ta nowa edycja znacznie poprawia Llama 2, oferując liczne ulepszenia i ustanawiając benchmarki, które wyzywają konkurentów branżowych, takich jak Google, Mistral i Anthropic. Artykuł ten eksploruje znaczące postępy Llama 3 i jak się porównuje do swojego poprzednika, Llama 2.

Meta’s Llama Series: Od ekskluzywności do otwartego dostępu i zwiększonej wydajności

Meta zainicjowała swoją serię Llama w 2022 roku z wprowadzeniem Llama 1, modelu ograniczonego do użytku niekomercyjnego i dostępnego tylko dla wybranych instytucji badawczych ze względu na ogromne wymagania obliczeniowe i charakterystykę własnościową, która charakteryzowała najnowocześniejsze modele LLM w tamtym czasie. W 2023 roku, wraz z wprowadzeniem Llama 2, Meta AI przesunęła się w kierunku większej otwartości, oferując model bezpłatnie zarówno do badań, jak i celów komercyjnych. Ten krok został zaprojektowany w celu udemokratyzowania dostępu do zaawansowanych technologii generatywnego AI, umożliwiając szerszemu gronu użytkowników, w tym startupom i mniejszym zespołom badawczym, innowacji i rozwoju aplikacji bez wysokich kosztów zwykle związanych z dużymi modelami. Kontynuując ten trend w kierunku otwartości, Meta wprowadziła Llama 3, która koncentruje się na poprawie wydajności mniejszych modeli w różnych benchmarkach przemysłowych.

Wprowadzenie Llama 3

Llama 3 jest drugą generacją open-source dużych modeli językowych Meta (LLM), zawierających zarówno wstępnie wyuczone, jak i wyuczone na instrukcjach modele z 8B i 70B parametrów. W zgodzie z poprzednikami, Llama 3 wykorzystuje architekturę dekodera transformatora i kontynuuje praktykę autoregresyjnego, samouczącego się szkolenia w celu przewidywania następnych tokenów w sekwencjach tekstu. Llama 3 jest wstępnie wyuczona na zbiorze danych, który jest siedem razy większy niż ten użyty dla Llama 2, zawierający ponad 15 bilionów tokenów pochodzących z nowo opracowanego zbioru danych dostępnych publicznie w Internecie. Ten ogromny zbiór danych jest przetwarzany przy użyciu dwóch klastrów wyposażonych w 24 000 GPU. Aby utrzymać wysoką jakość tego zbioru danych, zastosowano różne techniki AI zorientowane na dane, w tym filtry heurystyczne i NSFW, semantyczną deduplikację oraz klasyfikację jakości tekstu. Dostosowana do aplikacji dialogowych, model Instruct Llama 3 został znacznie udoskonalony, zawierając ponad 10 milionów próbek danych opatrzonych adnotacjami ludzkimi i wykorzystując zaawansowaną mieszankę metod szkoleniowych, takich jak nadzorowane szkolenie (SFT), rejection sampling, optymalizacja polityki bliskiej (PPO) oraz bezpośrednia optymalizacja polityki (DPO).

Llama 3 vs. Llama 2: Kluczowe ulepszenia

Llama 3 wprowadza kilka ulepszeń w porównaniu z Llama 2, znacznie zwiększając jej funkcjonalność i wydajność:

  • Rozszerzona słownictwo: Llama 3 zwiększyła swoje słownictwo do 128 256 tokenów, w porównaniu z 32 000 tokenami Llama 2. To ulepszenie wspiera bardziej wydajne kodowanie tekstu zarówno dla wejść, jak i wyjść i wzmacnia jej zdolności wielojęzyczne.
  • Wydlużona długość kontekstu: Modele Llama 3 oferują długość kontekstu 8 000 tokenów, podwajając 4 090 tokenów obsługiwanych przez Llama 2. To zwiększenie pozwala na bardziej obszerną obsługę treści, obejmując zarówno prompty użytkowników, jak i odpowiedzi modelu.
  • Ulepszony zbiór danych szkoleniowych: Zbiór danych szkoleniowych dla Llama 3 jest siedem razy większy niż ten dla Llama 2, zawierając czterokrotnie więcej kodu. Zawiera ponad 5% wysokiej jakości, nieangielskich danych, obejmujących ponad 30 języków, co jest kluczowe dla obsługi aplikacji wielojęzycznych. Ten zbiór danych przechodzi rygorystyczną kontrolę jakości przy użyciu zaawansowanych technik, takich jak filtry heurystyczne i NSFW, semantyczną deduplikację oraz klasyfikatory tekstu.
  • Udoskonalone instrukcje i ocena: Odbiegając od Llama 2, Llama 3 wykorzystuje zaawansowane techniki instrukcji, w tym nadzorowane szkolenie (SFT), rejection sampling, optymalizację polityki bliskiej (PPO) oraz bezpośrednią optymalizację polityki (DPO). Aby wesprzeć ten proces, wprowadzono nowy, wysokiej jakości zbiór oceny ludzkiej, składający się z 1 800 promtów, obejmujących różne przypadki użycia, takie jak porady, burza mózgów, klasyfikacja, kodowanie i więcej, zapewniając kompleksową ocenę i ulepszenie możliwości modelu.
  • Zaawansowana bezpieczeństwo AI: Llama 3, podobnie jak Llama 2, zawiera surowe środki bezpieczeństwa, takie jak instrukcje szkoleniowe i kompleksowe testy czerwone, w celu złagodzenia ryzyka, szczególnie w krytycznych obszarach, takich jak bezpieczeństwo cybernetyczne i zagrożenia biologiczne. W ramach tych wysiłków Meta wprowadziła również Llama Guard 2, wyuczone na wersji 8B Llama 3. Ten nowy model ulepsza serię Llama Guard przez klasyfikację wejść i wyjść LLM w celu identyfikacji potencjalnie niebezpiecznej zawartości, co sprawia, że jest idealny dla środowisk produkcyjnych.

Dostępność Llama 3

Modele Llama 3 są teraz zintegrowane z ekosystemem Hugging Face, zwiększając dostępność dla deweloperów. Modele są również dostępne za pośrednictwem platform modelu jako usługi, takich jak Perplexity Labs i Fireworks.ai, oraz na platformach chmurowych, takich jak AWS SageMaker, Azure ML i Vertex AI. Meta planuje dalej rozszerzyć dostępność Llama 3, w tym na platformy, takie jak Google Cloud, Kaggle, IBM WatsonX, NVIDIA NIM i Snowflake. Dodatkowo, wsparcie sprzętowe dla Llama 3 zostanie rozszerzone, aby objąć platformy od AMD, AWS, Dell, Intel, NVIDIA i Qualcomm.

Nadchodzące ulepszenia w Llama 3

Meta ujawniła, że bieżące wydanie Llama 3 jest tylko pierwszą fazą w ich szerszej wizji pełnej wersji Llama 3. Rozwijają zaawansowany model z ponad 400 miliardami parametrów, który wprowadzi nowe funkcje, w tym multimodalność i możliwość obsługi wielu języków. Ta ulepszona wersja będzie również zawierać znacznie wydłużone okno kontekstu i poprawione możliwości wydajności.

Podsumowanie

Llama 3 Meta oznacza znaczącą ewolucję w krajobrazie dużych modeli językowych, napędzając tę serię nie tylko w kierunku większej dostępności open-source, ale także znacznie zwiększając jej możliwości wydajności. Z zestawem danych szkoleniowych siedem razy większym niż poprzednik i funkcjami, takimi jak rozszerzone słownictwo i zwiększona długość kontekstu, Llama 3 ustanawia nowe benchmarki, które wyzywają nawet najsilniejszych konkurentów branżowych.

Trzecia iteracja nie tylko kontynuuje udemokratyzowanie technologii AI, udostępniając wysokiej jakości możliwości szerszemu gronu deweloperów, ale również wprowadza znaczące postępy w zakresie bezpieczeństwa i precyzji szkolenia. Poprzez integrację tych modeli z platformami, takimi jak Hugging Face, oraz rozszerzanie dostępności za pośrednictwem głównych usług chmurowych, Meta zapewnia, że Llama 3 jest tak wszechobecna, jak i potężna.

Spoglądając w przyszłość, nieustanne rozwijanie Meta obiecuje jeszcze bardziej zaawansowane możliwości, w tym multimodalność i rozszerzoną obsługę języków, ustanawiając scenę dla Llama 3, aby nie tylko konkurować, ale potencjalnie przewyższyć inne główne modele AI na rynku. Llama 3 jest świadectwem zaangażowania Meta w prowadzenie rewolucji AI, dostarczając narzędzi, które nie tylko są bardziej dostępne, ale również znacznie bardziej zaawansowane i bezpieczne dla globalnej bazy użytkowników.

Dr. Tehseen Zia jest profesorem nadzwyczajnym w COMSATS University Islamabad, posiada tytuł doktora w dziedzinie sztucznej inteligencji na Vienna University of Technology, Austria. Specjalizując się w sztucznej inteligencji, uczeniu maszynowym, nauce o danych i widzeniu komputerowym, wniósł znaczący wkład poprzez publikacje w renomowanych czasopismach naukowych. Dr. Tehseen Zia również kierował różnymi projektami przemysłowymi jako główny badacz i pełnił funkcję konsultanta ds. sztucznej inteligencji.