Kontakt z nami

Wszystko, co musisz wiedzieć o Lamie 3 | Najpotężniejszy jak dotąd model open source | Koncepcje do wykorzystania

Artificial Intelligence

Wszystko, co musisz wiedzieć o Lamie 3 | Najpotężniejszy jak dotąd model open source | Koncepcje do wykorzystania

mm
Meta Llama 3 open source LLM przewyższa GPT 4

Meta niedawno wydała Lama 3, następną generację najnowocześniejszego modelu dużego języka (LLM) o otwartym kodzie źródłowym. Opierając się na fundamentach swojego poprzednika, Llama 3 ma na celu ulepszenie możliwości, które uczyniły Llamę 2 znaczącym konkurentem ChatGPT w zakresie oprogramowania open source, jak opisano w kompleksowej recenzji w artykule Lama 2: Głębokie zanurzenie się w konkursie Open Source ChatGPT.

W tym artykule omówimy podstawowe koncepcje stojące za Llamą 3, zbadamy jej innowacyjną architekturę i proces szkolenia oraz przedstawimy praktyczne wskazówki dotyczące odpowiedzialnego uzyskiwania dostępu, korzystania i wdrażania tego przełomowego modelu. Niezależnie od tego, czy jesteś badaczem, programistą czy entuzjastą sztucznej inteligencji, ten post wyposaży Cię w wiedzę i zasoby potrzebne do wykorzystania mocy Llama 3 w Twoich projektach i aplikacjach.

Ewolucja Lamy: Od Lamy 2 do Lamy 3

CEO Meta, Mark Zuckerberg, ogłosił Debiut Llama 3, najnowszego modelu sztucznej inteligencji opracowanego przez Meta AI. Ten najnowocześniejszy model, obecnie udostępniany w ramach open source, ma udoskonalić różne produkty Meta, w tym Messengera i Instagrama. Zuckerberg podkreślił, że Llama 3 plasuje Meta AI jako najbardziej zaawansowaną platformę. swobodnie dostępny asystent AI.

Zanim omówimy specyfikę gry Llama 3, pokrótce przyjrzyjmy się jej poprzedniczce, grze Llama 2. Zaprezentowana w 2022 roku gra Llama 2 stanowiła ważny kamień milowy w rozwoju oprogramowania LLM typu open source, oferując wydajny i wydajny model, który można było uruchomić na sprzęcie konsumenckim.

Jednakże, choć Lama 2 była znaczącym osiągnięciem, miała swoje ograniczenia. Użytkownicy zgłaszali problemy związane z fałszywymi odmowami (model odmawiający odpowiedzi na łagodne podpowiedzi), ograniczoną przydatnością i możliwością poprawy w obszarach takich jak rozumowanie i generowanie kodu.

Przedstawiamy Llamę 3: odpowiedź Meta na te wyzwania i opinie społeczności. W Llamie 3 Meta postawiła sobie za cel zbudowanie najlepszych modeli open source, dorównujących najlepszym dostępnym obecnie modelom zastrzeżonym, jednocześnie stawiając na odpowiedzialne praktyki rozwoju i wdrażania.

Lama 3: Architektura i szkolenie

Jedną z kluczowych innowacji w Llama 3 jest tokenizer, który oferuje znacznie rozszerzone słownictwo Tokeny 128,256 (w porównaniu z 32,000 2 w Lamie XNUMX). To większe słownictwo pozwala na bardziej wydajne kodowanie tekstu, zarówno na wejściu, jak i na wyjściu, co potencjalnie prowadzi do silniejszej wielojęzyczności i ogólnej poprawy wydajności.

Lama 3 zawiera również Uwaga dotycząca zapytania grupowego (GQA), wydajna technika reprezentacji, która zwiększa skalowalność i pomaga modelowi skuteczniej obsługiwać dłuższe konteksty. The 8B wersja Lamy 3 wykorzystuje GQA, podczas gdy obie wersje 8B oraz 70B modele mogą przetwarzać sekwencje do Tokeny 8,192.

Dane szkoleniowe i skalowanie

Dane treningowe wykorzystywane w Llama 3 są kluczowym czynnikiem wpływającym na poprawę jego wydajności. Meta stworzyła ogromny zbiór danych obejmujący ponad 15 bilionów tokenów z publicznie dostępnych źródeł internetowych, siedmiokrotnie większy niż zbiór danych wykorzystany w Lamie 2. Zbiór ten zawiera również znaczną część (ponad 5%) wysokiej jakości danych w języku innym niż angielski, obejmujących ponad Języki 30w ramach przygotowań do przyszłych aplikacji wielojęzycznych.

Aby zapewnić jakość danych, Meta zastosowała zaawansowane techniki filtrowania, w tym filtry heurystyczne, filtry NSFW, deduplikację semantyczną i klasyfikatory tekstu przeszkolone w programie Llama 2 w celu przewidywania jakości danych. Zespół przeprowadził także szeroko zakrojone eksperymenty, aby określić optymalną kombinację źródeł danych do wstępnego szkolenia, zapewniając, że Llama 3 będzie dobrze działać w szerokim zakresie przypadków użycia, w tym w ciekawostkach, STEM, kodowaniu i wiedzy historycznej.

Skalowanie procesu wstępnego trenowania było kolejnym kluczowym aspektem rozwoju Llama 3. Meta opracowała prawa skalowania, które umożliwiły jej przewidywanie wydajności największych modeli w kluczowych zadaniach, takich jak generowanie kodu, przed ich faktycznym trenowaniem. Wpłynęło to na decyzje dotyczące miksu danych i alokacji mocy obliczeniowej, co ostatecznie przełożyło się na bardziej wydajne i efektywne trenowanie.

Największe modele Llama 3 zostały wytrenowane na dwóch specjalnie zaprojektowanych klastrach GPU, składających się z 24,000 2 procesorów, wykorzystujących połączenie technik paralelizacji danych, paralelizacji modeli i paralelizacji potoków. Zaawansowany stos treningowy Meta zautomatyzował wykrywanie, obsługę i konserwację błędów, maksymalizując czas sprawności GPU i zwiększając wydajność treningu około trzykrotnie w porównaniu z Llama XNUMX.

Instrukcja dostrajania i wydajności

Aby w pełni wykorzystać potencjał Llama 3 w aplikacjach do czatów i dialogów, Meta wprowadziła innowacje w swoim podejściu do precyzyjnego dostrajania instrukcji. Jej metoda łączy nadzorowane dostrajanie (SFT), pobieranie próbek odrzuconych, proksymalna optymalizacja polityki (PPO) i bezpośrednia optymalizacja preferencji (IOD).

Jakość monitów użytych w SFT oraz rankingi preferencji użyte w PPO i DPO odegrały kluczową rolę w wydajności dopasowanych modeli. Zespół Meta starannie selekcjonował te dane i przeprowadził wiele rund kontroli jakości adnotacji dostarczonych przez annotatorów.

Trening oparty na rankingach preferencji za pośrednictwem PPO i DPO znacząco poprawił również wydajność Llama 3 w zadaniach z zakresu rozumowania i kodowania. Meta odkryła, że ​​nawet gdy model ma trudności z bezpośrednią odpowiedzią na pytanie wymagające rozumowania, nadal może wygenerować poprawny ślad rozumowania. Trening oparty na rankingach preferencji pozwolił modelowi nauczyć się wybierać prawidłową odpowiedź z tych śladów.

Wyniki areny

Wyniki mówią same za siebie: Llama 3 przewyższa wiele dostępnych modeli czatów typu open source w popularnych testach branżowych, ustanawiając nową, najnowocześniejszą wydajność dla LLM w skalach parametrów 8B i 70B.

Odpowiedzialny rozwój i względy bezpieczeństwa

Dążąc do osiągnięcia najnowocześniejszej wydajności, Meta nadała również priorytet odpowiedzialnym praktykom rozwoju i wdrażania Llama 3. Firma przyjęła podejście systemowe, traktując modele Llama 3 jako część szerszego ekosystemu, który daje deweloperom pełną kontrolę, umożliwiając im projektowanie i dostosowywanie modeli do ich konkretnych zastosowań i wymagań bezpieczeństwa.

Meta przeprowadziła szeroko zakrojone ćwiczenia związane z red-teamem, przeprowadziła oceny kontradyktoryjne i wdrożyła techniki ograniczania bezpieczeństwa, aby obniżyć ryzyko szczątkowe w swoich modelach dostosowanych do instrukcji. Firma przyznaje jednak, że ryzyko szczątkowe prawdopodobnie pozostanie i zaleca, aby programiści ocenili to ryzyko w kontekście konkretnych przypadków użycia.

Aby wspierać odpowiedzialne wdrażanie, Meta zaktualizowała swój Przewodnik odpowiedzialnego użytkowania, udostępniając programistom kompleksowe zasoby umożliwiające wdrażanie najlepszych praktyk w zakresie bezpieczeństwa na poziomie modelu i systemu w swoich aplikacjach. Przewodnik obejmuje takie tematy, jak moderowanie treści, ocena ryzyka i korzystanie z narzędzi bezpieczeństwa, takich jak Llama Guard 2 i Code Shield.

Llama Guard 2, oparty na taksonomii MLCommons, został zaprojektowany do klasyfikowania danych wejściowych (monitów) i odpowiedzi LLM, wykrywając treści, które mogą być uznane za niebezpieczne lub szkodliwe. CyberSecEval 2 rozszerza swoją poprzedniczkę, dodając środki zapobiegające nadużyciom interpretera kodu modelu, ofensywne funkcje cyberbezpieczeństwa oraz podatność na ataki typu prompt injection.

Code Shield, nowe wprowadzenie w Llama 3, dodaje filtrowanie w czasie wnioskowania niezabezpieczonego kodu generowanego przez LLM, ograniczając ryzyko związane z sugestiami niepewnego kodu, nadużyciem interpretera kodu i bezpiecznym wykonywaniem poleceń.

Dostęp i korzystanie z Lamy 3

Po premierze Llama 3 firmy Meta AI udostępniono kilka narzędzi open source do lokalnego wdrożenia w różnych systemach operacyjnych, w tym Mac, Windows i Linux. W tej sekcji omówiono trzy godne uwagi narzędzia: Ollama, Open WebUI i LM Studio, z których każde oferuje unikalne funkcje umożliwiające wykorzystanie możliwości Llama 3 na urządzeniach osobistych.

Ollama: Dostępne dla komputerów Mac, Linux i Windows, Ollama upraszcza działanie Llama 3 i innych dużych modeli językowych na komputerach osobistych, nawet tych z mniej wytrzymałym sprzętem. Zawiera menedżera pakietów ułatwiającego zarządzanie modelami i obsługuje polecenia na różnych platformach w celu pobierania i uruchamiania modeli.

Otwórz WebUI za pomocą Dockera: To narzędzie zapewnia przyjazną dla użytkownika, Doker-interfejs zgodny z systemami Mac, Linux i Windows. Bezproblemowo integruje się z modelami z rejestru Ollama, umożliwiając użytkownikom wdrażanie modeli takich jak Llama 3 i interakcję z nimi w ramach lokalnego interfejsu internetowego.

Studio LM: Kierowanie reklam na użytkowników komputerów Mac, Linux i Windows, Studio LM obsługuje szereg modeli i jest zbudowany na projekcie llama.cpp. Zapewnia interfejs czatu i ułatwia bezpośrednią interakcję z różnymi modelami, w tym modelem Llama 3 8B Instruct.

Narzędzia te zapewniają użytkownikom możliwość efektywnego korzystania z Llama 3 na swoich urządzeniach osobistych, uwzględniając szereg umiejętności technicznych i wymagań. Każda platforma oferuje szczegółowe procesy konfiguracji i interakcji z modelem, dzięki czemu zaawansowana sztuczna inteligencja jest bardziej dostępna dla programistów i entuzjastów.

Wdrażanie Lamy 3 w skali

Oprócz zapewnienia bezpośredniego dostępu do wag modeli, Meta nawiązała współpracę z różnymi dostawcami usług w chmurze, usługami API modeli i platformami sprzętowymi, aby umożliwić bezproblemowe wdrożenie Llama 3 na dużą skalę.

Jedną z kluczowych zalet Llama 3 jest poprawiona wydajność tokena, dzięki nowemu tokenizerowi. Benchmarki pokazują, że Llama 3 wymaga do 15% mniej tokenów w porównaniu z Lamą 2, co pozwala na szybsze i bardziej opłacalne wnioskowanie.

Integracja Grouped Query Attention (GQA) w wersji 8B Lamy 3 przyczynia się do utrzymania wydajności wnioskowania na równi z wersją 7B Lamy 2, pomimo wzrostu liczby parametrów.

Aby uprościć proces wdrażania, Meta udostępniła repozytorium Llama Recipes, które zawiera otwarty kod źródłowy i przykłady do dostrajania, wdrażania, ewaluacji modeli i nie tylko. To repozytorium stanowi cenne źródło informacji dla programistów, którzy chcą wykorzystać możliwości Llama 3 w swoich aplikacjach.

Dla zainteresowanych sprawdzeniem wydajności Llama 3, Meta zintegrowała swoje najnowsze modele z Meta AI, wiodącym asystentem AI zbudowanym w oparciu o technologię Llama 3. Użytkownicy mogą wchodzić w interakcję z Meta AI za pośrednictwem różnych aplikacji Meta, takich jak Facebook, Instagram, WhatsApp, Messenger i internet, aby wykonywać zadania, uczyć się, tworzyć i łączyć się z tym, co dla nich ważne.

Co dalej z Llamą 3?

Podczas gdy modele 8B i 70B wyznaczają początek wydania Llama 3, Meta ma ambitne plany na przyszłość tego przełomowego LLM.

W nadchodzących miesiącach możemy spodziewać się wprowadzenia nowych możliwości, w tym multimodalności (możliwość przetwarzania i generowania różnych modalności danych, takich jak obrazy i filmy), wielojęzyczności (obsługa wielu języków) i znacznie dłuższych okien kontekstowych w celu zwiększenia wydajności na zadania wymagające szerokiego kontekstu.

Dodatkowo Meta planuje wypuścić modele o większych rozmiarach, w tym modele z ponad 400 miliardami parametrów, które obecnie są w fazie szkolenia i wykazują obiecujące trendy pod względem wydajności i możliwości.

Aby dalej rozwijać tę dziedzinę, Meta opublikuje również szczegółowy artykuł badawczy na temat Lamy 3, dzieląc się swoimi odkryciami i spostrzeżeniami z szerszą społecznością AI.

Jako zapowiedź tego, co przyniesie przyszłość, Meta udostępniła wstępne zrzuty ekranu wydajności swojego największego modelu LLM w różnych testach porównawczych. Chociaż wyniki te opierają się na wczesnym punkcie kontrolnym i mogą ulec zmianie, dają one ekscytujący wgląd w przyszły potencjał Llama 3.

Podsumowanie

Llama 3 stanowi znaczący kamień milowy w ewolucji dużych modeli językowych typu open source, przesuwając granice wydajności, możliwości i praktyk odpowiedzialnego programowania. Dzięki swojej innowacyjnej architekturze, ogromnemu zbiorowi danych szkoleniowych i najnowocześniejszym technikom dostrajania, Llama 3 ustanawia nowe, najnowocześniejsze standardy dla LLM w skalach parametrów 8B i 70B.

Jednak Llama 3 to coś więcej niż tylko potężny model językowy; to dowód zaangażowania Meta w promowanie otwartego i odpowiedzialnego ekosystemu sztucznej inteligencji. Zapewniając kompleksowe zasoby, narzędzia bezpieczeństwa i najlepsze praktyki, Meta umożliwia programistom wykorzystanie pełnego potencjału Llama 3, zapewniając jednocześnie odpowiedzialne wdrożenie dostosowane do ich konkretnych zastosowań i odbiorców.

W miarę kontynuacji podróży z Llamą 3, z nowymi możliwościami, rozmiarami modeli i wynikami badań na horyzoncie, społeczność AI z niecierpliwością oczekuje innowacyjnych zastosowań i przełomów, które niewątpliwie wyłonią się z tego przełomowego LLM.

Niezależnie od tego, czy jesteś badaczem poszerzającym granice przetwarzania języka naturalnego, programistą tworzącym nową generację inteligentnych aplikacji, czy też entuzjastą sztucznej inteligencji ciekawym najnowszych osiągnięć, Llama 3 zapowiada się jako potężne narzędzie w Twoim arsenale, otwierające nowe drzwi i odblokowujące świat możliwości.

Ostatnie pięć lat spędziłem zanurzając się w fascynującym świecie uczenia maszynowego i głębokiego uczenia się. Moja pasja i wiedza sprawiły, że uczestniczyłem w ponad 50 różnorodnych projektach z zakresu inżynierii oprogramowania, ze szczególnym uwzględnieniem AI/ML. Moja ciągła ciekawość przyciągnęła mnie również w stronę przetwarzania języka naturalnego – dziedziny, którą chcę dalej zgłębiać.