Artificial Intelligence

Wszystko, co musisz wiedzieć o Lamie 3 | Najpotężniejszy jak dotąd model open source | Koncepcje do wykorzystania

Zaktualizowano on 24 kwietnia 2024 r.

Meta Llama 3 open source LLM przewyższa GPT 4

Meta niedawno wydała Lama 3, następną generację najnowocześniejszego modelu dużego języka (LLM) o otwartym kodzie źródłowym. Opierając się na fundamentach swojego poprzednika, Llama 3 ma na celu ulepszenie możliwości, które uczyniły Llamę 2 znaczącym konkurentem ChatGPT w zakresie oprogramowania open source, jak opisano w kompleksowej recenzji w artykule Lama 2: Głębokie zanurzenie się w konkursie Open Source ChatGPT.

W tym artykule omówimy podstawowe koncepcje stojące za Llamą 3, zbadamy jej innowacyjną architekturę i proces szkolenia oraz przedstawimy praktyczne wskazówki dotyczące odpowiedzialnego uzyskiwania dostępu, korzystania i wdrażania tego przełomowego modelu. Niezależnie od tego, czy jesteś badaczem, programistą czy entuzjastą sztucznej inteligencji, ten post wyposaży Cię w wiedzę i zasoby potrzebne do wykorzystania mocy Llama 3 w Twoich projektach i aplikacjach.

Ewolucja Lamy: Od Lamy 2 do Lamy 3

Dyrektor generalny Meta, Mark Zuckerberg, ogłosił debiut Llama 3, najnowszego modelu AI opracowanego przez Meta AI. Ten najnowocześniejszy model, obecnie dostępny na zasadach open source, ma ulepszyć różne produkty Meta, w tym Messenger i Instagram. Zuckerberg podkreślił, że Llama 3 pozycjonuje Meta AI jako najbardziej zaawansowaną swobodnie dostępny asystent AI.

Zanim porozmawiamy o szczegółach Llama 3, wróćmy krótko do jej poprzedniczki, Llama 2. Wprowadzona w 2022 roku Llama 2 była znaczącym kamieniem milowym w krajobrazie LLM typu open source, oferując potężny i wydajny model, który można uruchomić na sprzęcie konsumenckim .

Jednakże, choć Lama 2 była znaczącym osiągnięciem, miała swoje ograniczenia. Użytkownicy zgłaszali problemy związane z fałszywymi odmowami (model odmawiający odpowiedzi na łagodne podpowiedzi), ograniczoną przydatnością i możliwością poprawy w obszarach takich jak rozumowanie i generowanie kodu.

Enter Llama 3: Odpowiedź Meta na te wyzwania i opinie społeczności. W przypadku Llama 3 Meta postanowiła zbudować najlepsze modele open source na równi z najlepszymi dostępnymi obecnie modelami zastrzeżonymi, traktując jednocześnie priorytetowo praktyki odpowiedzialnego rozwoju i wdrażania.

Lama 3: Architektura i szkolenie

Jedną z kluczowych innowacji w Llama 3 jest tokenizer, który oferuje znacznie rozszerzone słownictwo Tokeny 128,256 (w porównaniu z 32,000 2 w Lamie XNUMX). To większe słownictwo pozwala na bardziej wydajne kodowanie tekstu, zarówno na wejściu, jak i na wyjściu, co potencjalnie prowadzi do silniejszej wielojęzyczności i ogólnej poprawy wydajności.

Lama 3 zawiera również Uwaga dotycząca zapytania grupowego (GQA), wydajna technika reprezentacji, która zwiększa skalowalność i pomaga modelowi skuteczniej obsługiwać dłuższe konteksty. The 8B wersja Lamy 3 wykorzystuje GQA, podczas gdy obie wersje 8B i 70B modele mogą przetwarzać sekwencje do Tokeny 8,192.

Dane szkoleniowe i skalowanie

Dane treningowe wykorzystywane w Llama 3 są kluczowym czynnikiem wpływającym na poprawę jego wydajności. Meta stworzyła ogromny zbiór danych obejmujący ponad 15 bilionów tokenów z publicznie dostępnych źródeł internetowych, siedmiokrotnie większy niż zbiór danych wykorzystany w Lamie 2. Zbiór ten zawiera również znaczną część (ponad 5%) wysokiej jakości danych w języku innym niż angielski, obejmujących ponad Języki 30w ramach przygotowań do przyszłych aplikacji wielojęzycznych.

Aby zapewnić jakość danych, Meta zastosowała zaawansowane techniki filtrowania, w tym filtry heurystyczne, filtry NSFW, deduplikację semantyczną i klasyfikatory tekstu przeszkolone w programie Llama 2 w celu przewidywania jakości danych. Zespół przeprowadził także szeroko zakrojone eksperymenty, aby określić optymalną kombinację źródeł danych do wstępnego szkolenia, zapewniając, że Llama 3 będzie dobrze działać w szerokim zakresie przypadków użycia, w tym w ciekawostkach, STEM, kodowaniu i wiedzy historycznej.

Zwiększenie skali treningu wstępnego było kolejnym krytycznym aspektem rozwoju Llama 3. Meta opracowała prawa skalowania, które umożliwiły im przewidywanie wydajności największych modeli w kluczowych zadaniach, takich jak generowanie kodu, przed ich faktycznym szkoleniem. Na tej podstawie podjęto decyzje dotyczące łączenia danych i alokacji obliczeń, co ostatecznie doprowadziło do bardziej wydajnego i skutecznego szkolenia.

Największe modele Llama 3 zostały przeszkolone na dwóch niestandardowych klastrach GPU z 24,000 2 procesorów graficznych, wykorzystując kombinację technik równoległości danych, równoległości modeli i równoległości potoków. Zaawansowany stos szkoleniowy Meta automatycznie wykrywa błędy, obsługuje je i konserwuje, maksymalizując czas pracy procesora graficznego i zwiększając wydajność szkolenia około trzykrotnie w porównaniu z Llamą XNUMX.

Instrukcja dostrajania i wydajności

Aby uwolnić pełny potencjał Llama 3 w zakresie aplikacji do czatowania i dialogu, Meta wprowadziła innowacje w swoim podejściu do dostrajania instrukcji. Jego metoda łączy nadzorowane dostrajanie (SFT), pobieranie próbek odrzuconych, proksymalna optymalizacja polityki (PPO) i bezpośrednia optymalizacja preferencji (IOD).

Jakość podpowiedzi stosowanych w SFT oraz rankingi preferencji stosowane w PPO i DPO odegrały kluczową rolę w działaniu dostosowanych modeli. Zespół Meta starannie selekcjonował te dane i przeprowadził wiele rund kontroli jakości adnotacji dostarczonych przez osoby piszące.

Szkolenie w zakresie rankingów preferencji za pośrednictwem PPO i DPO również znacznie poprawiło wydajność Lamy 3 w zadaniach wnioskowania i kodowania. Meta odkryła, że nawet jeśli model ma trudności z bezpośrednią odpowiedzią na pytanie, nadal może wygenerować prawidłowy ślad rozumowania. Trening dotyczący rankingów preferencji umożliwił modelowi nauczenie się, jak wybrać poprawną odpowiedź z tych śladów.

Wyniki mówią same za siebie: Llama 3 przewyższa wiele dostępnych modeli czatów typu open source w popularnych testach branżowych, ustanawiając nową, najnowocześniejszą wydajność dla LLM w skalach parametrów 8B i 70B.

Odpowiedzialny rozwój i względy bezpieczeństwa

Dążąc do najnowocześniejszej wydajności, Meta nadała również priorytet odpowiedzialnym opracowywaniu i wdrażaniu praktyk dla Llama 3. Firma przyjęła podejście na poziomie systemowym, wyobrażając sobie modele Llama 3 jako część szerszego ekosystemu, który daje programistom kontrolę, umożliwiając im projektowanie i dostosowywać modele do konkretnych przypadków użycia i wymagań bezpieczeństwa.

Meta przeprowadziła szeroko zakrojone ćwiczenia związane z red-teamem, przeprowadziła oceny kontradyktoryjne i wdrożyła techniki ograniczania bezpieczeństwa, aby obniżyć ryzyko szczątkowe w swoich modelach dostosowanych do instrukcji. Firma przyznaje jednak, że ryzyko szczątkowe prawdopodobnie pozostanie i zaleca, aby programiści ocenili to ryzyko w kontekście konkretnych przypadków użycia.

Aby wspierać odpowiedzialne wdrażanie, Meta zaktualizowała swój Przewodnik odpowiedzialnego użytkowania, udostępniając programistom kompleksowe zasoby umożliwiające wdrażanie najlepszych praktyk w zakresie bezpieczeństwa na poziomie modelu i systemu w swoich aplikacjach. Przewodnik obejmuje takie tematy, jak moderowanie treści, ocena ryzyka i korzystanie z narzędzi bezpieczeństwa, takich jak Llama Guard 2 i Code Shield.

Llama Guard 2, zbudowany w oparciu o taksonomię MLCommons, przeznaczony jest do klasyfikowania danych wejściowych (podpowiedzi) i odpowiedzi LLM, wykrywając treści, które można uznać za niebezpieczne lub szkodliwe. CyberSecEval 2 rozszerza swojego poprzednika, dodając środki zapobiegające nadużyciom interpretera kodu modelu, ofensywnym funkcjom cyberbezpieczeństwa i podatności na ataki polegające na natychmiastowym wstrzykiwaniu.

Code Shield, nowe wprowadzenie w Llama 3, dodaje filtrowanie w czasie wnioskowania niezabezpieczonego kodu generowanego przez LLM, ograniczając ryzyko związane z sugestiami niepewnego kodu, nadużyciem interpretera kodu i bezpiecznym wykonywaniem poleceń.

Dostęp i korzystanie z Lamy 3

Po premierze Llama 3 firmy Meta AI udostępniono kilka narzędzi typu open source do lokalnego wdrażania w różnych systemach operacyjnych, w tym Mac, Windows i Linux. W tej sekcji szczegółowo opisano trzy godne uwagi narzędzia: Ollama, Open WebUI i LM Studio, z których każde oferuje unikalne funkcje umożliwiające wykorzystanie możliwości Lamy 3 na urządzeniach osobistych.

Ollama: Dostępne dla komputerów Mac, Linux i Windows, Ollama upraszcza działanie Llama 3 i innych dużych modeli językowych na komputerach osobistych, nawet tych z mniej wytrzymałym sprzętem. Zawiera menedżera pakietów ułatwiającego zarządzanie modelami i obsługuje polecenia na różnych platformach w celu pobierania i uruchamiania modeli.

Otwórz WebUI za pomocą Dockera: To narzędzie zapewnia przyjazną dla użytkownika, Doker-interfejs zgodny z systemami Mac, Linux i Windows. Bezproblemowo integruje się z modelami z rejestru Ollama, umożliwiając użytkownikom wdrażanie modeli takich jak Llama 3 i interakcję z nimi w ramach lokalnego interfejsu internetowego.

Studio LM: Kierowanie reklam na użytkowników komputerów Mac, Linux i Windows, Studio LM obsługuje szereg modeli i jest zbudowany na projekcie llama.cpp. Zapewnia interfejs czatu i ułatwia bezpośrednią interakcję z różnymi modelami, w tym modelem Llama 3 8B Instruct.

Narzędzia te zapewniają użytkownikom możliwość efektywnego korzystania z Llama 3 na swoich urządzeniach osobistych, uwzględniając szereg umiejętności technicznych i wymagań. Każda platforma oferuje szczegółowe procesy konfiguracji i interakcji z modelem, dzięki czemu zaawansowana sztuczna inteligencja jest bardziej dostępna dla programistów i entuzjastów.

Wdrażanie Lamy 3 w skali

Oprócz zapewnienia bezpośredniego dostępu do wag modeli, Meta nawiązała współpracę z różnymi dostawcami usług w chmurze, usługami API modeli i platformami sprzętowymi, aby umożliwić bezproblemowe wdrożenie Llama 3 na dużą skalę.

Jedną z kluczowych zalet Llama 3 jest poprawiona wydajność tokena, dzięki nowemu tokenizerowi. Benchmarki pokazują, że Llama 3 wymaga do 15% mniej tokenów w porównaniu z Lamą 2, co pozwala na szybsze i bardziej opłacalne wnioskowanie.

Integracja Grouped Query Attention (GQA) w wersji 8B Lamy 3 przyczynia się do utrzymania wydajności wnioskowania na równi z wersją 7B Lamy 2, pomimo wzrostu liczby parametrów.

Aby uprościć proces wdrażania, Meta udostępniła repozytorium Llama Recipes, które zawiera kod open source i przykłady dostrajania, wdrażania, oceny modelu i nie tylko. To repozytorium stanowi cenne źródło informacji dla programistów chcących wykorzystać możliwości Llama 3 w swoich aplikacjach.

Dla tych, którzy chcą poznać wydajność Llama 3, Meta zintegrowała swoje najnowsze modele z Meta AI, wiodącym asystentem AI zbudowanym w technologii Llama 3. Użytkownicy mogą wchodzić w interakcję z Meta AI za pośrednictwem różnych aplikacji Meta, takich jak Facebook, Instagram, WhatsApp, Messenger i Internet, aby załatwiać sprawy, uczyć się, tworzyć i łączyć się z rzeczami, które są dla nich ważne.

Co dalej z Lamą 3?

Podczas gdy modele 8B i 70B wyznaczają początek wydania Llama 3, Meta ma ambitne plany na przyszłość tego przełomowego LLM.

W nadchodzących miesiącach możemy spodziewać się wprowadzenia nowych możliwości, w tym multimodalności (możliwość przetwarzania i generowania różnych modalności danych, takich jak obrazy i filmy), wielojęzyczności (obsługa wielu języków) i znacznie dłuższych okien kontekstowych w celu zwiększenia wydajności na zadania wymagające szerokiego kontekstu.

Dodatkowo Meta planuje wypuścić modele o większych rozmiarach, w tym modele z ponad 400 miliardami parametrów, które obecnie są w fazie szkolenia i wykazują obiecujące trendy pod względem wydajności i możliwości.

Aby dalej rozwijać tę dziedzinę, Meta opublikuje również szczegółowy artykuł badawczy na temat Lamy 3, dzieląc się swoimi odkryciami i spostrzeżeniami z szerszą społecznością AI.

Jako przedsmak tego, co ma nadejść, Meta udostępniła kilka wczesnych migawek wydajności swojego największego modelu LLM w różnych testach porównawczych. Chociaż wyniki te opierają się na wczesnym punkcie kontrolnym i mogą ulec zmianie, dają ekscytujący wgląd w przyszły potencjał Lamy 3.

Wnioski

Llama 3 stanowi znaczący kamień milowy w ewolucji dużych modeli językowych typu open source, przesuwając granice wydajności, możliwości i praktyk odpowiedzialnego programowania. Dzięki swojej innowacyjnej architekturze, ogromnemu zbiorowi danych szkoleniowych i najnowocześniejszym technikom dostrajania, Llama 3 ustanawia nowe, najnowocześniejsze standardy dla LLM w skalach parametrów 8B i 70B.

Jednak Llama 3 to coś więcej niż tylko potężny model językowy; jest to świadectwo zaangażowania Meta we wspieranie otwartego i odpowiedzialnego ekosystemu sztucznej inteligencji. Zapewniając kompleksowe zasoby, narzędzia bezpieczeństwa i najlepsze praktyki, Meta umożliwia programistom wykorzystanie pełnego potencjału Llama 3, zapewniając jednocześnie odpowiedzialne wdrożenie dostosowane do ich konkretnych przypadków użycia i odbiorców.

W miarę kontynuacji podróży z Llamą 3, z nowymi możliwościami, rozmiarami modeli i wynikami badań na horyzoncie, społeczność AI z niecierpliwością oczekuje innowacyjnych zastosowań i przełomów, które niewątpliwie wyłonią się z tego przełomowego LLM.

Niezależnie od tego, czy jesteś badaczem przesuwającym granice przetwarzania języka naturalnego, programistą tworzącym następną generację inteligentnych aplikacji, czy też entuzjastą sztucznej inteligencji ciekawym najnowszych osiągnięć, Llama 3 obiecuje, że będzie potężnym narzędziem w Twoim arsenale, otwierającym nowe drzwi i odblokowując świat możliwości.

Powiązane tematy:Lama lama 2 Lama 3 LLM LLM meta

W przyszłym

Microsoft przedstawia Phi-3: potężne modele otwartej sztucznej inteligencji zapewniające najwyższą wydajność przy małych rozmiarach

Nie przegap

FrugalGPT: zmiana paradygmatu w optymalizacji kosztów w przypadku modeli wielojęzycznych

Aayush Mittal

Ostatnie pięć lat spędziłem zanurzając się w fascynującym świecie uczenia maszynowego i głębokiego uczenia się. Moja pasja i wiedza sprawiły, że uczestniczyłem w ponad 50 różnorodnych projektach z zakresu inżynierii oprogramowania, ze szczególnym uwzględnieniem AI/ML. Moja ciągła ciekawość przyciągnęła mnie również w stronę przetwarzania języka naturalnego – dziedziny, którą chcę dalej zgłębiać.