Kontakt z nami

Artificial Intelligence

Qwen2 – najnowszy wielojęzyczny model językowy Alibaba stanowi wyzwanie dla SOTA jak Llama 3

mm
Zaktualizowano on
ewolucja od Qwen1.5 do Qwen2

Po miesiącach oczekiwania Zespół Qwen Alibaba w końcu zaprezentował Qwen2 – kolejna ewolucja ich potężnej serii modeli językowych. Qwen2 stanowi znaczący krok naprzód, mogąc poszczycić się najnowocześniejszymi osiągnięciami, które mogą potencjalnie pozycjonować go jako najlepszą alternatywę dla słynnego modelu Meta Lama 3 Model. Podczas tej technicznej analizy przyjrzymy się kluczowym funkcjom, testom wydajności i innowacyjnym technikom, które sprawiają, że Qwen2 jest potężnym konkurentem w dziedzinie dużych modeli językowych (LLM).

Skalowanie w górę: Przedstawiamy linię modeli Qwen2

W istocie Qwen2 obejmuje różnorodną gamę modeli dostosowanych do różnych wymagań obliczeniowych. Seria obejmuje pięć różnych rozmiarów modeli: Qwen2-0.5B, Qwen2-1.5B, Qwen2-7B, Qwen2-57B-A14B i flagowy Qwen2-72B. Ten zakres opcji przeznaczony jest dla szerokiego spektrum użytkowników, od tych ze skromnymi zasobami sprzętowymi po tych z dostępem do najnowocześniejszej infrastruktury obliczeniowej.

Jedną z wyróżniających się cech Qwen2 są możliwości wielojęzyczne. Podczas gdy poprzedni Qwen1.5 model doskonale radził sobie z językiem angielskim i chińskim, Qwen2 został przeszkolony na danych obejmujących imponujące 27 dodatkowych języków. Ten wielojęzyczny program szkolenia obejmuje języki z różnych regionów, takich jak Europa Zachodnia, Europa Wschodnia i Środkowa, Bliski Wschód, Azja Wschodnia i Azja Południowa.

Tabela zawierająca listę języków obsługiwanych przez modele Qwen2, w podziale na regiony

Języki obsługiwane przez modele Qwen2, podzielone na kategorie według regionów geograficznych

Rozszerzając swój repertuar językowy, Qwen2 wykazuje wyjątkową zdolność rozumienia i generowania treści w szerokiej gamie języków, co czyni go nieocenionym narzędziem do zastosowań globalnych i komunikacji międzykulturowej.

 

Tabela porównująca modele Qwen2 według parametrów, parametrów niezwiązanych z osadzaniem, GQA, osadzania wiązań i długości kontekstu

Specyfikacje modeli Qwen2, w tym parametry, GQA i długość kontekstu.

Rozwiązanie problemu przełączania kodów: wielojęzyczne wyzwanie

W kontekstach wielojęzycznych zjawisko code-switching – praktyka przełączania między różnymi językami w ramach jednej rozmowy lub wypowiedzi – jest częstym zjawiskiem. Qwen2 został skrupulatnie przeszkolony w zakresie obsługi scenariuszy przełączania kodu, znacznie redukując powiązane problemy i zapewniając płynne przejścia między językami.

Oceny z wykorzystaniem podpowiedzi, które zazwyczaj powodują zmianę kodu, potwierdziły znaczną poprawę Qwen2 w tej dziedzinie, co świadczy o zaangażowaniu Alibaba w dostarczanie prawdziwie wielojęzycznego modelu językowego.

Doskonały w kodowaniu i matematyce

Qwen2 ma niezwykłe możliwości w dziedzinach kodowania i matematyki, czyli obszarach, które tradycyjnie stanowiły wyzwanie dla modeli językowych. Wykorzystując obszerne zestawy danych wysokiej jakości i zoptymalizowane metodologie szkoleniowe, Qwen2-72B-Instruct, dostrojony pod instrukcjami wariant flagowego modelu, wykazuje wyjątkową wydajność w rozwiązywaniu problemów matematycznych i zadań związanych z kodowaniem w różnych językach programowania.

Rozszerzanie zrozumienia kontekstu

Jedną z najbardziej imponujących cech Qwen2 jest jego zdolność do rozumienia i przetwarzania rozszerzonych sekwencji kontekstowych. Podczas gdy większość modeli językowych ma problemy z długim tekstem, modele Qwen2-7B-Instruct i Qwen2-72B-Instruct zostały zaprojektowane tak, aby obsługiwać konteksty o długości do 128 tys. tokenów.

Ta niezwykła funkcja zmienia reguły gry w zastosowaniach wymagających dogłębnego zrozumienia długich dokumentów, takich jak umowy prawne, artykuły badawcze lub gęste instrukcje techniczne. Efektywnie przetwarzając rozszerzone konteksty, Qwen2 może zapewnić dokładniejsze i kompleksowe odpowiedzi, otwierając nowe granice w przetwarzaniu języka naturalnego.

Wykres przedstawiający dokładność wyszukiwania faktów modeli Qwen2 w różnych długościach kontekstu i głębokości dokumentu

Dokładność modeli Qwen2 w wyszukiwaniu faktów z dokumentów przy różnej długości kontekstu i głębokości dokumentu.

Ten wykres pokazuje zdolność modeli Qwen2 do wyszukiwania faktów z dokumentów o różnej długości i głębokości kontekstu.

Innowacje architektoniczne: uwaga na zapytania grupowe i zoptymalizowane osadzanie

Pod maską Qwen2 kryje się kilka innowacji architektonicznych, które przyczyniają się do jego wyjątkowej wydajności. Jedną z takich innowacji jest przyjęcie funkcji Group Query Attention (GQA) we wszystkich rozmiarach modeli. GQA oferuje szybsze prędkości wnioskowania i zmniejszone zużycie pamięci, dzięki czemu Qwen2 jest bardziej wydajny i dostępny dla szerszego zakresu konfiguracji sprzętowych.

Dodatkowo Alibaba zoptymalizowała osadzanie dla mniejszych modeli z serii Qwen2. Łącząc osadzanie, zespołowi udało się zmniejszyć zużycie pamięci tych modeli, umożliwiając ich wdrożenie na słabszym sprzęcie przy jednoczesnym zachowaniu wysokiej jakości wydajności.

Benchmarking Qwen2: przewyższające najnowocześniejsze modele

Qwen2 ma niezwykłą wydajność w różnorodnych testach porównawczych. Oceny porównawcze pokazują, że Qwen2-72B, największy model w serii, przewyższa wiodących konkurentów, takich jak Llama-3-70B, w kluczowych obszarach, w tym w rozumieniu języka naturalnego, zdobywaniu wiedzy, biegłości w kodowaniu, umiejętnościach matematycznych i zdolnościach wielojęzycznych.

Wykresy porównujące Qwen2-72B-Instruct i Llama3-70B-Instruct w zakresie kodowania w kilku językach programowania oraz matematyki w różnych egzaminach

Qwen2-72B-Instruktaż kontra Llama3-70B-Instruktaż w zakresie kodowania i wydajności matematycznej

Pomimo mniejszych parametrów niż jego poprzednik, Qwen1.5-110B, Qwen2-72B wykazuje doskonałą wydajność, co świadczy o skuteczności skrupulatnie dobranych zbiorów danych Alibaba i zoptymalizowanych metodologii szkoleniowych.

Bezpieczeństwo i odpowiedzialność: zgodność z wartościami ludzkimi

Qwen2-72B-Instruct został rygorystycznie oceniony pod kątem możliwości obsługi potencjalnie szkodliwych zapytań związanych z nielegalnymi działaniami, oszustwami, pornografią i naruszeniami prywatności. Wyniki są zachęcające: Qwen2-72B-Instruct działa porównywalnie z wysoko cenionym modelem GPT-4 pod względem bezpieczeństwa, wykazując znacznie niższy odsetek szkodliwych reakcji w porównaniu z innymi dużymi modelami, takimi jak Mistral-8x22B.

To osiągnięcie podkreśla zaangażowanie Alibaba w rozwój systemów sztucznej inteligencji zgodnych z ludzkimi wartościami, zapewniając, że Qwen2 jest nie tylko potężny, ale także godny zaufania i odpowiedzialny.

Licencjonowanie i zaangażowanie w oprogramowanie Open Source

W posunięciu, które jeszcze bardziej wzmacnia wpływ Qwen2, Alibaba przyjęła podejście do licencjonowania oparte na otwartym kodzie źródłowym. Podczas gdy Qwen2-72B i jego modele dostosowane do instrukcji zachowują oryginalną licencję Qianwen, pozostałe modele – Qwen2-0.5B, Qwen2-1.5B, Qwen2-7B i Qwen2-57B-A14B – są objęte licencją w ramach liberalnej licencji Apache 2.0 .

Oczekuje się, że ta zwiększona otwartość przyspieszy zastosowanie i komercyjne wykorzystanie modeli Qwen2 na całym świecie, wspierając współpracę i innowacje w globalnej społeczności AI.

Użycie i wdrożenie

Korzystanie z modeli Qwen2 jest proste dzięki ich integracji z popularnymi frameworkami, takimi jak Przytulanie Twarzy. Oto przykład użycia Qwen2-7B-Chat-beta do wnioskowania:

from transformers import AutoModelForCausalLM, AutoTokenizer
device = "cuda" # the device to load the model onto
model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen1.5-7B-Chat", device_map="auto")
tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen1.5-7B-Chat")
prompt = "Give me a short introduction to large language models."
messages = [{"role": "user", "content": prompt}]
text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
model_inputs = tokenizer([text], return_tensors="pt").to(device)
generated_ids = model.generate(model_inputs.input_ids, max_new_tokens=512, do_sample=True)
generated_ids = [output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)]
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(response)

Ten fragment kodu demonstruje, jak skonfigurować i wygenerować tekst przy użyciu modelu Qwen2-7B-Chat. Integracja z Przytulanie Twarzy sprawia, że ​​jest on dostępny i łatwy do eksperymentowania.

Qwen2 kontra Lama 3: Analiza porównawcza

Podczas gdy Qwen2 i Lama Meta 3 oba są potężnymi modelami językowymi, wykazują wyraźne mocne strony i kompromisy.

Tabela porównawcza wydajności Qwen2-72B, Llama3-70B, Mixtral-8x22B i Qwen1.5-110B w wielu testach porównawczych

Porównawczy wykres wydajności Qwen2-72B, Llama3-70B, Mixtral-8x22B i Qwen1.5-110B w różnych testach porównawczych, w tym MMLU, MMLU-Pro, GPQA i innych.

Oto analiza porównawcza, która pomoże Ci zrozumieć kluczowe różnice:

Możliwości wielojęzyczne: Qwen2 ma wyraźną przewagę w zakresie obsługi wielojęzycznej. Szkolenia dotyczące danych obejmujących 27 dodatkowych języków, poza angielskim i chińskim, umożliwiają Qwen2 osiągnięcie doskonałości w komunikacji międzykulturowej i scenariuszach wielojęzycznych. Natomiast wielojęzyczne możliwości Lamy 3 są mniej wyraźne, co potencjalnie ogranicza jej skuteczność w różnorodnych kontekstach językowych.

Znajomość kodowania i matematyki: Zarówno Qwen2, jak i Lama 3 wykazać się imponującymi umiejętnościami kodowania i matematycznymi. Wydaje się jednak, że Qwen2-72B-Instruct ma niewielką przewagę dzięki rygorystycznemu szkoleniu na obszernych, wysokiej jakości zbiorach danych w tych dziedzinach. Skoncentrowanie się Alibaba na zwiększaniu możliwości Qwen2 w tych obszarach może zapewnić jej przewagę w wyspecjalizowanych zastosowaniach obejmujących kodowanie lub rozwiązywanie problemów matematycznych.

Zrozumienie długiego kontekstu: Modele Qwen2-7B-Instruct i Qwen2-72B-Instruct charakteryzują się imponującą zdolnością do obsługi kontekstów o długości do 128 tys. tokenów. Ta funkcja jest szczególnie cenna w zastosowaniach wymagających dogłębnego zrozumienia długich dokumentów lub gęstych materiałów technicznych. Lama 3, choć zdolna do przetwarzania długich sekwencji, może nie dorównywać wydajności Qwen2 w tym konkretnym obszarze.

Chociaż zarówno Qwen2, jak i Llama 3 charakteryzują się najnowocześniejszą wydajnością, zróżnicowana oferta modeli Qwen2, obejmująca parametry od 0.5B do 72B, zapewnia większą elastyczność i skalowalność. Ta wszechstronność pozwala użytkownikom wybrać rozmiar modelu, który najlepiej odpowiada ich zasobom obliczeniowym i wymaganiom wydajnościowym. Ponadto ciągłe wysiłki Alibaba mające na celu skalowanie Qwen2 do większych modeli mogą jeszcze bardziej zwiększyć jego możliwości, potencjalnie przewyższając Llamę 3 w przyszłości.

Wdrożenie i integracja: usprawnienie wdrożenia Qwen2

Aby ułatwić powszechne przyjęcie i integrację Qwen2, Alibaba podjęła proaktywne kroki w celu zapewnienia bezproblemowego wdrożenia na różnych platformach i frameworkach. Zespół Qwen ściśle współpracował z wieloma projektami i organizacjami stron trzecich, umożliwiając wykorzystanie Qwen2 w połączeniu z szeroką gamą narzędzi i frameworków.

Dostrajanie i kwantyzacja: Projekty innych firm, takie jak Axolotl, Llama-Factory, Firefly, Swift i XTuner, zostały zoptymalizowane pod kątem obsługi dostrajania modeli Qwen2, umożliwiając użytkownikom dostosowanie modeli do konkretnych zadań i zbiorów danych. Dodatkowo narzędzia kwantyzacji, takie jak AutoGPTQ, AutoAWQi Neural Compressor zostały przystosowane do współpracy z Qwen2, ułatwiając efektywne wdrażanie na urządzeniach o ograniczonych zasobach.

Wdrożenie i wnioskowanie: Modele Qwen2 można wdrażać i obsługiwać przy użyciu różnych platform, w tym vLLM, SGL, SkyPilot, TensorRT-LLM, OtwórzVinoi TGI. Struktury te oferują zoptymalizowane potoki wnioskowania, umożliwiając wydajne i skalowalne wdrażanie Qwen2 w środowiskach produkcyjnych.

Platformy API i wykonanie lokalne: Programistom chcącym zintegrować Qwen2 ze swoimi aplikacjami platformy API, takie jak Together, Fireworks i OpenRouter, zapewniają wygodny dostęp do możliwości modeli. Alternatywnie, lokalne wykonanie jest obsługiwane przez frameworki takie jak MLX, Llama.cpp, Ollamai LM Studio, umożliwiając użytkownikom uruchamianie Qwen2 na komputerach lokalnych, zachowując jednocześnie kontrolę nad prywatnością i bezpieczeństwem danych.

Ramy agentów i RAG: Wsparcie Qwen2 w zakresie użycia narzędzi i możliwości agentów jest wzmocnione przez frameworki takie jak LamaIndeks, CrewAI i Otwórz Devina. Frameworki te umożliwiają tworzenie wyspecjalizowanych agentów AI i integrację Qwen2 z pokolenie wspomagane wyszukiwaniem (RAG) rurociągów, poszerzając zakres zastosowań i przypadków użycia.

Patrząc w przyszłość: przyszły rozwój i możliwości

Wizja Alibaba dotycząca Qwen2 wykracza daleko poza obecną wersję. Zespół aktywnie szkoli większe modele w celu odkrywania granic skalowania modeli, co uzupełniają ciągłe wysiłki w zakresie skalowania danych. Co więcej, trwają plany rozszerzenia Qwen2 na dziedzinę multimodalnej sztucznej inteligencji, umożliwiając integrację możliwości rozumienia obrazu i dźwięku.

W miarę dalszego rozwoju ekosystemu sztucznej inteligencji typu open source Qwen2 będzie odgrywać kluczową rolę, stanowiąc potężne źródło informacji dla badaczy, programistów i organizacji pragnących ulepszyć stan wiedzy w zakresie przetwarzania języka naturalnego i sztucznej inteligencji.

Ostatnie pięć lat spędziłem zanurzając się w fascynującym świecie uczenia maszynowego i głębokiego uczenia się. Moja pasja i wiedza sprawiły, że uczestniczyłem w ponad 50 różnorodnych projektach z zakresu inżynierii oprogramowania, ze szczególnym uwzględnieniem AI/ML. Moja ciągła ciekawość przyciągnęła mnie również w stronę przetwarzania języka naturalnego – dziedziny, którą chcę dalej zgłębiać.