Kunstig intelligens

Qwen2 – Alibabas nyeste flerspråklige språkmodell utfordrer SOTA som Llama 3

Published June 11, 2024

Updated April 27, 2026

Aayush Mittal Mittal

Etter måneder med forventning, har Alibabas Qwen-team endelig avduket Qwen2 – den neste utviklingen av deres kraftfulle språkmodellserier. Qwen2 representerer et betydelig sprang fremover, med banebrytende fremgang som potensielt kan plassere den som den beste alternativet til Metas feirede Llama 3-modell. I denne tekniske dybdeanalyse, vil vi utforske de viktigste funksjonene, ytelsesbenchmarks og innovative teknikker som gjør Qwen2 til en formidabel utfordrer i området stor språkmodeller (LLM).

Skalering opp: Innføring av Qwen2-modellrekken

I kjernen av Qwen2 ligger en divers modellrekke tilpasset å møte varierte beregningskrav. Serien omfatter fem distinkte modellstørrelser: Qwen2-0.5B, Qwen2-1.5B, Qwen2-7B, Qwen2-57B-A14B og flaggskipet Qwen2-72B. Dette utvalget av alternativer møter et bredt spekter av brukere, fra de med beskjedne maskinvareressurser til de med tilgang til banebrytende beregningsinfrastruktur.

En av Qwen2s fremtredende funksjoner er dens flerspråklige evner. Mens den forrige Qwen1.5-modellen utmerket seg i engelsk og kinesisk, har Qwen2 blitt trent på data som omfatter en imponerende 27 ekstra språk. Dette flerspråklige treningsregimet inkluderer språk fra diverse regioner som Vest-Europa, Øst- og Sentral-Europa, Midtøsten, Øst-Asia og Sør-Asia.

Tabelle som listar språkene støttet av Qwen2-modeller, kategorisert etter regioner

Språk støttet av Qwen2-modeller, kategorisert etter geografiske regioner

Ved å utvide sin lingvistiske repertoar, demonstrerer Qwen2 en unik evne til å forstå og generere innhold på tvers av et bredt spekter av språk, gjør det til et uvurderlig verktøy for globale anvendelser og kulturell kommunikasjon.

Tabelle som sammenligner Qwen2-modeller etter parameter, ikke-embedding-parametre, GQA, tie-embedding og kontekstlengde

Spesifikasjoner for Qwen2-modeller inkludert parametre, GQA og kontekstlengde.

Å håndtere kode-skifting: En flerspråklig utfordring

I flerspråklige sammenhenger, er fenomenet kode-skifting – praksisen med å skifte mellom forskjellige språk innenfor en enkelt samtale eller uttalelse – en vanlig forekomst. Qwen2 er blitt nøye trent for å håndtere kode-skifting-scenarier, noe som betydelig reduserer tilknyttede problemer og sikrer jevne overganger mellom språk.

Evalueringer ved hjelp av promter som vanligvis inducerer kode-skifting, har bekreftet Qwen2s betydelige forbedring i dette domenet, et bevis på Alibabas forpliktelse til å levere en virkelig flerspråklig språkmodell.

Utmerker seg i kode og matematikk

Qwen2 har bemerkelsesverdige evner i områdene kode og matematikk, områder som tradisjonelt har vært utfordringer for språkmodeller. Ved å utnytte omfattende høykvalitetsdatasett og optimerte treningsmetodologier, utviser Qwen2-72B-Instruct, den instruksjonstuned varianten av flaggskipet, en utmerket ytelse i å løse matematiske problemer og kodeoppgaver på tvers av forskjellige programmeringsspråk.

Utvider kontekstforståelse

En av de mest imponerende funksjonene til Qwen2 er dens evne til å forstå og prosessere utvidede kontekstsekvenser. Mens de fleste språkmodellene sliter med langformtekst, er Qwen2-7B-Instruct og Qwen2-72B-Instruct-modellene blitt konstruert for å håndtere kontekstlengder på opptil 128K token.

Dette bemerkelsesverdige funksjonen er en game-changer for applikasjoner som krever en dyptgående forståelse av lange dokumenter, som juridiske kontrakter, forskningspapirer eller tette tekniske håndbøker. Ved å effektivt prosessere utvidede kontekster, kan Qwen2 gi mer nøyaktige og omfattende svar, åpner opp nye grenser i naturlig språkbehandling.

Graf som viser faktaretrievals-nøyaktigheten til Qwen2-modeller på tvers av forskjellige kontekstlengder og dokumentdybder

Nøyaktigheten til Qwen2-modeller i å hente fakta fra dokumenter på tvers av varierende kontekstlengder og dokumentdybder.

Denne grafen viser evnen til Qwen2-modeller til å hente fakta fra dokumenter av forskjellige kontekstlengder og dybder.

Arkitektoniske innovasjoner: Gruppe-spørrings-oppmerksomhet og optimerte innføyninger

Under panseret, inkorporerer Qwen2 flere arkitektoniske innovasjoner som bidrar til dens unike ytelse. En slik innovasjon er innføringen av Gruppe-spørrings-oppmerksomhet (GQA) på tvers av alle modellstørrelser. GQA tilbyr raskere inferenshastigheter og redusert minnebruk, gjør Qwen2 mer effektiv og tilgjengelig for en bredere rekke av maskinkonfigurasjoner.

I tillegg har Alibaba optimert innføyningene for mindre modeller i Qwen2-serien. Ved å binde innføyningene, har teamet lykkes i å redusere minneavtrykket til disse modellene, muliggjør deres distribusjon på mindre kraftfulle maskiner samtidig som de opprettholder høykvalitetsytelse.

Benchmarking Qwen2: Overgår State-of-the-Art-modeller

Qwen2 har en bemerkelsesverdig ytelse på tvers av et variert spekter av benchmark-verktøy. Sammenlignende evalueringer avslører at Qwen2-72B, den største modellen i serien, overgår ledende konkurrenter som Llama-3-70B i kritiske områder, inkludert naturlig språkforståelse, kunnskaps tilegnelse, kodeferdighet, matematiske ferdigheter og flerspråklige evner.

Graf som sammenligner Qwen2-72B-Instruct og Llama3-70B-Instruct i kode på tvers av flere programmeringsspråk og i matematikk på tvers av forskjellige eksamener

Qwen2-72B-Instruct versus Llama3-70B-Instruct i kode- og matematikk-ytelse

Til tross for å ha færre parametre enn sin forgjenger, Qwen1.5-110B, utviser Qwen2-72B en overlegen ytelse, et bevis på Alibabas nøye kurerte datasett og optimerte treningsmetodologier.

Sikkerhet og ansvar: I tråd med menneskelige verdier

Qwen2-72B-Instruct er blitt grundig evaluert for dens evne til å håndtere potensielt skadelige spørringer relatert til ulovlige aktiviteter, svindel, pornografi og personvernsbrudd. Resultatene er oppmuntrende: Qwen2-72B-Instruct utfører sammenlignbart med den høyt ansette GPT-4-modellen i forhold til sikkerhet, utviser betydelig lavere andeler av skadelige svar sammenlignet med andre store modeller som Mistral-8x22B.

Dette fremhever Alibabas forpliktelse til å utvikle AI-systemer som er i tråd med menneskelige verdier, sikrer at Qwen2 ikke bare er kraftfull, men også pålitelig og ansvarlig.

Lisensiering og åpen kildekode-forpliktelse

I et skritt som ytterligere forsterker Qwen2s innvirkning, har Alibaba adoptert en åpen kildekode-tilnærming til lisensiering. Mens Qwen2-72B og dens instruksjonstuned modeller beholder den opprinnelige Qianwen-lisensen, har de resterende modellene – Qwen2-0.5B, Qwen2-1.5B, Qwen2-7B og Qwen2-57B-A14B – blitt lisensiert under den permissive Apache 2.0-lisensen.

Dette økte åpne aspektet forventes å akselerere anvendelsen og kommersielle bruken av Qwen2-modeller globalt, fremmer samarbeid og innovasjon innen det globale AI-samfunnet.

Bruk og implementering

Bruken av Qwen2-modeller er rett frem, takket være deres integrasjon med populære rammeverk som Hugging Face. Her er et eksempel på å bruke Qwen2-7B-Chat-beta for inferens:

from transformers import AutoModelForCausalLM, AutoTokenizer

device = "cuda" # enheten til å laste modellen inn på

model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen1.5-7B-Chat", device_map="auto")
tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen1.5-7B-Chat")

prompt = "Gi meg en kort innføring i store språkmodeller."

messages = [{"role": "user", "content": prompt}]

text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)

model_inputs = tokenizer([text], return_tensors="pt").to(device)

generated_ids = model.generate(model_inputs.input_ids, max_new_tokens=512, do_sample=True)

generated_ids = [output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)]

response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(response)

Dette kode-utdrag demonstrerer hvordan du kan sette opp og generere tekst ved hjelp av Qwen2-7B-Chat-modellen. Integreringen med Hugging Face gjør det tilgjengelig og enkelt å eksperimentere med.

Qwen2 vs. Llama 3: En sammenlignende analyse

Mens Qwen2 og Metas Llama 3 begge er formidabelt språkmodeller, utviser de distinkte styrker og kompromisser.

Ytelses-sammenligningsgraf for Qwen2-72B, Llama3-70B, Mixtral-8x22B og Qwen1.5-110B på tvers av flere benchmark-verktøy

En sammenlignende ytelsesgraf for Qwen2-72B, Llama3-70B, Mixtral-8x22B og Qwen1.5-110B på tvers av flere benchmark-verktøy.

Her er en sammenlignende analyse for å hjelpe deg å forstå deres nøkkel-forskjeller:

Flerspråklige evner: Qwen2 har en klar fordel i forhold til flerspråklig støtte. Dens trening på data som omfatter 27 ekstra språk, utover engelsk og kinesisk, gjør Qwen2 til å utmerke seg i kulturell kommunikasjon og flerspråklige scenarier. I kontrast til dette, er Llama 3s flerspråklige evner mindre uttalt, potensielt begrensning dens effektivitet i diverse lingvistiske sammenhenger.

Kode- og matematikk-ferdighet: Begge Qwen2 og Llama 3 demonstrerer imponerende kode- og matematiske evner. Imidlertid synes Qwen2-72B-Instruct å ha en liten fordel, takket være dens strenge trening på omfattende, høykvalitetsdatasett i disse områdene. Alibabas fokus på å forbedre Qwen2s evner i disse områdene kan gi det en fordel for spesialiserte applikasjoner som involverer kode eller matematisk problemløsning.

Lang kontekst-forståelse: Qwen2-7B-Instruct og Qwen2-72B-Instruct-modellene skilter med en imponerende evne til å håndtere kontekstlengder på opptil 128K token. Denne funksjonen er spesielt verdifull for applikasjoner som krever en dyptgående forståelse av lange dokumenter eller tette tekniske håndbøker. Llama 3, mens den er i stand til å prosessere lange sekvenser, kan ikke matche Qwen2s ytelse i dette spesifikke området.

Mens begge Qwen2 og Llama 3 utviser state-of-the-art-ytelse, tilbyr Qwen2s diverse modellrekke, fra 0,5B til 72B parametre, en større fleksibilitet og skalerbarhet. Denne fleksibiliteten tillater brukerne å velge den modellstørrelsen som best passer deres beregningsressurser og ytelseskrav. I tillegg kan Alibabas pågående innsats for å skalerer Qwen2 til større modeller potensielt forbedre dens evner, og overgå Llama 3 i fremtiden.

Distribusjon og integrasjon: Forenkling av Qwen2-antakelse

For å lette den vidstrakte antakelsen og integreringen av Qwen2, har Alibaba tatt proaktive skritt for å sikre en sammenhengende distribusjon på tvers av ulike plattformer og rammeverk. Qwen-teamet har samarbeidet tett med flere tredjepartsprosjekter og organisasjoner, muliggjør Qwen2 å bli benyttet i sammenheng med en rekke verktøy og rammeverk.

Fine-tuning og kvantisering: Tredjepartsprosjekter som Axolotl, Llama-Factory, Firefly, Swift og XTuner har blitt optimalisert for å støtte fine-tuning av Qwen2-modeller, muliggjør brukerne å tilpasse modellene til sine spesifikke oppgaver og datasett. I tillegg har kvantisering-verktøy som AutoGPTQ, AutoAWQ og Neural Compressor blitt tilpasset for å fungere med Qwen2, muliggjør en effektiv distribusjon på ressurs-begrensede enheter.

Distribusjon og inferens: Qwen2-modeller kan bli distribuert og servert ved hjelp av en rekke rammeverk, inkludert vLLM, SGL, SkyPilot, TensorRT-LLM, OpenVino og TGI. Disse rammeverkene tilbyr optimerte inferens-pipelines, muliggjør en effektiv og skalerbar distribusjon av Qwen2 i produksjonsmiljøer.

API-plattformer og lokal eksekvering: For utviklere som søker å integrere Qwen2 i sine applikasjoner, tilbyr API-plattformer som Together, Fireworks og OpenRouter en praktisk tilgang til modellenes evner. Alternativt støttes lokal eksekvering gjennom rammeverk som MLX, Llama.cpp, Ollama og LM Studio, muliggjør brukerne å kjøre Qwen2 på sine lokale maskiner samtidig som de opprettholder kontroll over data-privatitet og sikkerhet.

Agent- og RAG-rammeverk: Qwen2s støtte for verktøy-bruk og agent-kapasiteter styrkes av rammeverk som LlamaIndex, CrewAI og OpenDevin. Disse rammeverkene muliggjør skapingen av spesialiserte AI-agenter og integreringen av Qwen2 i retrieval-augmented generation (RAG)-pipelines, utvider rekken av applikasjoner og brukstilfeller.

Ser fremover: Fremtidige utviklinger og muligheter

Alibabas visjon for Qwen2 strekker seg langt utover den nåværende utgaven. Teamet er aktivt i trening av større modeller for å utforske grensene for modell-skalerbarhet, supplert av pågående data-skaleringsinnsats. Videre er det planer for å utvide Qwen2 inn i området multimodal AI, muliggjør integreringen av visuell og audio-forståelsesevner.

Ettersom det åpne kildekode-AI-økosystemet fortsetter å blomstre, vil Qwen2 spille en avgjørende rolle, fungere som en kraftfull ressurs for forskere, utviklere og organisasjoner som søker å fremme tilstanden for kunstig intelligens og naturlig språkbehandling.

Aayush Mittal

Jeg har brukt de siste fem årene til å dykke ned i den fasiniserende verden av Machine Learning og Deep Learning. Min lidenskap og ekspertise har ført meg til å bidra til over 50 forskjellige prosjekter innen programvareutvikling, med særlig fokus på AI/ML. Min pågående nysgjerrighet har også trukket meg mot Natural Language Processing, et felt jeg er ivrig etter å utforske videre.