Connect with us

Qwen2 – Alibabas Seneste Multisproglige Sprogmodel Udfordrer SOTA som Llama 3

Kunstig intelligens

Qwen2 – Alibabas Seneste Multisproglige Sprogmodel Udfordrer SOTA som Llama 3

mm
evolution from Qwen1.5 to Qwen2

Efter måneder med forventning har Alibabas Qwen-hold endelig afsløret Qwen2 – den næste udvikling i deres kraftfulde sprogmodel-serie. Qwen2 repræsenterer et betydeligt spring fremad, med avancerede funktioner, der potentielt kan positionere det som det bedste alternativ til Metas berømte Llama 3-model. I denne tekniske dykning vil vi udforske de vigtigste funktioner, præstationsbenchmarks og innovative teknikker, der gør Qwen2 til en formidabel konkurrent i verden af store sprogmodeller (LLM).

Skalering op: Introduktion til Qwen2-modellinjen

I kernepunktet af Qwen2 ligger en divers modellinje, der er tilpasset til at møde varierende beregningskrav. Serien omfatter fem forskellige modeller: Qwen2-0,5B, Qwen2-1,5B, Qwen2-7B, Qwen2-57B-A14B og flagskibet Qwen2-72B. Dette udvalg af muligheder tilgodeser en bred vifte af brugere, fra dem med beskedne hardware-resourcer til dem med adgang til avanceret beregningsinfrastruktur.

En af Qwen2s fremhævede funktioner er dens multisproglige evner. Mens den forrige Qwen1.5-model udmærkede sig i engelsk og kinesisk, er Qwen2 blevet trænet på data, der omfatter hele 27 yderligere sprog. Dette multisproglige træningsprogram omfatter sprog fra forskellige regioner som Vesteuropa, Østeuropa, Mellemøsten, Østasien og Sydasien.

Tabel over sprog, der understøttes af Qwen2-modeller, kategoriseret efter regioner

Sprog, der understøttes af Qwen2-modeller, kategoriseret efter geografiske regioner

Ved at udvide sit sproglige repertoire demonstrerer Qwen2 en exceptionel evne til at forstå og generere indhold på tværs af et bredt spektrum af sprog, hvilket gør det til et uvurderligt værktøj for globale anvendelser og tværkulturel kommunikation.

 

Tabel, der sammenligner Qwen2-modeller efter parametre, ikke-embedding-parametre, GQA, tie-embedding og kontekstlængde

Specifikationer for Qwen2-modeller, herunder parametre, GQA og kontekstlængde.

Løsning af kode-skift: En multisproglig udfordring

I multisproglige sammenhænge er fænomenet kode-skift – praksis med at skifte mellem forskellige sprog inden for en enkelt samtale eller udtalelse – en almindelig forekomst. Qwen2 er blevet omhyggeligt trænet til at håndtere kode-skift-scenarier, hvilket betydeligt reducerer tilhørende problemer og sikrer glatte overgange mellem sprog.

Evalueringer ved hjælp af prompts, der typisk fremkalder kode-skift, har bekræftet Qwen2s betydelige forbedring på dette område, et vidnesbyrd om Alibabas engagement i at levere et sandt multisprogligt sprogmodel.

Udmærkelse i kodning og matematik

Qwen2 har bemærkelsesværdige evner inden for kodning og matematik, områder, der traditionelt har udgjort udfordringer for sprogmodeller. Ved at udnytte omfattende højkvalitetsdatasetter og optimerede træningsmetoder udmærker Qwen2-72B-Instruct, den instruktionsafstemte variant af flagskibet, en fremragende præstation i løsning af matematiske problemer og kodningsopgaver på tværs af forskellige programmeringssprog.

Udvidelse af kontekstforståelse

En af Qwen2s mest imponerende funktioner er dens evne til at forstå og behandle forlængede kontekstsekvenser. Mens de fleste sprogmodeller kæmper med langformstekst, er Qwen2-7B-Instruct og Qwen2-72B-Instruct-modellerne blevet konstrueret til at håndtere kontekstlængder på op til 128K tokens.

Denne bemærkelsesværdige funktion er en game-changer for anvendelser, der kræver en dyb forståelse af lange dokumenter, såsom juridiske kontrakter, forskningspapirer eller tætte tekniske manualer. Ved at effektivt behandle forlængede kontekster kan Qwen2 give mere præcise og omfattende svar, hvilket åbner nye grænser for naturlig sprogbehandling.

Diagram, der viser faktaretrievals-nøjagtigheden for Qwen2-modeller på tværs af forskellige kontekstlængder og dokumentdybder

Nøjagtighed af Qwen2-modeller i at hente fakta fra dokumenter på tværs af varierende kontekstlængder og dokumentdybder.

Dette diagram viser Qwen2-modellernes evne til at hente fakta fra dokumenter af varierende kontekstlængder og dybder.

Arkitektoniske innovationer: Gruppe-spørgnings-opmærksomhed og optimeret indlejring

Under hooden inkorporerer Qwen2 flere arkitektoniske innovationer, der bidrager til dens exceptionelle præstation. En sådan innovation er antagelsen af Gruppe-spørgnings-opmærksomhed (GQA) på tværs af alle modeller. GQA tilbyder hurtigere inferenshastigheder og reduceret hukommelsesbrug, hvilket gør Qwen2 mere effektiv og tilgængelig for en bredere vifte af hardware-konfigurationer.

Derudover har Alibaba optimeret indlejringen for mindre modeller i Qwen2-serien. Ved at binde indlejring har holdet formået at reducere hukommelsesaftrykket af disse modeller, hvilket muliggør deres udrulning på mindre kraftfuld hardware samtidig med at høj kvalitetspræstation opretholdes.

Benchmarking Qwen2: Overgående State-of-the-Art-modeller

Qwen2 har en bemærkelsesværdig præstation på tværs af et bredt spektrum af benchmarks. Sammenlignende evalueringer afslører, at Qwen2-72B, den største model i serien, overgår førende konkurrenter som Llama-3-70B i kritiske områder, herunder naturlig sprogforståelse, viden tilegnelse, kodningsdygtighed, matematiske færdigheder og multisproglige evner.

Diagrammer, der sammenligner Qwen2-72B-Instruct og Llama3-70B-Instruct i kodning på tværs af flere programmeringssprog og i matematik på tværs af forskellige eksamener

Qwen2-72B-Instruct versus Llama3-70B-Instruct i kodning og matematikpræstation

Trods færre parametre end sin forgænger, Qwen1.5-110B, udmærker Qwen2-72B sig med en overlegen præstation, et vidnesbyrd om Alibabas omhyggeligt kuraterede datasetter og optimerede træningsmetoder.

Sikkerhed og ansvar: I overensstemmelse med menneskelige værdier

Qwen2-72B-Instruct er blevet omhyggeligt evalueret for sin evne til at håndtere potentielt skadelige forespørgsler relateret til ulovlige aktiviteter, svindel, pornografi og krænkelser af privatlivet. Resultaterne er opmuntrende: Qwen2-72B-Instruct præsterer sammenligneligt med den højt respekterede GPT-4-model i forhold til sikkerhed, viser en betydeligt lavere proportion af skadelige svar i forhold til andre store modeller som Mistral-8x22B.

Dette fremhæver Alibabas engagement i at udvikle AI-systemer, der er i overensstemmelse med menneskelige værdier, sikrer, at Qwen2 ikke kun er kraftfuld, men også troværdig og ansvarlig.

Licens og åben kilde-kommitment

I et skridt, der yderligere forstærker Qwen2s impact, har Alibaba antaget en åben kilde-tilgang til licens. Mens Qwen2-72B og dens instruktionsafstemte modeller fastholder den oprindelige Qianwen-licens, er de resterende modeller – Qwen2-0,5B, Qwen2-1,5B, Qwen2-7B og Qwen2-57B-A14B – blevet licenseret under den tilladende Apache 2.0-licens.

Denne forbedrede åbenhed forventes at accelerere anvendelsen og kommercielle brug af Qwen2-modeller verden over, fremmer samarbejde og innovation inden for den globale AI-fællesskab.

Brug og implementering

Brug af Qwen2-modeller er straightforward, takket være deres integration med populære frameworks som Hugging Face. Her er et eksempel på, hvordan man bruger Qwen2-7B-Chat-beta til inferens:

from transformers import AutoModelForCausalLM, AutoTokenizer

device = "cuda" # enheden til at indlæse modellen på

model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen1.5-7B-Chat", device_map="auto")
tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen1.5-7B-Chat")

prompt = "Giv mig en kort introduktion til store sprogmodeller."

messages = [{"role": "user", "content": prompt}]

text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)

model_inputs = tokenizer([text], return_tensors="pt").to(device)

generated_ids = model.generate(model_inputs.input_ids, max_new_tokens=512, do_sample=True)

generated_ids = [output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)]

response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(response)

Dette kode-udsnit demonstrerer, hvordan man opsætter og genererer tekst ved hjælp af Qwen2-7B-Chat-modellen. Integrationen med Hugging Face gør det tilgængeligt og let at eksperimentere med.

Qwen2 vs. Llama 3: En sammenlignende analyse

Mens Qwen2 og Metas Llama 3 begge er formidabelt kraftfulde sprogmodeller, viser de forskellige styrker og kompromiser.

Præstations-sammenligningsdiagram for Qwen2-72B, Llama3-70B, Mixtral-8x22B og Qwen1.5-110B på tværs af flere benchmarks

En sammenlignende præstationsdiagram for Qwen2-72B, Llama3-70B, Mixtral-8x22B og Qwen1.5-110B på tværs af flere benchmarks, herunder MMLU, MMLU-Pro, GPQA og andre.

Her er en sammenlignende analyse for at hjælpe dig med at forstå deres nøgleforskelle:

Multisproglige evner: Qwen2 har en klar fordel i forhold til multisprogligt understøttelse. Dets træning på data, der omfatter 27 yderligere sprog, ud over engelsk og kinesisk, giver Qwen2 mulighed for at udmærke sig i tværkulturel kommunikation og multisproglige scenarier. I modsætning hertil er Llama 3s multisproglige evner mindre udtalte, hvilket potentielt kan begrænse dets effektivitet i diverse sproglige sammenhænge.

Kodning og matematikdygtighed: Begge Qwen2 og Llama 3 viser imponerende kodnings- og matematiske evner. Qwen2-72B-Instruct synes dog at have en lille fordel, takket være sin omhyggelige træning på omfattende, højkvalitetsdatasetter i disse områder. Alibabas fokus på at forbedre Qwen2s evner i disse områder kunne give det en fordel for specialiserede anvendelser, der involverer kodning eller matematisk problemløsning.

Lang kontekstforståelse: Qwen2-7B-Instruct og Qwen2-72B-Instruct-modellerne kan håndtere kontekstlængder på op til 128K tokens. Denne funktion er særligt værdifuld for anvendelser, der kræver en dyb forståelse af lange dokumenter eller tætte tekniske materialer. Llama 3, selvom det kan behandle lange sekvenser, kan måske ikke matche Qwen2s præstation på dette specifikke område.

Mens både Qwen2 og Llama 3 viser state-of-the-art-præstation, tilbyder Qwen2s diverse model-linje, der spænder fra 0,5B til 72B parametre, en større fleksibilitet og skalerbarhed. Denne fleksibilitet giver brugerne mulighed for at vælge den modelstørrelse, der bedst passer deres beregningsressourcer og præstationskrav. Derudover kan Alibabas fortsatte bestræbelser på at skale Qwen2 op til større modeller potentielt overgå Llama 3 i fremtiden.

Udrulning og integration: Let Qwen2-adopter

For at lette den bredere udbredelse og integration af Qwen2 har Alibaba taget proaktive skridt til at sikre en problemfri udrulning på tværs af forskellige platforme og frameworks. Qwen-holdet har samarbejdet tæt med talrige tredjepartsprojekter og organisationer, hvilket giver Qwen2 mulighed for at blive anvendt i forbindelse med en bred vifte af værktøjer og frameworks.

Finjustering og kvantificering: Tredjepartsprojekter som Axolotl, Llama-Factory, Firefly, Swift og XTuner er blevet optimeret til at understøtte finjustering af Qwen2-modeller, hvilket giver brugerne mulighed for at tilpasse modellerne til deres specifikke opgaver og datasetter. Derudover er kvantificeringsværktøjer som AutoGPTQ, AutoAWQ og Neural Compressor blevet tilpasset til at arbejde med Qwen2, hvilket faciliterer en effektiv udrulning på ressource-begrænsede enheder.

Udrulning og inferens: Qwen2-modeller kan udrulles og servieres ved hjælp af en række frameworks, herunder vLLM, SGL, SkyPilot, TensorRT-LLM, OpenVino og TGI. Disse frameworks tilbyder optimerede inferens-rørledninger, hvilket giver mulighed for en effektiv og skalerbar udrulning af Qwen2 i produktionsmiljøer.

API-platforme og lokal udførelse: For udviklere, der søger at integrere Qwen2 i deres anvendelser, giver API-platforme som Together, Fireworks og OpenRouter en praktisk adgang til modellernes funktioner. Alternativt understøttes lokal udførelse gennem frameworks som MLX, Llama.cpp, Ollama og LM Studio, hvilket giver brugerne mulighed for at køre Qwen2 på deres lokale maskiner samtidig med, at de opretholder kontrollen over data-integritet og sikkerhed.

Agent- og RAG-frameworks: Qwen2s understøttelse af værktøjsanvendelse og agent-kapaciteter er forstærket gennem frameworks som LlamaIndex, CrewAI og OpenDevin. Disse frameworks giver mulighed for at skabe specialiserede AI-agenter og integrere Qwen2 i retrieval-augmented generation (RAG)-rørledninger, hvilket udvider rækken af anvendelser og brugsscenarier.

Udsigt fremad: Fremtidige udviklinger og muligheder

Alibabas vision for Qwen2 strækker sig langt ud over den nuværende udgivelse. Holdet er aktivt i gang med at træne større modeller for at udforske grænserne for model-skalerbarhed, suppleret med fortsatte data-skaleringsbestræbelser. Derudover er der planer om at udvide Qwen2 ind i området for multimodal AI, hvilket giver mulighed for at integrere visuel og lydforståelse.

Da den åbne kilde-AI-økosystem fortsætter med at blomstre, vil Qwen2 spille en afgørende rolle som et kraftfuldt værktøj for forskere, udviklere og organisationer, der søger at fremme tilstanden for naturlig sprogbehandling og kunstig intelligens.

Jeg har brugt de sidste fem år på at dykke ned i den fascinerende verden af Machine Learning og Deep Learning. Min passion og ekspertise har ført til, at jeg har bidraget til over 50 forskellige software-udviklingsprojekter, med særlig fokus på AI/ML. Min vedvarende nysgerrighed har også ført mig i retning af Natural Language Processing, et felt jeg er ivrig efter at udforske yderligere.