Kunstig intelligens

Qwen2 – Alibabas seneste flersprogede sprogmodel udfordrer SOTA som Llama 3

Udgivet 11. Juni, 2024

Aayush Mittal Mittal

Efter måneders forventning, Alibabas Qwen-team har endelig afsløret Qwen2 – den næste udvikling i deres kraftfulde sprogmodelserie. Qwen2 repræsenterer et betydeligt spring fremad og kan prale af banebrydende fremskridt, der potentielt kan positionere det som det bedste alternativ til Metas berømte Lama 3 model. I denne tekniske dybdegående undersøgelse vil vi udforske de vigtigste funktioner, ydeevnebenchmarks og innovative teknikker, der gør Qwen2 til en formidabel konkurrent inden for store sprogmodeller (LLM'er).

Opskalering: Introduktion af Qwen2 Model Lineup

Kernen i Qwen2 ligger en mangfoldig serie af modeller, der er skræddersyet til at imødekomme forskellige beregningsmæssige krav. Serien omfatter fem forskellige modelstørrelser: Qwen2-0.5B, Qwen2-1.5B, Qwen2-7B, Qwen2-57B-A14B og flagskibet Qwen2-72B. Denne række af muligheder henvender sig til et bredt spektrum af brugere, fra dem med beskedne hardwareressourcer til dem med adgang til avanceret beregningsinfrastruktur.

En af Qwen2's mest bemærkelsesværdige funktioner er dens flersprogede funktioner. Mens den forrige Qwen1.5 model udmærkede sig på engelsk og kinesisk, Qwen2 er blevet trænet i data, der spænder over imponerende 27 ekstra sprog. Dette flersprogede træningsprogram inkluderer sprog fra forskellige regioner som Vesteuropa, Øst- og Centraleuropa, Mellemøsten, Østasien og Sydasien.

Tabel, der viser de sprog, der understøttes af Qwen2-modeller, kategoriseret efter regioner

Sprog understøttet af Qwen2-modeller, kategoriseret efter geografiske områder

Ved at udvide sit sproglige repertoire demonstrerer Qwen2 en enestående evne til at forstå og generere indhold på tværs af en lang række sprog, hvilket gør det til et uvurderligt værktøj til globale applikationer og tværkulturel kommunikation.

Tabel, der sammenligner Qwen2-modeller efter parametre, ikke-indlejringsparametre, GQA, bindeindlejring og kontekstlængde

Specifikationer for Qwen2-modeller inklusive parametre, GQA og kontekstlængde.

Adressering af kodeskift: En flersproget udfordring

I flersprogede sammenhænge er fænomenet code-switching – praksis med at veksle mellem forskellige sprog inden for en enkelt samtale eller ytring – en almindelig begivenhed. Qwen2 er blevet omhyggeligt trænet til at håndtere kode-switch-scenarier, hvilket reducerer tilknyttede problemer betydeligt og sikrer jævne overgange mellem sprog.

Evalueringer ved hjælp af prompts, der typisk fremkalder kodeskift, har bekræftet Qwen2's betydelige forbedring på dette område, et bevis på Alibabas engagement i at levere en ægte flersproget sprogmodel.

Fremragende i kodning og matematik

Qwen2 har bemærkelsesværdige evner inden for områderne kodning og matematik, områder der traditionelt har stillet udfordringer for sprogmodeller. Ved at udnytte omfattende datasæt af høj kvalitet og optimerede træningsmetoder udviser Qwen2-72B-Instruct, den instruktionstunede variant af flagskibsmodellen, enestående ydeevne i løsning af matematiske problemer og kodningsopgaver på tværs af forskellige programmeringssprog.

Udvidelse af kontekstforståelse

En af de mest imponerende egenskaber ved Qwen2 er dens evne til at forstå og behandle udvidede kontekstsekvenser. Mens de fleste sprogmodeller kæmper med tekst i lang form, er Qwen2-7B-Instruct- og Qwen2-72B-Instruct-modellerne blevet udviklet til at håndtere kontekstlængder på op til 128K tokens.

Denne bemærkelsesværdige egenskab er en game-changer for applikationer, der kræver en dybdegående forståelse af lange dokumenter, såsom juridiske kontrakter, forskningspapirer eller tætte tekniske manualer. Ved effektivt at behandle udvidede kontekster kan Qwen2 give mere præcise og omfattende svar, der låser op for nye grænser i naturlig sprogbehandling.

Diagram, der viser faktasøgningsnøjagtigheden af Qwen2-modeller på tværs af forskellige kontekstlængder og dokumentdybder

Nøjagtighed af Qwen2-modeller til at hente fakta fra dokumenter på tværs af forskellige kontekstlængder og dokumentdybder.

Dette diagram viser Qwen2-modellernes evne til at hente fakta fra dokumenter af forskellig kontekstlængde og -dybde.

Arkitektoniske innovationer: Opmærksomhed på gruppeforespørgsler og optimerede indlejringer

Under motorhjelmen inkorporerer Qwen2 adskillige arkitektoniske innovationer, der bidrager til dens exceptionelle ydeevne. En sådan innovation er vedtagelsen af Group Query Attention (GQA) på tværs af alle modelstørrelser. GQA tilbyder hurtigere inferenshastigheder og reduceret hukommelsesforbrug, hvilket gør Qwen2 mere effektiv og tilgængelig for en bredere række af hardwarekonfigurationer.

Derudover har Alibaba optimeret indlejringerne til mindre modeller i Qwen2-serien. Ved at binde indlejringer har teamet formået at reducere disse modellers hukommelsesfodaftryk, hvilket muliggør deres udrulning på mindre kraftfuld hardware og samtidig bibeholde ydeevne af høj kvalitet.

Benchmarking Qwen2: Udkonkurrerende state-of-the-art modeller

Qwen2 har en bemærkelsesværdig ydeevne på tværs af en bred vifte af benchmarks. Sammenlignende evalueringer afslører, at Qwen2-72B, den største model i serien, overgår førende konkurrenter som Llama-3-70B på kritiske områder, herunder naturlig sprogforståelse, videnstilegnelse, kodningsfærdigheder, matematiske færdigheder og flersprogede evner.

Diagrammer, der sammenligner Qwen2-72B-Instruct og Llama3-70B-Instruct i kodning på tværs af flere programmeringssprog og i matematik på tværs af forskellige eksamener

Qwen2-72B-Instruct versus Llama3-70B-Instruct i kodning og matematisk præstation

Selvom Qwen1.5-110B har færre parametre end sin forgænger, Qwen2-72B, udviser den overlegen ydeevne, hvilket vidner om effektiviteten af Alibabas omhyggeligt kuraterede datasæt og optimerede træningsmetoder.

Sikkerhed og ansvar: Tilpasning til menneskelige værdier

Qwen2-72B-Instruct er blevet nøje evalueret for sin evne til at håndtere potentielt skadelige forespørgsler relateret til ulovlige aktiviteter, svindel, pornografi og krænkelser af privatlivets fred. Resultaterne er opmuntrende: Qwen2-72B-Instruct præsterer sammenligneligt med den højt respekterede GPT-4-model med hensyn til sikkerhed, og udviser betydeligt lavere andel af skadelige reaktioner sammenlignet med andre store modeller som Mistral-8x22B.

Denne præstation understreger Alibabas engagement i at udvikle AI-systemer, der er i overensstemmelse med menneskelige værdier, og sikrer, at Qwen2 ikke kun er kraftfuld, men også troværdig og ansvarlig.

Licensering og åben kildekode-forpligtelse

I et træk, der yderligere forstærker virkningen af Qwen2, har Alibaba vedtaget en open source-tilgang til licensering. Mens Qwen2-72B og dens instruktionstunede modeller beholder den originale Qianwen-licens, er de resterende modeller – Qwen2-0.5B, Qwen2-1.5B, Qwen2-7B og Qwen2-57B-A14B – blevet licenseret under den tilladelige Apache 2.0-licens .

Denne øgede åbenhed forventes at fremskynde anvendelsen og den kommercielle brug af Qwen2-modeller på verdensplan, hvilket fremmer samarbejde og innovation inden for det globale AI-fællesskab.

Anvendelse og implementering

At bruge Qwen2-modeller er ligetil, takket være deres integration med populære rammer som f.eks Knusende ansigt. Her er et eksempel på brug af Qwen2-7B-Chat-beta til inferens:

from transformers import AutoModelForCausalLM, AutoTokenizer

device = "cuda" # the device to load the model onto

model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen1.5-7B-Chat", device_map="auto")
tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen1.5-7B-Chat")

prompt = "Give me a short introduction to large language models."

messages = [{"role": "user", "content": prompt}]

text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)

model_inputs = tokenizer([text], return_tensors="pt").to(device)

generated_ids = model.generate(model_inputs.input_ids, max_new_tokens=512, do_sample=True)

generated_ids = [output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)]

response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(response)

Dette kodestykke demonstrerer, hvordan man opsætter og genererer tekst ved hjælp af Qwen2-7B-Chat-modellen. Integrationen med Knusende ansigt gør det tilgængeligt og nemt at eksperimentere med.

Qwen2 vs. Llama 3: En sammenlignende analyse

Mens Qwen2 og Meta's Llama 3 er begge formidable sprogmodeller, de udviser tydelige styrker og afvejninger.

Ydeevnesammenligningsdiagram for Qwen2-72B, Llama3-70B, Mixtral-8x22B og Qwen1.5-110B på tværs af flere benchmarks

Et sammenlignende præstationsdiagram af Qwen2-72B, Llama3-70B, Mixtral-8x22B og Qwen1.5-110B på tværs af forskellige benchmarks, herunder MMLU, MMLU-Pro, GPQA og andre.

Her er en sammenlignende analyse, der kan hjælpe dig med at forstå deres vigtigste forskelle:

Flersprogede kapaciteterQwen2 har en klar fordel med hensyn til flersproget understøttelse. Dens træning på data, der spænder over 27 yderligere sprog, ud over engelsk og kinesisk, gør det muligt for Qwen2 at udmærke sig i tværkulturel kommunikation og flersprogede scenarier. I modsætning hertil er Llama 3's flersprogede evner mindre udtalte, hvilket potentielt begrænser dens effektivitet i forskellige sproglige sammenhænge.

Kodning og matematikfærdighed: Både Qwen2 og Lama 3 demonstrere imponerende kodnings- og matematiske evner. Qwen2-72B-Instruct ser dog ud til at have en lille fordel på grund af sin grundige træning i omfattende datasæt af høj kvalitet inden for disse områder. Alibabas fokus på at forbedre Qwen2's muligheder inden for disse områder kan give dem en fordel til specialiserede applikationer, der involverer kodning eller matematisk problemløsning.

Lang kontekstforståelseQwen2-7B-Instruct og Qwen2-72B-Instruct modellerne kan prale af en imponerende evne til at håndtere kontekstlængder på op til 128K tokens. Denne funktion er især værdifuld for applikationer, der kræver dybdegående forståelse af lange dokumenter eller tæt teknisk materiale. Llama 3, selvom den er i stand til at behandle lange sekvenser, matcher muligvis ikke Qwen2's ydeevne på dette specifikke område.

Selvom både Qwen2 og Llama 3 udviser topmoderne ydeevne, tilbyder Qwen2's varierede modelsortiment, der spænder fra 0.5B til 72B parametre, større fleksibilitet og skalerbarhed. Denne alsidighed giver brugerne mulighed for at vælge den modelstørrelse, der bedst passer til deres beregningsressourcer og ydeevnekrav. Derudover kan Alibabas løbende bestræbelser på at skalere Qwen2 til større modeller yderligere forbedre dens muligheder og potentielt overgå Llama 3 i fremtiden.

Implementering og integration: Strømlining af Qwen2-adoption

For at lette den udbredte indførelse og integration af Qwen2 har Alibaba taget proaktive skridt for at sikre problemfri implementering på tværs af forskellige platforme og rammer. Qwen-teamet har samarbejdet tæt med adskillige tredjepartsprojekter og -organisationer, hvilket gør det muligt at udnytte Qwen2 i forbindelse med en lang række værktøjer og rammer.

Finjustering og kvantisering: Tredjepartsprojekter som Axolotl, Llama-Factory, Firefly, Swift og XTuner er blevet optimeret til at understøtte finjustering af Qwen2-modeller, hvilket gør det muligt for brugere at skræddersy modellerne til deres specifikke opgaver og datasæt. Derudover kan kvantiseringsværktøjer som AutoGPTQ, AutoAWQ, og Neural Compressor er blevet tilpasset til at fungere med Qwen2, hvilket letter effektiv implementering på ressourcebegrænsede enheder.

Implementering og inferens: Qwen2-modeller kan implementeres og betjenes ved hjælp af en række forskellige rammer, herunder vLLM, SGL, SkyPilot, TensorRT-LLM, OpenVinoog TGI. Disse rammer tilbyder optimerede inferenspipelines, der muliggør effektiv og skalerbar implementering af Qwen2 i produktionsmiljøer.

API-platforme og lokal udførelseFor udviklere, der ønsker at integrere Qwen2 i deres applikationer, giver API-platforme som Together, Fireworks og OpenRouter nem adgang til modellernes funktioner. Alternativt understøttes lokal udførelse gennem frameworks som MLX, Llama.cpp, Ollama, og LM Studio, der giver brugerne mulighed for at køre Qwen2 på deres lokale maskiner, mens de bevarer kontrol over databeskyttelse og sikkerhed.

Agent og RAG FrameworksQwen2's understøttelse af værktøjsbrug og agentfunktioner styrkes af frameworks som Lamaindeks, CrewAI og ÅbnDevin. Disse rammer muliggør oprettelse af specialiserede AI-agenter og integration af Qwen2 i retrieval-augmented generation (RAG) rørledninger, hvilket udvider rækken af applikationer og anvendelsesmuligheder.

Fremadrettet: Fremtidig udvikling og muligheder

Alibabas vision for Qwen2 rækker langt ud over den nuværende udgivelse. Teamet træner aktivt større modeller for at udforske grænserne for modelskalering, suppleret af løbende dataskaleringsindsatser. Derudover er der planer om at udvide Qwen2 til multimodal AI, hvilket muliggør integration af syns- og lydforståelsesfunktioner.

I takt med at open source AI-økosystemet fortsætter med at trives, vil Qwen2 spille en central rolle og tjene som en stærk ressource for forskere, udviklere og organisationer, der søger at fremme det nyeste inden for naturlig sprogbehandling og kunstig intelligens.

Næste

SolarWinds IT-trendsrapport 2024: At omfavne AI – en velsignelse eller en risiko?

Gå ikke glip af

LightAutoML: AutoML-løsning til et stort økosystem for finansielle tjenester

Aayush Mittal

Jeg har brugt de sidste fem år på at fordybe mig i den fascinerende verden af Machine Learning og Deep Learning. Min passion og ekspertise har ført mig til at bidrage til over 50 forskellige software engineering projekter, med særligt fokus på AI/ML. Min vedvarende nysgerrighed har også trukket mig hen imod Natural Language Processing, et felt jeg er ivrig efter at udforske yderligere.