Inteligență artificială

Qwen2 – Ultimul model de limbaj multilingv al lui Alibaba provoacă SOTA, precum Llama 3

Published June 11, 2024

Updated April 27, 2026

Aayush Mittal Mittal

După luni de așteptare, echipa Qwen de la Alibaba a prezentat în sfârșit Qwen2 – următoarea evoluție a puternicei serii de modele de limbaj. Qwen2 reprezintă un salt semnificativ înainte, având avansări de ultimă oră care ar putea poziționa potențial ca cea mai bună alternativă la modelul celebrat Llama 3 al Meta. În acest articol tehnic detaliat, vom explora caracteristicile cheie, benchmark-urile de performanță și tehnicile inovatoare care fac din Qwen2 un concurent formidabil în domeniul modelelor de limbaj mari (LLM).

Creșterea la scară: Prezentarea gamei de modele Qwen2

La baza Qwen2 se află o gamă diversă de modele concepute pentru a satisface cerințele computaționale variate. Seria cuprinde cinci dimensiuni de modele distincte: Qwen2-0.5B, Qwen2-1.5B, Qwen2-7B, Qwen2-57B-A14B și modelul emblematic Qwen2-72B. Această gamă de opțiuni se adresează unui spectru larg de utilizatori, de la cei cu resurse hardware modeste până la cei cu acces la infrastructură computațională de ultimă generație.

Una dintre caracteristicile remarcabile ale Qwen2 este capacitatea sa multilingvă. În timp ce modelul anterior Qwen1.5 a excelat în engleză și chineză, Qwen2 a fost antrenat pe date care acoperă impresionante 27 de limbi suplimentare. Acest regim de antrenament multilingv include limbi din regiuni diverse, cum ar fi Europa de Vest, Europa de Est și Centrală, Orientul Mijlociu, Asia de Est și Asia de Sud.

Tabelul care listează limbile suportate de modelele Qwen2, categorisite pe regiuni

Limbile suportate de modelele Qwen2, categorisite pe regiuni geografice

Prin extinderea repertoriului lingvistic, Qwen2 demonstrează o abilitate excepțională de a înțelege și genera conținut într-o gamă largă de limbi, făcându-l un instrument inestimabil pentru aplicații globale și comunicare interculturală.

Tabelul care compară modelele Qwen2 după parametri, parametri non-încorporați, GQA, legături de încorporare și lungimea contextului

Specificațiile modelelor Qwen2, incluzând parametri, GQA și lungimea contextului.

Abordarea comutării codului: O provocare multilingvă

În contexte multilingve, fenomenul de comutare a codului – practica de a alterna între limbi diferite în cadrul unei conversații sau enunțuri – este o apariție comună. Qwen2 a fost antrenat cu atenție pentru a gestiona scenariile de comutare a codului, reducând semnificativ problemele asociate și asigurând tranziții line între limbi.

Evaluările folosind prompturi care induc de obicei comutarea codului au confirmat îmbunătățirea substanțială a Qwen2 în acest domeniu, o dovadă a angajamentului Alibaba de a livra un model de limbaj multilingv veritabil.

Excelență în codare și matematică

Qwen2 are capacități remarcabile în domeniile codării și matematicii, domenii care au reprezentat tradițional provocări pentru modelele de limbaj. Prin exploatarea unor seturi de date extinse și de înaltă calitate și a unor metodologii de antrenament optimizate, Qwen2-72B-Instruct, varianta modelului emblematic, expune o performanță excepțională în rezolvarea problemelor matematice și a sarcinilor de codare în diverse limbi de programare.

Extinderea înțelegerii contextului

Una dintre caracteristicile cele mai impresionante ale Qwen2 este capacitatea sa de a înțelege și procesa secvențe de context extinse. În timp ce majoritatea modelelor de limbaj se luptă cu textul de lungă durată, modelele Qwen2-7B-Instruct și Qwen2-72B-Instruct au fost proiectate pentru a gestiona lungimi de context de până la 128K de tokeni.

Această capacitate remarcabilă este un joc schimbător pentru aplicațiile care cer o înțelegere în profunzime a documentelor lungi, cum ar fi contracte legale, articole de cercetare sau manuale tehnice dense. Prin procesarea eficientă a contextelor extinse, Qwen2 poate oferi răspunsuri mai precise și mai cuprinzătoare, deblocând noi frontiere în procesarea limbajului natural.

Grafic care arată acuratețea recuperării faptelor de către modelele Qwen2 din documente de diverse lungimi de context și adâncimi

Acuratețea modelelor Qwen2 în recuperarea faptelor din documente de diverse lungimi de context și adâncimi.

Acest grafic arată capacitatea modelelor Qwen2 de a recupera fapte din documente de diverse lungimi și adâncimi.

Inovații arhitecturale: Attenția la interogarea grupului și încorporările optimizate

Sub capotă, Qwen2 incorporează mai multe inovații arhitecturale care contribuie la performanța sa excepțională. Una dintre aceste inovații este adoptarea Attenției la interogarea grupului (GQA) în toate dimensiunile de modele. GQA oferă viteze de inferență mai rapide și o utilizare redusă a memoriei, făcând din Qwen2 un model mai eficient și mai accesibil pentru o gamă mai largă de configurații hardware.

În plus, Alibaba a optimizat încorporările pentru modelele mai mici din seria Qwen2. Prin legarea încorporărilor, echipa a reușit să reducă amprenta de memorie a acestor modele, permițându-le să fie implementate pe hardware mai puțin puternic, menținând în același timp o performanță de înaltă calitate.

Testarea Qwen2: Depășirea modelelor de ultimă generație

Qwen2 are o performanță remarcabilă într-o gamă diversă de benchmark-uri. Evaluările comparative arată că Qwen2-72B, cel mai mare model din serie, depășește concurenții de top, cum ar fi Llama-3-70B, în domenii cheie, incluzând înțelegerea limbajului natural, achiziția cunoștințelor, abilitățile de codare, abilitățile matematice și capacitățile multilingve.

Grafice care compară Qwen2-72B-Instruct și Llama3-70B-Instruct în codare și matematică

Qwen2-72B-Instruct versus Llama3-70B-Instruct în codare și matematică

În ciuda faptului că are mai puțini parametri decât predecesorul său, Qwen1.5-110B, Qwen2-72B expune o performanță superioară, o dovadă a eficacității seturilor de date atent curate și a metodologiilor de antrenament optimizate de către Alibaba.

Siguranță și responsabilitate: Alinierea cu valorile umane

Qwen2-72B-Instruct a fost evaluat riguros pentru capacitatea sa de a gestiona interogări potențial periculoase legate de activități ilegale, fraudă, pornografie și încălcări ale vieții private. Rezultatele sunt încurajatoare: Qwen2-72B-Instruct performează comparabil cu modelul GPT-4 apreciat în ceea ce privește siguranța, expunând o proporție semnificativ mai mică de răspunsuri periculoase în comparație cu alte modele mari, cum ar fi Mistral-8x22B.

Acest realizare subliniază angajamentul Alibaba de a dezvolta sisteme AI care se aliniază cu valorile umane, asigurând că Qwen2 nu este doar puternic, ci și de încredere și responsabil.

Licențiere și angajamentul de a fi open-source

Într-o mișcare care amplifică și mai mult impactul Qwen2, Alibaba a adoptat o abordare open-source pentru licențiere. În timp ce Qwen2-72B și modelele sale de instruire păstrează licența Qianwen originală, modelele rămase – Qwen2-0.5B, Qwen2-1.5B, Qwen2-7B și Qwen2-57B-A14B – au fost licențiate sub licența permissivă Apache 2.0.

Această deschidere sporită este așteptată să accelereze aplicarea și utilizarea comercială a modelelor Qwen2 la nivel global, promovând colaborarea și inovarea în cadrul comunității globale de inteligență artificială.

Utilizare și implementare

Utilizarea modelelor Qwen2 este simplă, datorită integrării lor cu cadre populare precum Hugging Face. Iată un exemplu de utilizare a Qwen2-7B-Chat-beta pentru inferență:

from transformers import AutoModelForCausalLM, AutoTokenizer

device = "cuda" # dispozitivul pe care se încarcă modelul

model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen1.5-7B-Chat", device_map="auto")
tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen1.5-7B-Chat")

prompt = "Oferă-mi o scurtă introducere în modelele de limbaj mari."

mesaje = [{"role": "user", "content": prompt}]

text = tokenizer.apply_chat_template(mesaje, tokenize=False, add_generation_prompt=True)

model_inputs = tokenizer([text], return_tensors="pt").to(device)

generated_ids = model.generate(model_inputs.input_ids, max_new_tokens=512, do_sample=True)

generated_ids = [output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)]

răspuns = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(răspuns)

Acest fragment de cod demonstrează cum să configurați și să generați text folosind modelul Qwen2-7B-Chat. Integrarea cu Hugging Face o face accesibilă și ușor de experimentat.

Qwen2 vs. Llama 3: O analiză comparativă

În timp ce Qwen2 și Llama 3 de la Meta sunt ambele modele de limbaj formidabile, ele expun forțe și compromisuri distincte.

Grafic de comparație a performanței Qwen2-72B, Llama3-70B, Mixtral-8x22B și Qwen1.5-110B în diverse benchmark-uri

Un grafic comparativ de performanță al Qwen2-72B, Llama3-70B, Mixtral-8x22B și Qwen1.5-110B în diverse benchmark-uri, incluzând MMLU, MMLU-Pro, GPQA și altele.

Iată o analiză comparativă pentru a vă ajuta să înțelegeți diferențele cheie:

Capacități multilingve: Qwen2 are un avantaj clar în ceea ce privește suportul multilingv. Antrenamentul său pe date care acoperă 27 de limbi suplimentare, dincolo de engleză și chineză, permite Qwen2 să exceleze în comunicarea interculturală și în scenarii multilingve. În contrast, capacitățile multilingve ale Llama 3 sunt mai puțin pronunțate, ceea ce ar putea limita eficacitatea sa în contexte lingvistice diverse.

Abilități de codare și matematică: Atât Qwen2, cât și Llama 3 demonstrează abilități impresionante de codare și matematică. Cu toate acestea, Qwen2-72B-Instruct pare să aibă o ușoară superioritate, datorită antrenamentului riguros pe seturi de date extinse și de înaltă calitate în aceste domenii. Accentul Alibaba pe îmbunătățirea capacităților Qwen2 în aceste domenii ar putea oferi un avantaj pentru aplicații specializate care implică codare sau rezolvarea problemelor matematice.

Înțelegerea contextului lung: Qwen2-7B-Instruct și Qwen2-72B-Instruct posedă o capacitate remarcabilă de a gestiona lungimi de context de până la 128K de tokeni. Această caracteristică este deosebit de valoroasă pentru aplicațiile care necesită o înțelegere în profunzime a documentelor lungi, cum ar fi contracte legale, articole de cercetare sau manuale tehnice dense. Prin procesarea eficientă a contextelor extinse, Qwen2 poate oferi răspunsuri mai precise și mai cuprinzătoare, deblocând noi frontiere în procesarea limbajului natural.

În timp ce ambele Qwen2 și Llama 3 expun performanțe de ultimă generație, gama diversă de modele Qwen2, de la 0,5B la 72B de parametri, oferă o flexibilitate și o scalabilitate mai mare. Această versatilitate permite utilizatorilor să aleagă dimensiunea modelului care se potrivește cel mai bine resurselor lor computaționale și cerințelor de performanță. În plus, eforturile continue ale Alibaba de a scala Qwen2 la modele mai mari ar putea îmbunătăți și mai mult capacitățile sale, depășind potențial Llama 3 în viitor.

Implementarea și integrarea: Facilitarea adoptării Qwen2

Pentru a facilita adoptarea și integrarea pe scară largă a Qwen2, Alibaba a întreprins măsuri proactive pentru a asigura o implementare fără probleme pe diverse platforme și cadre. Echipa Qwen a colaborat strâns cu numeroase proiecte și organizații terțe, permițând Qwen2 să fie utilizat în conjuncție cu o gamă largă de instrumente și cadre.

Reglare fină și cuantificare: Proiecte terțe, cum ar fi Axolotl, Llama-Factory, Firefly, Swift și XTuner, au fost optimizate pentru a suporta reglarea fină a modelelor Qwen2, permițând utilizatorilor să adapteze modelele la sarcinile și seturile de date specifice. În plus, instrumente de cuantificare, cum ar fi AutoGPTQ, AutoAWQ și Neural Compressor, au fost adaptate pentru a lucra cu Qwen2, facilitând implementarea eficientă pe dispozitive cu resurse limitate.

Implementare și inferență: Modelele Qwen2 pot fi implementate și servite utilizând diverse cadre, incluzând vLLM, SGL, SkyPilot, TensorRT-LLM, OpenVino și TGI. Aceste cadre oferă conducte de inferență optimizate, permițând o implementare eficientă și scalabilă a Qwen2 în medii de producție.

Platforme API și execuție locală: Pentru dezvoltatori care doresc să integreze Qwen2 în aplicațiile lor, platformele API, cum ar fi Together, Fireworks și OpenRouter, oferă acces convenabil la capacitățile modelelor. Alternativ, execuția locală este suportată prin cadre precum MLX, Llama.cpp, Ollama și LM Studio, permițând utilizatorilor să ruleze Qwen2 pe mașinile locale, menținând controlul asupra confidențialității și securității datelor.

Cadre de agenți și RAG: Suportul Qwen2 pentru utilizarea instrumentelor și capacitățile de agent este consolidat de cadre precum LlamaIndex, CrewAI și OpenDevin. Aceste cadre permit crearea de agenți AI specializați și integrarea Qwen2 în conducte de generare augmentată cu recuperare (RAG), extinzând gama de aplicații și cazuri de utilizare.

Privind spre viitor: Dezvoltări viitoare și oportunități

Viziunea Alibaba pentru Qwen2 se extinde mult dincolo de lansarea curentă. Echipa este activ implicată în antrenarea unor modele mai mari pentru a explora frontierele scalării modelului, completate de eforturi continue de scalare a datelor. Mai mult, sunt în curs planuri de a extinde Qwen2 în domeniul inteligenței artificiale multimodale, permițând integrarea capacităților de înțelegere a viziunii și a sunetului.

Pe măsură ce ecosistemul open-source de inteligență artificială continuă să prospere, Qwen2 va juca un rol crucial, servind ca o resursă puternică pentru cercetători, dezvoltatori și organizații care își propun să avanseze stadiul actual al procesării limbajului natural și al inteligenței artificiale.

Aayush Mittal

Am petrecut ultimii cinci ani scufundându-mă în lumea fascinantă a Învățării Automate și a Învățării Profunde. Pasiunea și expertiza mea m-au condus să contribui la peste 50 de proiecte diverse de inginerie software, cu un accent deosebit pe AI/ML. Curiozitatea mea continuă m-a atras și spre Procesarea Limbajului Natural, un domeniu pe care sunt dornic să-l explorez mai departe.