Conectează-te cu noi

Inteligența artificială

Qwen2 – Cel mai recent model de limbă multilingvă al Alibaba provoacă SOTA precum Llama 3

mm
evoluția de la Qwen1.5 la Qwen2

După luni de anticipare, Echipa Qwen de la Alibaba a dezvăluit în sfârșit Qwen2 – următoarea evoluție a puternicei lor serii de modele lingvistice. Qwen2 reprezintă un salt semnificativ înainte, lăudându-se cu progrese de ultimă generație care l-ar putea poziționa ca cea mai bună alternativă la celebrul model Meta. Lama 3 model. În această analiză tehnică aprofundată, vom explora caracteristicile cheie, testele de performanță și tehnicile inovatoare care fac din Qwen2 un concurent formidabil în domeniul modelelor lingvistice mari (LLM).

Creștere: Vă prezentăm gama de modele Qwen2

În centrul Qwen2 constă o gamă diversă de modele adaptate pentru a satisface diferite cerințe de calcul. Seria cuprinde cinci dimensiuni de model distincte: Qwen2-0.5B, Qwen2-1.5B, Qwen2-7B, Qwen2-57B-A14B și modelul emblematic Qwen2-72B. Această gamă de opțiuni se adresează unui spectru larg de utilizatori, de la cei cu resurse hardware modeste până la cei cu acces la o infrastructură de calcul de ultimă oră.

Una dintre caracteristicile remarcabile ale Qwen2 este capacitatea sa multilingvă. În timp ce versiunea anterioară Qwen1.5 model excelent în engleză și chineză, Qwen2 a fost instruit pe date care acoperă 27 de limbi suplimentare impresionante. Acest regim de instruire multilingv include limbi din diverse regiuni, cum ar fi Europa de Vest, Europa de Est și Centrală, Orientul Mijlociu, Asia de Est și Asia de Sud.

Tabel care listează limbile acceptate de modelele Qwen2, clasificate pe regiuni

Limbi acceptate de modelele Qwen2, clasificate pe regiuni geografice

Prin extinderea repertoriului său lingvistic, Qwen2 demonstrează o capacitate excepțională de a înțelege și genera conținut într-o gamă largă de limbi, făcându-l un instrument de neprețuit pentru aplicații globale și comunicare interculturală.

 

Tabel care compară modelele Qwen2 în funcție de parametri, parametrii care nu se înglobează, GQA, încorporarea de legătură și lungimea contextului

Specificațiile modelelor Qwen2, inclusiv parametrii, GQA și lungimea contextului.

Abordarea comutării codurilor: o provocare multilingvă

În contexte multilingve, fenomenul de comutare de cod – practica de a alterna între diferite limbi în cadrul unei singure conversații sau enunțuri – este o întâmplare comună. Qwen2 a fost pregătit meticulos pentru a gestiona scenariile de comutare de cod, reducând semnificativ problemele asociate și asigurând tranziții fără probleme între limbi.

Evaluările care au folosit prompturi ce induc de obicei schimbarea codului au confirmat îmbunătățirea substanțială a Qwen2 în acest domeniu, o dovadă a angajamentului Alibaba de a oferi un model lingvistic cu adevărat multilingv.

Excelent în codificare și matematică

Qwen2 are capacități remarcabile în domeniile codării și matematicii, domenii care au reprezentat în mod tradițional provocări pentru modelele de limbaj. Folosind seturi extinse de date de înaltă calitate și metodologii de instruire optimizate, Qwen2-72B-Instruct, varianta reglată cu instrucțiuni a modelului emblematic, prezintă performanțe remarcabile în rezolvarea problemelor matematice și a sarcinilor de codare în diferite limbaje de programare.

Extinderea înțelegerii contextului

Una dintre caracteristicile cele mai impresionante ale Qwen2 este capacitatea sa de a înțelege și procesa secvențe de context extins. În timp ce majoritatea modelelor de limbă se luptă cu textul de formă lungă, modelele Qwen2-7B-Instruct și Qwen2-72B-Instruct au fost concepute pentru a gestiona lungimi de context de până la 128K de jetoane.

Această capacitate remarcabilă schimbă jocul pentru aplicațiile care necesită o înțelegere aprofundată a documentelor lungi, cum ar fi contractele legale, lucrările de cercetare sau manualele tehnice dense. Prin procesarea eficientă a contextelor extinse, Qwen2 poate oferi răspunsuri mai precise și mai cuprinzătoare, deblocând noi frontiere în procesarea limbajului natural.

Diagramă care arată acuratețea de regăsire a faptelor a modelelor Qwen2 pe diferite lungimi de context și adâncimi de documente

Precizia modelelor Qwen2 în preluarea faptelor din documente în diferite lungimi de context și adâncimi de documente.

Această diagramă arată capacitatea modelelor Qwen2 de a prelua fapte din documente de diferite lungimi și adâncimi de context.

Inovații arhitecturale: Atenție la interogare de grup și încorporare optimizată

Sub capotă, Qwen2 încorporează mai multe inovații arhitecturale care contribuie la performanța sa excepțională. O astfel de inovație este adoptarea Group Query Attention (GQA) pentru toate dimensiunile de model. GQA oferă viteze de inferență mai rapide și utilizare redusă a memoriei, făcând Qwen2 mai eficient și mai accesibil pentru o gamă mai largă de configurații hardware.

În plus, Alibaba a optimizat înglobările pentru modelele mai mici din seria Qwen2. Prin legarea înglobărilor, echipa a reușit să reducă amprenta de memorie a acestor modele, permițând implementarea lor pe hardware mai puțin puternic, menținând în același timp performanța de înaltă calitate.

Benchmarking Qwen2: depășirea modelelor de ultimă generație

Qwen2 are o performanță remarcabilă într-o gamă variată de benchmark-uri. Evaluările comparative arată că Qwen2-72B, cel mai mare model din serie, depășește concurenții de top, cum ar fi Llama-3-70B, în domenii critice, inclusiv înțelegerea limbajului natural, dobândirea de cunoștințe, competența de codificare, abilitățile matematice și abilitățile multilingve.

Diagrame care compară Qwen2-72B-Instruct și Llama3-70B-Instruct în codificare în mai multe limbaje de programare și în matematică la diferite examene

Qwen2-72B-Instruire versus Llama3-70B-Instruire în codificare și performanță la matematică

Deși are mai puțini parametri decât predecesorul său, Qwen1.5-110B, Qwen2-72B prezintă performanțe superioare, o dovadă a eficacității seturilor de date meticulos selectate de Alibaba și a metodologiilor de antrenament optimizate.

Siguranță și responsabilitate: alinierea la valorile umane

Qwen2-72B-Instruct a fost riguros evaluat pentru capacitatea sa de a gestiona interogări potențial dăunătoare legate de activități ilegale, fraudă, pornografie și încălcări ale confidențialității. Rezultatele sunt încurajatoare: Qwen2-72B-Instruct are performanțe comparabile cu modelul GPT-4 foarte apreciat în ceea ce privește siguranța, prezentând proporții semnificativ mai mici de răspunsuri dăunătoare în comparație cu alte modele mari, cum ar fi Mistral-8x22B.

Această realizare subliniază angajamentul Alibaba de a dezvolta sisteme de inteligență artificială care se aliniază valorilor umane, asigurând că Qwen2 nu este doar puternic, ci și de încredere și responsabil.

Licențiere și angajament de sursă deschisă

Într-o mișcare care amplifică și mai mult impactul Qwen2, Alibaba a adoptat o abordare open-source a licențierii. În timp ce Qwen2-72B și modelele sale reglate cu instrucțiuni păstrează licența Qianwen originală, modelele rămase – Qwen2-0.5B, Qwen2-1.5B, Qwen2-7B și Qwen2-57B-A14B – au fost licențiate sub licența permisivă Apache 2.0 .

Se așteaptă că această deschidere sporită va accelera aplicarea și utilizarea comercială a modelelor Qwen2 la nivel mondial, încurajând colaborarea și inovația în cadrul comunității globale de AI.

Utilizare și implementare

Utilizarea modelelor Qwen2 este simplă, datorită integrării lor cu cadre populare precum Fata îmbrățișată. Iată un exemplu de utilizare a Qwen2-7B-Chat-beta pentru inferență:

from transformers import AutoModelForCausalLM, AutoTokenizer

device = "cuda" # the device to load the model onto

model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen1.5-7B-Chat", device_map="auto")
tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen1.5-7B-Chat")

prompt = "Give me a short introduction to large language models."

messages = [{"role": "user", "content": prompt}]

text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)

model_inputs = tokenizer([text], return_tensors="pt").to(device)

generated_ids = model.generate(model_inputs.input_ids, max_new_tokens=512, do_sample=True)

generated_ids = [output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)]

response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(response)

Acest fragment de cod demonstrează cum să configurați și să generați text folosind modelul Qwen2-7B-Chat. Integrarea cu Fata îmbrățișată îl face accesibil și ușor de experimentat.

Qwen2 vs. Llama 3: O analiză comparativă

În timp ce Qwen2 și Lama lui Meta 3 sunt ambele modele de limbaj formidabile, ele prezintă puncte forte și compromisuri distincte.

Diagramă de comparare a performanței Qwen2-72B, Llama3-70B, Mixtral-8x22B și Qwen1.5-110B în mai multe benchmark-uri

O diagramă de performanță comparativă a Qwen2-72B, Llama3-70B, Mixtral-8x22B și Qwen1.5-110B pentru diferite benchmark-uri, inclusiv MMLU, MMLU-Pro, GPQA și altele.

Iată o analiză comparativă care vă va ajuta să înțelegeți principalele lor diferențe:

Capacități multilingveQwen2 deține un avantaj clar în ceea ce privește suportul multilingv. Antrenamentul său pe date care acoperă 27 de limbi suplimentare, pe lângă engleză și chineză, permite Qwen2 să exceleze în comunicarea interculturală și în scenariile multilingve. În schimb, capacitățile multilingve ale Llama 3 sunt mai puțin pronunțate, ceea ce îi poate limita eficacitatea în contexte lingvistice diverse.

Competență de codificare și matematică: Atât Qwen2 cât și Lama 3 demonstrează abilități impresionante de codare și matematică. Cu toate acestea, Qwen2-72B-Instruct pare să aibă un ușor avantaj, datorită instruirii riguroase pe seturi de date extinse și de înaltă calitate în aceste domenii. Concentrarea Alibaba pe îmbunătățirea capacităților Qwen2 în aceste domenii i-ar putea oferi un avantaj pentru aplicații specializate care implică codare sau rezolvarea problemelor matematice.

Înțelegerea contextului lungModelele Qwen2-7B-Instruct și Qwen2-72B-Instruct se mândresc cu o capacitate impresionantă de a gestiona lungimi de context de până la 128K token-uri. Această caracteristică este deosebit de valoroasă pentru aplicațiile care necesită o înțelegere aprofundată a documentelor lungi sau a materialelor tehnice dense. Llama 3, deși capabil să proceseze secvențe lungi, este posibil să nu se ridice la nivelul performanței Qwen2 în acest domeniu specific.

Deși atât Qwen2, cât și Llama 3 prezintă performanțe de ultimă generație, gama diversă de modele Qwen2, cu parametri de la 0.5 miliarde la 72 de miliarde, oferă o flexibilitate și o scalabilitate mai mare. Această versatilitate permite utilizatorilor să aleagă dimensiunea modelului care se potrivește cel mai bine resurselor lor de calcul și cerințelor de performanță. În plus, eforturile continue ale Alibaba de a scala Qwen2 la modele mai mari ar putea îmbunătăți și mai mult capacitățile sale, depășind potențial Llama 3 în viitor.

Implementare și integrare: eficientizarea adoptării Qwen2

Pentru a facilita adoptarea și integrarea pe scară largă a Qwen2, Alibaba a luat măsuri proactive pentru a asigura o implementare fără probleme pe diverse platforme și cadre. Echipa Qwen a colaborat îndeaproape cu numeroase proiecte și organizații terțe, permițând ca Qwen2 să fie valorificat împreună cu o gamă largă de instrumente și cadre.

Reglaj fin și cuantizare: Proiecte de la terți, cum ar fi Axolotl, Llama-Factory, Firefly, Swift și XTuner, au fost optimizate pentru a permite reglarea fină a modelelor Qwen2, permițând utilizatorilor să adapteze modelele la sarcinile și seturile de date specifice ale acestora. În plus, instrumente de cuantizare precum AutoGPTQ, AutoAWQ, și Neural Compressor au fost adaptate pentru a funcționa cu Qwen2, facilitând implementarea eficientă pe dispozitive cu resurse limitate.

Desfășurare și inferență: Modelele Qwen2 pot fi implementate și servite folosind o varietate de cadre, inclusiv vLLM, SGL, SkyPilot, TensorRT-LLM, OpenVino, și TGI. Aceste cadre oferă conducte de inferență optimizate, permițând implementarea eficientă și scalabilă a Qwen2 în medii de producție.

Platforme API și execuție localăPentru dezvoltatorii care doresc să integreze Qwen2 în aplicațiile lor, platformele API precum Together, Fireworks și OpenRouter oferă acces convenabil la capacitățile modelelor. Alternativ, execuția locală este acceptată prin framework-uri precum MLX, Llama.cpp, Ollama, și LM Studio, permițând utilizatorilor să ruleze Qwen2 pe computerele lor locale, păstrând în același timp controlul asupra confidențialității și securității datelor.

Cadre agent și RAGSuportul Qwen2 pentru utilizarea instrumentelor și capacitățile agenților este consolidat de framework-uri precum CallIndex, CrewAI și DeschideDevin. Aceste cadre permit crearea de agenți AI specializați și integrarea Qwen2 în generare de recuperare augmentată (RAG) conducte, extinzând gama de aplicații și cazuri de utilizare.

Privind în perspectivă: evoluții și oportunități viitoare

Viziunea Alibaba pentru Qwen2 se extinde mult dincolo de versiunea actuală. Echipa antrenează activ modele mai mari pentru a explora frontierele scalării modelelor, completate de eforturi continue de scalare a datelor. În plus, sunt în curs de desfășurare planuri pentru extinderea Qwen2 în domeniul inteligenței artificiale multimodale, permițând integrarea capacităților vizuale și de înțelegere audio.

Pe măsură ce ecosistemul AI open-source continuă să prospere, Qwen2 va juca un rol esențial, servind ca o resursă puternică pentru cercetători, dezvoltatori și organizații care doresc să avanseze stadiul tehnicii în procesarea limbajului natural și inteligența artificială.

Mi-am petrecut ultimii cinci ani scufundându-mă în lumea fascinantă a învățării automate și a învățării profunde. Pasiunea și expertiza mea m-au determinat să contribui la peste 50 de proiecte diverse de inginerie software, cu un accent deosebit pe AI/ML. Curiozitatea mea continuă m-a atras și către Procesarea limbajului natural, un domeniu pe care sunt dornic să îl explorez în continuare.