Künstliche Intelligenz

Qwen2 – Alibabas neuestes multilinguales Sprachmodell fordert SOTA wie Llama 3 heraus

Published June 11, 2024

Updated April 27, 2026

Aayush Mittal Mittal

Nach monatelanger Vorfreude hat Alibabas Qwen-Team endlich Qwen2 vorgestellt – die nächste Evolution ihrer leistungsstarken Sprachmodell-Serie. Qwen2 stellt einen bedeutenden Schritt nach vorne dar und bietet bahnbrechende Fortschritte, die es potenziell als beste Alternative zum Llama-3-Modell von Meta positionieren könnten. In diesem technischen Deep Dive werden wir die wichtigsten Funktionen, Leistungsbenchmarks und innovativen Techniken erkunden, die Qwen2 zu einem starken Konkurrenten im Bereich der großen Sprachmodelle (LLMs) machen.

Skalierung: Vorstellung der Qwen2-Modellreihe

Im Kern von Qwen2 liegt eine vielfältige Modellreihe, die auf die unterschiedlichen Rechenanforderungen zugeschnitten ist. Die Serie umfasst fünf verschiedene Modellgrößen: Qwen2-0,5B, Qwen2-1,5B, Qwen2-7B, Qwen2-57B-A14B und das Flaggschiff Qwen2-72B. Diese Reihe von Optionen kommt einer breiten Palette von Benutzern entgegen, von denen mit bescheidenen Hardware-Ressourcen bis hin zu denen mit Zugang zu hochentwickelter Recheninfrastruktur.

Eine der herausragenden Funktionen von Qwen2 ist seine multilinguale Fähigkeit. Während das vorherige Qwen1.5-Modell in Englisch und Chinesisch hervorragend war, wurde Qwen2 auf Daten trainiert, die 27 weitere Sprachen umfassen. Dieses multilinguale Trainingsprogramm umfasst Sprachen aus verschiedenen Regionen wie Westeuropa, Osteuropa, dem Mittleren Osten, Ostasien und Südasien.

Tabelle mit den von Qwen2-Modellen unterstützten Sprachen, nach Regionen kategorisiert

Sprachen, die von Qwen2-Modellen unterstützt werden, nach geografischen Regionen kategorisiert

Durch die Erweiterung seines sprachlichen Repertoires zeigt Qwen2 eine außergewöhnliche Fähigkeit, Inhalte in einer breiten Palette von Sprachen zu verstehen und zu generieren, was es zu einem unschätzbaren Werkzeug für globale Anwendungen und interkulturelle Kommunikation macht.

Tabelle mit den Spezifikationen der Qwen2-Modelle, einschließlich Parameter, Nicht-Embedding-Parameter, GQA, Tie-Embedding und Kontextlänge

Spezifikationen der Qwen2-Modelle, einschließlich Parameter, GQA und Kontextlänge.

Code-Switching-Ansatz: Eine multilinguale Herausforderung

In multilingualen Kontexten ist das Phänomen des Code-Switching – die Praxis, zwischen verschiedenen Sprachen innerhalb einer einzelnen Konversation oder Äußerung zu wechseln – ein häufiges Vorkommnis. Qwen2 wurde sorgfältig trainiert, um Code-Switching-Szenarien zu bewältigen, wodurch die damit verbundenen Probleme erheblich reduziert und ein nahtloser Übergang zwischen Sprachen gewährleistet wird.

Bewertungen mit Prompten, die normalerweise Code-Switching induzieren, haben Qwen2s erhebliche Verbesserung in diesem Bereich bestätigt, was Alibabas Engagement für die Lieferung eines wirklich multilingualen Sprachmodells unterstreicht.

Hervorragend in Codierung und Mathematik

Qwen2 hat bemerkenswerte Fähigkeiten in den Bereichen Codierung und Mathematik, die traditionell Herausforderungen für Sprachmodelle darstellen. Durch die Nutzung umfangreicher hochwertiger Datensätze und optimierter Trainingsmethoden zeigt Qwen2-72B-Instruct, die anweisungsorientierte Variante des Flaggschiff-Modells, hervorragende Leistungen bei der Lösung mathematischer Probleme und Codierungsaufgaben in verschiedenen Programmiersprachen.

Erweiterung der Kontextverständlichkeit

Eine der beeindruckendsten Funktionen von Qwen2 ist seine Fähigkeit, erweiterte Kontextsequenzen zu verstehen und zu verarbeiten. Während die meisten Sprachmodelle mit langen Texten zu kämpfen haben, wurden die Qwen2-7B-Instruct- und Qwen2-72B-Instruct-Modelle so konzipiert, dass sie Kontextlängen von bis zu 128K Token verarbeiten können.

Diese bemerkenswerte Fähigkeit ist ein Game-Changer für Anwendungen, die ein tiefes Verständnis langer Dokumente erfordern, wie z.B. juristische Verträge, Forschungsarbeiten oder dichte technische Handbücher. Durch die effektive Verarbeitung erweiterter Kontexte kann Qwen2 genauere und umfassendere Antworten liefern und damit neue Grenzen in der natürlichen Sprachverarbeitung erobern.

Diagramm, der die Faktenabrufgenauigkeit der Qwen2-Modelle über verschiedene Kontextlängen und Dokumententiefen hinweg zeigt

Genauigkeit der Qwen2-Modelle bei der Abrufung von Fakten aus Dokumenten über verschiedene Kontextlängen und Dokumententiefen hinweg.

Dieses Diagramm zeigt die Fähigkeit der Qwen2-Modelle, Fakten aus Dokumenten mit verschiedenen Kontextlängen und -tiefen abzurufen.

Architektonische Innovationen: Gruppenabfrageaufmerksamkeit und optimierte Einbettungen

Unter der Haube integriert Qwen2 mehrere architektonische Innovationen, die zu seiner außergewöhnlichen Leistung beitragen. Eine dieser Innovationen ist die Einführung der Gruppenabfrageaufmerksamkeit (GQA) in allen Modellgrößen. GQA bietet schnellere Inferenzgeschwindigkeiten und reduziert den Speicherbedarf, was Qwen2 effizienter und für eine breitere Palette von Hardware-Konfigurationen zugänglicher macht.

Darüber hinaus hat Alibaba die Einbettungen für kleinere Modelle in der Qwen2-Serie optimiert. Durch die Verbindung der Einbettungen konnte das Team den Speicherbedarf dieser Modelle reduzieren, was ihre Bereitstellung auf weniger leistungsfähiger Hardware ermöglicht, während die Leistung hoch bleibt.

Bewertung von Qwen2: Übertreffen von State-of-the-Art-Modellen

Qwen2 zeigt eine bemerkenswerte Leistung in einer Vielzahl von Benchmarks. Vergleichende Bewertungen zeigen, dass Qwen2-72B, das größte Modell in der Serie, führende Konkurrenten wie Llama-3-70B in kritischen Bereichen wie natürlicher Sprachverständnis, Wissenserwerb, Codierfähigkeit, mathematischen Fähigkeiten und multilingualen Fähigkeiten übertrifft.

Diagramme, die Qwen2-72B-Instruct und Llama3-70B-Instruct im Codieren über mehrere Programmiersprachen und in Mathematik über verschiedene Prüfungen hinweg vergleichen

Qwen2-72B-Instruct vs. Llama3-70B-Instruct in Codier- und Mathematikleistung

Trotz weniger Parameter als sein Vorgänger Qwen1.5-110B zeigt Qwen2-72B eine überlegene Leistung, was die Effektivität von Alibabas sorgfältig kuratierten Datensätzen und optimierten Trainingsmethoden unterstreicht.

Sicherheit und Verantwortung: Ausrichtung an menschlichen Werten

Qwen2-72B-Instruct wurde sorgfältig auf seine Fähigkeit hin bewertet, potenziell schädliche Anfragen im Zusammenhang mit illegalen Aktivitäten, Betrug, Pornografie und Verletzungen der Privatsphäre zu bewältigen. Die Ergebnisse sind ermutigend: Qwen2-72B-Instruct zeigt eine Leistung, die mit dem hoch angesehenen GPT-4-Modell vergleichbar ist, und weist einen deutlich geringeren Anteil schädlicher Antworten auf als andere große Modelle wie Mistral-8x22B.

Dieses Ergebnis unterstreicht Alibabas Engagement für die Entwicklung von KI-Systemen, die mit menschlichen Werten übereinstimmen, und stellt sicher, dass Qwen2 nicht nur leistungsstark, sondern auch vertrauenswürdig und verantwortungsvoll ist.

Lizenzierung und Open-Source-Engagement

In einem Schritt, der den Einfluss von Qwen2 weiter verstärkt, hat Alibaba einen Open-Source-Ansatz für die Lizenzierung gewählt. Während Qwen2-72B und seine anweisungsorientierten Modelle die ursprüngliche Qianwen-Lizenz beibehalten, wurden die verbleibenden Modelle – Qwen2-0,5B, Qwen2-1,5B, Qwen2-7B und Qwen2-57B-A14B – unter der permissiven Apache-2.0-Lizenz lizenziert.

Diese erhöhte Offenheit soll die Anwendung und den kommerziellen Einsatz von Qwen2-Modellen weltweit beschleunigen und die Zusammenarbeit und Innovation innerhalb der globalen KI-Gemeinschaft fördern.

Verwendung und Implementierung

Die Verwendung von Qwen2-Modellen ist dank ihrer Integration mit beliebten Frameworks wie Hugging Face unkompliziert. Hier ist ein Beispiel für die Verwendung von Qwen2-7B-Chat-beta für die Inferenz:

from transformers import AutoModelForCausalLM, AutoTokenizer

device = "cuda" # das Gerät, auf dem das Modell geladen werden soll

model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen1.5-7B-Chat", device_map="auto")
tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen1.5-7B-Chat")

prompt = "Geben Sie mir eine kurze Einführung in große Sprachmodelle."

messages = [{"role": "user", "content": prompt}]

text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)

model_inputs = tokenizer([text], return_tensors="pt").to(device)

generated_ids = model.generate(model_inputs.input_ids, max_new_tokens=512, do_sample=True)

generated_ids = [output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)]

response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(response)

Dieses Code-Snippet zeigt, wie Sie Qwen2-7B-Chat-Modell einrichten und Text generieren können. Die Integration mit Hugging Face macht es zugänglich und einfach, experimentieren zu können.

Qwen2 vs. Llama 3: Eine vergleichende Analyse

Während Qwen2 und Meta’s Llama 3 beide beeindruckende Sprachmodelle sind, zeigen sie unterschiedliche Stärken und Kompromisse.

Leistungsvergleichsdiagramm von Qwen2-72B, Llama3-70B, Mixtral-8x22B und Qwen1.5-110B über mehrere Benchmarks hinweg

Ein vergleichendes Leistungsdiagramm von Qwen2-72B, Llama3-70B, Mixtral-8x22B und Qwen1.5-110B über verschiedene Benchmarks hinweg.

Hier ist eine vergleichende Analyse, um die wichtigsten Unterschiede zu verstehen:

Multilinguale Fähigkeiten: Qwen2 hat einen klaren Vorteil in Bezug auf multilinguale Unterstützung. Seine Ausbildung auf Daten, die 27 weitere Sprachen umfassen, ermöglicht es Qwen2, in crosskultureller Kommunikation und multilingualen Szenarien hervorragend zu sein. Im Gegensatz dazu sind die multilingualen Fähigkeiten von Llama 3 weniger ausgeprägt, was seine Effektivität in unterschiedlichen sprachlichen Kontexten potenziell einschränken könnte.

Codier- und Mathematikfähigkeiten: Sowohl Qwen2 als auch Llama 3 zeigen beeindruckende Codier- und mathematische Fähigkeiten. Allerdings scheint Qwen2-72B-Instruct eine leichte Überlegenheit zu haben, dank seiner rigorosen Ausbildung auf umfangreichen, hochwertigen Datensätzen in diesen Bereichen. Alibabas Fokus auf die Verbesserung von Qwen2s Fähigkeiten in diesen Bereichen könnte ihm einen Vorteil für spezielle Anwendungen im Bereich Codierung oder mathematischer Problemlösung verschaffen.

Verständnis langer Kontexte: Qwen2-7B-Instruct und Qwen2-72B-Instruct-Modelle können Kontextlängen von bis zu 128K Token verarbeiten. Diese Funktion ist besonders wertvoll für Anwendungen, die ein tiefes Verständnis langer Dokumente erfordern. Llama 3, obwohl in der Lage, lange Sequenzen zu verarbeiten, kann Qwen2s Leistung in diesem spezifischen Bereich möglicherweise nicht erreichen.

Während beide Qwen2 und Llama 3 eine Leistung auf dem aktuellen Stand der Technik zeigen, bietet Qwen2s vielfältige Modellreihe, die von 0,5B bis 72B Parametern reicht, eine größere Flexibilität und Skalierbarkeit. Diese Vielfalt ermöglicht es Benutzern, das Modell auszuwählen, das am besten zu ihren Rechenressourcen und Leistungsanforderungen passt. Darüber hinaus könnten Alibabas laufende Bemühungen, Qwen2 auf größere Modelle zu skalieren, seine Fähigkeiten weiter verbessern und es möglicherweise in der Zukunft Llama 3 überholen.

Bereitstellung und Integration: Vereinfachung der Qwen2-Adoption

Um die weitverbreitete Adoption und Integration von Qwen2 zu erleichtern, hat Alibaba proaktive Schritte unternommen, um eine nahtlose Bereitstellung auf verschiedenen Plattformen und Frameworks sicherzustellen. Das Qwen-Team hat eng mit zahlreichen Drittanbieterprojekten und Organisationen zusammengearbeitet, um Qwen2 in Kombination mit einer breiten Palette von Tools und Frameworks einsetzen zu können.

Feinabstimmung und Quantisierung: Drittanbieterprojekte wie Axolotl, Llama-Factory, Firefly, Swift und XTuner wurden optimiert, um die Feinabstimmung von Qwen2-Modellen zu unterstützen, was es Benutzern ermöglicht, die Modelle an ihre spezifischen Aufgaben und Datensätze anzupassen. Darüber hinaus wurden Quantisierungstools wie AutoGPTQ, AutoAWQ und Neural Compressor für die Zusammenarbeit mit Qwen2 angepasst, was eine effiziente Bereitstellung auf ressourcenbeschränkten Geräten ermöglicht.

Bereitstellung und Inferenz: Qwen2-Modelle können mithilfe einer Vielzahl von Frameworks bereitgestellt und ausgeführt werden, darunter vLLM, SGL, SkyPilot, TensorRT-LLM, OpenVino und TGI. Diese Frameworks bieten optimierte Inferenz-Pipelines, die eine effiziente und skalierbare Bereitstellung von Qwen2 in Produktionsumgebungen ermöglichen.

API-Plattformen und lokale Ausführung: Für Entwickler, die Qwen2 in ihre Anwendungen integrieren möchten, bieten API-Plattformen wie Together, Fireworks und OpenRouter einen einfachen Zugang zu den Fähigkeiten der Modelle. Alternativ wird die lokale Ausführung durch Frameworks wie MLX, Llama.cpp, Ollama und LM Studio unterstützt, was es Benutzern ermöglicht, Qwen2 auf ihren lokalen Maschinen auszuführen, während sie die Kontrolle über die Datenprivatsphäre und -sicherheit behalten.

Agenten- und RAG- Frameworks: Qwen2s Unterstützung für Werkzeugnutzung und Agentenfähigkeiten wird durch Frameworks wie LlamaIndex, CrewAI und OpenDevin gestärkt. Diese Frameworks ermöglichen die Erstellung spezialisierter KI-Agenten und die Integration von Qwen2 in retrieval-augmented generation (RAG)-Pipelines, wodurch der Anwendungsbereich und die Verwendungszwecke erweitert werden.

Blick in die Zukunft: Zukünftige Entwicklungen und Chancen

Alibabas Vision für Qwen2 reicht weit über die aktuelle Veröffentlichung hinaus. Das Team trainiert derzeit größere Modelle, um die Grenzen der Modellskalierung zu erkunden, ergänzt durch laufende Datenskalierungsanstrengungen. Darüber hinaus sind Pläne im Gange, Qwen2 in den Bereich der multimodalen KI zu erweitern, um die Integration von Bild- und Audioverständnisfähigkeiten zu ermöglichen.

Während die Open-Source-KI-Community weiterhin blüht, wird Qwen2 eine wichtige Rolle spielen und als leistungsstarkes Instrument für Forscher, Entwickler und Organisationen dienen, die den Stand der Technik im Bereich der natürlichen Sprachverarbeitung und künstlichen Intelligenz vorantreiben möchten.

Aayush Mittal

Ich habe die letzten fünf Jahre damit verbracht, mich in die faszinierende Welt des Machine Learning und Deep Learning zu vertiefen. Meine Leidenschaft und mein Fachwissen haben mich dazu geführt, an über 50 verschiedenen Software-Entwicklungsprojekten mitzuwirken, mit einem besonderen Fokus auf KI/ML. Meine anhaltende Neugier hat mich auch zum Natural Language Processing hingezogen, ein Feld, das ich weiter erforschen möchte.