Best Of
Die 5 besten Open Source LLMs (Februar 2026)

Open-Source-KI hat Closed-Source-Systeme eingeholt. Diese fünf Große Sprachmodelle (LLMs) bieten Leistung auf Unternehmensniveau ohne wiederkehrende API-Kosten oder Anbieterabhängigkeit. Jedes Produkt deckt unterschiedliche Anwendungsfälle ab, von der geräteinternen Argumentation bis hin zur mehrsprachigen Unterstützung im großen Maßstab.
In diesem Handbuch werden GPT-OSS-120B, DeepSeek-R1, Qwen3-235B, LLaMA 4 und Mixtral-8x22B detailliert beschrieben und die Funktionen, Kosten und Bereitstellungsanforderungen erläutert.
Schneller Vergleich
| Werkzeug | Geeignet für | Startpreis | Hauptmerkmal |
|---|---|---|---|
| GPT-OSS-120B | Bereitstellung mit einer einzelnen GPU | Kostenlos (Apache 2.0) | Läuft auf einer 80 GB GPU mit 120 B Parametern |
| DeepSeek-R1 | Komplexe Denkaufgaben | Kostenlos (MIT) | 671B-Parameter mit transparentem Denken |
| Qwen3-235B | Mehrsprachige Anwendungen | Kostenlos (Apache 2.0) | Unterstützt über 119 Sprachen mit hybridem Denken |
| FLAMME 4 | Multimodale Verarbeitung | Kostenlos (benutzerdefinierte Lizenz) | 10M-Token-Kontextfenster |
| Mixtral-8x22B | Kosteneffiziente Produktion | Kostenlos (Apache 2.0) | 75 % Rechenleistungseinsparungen im Vergleich zu dichten Modellen |
1. GPT-OSS-120B
OpenAI veröffentlichte im August 2025 seine ersten Open-Weight-Modelle seit GPT-2. GPT-OSS-120B verwendet ein Mischung aus Experten Architektur mit insgesamt 117 Milliarden Parametern, aber nur 5.1 Milliarden aktiven Parametern pro Token. Dieses spärliche Design ermöglicht die Ausführung auf einer einzelnen 80-GB-GPU, anstatt Cluster mit mehreren GPUs zu benötigen.
Das Modell erreicht die Leistung des o4-mini bei Kernbenchmarks. Es erreicht eine Genauigkeit von 90 % bei MMLU-Tests und rund 80 % bei GPQA-Reasoning-Aufgaben. Die Codegenerierung liegt bei 62 % Pass@1 und ist damit konkurrenzfähig mit Closed-Source-Alternativen. Das Kontextfenster mit 128,000 Token ermöglicht eine umfassende Dokumentenanalyse ohne Chunking.
OpenAI trainierte diese Modelle mit Techniken von o3 und anderen Spitzensystemen. Der Schwerpunkt lag auf der praktischen Anwendung im Vergleich zum Rohmaßstab. Der Tokenizer o200k_harmony wurde zusammen mit den Modellen als Open Source bereitgestellt, wodurch die Verarbeitung von Eingaben über verschiedene Implementierungen hinweg standardisiert wurde.
Vor-und Nachteile
- Durch die Bereitstellung einer einzelnen 80-GB-GPU entfallen die Kosten für eine Multi-GPU-Infrastruktur
- Natives 128K-Kontextfenster verarbeitet ganze Codebasen oder lange Dokumente
- Die Apache 2.0-Lizenz erlaubt uneingeschränkte kommerzielle Nutzung und Modifikation
- Referenzimplementierungen in PyTorch, Triton und Metal vereinfachen die Integration
- 90 % MMLU-Genauigkeit entspricht proprietären Modellen bei Reasoning-Benchmarks
- Englischorientiertes Training schränkt die Mehrsprachigkeit im Vergleich zu Alternativen ein
- 5.1B aktive Parameter können bei speziellen Aufgaben schlechter abschneiden als dichte Modelle
- Erfordert mindestens 80 GB VRAM, schließt den Einsatz von GPUs für Endverbraucher aus
- Für ressourcenbeschränkte Umgebungen sind noch keine destillierten Varianten verfügbar
- Begrenzte Domänenspezialisierung im Vergleich zu fein abgestimmten Alternativen
Pricing: GPT-OSS-120B läuft unter Apache 2.0-Lizenz und verursacht keine laufenden Kosten. Sie benötigen Hardware, die 80-GB-Modelle (NVIDIA A100- oder H100-GPUs) ausführen kann. Die Cloud-Bereitstellung auf AWS, Azure oder GCP kostet für entsprechende Instanztypen ca. 3–5 US-Dollar pro Stunde. Für die selbst gehostete Bereitstellung ist der einmalige Kauf einer GPU erforderlich (ca. 10,000–15,000 US-Dollar für gebrauchte A100-GPUs).
Keine Abonnementgebühren. Keine API-Beschränkungen. Keine Abhängigkeit von einem Anbieter.
2. DeepSeek-R1
DeepSeek-R1 hat sein Modell speziell für transparentes Denken entwickelt. Die Architektur nutzt insgesamt 671 Milliarden Parameter, von denen 37 Milliarden pro Vorwärtsdurchlauf aktiviert werden. Das Training konzentrierte sich auf bestärkendes Lernen ohne vorherige traditionelle, überwachte Feinabstimmung, sodass sich Denkmuster auf natürliche Weise aus dem RL-Prozess entwickeln.
Das Modell erreicht bei MATH-500-Bewertungen eine Genauigkeit von 97 % und erreicht bei komplexen Denkaufgaben die gleiche Genauigkeit wie OpenAIs o1. Das Besondere an DeepSeek-R1 ist die Möglichkeit, den Denkprozess zu beobachten. Das Modell zeigt schrittweise Logik statt nur endgültiger Antworten. Diese Transparenz ist wichtig für Anwendungen, bei denen die Argumentation überprüft werden muss, wie z. B. bei Finanzanalysen oder technischen Verifizierungen.
DeepSeek hat neben dem Hauptmodell sechs destillierte Versionen veröffentlicht. Diese reichen von 1.5 bis 70 Milliarden Parametern und laufen auf Hardware von High-End-Consumer-GPUs bis hin zu Edge-Geräten. Der Qwen-32B-Destillat übertrifft den o1-mini in Benchmarks und benötigt dabei nur einen Bruchteil der Rechenleistung.
Vor-und Nachteile
- 97 % MATH-500-Genauigkeit führt Open-Source-Modelle zum mathematischen Denken an
- Transparenter Denkprozess ermöglicht Überprüfung und Fehlerbehebung
- Die 671B-Parameterskala bietet umfassende Analysefunktionen
- Sechs destillierte Varianten ermöglichen den Einsatz über verschiedene Hardwarekonfigurationen hinweg
- MIT-Lizenz erlaubt uneingeschränkte kommerzielle Nutzung
- 671B-Parameter erfordern eine umfangreiche Infrastruktur für die vollständige Modellbereitstellung
- Der Reasoning-Modus erhöht die Latenz im Vergleich zur direkten Antwortgenerierung
- Englisch-optimiertes Training schränkt die Leistung in anderen Sprachen ein
- Der Ansatz des bestärkenden Lernens kann zu ausführlichen Erklärungen führen
- Community-Tools sind im Vergleich zu etablierteren Modellen noch ausgereifter
Pricing: DeepSeek-R1 wird unter MIT-Lizenz ohne Nutzungsgebühren veröffentlicht. Das vollständige 671B-Modell benötigt mindestens 8 A100-GPUs (Cloud-Kosten: ca. 25–30 USD/Stunde). Destillierte Modelle sind deutlich günstiger: Die 32B-Variante benötigt einen einzelnen A100 (ca. 3–5 USD/Stunde Cloud, ca. 10,000 USD Hardware-Kauf). Die 7B-Version läuft auf Consumer-RTX-4090-GPUs.
DeepSeek bietet kostenlosen API-Zugriff mit Ratenbegrenzungen für Tests. Für die Bereitstellung in der Produktion ist eine Self-Hosting- oder Cloud-Infrastruktur erforderlich.
3. Qwen3-235B
Alibabas Qwen3-235B bringt hybrides Denken in Open-Source-Modelle. Benutzer steuern den Denkaufwand (niedrig, mittel, hoch) je nach Aufgabenkomplexität. Benötigen Sie schnelle Antworten vom Kundenservice? Der Low-Thinking-Modus liefert schnelle Antworten. Führen Sie komplexe Datenanalysen durch? Der High-Thinking-Modus wendet methodisches Denken an.
Die Architektur nutzt insgesamt 235 Milliarden Parameter, von denen 22 Milliarden auf 94 Ebenen aktiviert sind. Jede Ebene enthält 128 Experten, von denen 8 pro Token aktiviert sind. Diese Expertenauswahl ermöglicht eine effiziente Verarbeitung bei gleichbleibender Leistungsfähigkeit. Das Modell wurde mit über 1 Milliarde Token in 119 Sprachen trainiert und repräsentiert damit zehnmal mehr mehrsprachige Daten als frühere Qwen-Versionen.
Die Leistung liegt bei 87–88 % MMLU-Genauigkeit mit starken mehrsprachigen Benchmarks. Das Modell schneidet bei C-Eval und regionsspezifischen Bewertungen in Asien, Europa und anderen Märkten hervorragend ab. Die Codegenerierung erreicht 37 % Zero-Shot, verbessert sich aber deutlich, wenn der Denkmodus für komplexe Programmieraufgaben aktiviert wird.
Vor-und Nachteile
- Unterstützung für über 119 Sprachen ermöglicht weltweiten Einsatz ohne Sprachbarrieren
- Hybride Denksteuerung optimiert Kosten-Leistungs-Kompromisse pro Anfrage
- 128K-Token-Kontext ermöglicht umfangreiche Dokumentanalysen
- Apache 2.0-Lizenz erlaubt kommerzielle Modifikation
- 87 % MMLU-Leistung konkurriert mit führenden proprietären Systemen
- 235B-Parameter erfordern eine Multi-GPU-Einrichtung für die Produktionsbereitstellung
- 37 % der Codegenerierungs-Baseline hinkt spezialisierten Codierungsmodellen hinterher
- Die Auswahl des Denkmodus erhöht die Komplexität der Anwendungslogik
- Die Voreingenommenheit gegenüber der chinesischen Sprache zeigt, dass Chinesisch im Vergleich zu anderen Sprachen stärker abschneidet
- Begrenzte Community-Tools im Vergleich zum LLaMA-Ökosystem
Pricing: Qwen3-235B nutzt die Apache 2.0-Lizenzierung ohne Gebühren. Das Vollmodell benötigt je nach Quantisierung 4–8 A100-GPUs (Cloud: ca. 15–30 USD/Stunde). Alibaba Cloud bietet verwaltete Endpunkte mit Pay-per-Token-Preisen ab 0.002 USD/1 Token im Denkmodus und 0.0003 USD/1 Token im Standardmodus.
Kleinere Qwen3-Varianten (7B, 14B, 72B) laufen auf Consumer-Hardware. Das 7B-Modell funktioniert auf 24-GB-Consumer-GPUs.
4. FLAMME 4
Metas LLaMA 4 bietet native multimodale Funktionen für Text, Bilder und kurze Videos. Die Scout-Variante bietet insgesamt 109 Milliarden Parameter, davon 17 Milliarden aktive, während Maverick einen größeren Expertenpool für spezielle Aufgaben nutzt. Beide verarbeiten mehrere Inhaltstypen durch frühe Fusionstechniken, die Modalitäten in einheitliche Darstellungen integrieren.
Die Kontextverarbeitung hat ein neues Niveau erreicht. LLaMA 4 Scout unterstützt bis zu 10 Millionen Token für umfangreiche Dokumentenanalyseanwendungen. Der Standardkontext liegt bei 128 Token, was für die meisten Anwendungsfälle bereits ausreichend ist. Die Modelle wurden mit über 30 Billionen Token vortrainiert, das Doppelte der Trainingsmischung von LLaMA 3.
Leistungsbenchmarks zeigen, dass LLaMA 4 GPT-4o und Gemini 2.0 Flash in den Bereichen Codierung, Schlussfolgerung und mehrsprachige Tests übertrifft. Meta entwickelte MetaP, eine Technik zum zuverlässigen Setzen von Hyperparametern über verschiedene Modellskalen hinweg. Dies ermöglicht eine konsistente Leistung beim Übertragen gelernter Parameter auf verschiedene Konfigurationen.
Vor-und Nachteile
- 10M-Token-Kontextfenster ermöglicht die Verarbeitung ganzer Codebasen oder Datensätze
- Native multimodale Verarbeitung verarbeitet Text-, Bild- und Videoeingaben
- 30T-Token-Training bietet umfassende Wissensabdeckung
- Mehrere Größenvarianten von der Edge-Bereitstellung bis zur Rechenzentrumsgröße
- Übertrifft GPT-4o bei Codierungs- und Argumentationsbenchmarks
- Bei groß angelegten Bereitstellungen ist eine Überprüfung der benutzerdefinierten kommerziellen Lizenz erforderlich
- Multimodale Fusion erhöht die Komplexität von Bereitstellungspipelines
- 10M-Kontext erfordert selbst mit Optimierungen viel Speicher
- Modellgrößenabweichungen führen zu Verwirrung darüber, welche Variante verwendet werden soll
- Für die neuesten Funktionen wird noch eine Dokumentation erstellt
Pricing: LLaMA 4 verwendet Metas benutzerdefinierte kommerzielle Lizenz (kostenlos für die meisten Anwendungen, Einschränkungen für Dienste mit über 700 Millionen Benutzern). Die Scout-Variante benötigt 2–4 H100-GPUs (Cloud: ca. 10–20 USD/Stunde). Maverick benötigt 4–8 H100-GPUs (ca. 20–40 USD/Stunde). Meta bietet kostenlosen API-Zugriff über seine Plattform mit Ratenlimits.
Kleinere LLaMA-Varianten laufen auf Consumer-Hardware. Das 8B-Modell läuft auf 16-GB-GPUs. Enterprise-Bereitstellungen können eine direkte Lizenzierung mit Meta aushandeln.
5. Mixtral-8x22B
Mixtral-8x22B von Mistral AI erzielt 75 % Rechenzeiteinsparungen im Vergleich zu vergleichbaren dichten Modellen. Das Experten-Mixtur-Design umfasst acht Experten mit je 22 Milliarden Parametern und insgesamt 141 Milliarden Parametern, von denen jedoch nur 39 Milliarden während der Inferenz aktiviert werden. Diese spärliche Aktivierung liefert eine überlegene Leistung und läuft gleichzeitig schneller als dichte 70-Billion-Modelle.
Das Modell unterstützt native Funktionsaufrufe für die anspruchsvolle Anwendungsentwicklung. Sie können natürliche Sprachschnittstellen direkt mit APIs und Softwaresystemen verbinden, ohne dass benutzerdefinierte Integrationsebenen erforderlich sind. Das Kontextfenster mit 64,000 Token ermöglicht erweiterte Konversationen und umfassende Dokumentanalysen.
Die mehrsprachige Leistung ist in Englisch, Französisch, Italienisch, Deutsch und Spanisch herausragend. Mistral wurde speziell auf europäische Sprachen trainiert, was zu einer besseren Leistung als Modelle mit breiterer, aber geringerer Sprachabdeckung führt. Das mathematische Denken erreicht 90.8 % bei GSM8K und die Codierung erzielt starke Ergebnisse bei den Benchmarks HumanEval und MBPP.
Vor-und Nachteile
- 75 % Rechenleistungsreduzierung im Vergleich zu dichten Modellen senkt die Infrastrukturkosten
- Native Funktionsaufrufe vereinfachen die API-Integration
- Starke europäische Sprachunterstützung für mehrsprachige Anwendungen
- 90.8 % GSM8K-Genauigkeit liefert solide mathematische Argumentation
- Apache 2.0-Lizenz erlaubt uneingeschränkte kommerzielle Nutzung
- 64K Kontext kürzer als bei Wettbewerbern mit 128K+ Fenstern
- Der Fokus auf europäische Sprachen führt zu einer schwächeren Leistung bei asiatischen Sprachen
- 39B aktive Parameter können die Fähigkeit bei komplexen Denkaufgaben einschränken
- Experten-Routinglogik erhöht die Komplexität der Bereitstellung
- Kleinere Community im Vergleich zum LLaMA-Ökosystem
Pricing: Mixtral-8x22B läuft unter Apache 2.0-Lizenz ohne Gebühren. Benötigt 2–4 A100-GPUs für die Produktion (Cloud: ca. 10–15 $/Stunde). Mistral bietet verwalteten API-Zugriff für 2 $ pro Million Token für die Eingabe und 6 $ pro Million für die Ausgabe. Durch Self-Hosting entfallen nach der anfänglichen Hardware-Investition die Kosten pro Token.
Quantisierte Versionen laufen auf einem einzelnen A100 mit akzeptablen Leistungseinbußen. Die Effizienz des Modells macht es kostengünstig für Produktionsarbeitslasten mit hohem Volumen.
Welches Modell sollten Sie wählen?
Ihre Hardware gibt die unmittelbaren Optionen vor. GPT-OSS-120B ist für einzelne 80-GB-GPUs geeignet und somit auch für den Einsatz mit einer A100-Infrastruktur geeignet. Die reduzierten Varianten von DeepSeek-R1 bewältigen Ressourcenbeschränkungen – das 7B-Modell läuft auf Consumer-Hardware und bietet dennoch eine starke Argumentation.
Die Anforderungen an die Mehrsprachigkeit deuten auf Qwen3-235B für eine breite Sprachabdeckung oder Mixtral-8x22B speziell für europäische Sprachen hin. LLaMA 4 ist sinnvoll, wenn Sie multimodale Funktionen oder erweiterte Kontextfenster über 128 Tokens hinaus benötigen.
Kostenbewusste Implementierungen bevorzugen Mixtral-8x22B für Produktions-Workloads. Die 75% Rechenleistungseinsparung summieren sich schnell im großen Maßstab. Forschung und Entwicklung profitieren von der transparenten Argumentation von DeepSeek-R1, insbesondere bei der Überprüfung der Entscheidungslogik.
Alle fünf Modelle arbeiten mit flexiblen Lizenzen. Keine wiederkehrenden API-Kosten. Keine Abhängigkeiten von Anbietern. Sie kontrollieren Bereitstellung, Datenschutz und Modelländerungen. Die Open-Source-KI-Landschaft hat die Parität mit geschlossenen Systemen erreicht. Diese Tools bieten Unternehmensfunktionen ohne Unternehmensbeschränkungen.
Häufig gestellte Fragen (FAQs)
Welche Hardware benötige ich, um diese Open-Source-LLMs auszuführen?
Die Mindestanforderungen variieren je nach Modell. GPT-OSS-120B benötigt eine einzelne 80-GB-GPU (A100 oder H100). Die Vollversion von DeepSeek-R1 erfordert 8x A100, destillierte Varianten laufen jedoch auf Consumer-RTX 4090. Qwen3-235B und LLaMA 4 benötigen je nach Quantisierung 2–8 GPUs. Mixtral-8x22B läuft effizient auf 2–4 A100. Die Cloud-Bereitstellung kostet je nach Modellgröße 3–40 USD/Stunde.
Können diese Modelle mit der Leistung von GPT-4 oder Claude mithalten?
Ja, bei bestimmten Benchmarks. DeepSeek-R1 erreicht bei Reasoning-Aufgaben eine MATH-500-Genauigkeit von 97 % und erreicht damit die gleiche Genauigkeit wie OpenAI o1. LLaMA 4 übertrifft GPT-4o bei Programmier-Benchmarks. GPT-OSS-120B erreicht eine MMLU-Genauigkeit von 90 %, vergleichbar mit proprietären Systemen. Closed-Source-Modelle können jedoch in speziellen Bereichen wie kreativem Schreiben oder differenzierter Konversation hervorragende Ergebnisse erzielen.
Welches Modell kommt am besten mit mehreren Sprachen zurecht?
Qwen3-235B unterstützt über 119 Sprachen mit zehnmal mehr mehrsprachigen Trainingsdaten als die Konkurrenz. Es überzeugt bei asiatischen Sprachbenchmarks und kulturellen Wissenstests. Mixtral-8x22B ist führend bei europäischen Sprachen (Französisch, Deutsch, Spanisch, Italienisch) mit speziellem Training. Andere Modelle bieten unterschiedliche mehrsprachige Unterstützung, sind aber primär auf Englisch optimiert.
Fallen über die Hardware hinausgehende Nutzungskosten an?
Keine laufenden Gebühren für selbst gehostete Bereitstellungen unter Apache 2.0- oder MIT-Lizenzen. LLaMA 4 verwendet eine benutzerdefinierte kommerzielle Lizenz, die für die meisten Anwendungen kostenlos ist (Einschränkungen gelten für Dienste mit über 700 Millionen Benutzern). Die Kosten für Cloud-Hosting variieren je nach Anbieter und Instanztyp. Der verwaltete API-Zugriff von Anbietern wie Mistral beginnt bei 2 US-Dollar pro Million Eingabetoken.
Was ist der Unterschied zwischen einer Expertenmischung und dichten Modellen?
Architekturen mit Expertenmischung aktivieren nur eine Teilmenge der Parameter pro Eingabe und erreichen so Effizienz ohne Leistungseinbußen. GPT-OSS-120B verwendet 5.1 B von 117 B Parametern pro Token. Dichte Modelle aktivieren alle Parameter für jede Eingabe. MoE-Modelle ermöglichen Rechenzeiteinsparungen von 70–75 % und erreichen oder übertreffen die Leistung dichter Modelle bei ähnlichen Maßstäben.













