Künstliche Intelligenz
Tülu 3 von Allen AI ist zum unerwarteten Rivalen von DeepSeek geworden

Die Schlagzeilen reißen nicht ab. DeepSeeks Modelle haben Maßstäbe gesetzt, neue Standards gesetzt und viel Aufsehen erregt. Doch gerade ist in der KI-Forschungsszene etwas Interessantes passiert, das ebenfalls Ihre Aufmerksamkeit verdient.
Allen AI veröffentlichten in aller Stille ihre neuen Tülu 3 Familie von Modellen, und ihre Version mit 405B-Parametern konkurriert nicht nur mit DeepSeek – sie steht ihm in wichtigen Benchmarks in nichts nach oder übertrifft es sogar.
Lassen Sie uns dies ins rechte Licht rücken.
Das Modell 405B Tülu 3 konkurriert mit Spitzenreitern wie DeepSeek V3 bei einer Reihe von Aufgaben. Wir sehen vergleichbare oder bessere Leistungen in Bereichen wie Matheaufgaben, Programmieraufgaben und präzisem Befolgen von Anweisungen. Und sie tun dies auch mit einem völlig offenen Ansatz.
Sie haben die komplette Trainingspipeline, den Code und sogar ihre neuartige Methode des bestärkenden Lernens namens Reinforcement Learning with Verifiable Rewards (RLVR) veröffentlicht, die dies ermöglicht hat.
Entwicklungen wie diese in den letzten Wochen verändern wirklich die Art und Weise, wie hochrangige KI-Entwicklung stattfindet. Wenn ein vollständig Open-Source-Modell kann mit den besten geschlossenen Modellen auf dem Markt mithalten und eröffnet Möglichkeiten, die bisher hinter den Mauern privater Unternehmen verschlossen blieben.
Der technische Kampf
Was zeichnet Tülu 3 aus? Es ist ein einzigartiger vierstufiger Trainingsprozess, der über traditionelle Ansätze hinausgeht.
Schauen wir uns an, wie Allen AI dieses Modell erstellt hat:
Phase 1: Strategische Datenauswahl
Das Team wusste, dass die Modellqualität mit der Datenqualität beginnt. Sie kombinierten etablierte Datensätze wie WildChat sowie Öffnen Sie den Assistenten mit individuell generierten Inhalten. Aber hier ist die entscheidende Erkenntnis: Sie haben nicht nur Daten aggregiert – sie haben zielgerichtete Datensätze für bestimmte Fähigkeiten wie mathematisches Denken und Programmierkenntnisse erstellt.
Phase 2: Bessere Antworten entwickeln
In der zweiten Phase konzentrierte sich Allen AI darauf, den Modellen spezifische Fähigkeiten beizubringen. Sie erstellten verschiedene Trainingsdatensätze – einige für Mathematik, andere für die Programmierung und mehr für allgemeine Aufgaben. Durch wiederholtes Testen dieser Kombinationen konnten sie genau erkennen, wo das Modell hervorstach und wo es noch verbessert werden musste. Dieser iterative Prozess offenbarte das wahre Potenzial dessen, was Tülu 3 in jedem Bereich erreichen konnte.
Phase 3: Aus Vergleichen lernen
Hier wurde Allen AI kreativ. Sie entwickelten ein System, das die Antworten von Tülu 3 sofort mit denen anderer Topmodelle vergleichen konnte. Gleichzeitig lösten sie ein hartnäckiges Problem der KI – die Tendenz von Modellen, lange Antworten nur der Länge wegen zu schreiben. Ihr Ansatz, der Längennormalisierte Direktpräferenzoptimierung (DPO)bedeutete, dass das Modell lernte, Qualität über Quantität zu stellen. Das Ergebnis? Antworten, die sowohl präzise als auch zielgerichtet sind.
Wenn KI-Modelle aus Präferenzen lernen (welche Antwort ist besser, A oder B?), neigen sie dazu, eine frustrierende Tendenz zu entwickeln: Sie beginnen zu denken, dass längere Antworten immer besser sind. Es ist, als würden sie versuchen zu gewinnen, indem sie mehr sagen, anstatt die Dinge gut zu sagen.
Längennormalisiertes DPO behebt dieses Problem, indem es anpasst, wie das Modell aus Präferenzen lernt. Anstatt nur zu betrachten, welche Antwort bevorzugt wurde, berücksichtigt es die Länge jeder Antwort. Stellen Sie es sich so vor, als würden Antworten nach ihrer Qualität pro Wort beurteilt, nicht nur nach ihrer Gesamtwirkung.
Warum ist das wichtig? Weil es Tülu 3 hilft, präzise und effizient zu sein. Anstatt Antworten mit zusätzlichen Wörtern aufzublähen, um umfassender zu wirken, lernt es, Werte in der tatsächlich benötigten Länge zu liefern.
Dies mag wie ein kleines Detail erscheinen, ist aber entscheidend für den Aufbau einer KI, die natürlich kommuniziert. Die besten menschlichen Experten wissen, wann sie sich kurz fassen und wann sie ausführlicher sein müssen – und genau das hilft das längennormalisierte DPO dem Modell beizubringen.
Phase 4: Die RLVR-Innovation
Dies ist der technische Durchbruch, der Aufmerksamkeit verdient. RLVR ersetzt subjektive Belohnungsmodelle durch konkrete Verifizierung.
Die meisten KI-Modelle lernen durch ein komplexes System von Belohnungsmodellen – im Wesentlichen fundierte Vermutungen darüber, was eine gute Reaktion darstellt. Doch Allen AI ist mit RLVR einen anderen Weg gegangen.
Denken Sie darüber nach, wie wir derzeit KI-Modelle trainieren. Normalerweise benötigen wir andere KI-Modelle (sogenannte Belohnungsmodelle), um zu beurteilen, ob eine Antwort gut ist oder nicht. Das ist subjektiv, komplex und oft inkonsistent. Einige Antworten scheinen gut zu sein, enthalten aber subtile Fehler, die durchrutschen.
RLVR stellt diesen Ansatz auf den Kopf. Anstatt sich auf subjektive Urteile zu verlassen, verwendet es konkrete, überprüfbare Ergebnisse. Wenn das Modell ein mathematisches Problem löst, gibt es keine Grauzone – die Antwort ist entweder richtig oder falsch. Wenn es Code schreibt, wird dieser entweder korrekt ausgeführt oder nicht.
Hier wird es interessant:
- Das Modell erhält sofortiges, binäres Feedback: 10 Punkte für richtige Antworten, 0 für falsche
- Es gibt keinen Raum für Teilpunkte oder ungenaue Bewertungen.
- Das Lernen wird fokussiert und präzise
- Das Modell lernt, Genauigkeit gegenüber plausibel klingenden, aber falschen Antworten zu priorisieren

RLVR-Schulung (Allen AI)
Die Ergebnisse? Tülu 3 zeigte erhebliche Verbesserungen bei Aufgaben, bei denen es vor allem auf Korrektheit ankommt. Seine Leistung beim mathematischen Denken (GSM8K-Benchmark) und bei Programmieraufgaben stieg deutlich. Sogar das Befolgen von Anweisungen wurde präziser, weil das Modell lernte, konkrete Genauigkeit über ungefähre Antworten zu stellen.
Besonders spannend ist, dass sich dadurch die Spielregeln für Open-Source-KI ändern. Frühere Ansätze hatten bei technischen Aufgaben oft Mühe, die Präzision geschlossener Modelle zu erreichen. RLVR zeigt, dass Open-Source-Modelle mit dem richtigen Trainingsansatz dieselbe Zuverlässigkeit erreichen können.
Ein Blick auf die Zahlen
Die 405B-Parameterversion von Tülu 3 konkurriert direkt mit den Topmodellen auf diesem Gebiet. Lassen Sie uns untersuchen, wo sie sich auszeichnet und was das für Open-Source-KI bedeutet.
Mathe
Tülu 3 zeichnet sich durch komplexe mathematische Schlussfolgerungen aus. Bei Benchmarks wie GSM8K und MATH erreicht es die Leistung von DeepSeek. Das Modell bewältigt mehrstufige Probleme und zeigt starke mathematische Schlussfolgerungsfähigkeiten.
Code
Die Codierungsergebnisse sind ebenso beeindruckend. Dank des RLVR-Trainings schreibt Tülu 3 Code, der Probleme effektiv löst. Seine Stärke liegt im Verstehen von Codierungsanweisungen und der Erstellung funktionaler Lösungen.
Präzises Befolgen von Anweisungen
Die Fähigkeit des Modells, Anweisungen zu befolgen, ist eine seiner Kernstärken. Während viele Modelle Anweisungen approximieren oder verallgemeinern, zeigt Tülu 3 eine bemerkenswerte Präzision bei der genauen Ausführung der Anweisungen.
Die Blackbox der KI-Entwicklung öffnen
Allen AI hat sowohl ein leistungsstarkes Modell als auch seinen vollständigen Entwicklungsprozess veröffentlicht.
Jeder Aspekt des Trainingsprozesses ist dokumentiert und zugänglich. Vom vierstufigen Ansatz über die Datenaufbereitungsmethoden bis hin zur RLVR-Implementierung – der gesamte Prozess ist offen für Studien und Replikation. Diese Transparenz setzt einen neuen Standard in der Hochleistungs-KI-Entwicklung.
Entwickler erhalten umfassende Ressourcen:
- Komplette Trainingspipelines
- Datenverarbeitungstools
- Bewertungsrahmen
- Implementierungsspezifikationen
Dadurch können Teams:
- Trainingsprozesse anpassen
- Passen Sie die Methoden an Ihre spezifischen Anforderungen an
- Bauen Sie auf bewährte Ansätze
- Erstellen Sie spezialisierte Implementierungen
Dieser offene Ansatz beschleunigt Innovationen in allen Bereichen. Forscher können auf bewährten Methoden aufbauen, während Entwickler sich auf Verbesserungen konzentrieren können, anstatt bei Null anzufangen.
Der Aufstieg der Open Source-Exzellenz
Der Erfolg von Tülu 3 ist ein großer Moment für die Entwicklung offener KI. Open-Source-Modelle entsprechen privaten Alternativen oder sind ihnen sogar überlegenverändert die Branche grundlegend. Forschungsteams weltweit erhalten Zugang zu bewährten Methoden, was ihre Arbeit beschleunigt und neue Innovationen hervorbringt. Private KI-Labore werden sich anpassen müssen – entweder indem sie die Transparenz erhöhen oder die technischen Grenzen noch weiter verschieben.
Die Durchbrüche von Tülu 3 bei überprüfbaren Belohnungen und mehrstufigem Training lassen erahnen, was kommen wird. Teams können auf diesen Grundlagen aufbauen und die Leistung potenziell noch weiter steigern. Der Code ist vorhanden, die Methoden sind dokumentiert, und eine neue Welle der KI-Entwicklung hat begonnen. Für Entwickler und Forscher markiert die Möglichkeit, mit diesen Methoden zu experimentieren und sie zu verbessern, den Beginn eines spannenden Kapitels der KI-Entwicklung.
Häufig gestellte Fragen (FAQ) zu Tülu 3
Was ist Tülu 3 und was sind seine Hauptfunktionen?
Tülu 3 ist eine Familie von Open-Source-LLMs, die von Allen AI entwickelt wurden und auf der Llama 3.1-Architektur basieren. Sie sind in verschiedenen Größen erhältlich (8B, 70B und 405B Parameter). Tülu 3 ist für eine verbesserte Leistung bei verschiedenen Aufgaben konzipiert, darunter Wissen, Argumentation, Mathematik, Codierung, Befolgen von Anweisungen und Sicherheit.
Wie läuft das Training für Tülu 3 ab und welche Daten werden verwendet?
Das Training von Tülu 3 umfasst mehrere wichtige Phasen. Zunächst kuratiert das Team eine vielfältige Reihe von Eingabeaufforderungen aus öffentlichen Datensätzen und synthetischen Daten, die auf bestimmte Fähigkeiten ausgerichtet sind, und stellt sicher, dass die Daten anhand von Benchmarks entsorgt werden. Zweitens wird eine überwachte Feinabstimmung (Supervised Finetuning, SFT) an einer Mischung aus Anweisungsbefolgungs-, Mathematik- und Codierdaten durchgeführt. Als Nächstes wird die direkte Präferenzoptimierung (Direct Preference Optimization, DPO) mit Präferenzdaten verwendet, die durch menschliches und LLM-Feedback generiert wurden. Schließlich wird Reinforcement Learning with Verifiable Rewards (RLVR) für Aufgaben mit messbarer Korrektheit verwendet. Tülu 3 verwendet für jede Phase kuratierte Datensätze, darunter personengesteuerte Anweisungen, Mathematik und Codedaten.
Welchen Umgang pflegt Tülu 3 mit der Sicherheit und welche Maßstäbe werden zur Bewertung herangezogen?
Sicherheit ist ein Kernelement der Entwicklung von Tülu 3 und wird während des gesamten Trainingsprozesses berücksichtigt. Während der SFT wird ein sicherheitsspezifischer Datensatz verwendet, der sich als weitgehend orthogonal zu anderen aufgabenorientierten Daten erweist.
Was ist RLVR?
RLVR ist eine Technik, bei der das Modell darauf trainiert wird, auf Grundlage einer überprüfbaren Belohnung, wie etwa der Richtigkeit einer Antwort, zu optimieren. Dies unterscheidet sich vom traditionellen RLHF, das ein Belohnungsmodell verwendet.