Connect with us

Künstliche Intelligenz

Gemini 3.1 Pro erreicht Rekordgewinne bei der Argumentationsfähigkeit

mm

Google veröffentlichte Gemini 3.1 Pro am 19. Februar, ein Update seines Flaggschiff-AI-Modells, das die Argumentationsleistung mehr als verdoppelt, während die Preise identisch mit denen seines Vorgängers bleiben.

Die auffälligste Zahl: Bei ARC-AGI-2, einem Benchmark, der testet, ob Modelle komplett neue Logikmuster lösen können, anstatt sich an Trainingsdaten zu erinnern, erreicht Gemini 3.1 Pro 77,1 %. Gemini 3 Pro erreichte 31,1 %. Der 46-prozentige Sprung ist der größte Ein-Generation-Gewinn bei der Argumentationsfähigkeit in jeder Modellfamilie.

Das Modell ist sofort auf Googles Consumer- und Entwicklerplattformen verfügbar. Benutzer der Gemini-App auf AI-Pro- und AI-Ultra-Plänen erhalten Zugang mit höheren Nutzungslimits, während Entwickler auf 3.1 Pro über die Gemini-API in AI Studio, Vertex AI, Gemini CLI, Antigravity und Android Studio zugreifen können. NotebookLM erhält auch das Upgrade für Pro- und Ultra-Abonnenten.

Die Preise bleiben bei 2 $ pro Million Eingabetoken für Prompts unter 200.000 Token, steigen auf 4 $ für längere Kontexte. Die Ausgabe kostet 12 $ pro Million Token. Für alle, die bereits Gemini 3 Pro über die API verwenden, ist das Upgrade kostenlos.

Benchmark-Leistung über den gesamten Bereich

Die Modellkarte zeigt, dass Gemini 3.1 Pro den ersten Platz auf 12 von 18 verfolgten Benchmarks belegt. Neben ARC-AGI-2 gehören die herausragenden Ergebnisse 94,3 % auf GPQA Diamond, einem wissenschaftlichen Argumentationstest auf Graduiertenebene, und 2.887 Elo auf LiveCodeBench Pro, der höchste Score aller Modellfamilien für wettbewerbsfähiges Programmieren.

Bei Humanity’s Last Exam – einem Benchmark, der aus Crowdsourcing-Expertenfragen aus verschiedenen akademischen Disziplinen erstellt wurde – erreicht 3.1 Pro 44,4 %, gegenüber 37,5 % für Gemini 3 Pro und vor GPT-5.2 mit 34,5 %. Der multilinguale MMLU-Benchmark zeigt 92,6 %, und die Genauigkeit bei langen Kontexten mit 128.000 Token bleibt bei 84,9 %.

Das Modell behält ein Eingabekontextfenster von 1 Million Token und generiert bis zu 64.000 Ausgabetoken, was den Spezifikationen von AI-Code-Generatoren entspricht, die ganze Codebasen verdauen und in einer Sitzung erhebliche Codeblöcke produzieren müssen.

Wo 3.1 Pro nicht führt, ist auch aufschlussreich. Bei SWE-Bench Verified, einem Test für reale Software-Engineering-Aufgaben, erreicht es 80,6 % – nur knapp hinter Anthropic’s Claude Opus 4.6 mit 80,8 %. Der Abstand ist marginal, aber es zeigt, dass Anthropic einen schmalen Vorsprung bei den praktischen Codierungsaufgaben behält, die die Unternehmensadoption antreiben.

Was sich durch dynamisches Denken ändert

Gemini 3.1 Pro verwendet dynamisches Denken standardmäßig, ein Ansatz, bei dem das Modell anpasst, wie viel interne Argumentation es anwendet, basierend auf der Komplexität jedes Prompts. Einfache Fragen erhalten schnelle Antworten. Komplexe Mehrschrittprobleme lösen tiefere Verarbeitungsketten aus, bevor das Modell seine Antwort generiert.

Entwickler können dieses Verhalten über einen thinking_level-Parameter in der API steuern, indem sie die maximale Tiefe der internen Argumentation festlegen. Dies löst eine Spannung in Argumentationsmodellen: Erweitertes Denken verbessert die Genauigkeit bei harten Problemen, aber fügt bei einfachen Abfragen Latenz und Kosten hinzu. Dynamisches Denken versucht, diesen Kompromiss zu automatisieren.

Das Feature spiegelt eine breitere Branchentendenz wider. OpenAI’s o-Serie-Modelle führten chain-of-thought-Argumentation als wählbare Modus ein. Anthropic’s Claude verwendet erweitertes Denken als Opt-in-Feature. Googles Ansatz, es als Standard mit variabler Intensität zu machen, setzt darauf, dass die meisten Benutzer lieber das Modell entscheiden lassen, wie hart es denken soll, anstatt diese Entscheidung selbst zu treffen.

Das wettbewerbsfähige Feld wird enger

Gemini 3.1 Pro erscheint in einem Markt, in dem die Benchmark-Führung monatlich wechselt. Googles Gemini 3 ausgelöste “Code Red” bei OpenAI produzierte GPT-5.2 in weniger als einem Monat. Anthropic hat Claude-Updates mit beschleunigtem Tempo ausgeliefert. Jede Veröffentlichung verringert den Abstand zwischen den Modellen, wodurch die Wahl zwischen Plattformen zunehmend von Ökosystem und Preisen abhängt, anstatt von roher Fähigkeit.

Googles Vorteil bleibt die Verteilung. Gemini 3.1 Pro passt direkt in Produkte, die von Hunderten Millionen Menschen verwendet werden: Gmail, Docs, Search und die Personal Intelligence-Funktionen, die das Modell mit den persönlichen Daten der Benutzer verbinden. Das Modell treibt auch Gemini Enterprise und Gemini CLI an, wodurch Entwickler und Unternehmen Zugang über Tools haben, die sie bereits verwenden.

Für Entwickler, die zwischen Frontier-Modellen wählen, ist die Preisisentscheidung einfacher geworden. Bei 2 $ pro Million Eingabetoken unterbietet Gemini 3.1 Pro die Preise von OpenAI und Anthropic für vergleichbare Fähigkeiten. Das kostenlose Upgrade von 3 Pro entfernt jeden Migrationsfriction für bestehende Benutzer.

Die Argumentationsgewinne sind am wichtigsten für agentische Anwendungen – AI-Systeme, die planen, mehrschrittige Aufgaben ausführen und Werkzeuge autonom verwenden. ARC-AGI-2 testet speziell die Art von neuem Mustererkennung, die Agenten benötigen, wenn sie Probleme treffen, die ihre Trainingsdaten nicht abgedeckt haben. Ein Modell, das 77,1 % auf diesem Test erreicht, behandelt unbekannte Situationen weit zuverlässiger als eines, das 31,1 % erreicht.

Ob diese Benchmark-Gewinne zu proportionalen realen Verbesserungen führen, ist die Frage, die Google in den kommenden Wochen beantworten muss. Benchmarks erfassen bestimmte Fähigkeiten unter kontrollierten Bedingungen; die tatsächliche Benutzererfahrung hängt davon ab, wie das Modell über die unvorhersehbare Reihe von Aufgaben, die die Menschen ihm stellen, funktioniert. Der ARC-AGI-2-Sprung legt nahe, dass 3.1 Pro Neuheit besser handhabt als jedes Modell zuvor. Was die Benutzer mit dieser Fähigkeit machen, wird bestimmen, ob die Zahlen wichtig sind.

Alex McFarland ist ein KI-Journalist und Schriftsteller, der die neuesten Entwicklungen im Bereich der künstlichen Intelligenz erforscht. Er hat mit zahlreichen KI-Startups und Veröffentlichungen weltweit zusammengearbeitet.