Künstliche Intelligenz

Gemini 3.1 Pro erreicht Rekord-Argumentationsgewinne

mm

Google veröffentlichte am 19. Februar Gemini 3.1 Pro, ein Update seines Flaggschiff-AI-Modells, das die Argumentationsleistung mehr als verdoppelt, während die Preise identisch mit denen seines Vorgängers bleiben.

Die auffälligste Zahl: Bei ARC-AGI-2, einem Benchmark, der testet, ob Modelle komplett neue Logikmuster lösen können, anstatt nur Trainingsdaten abzurufen, erreicht Gemini 3.1 Pro 77,1 %. Gemini 3 Pro erreichte 31,1 %. Dieser Anstieg von 46 Prozentpunkten ist der größte Ein-Generation-Argumentationsgewinn in jeder Grenzmodellfamilie.

Das Modell ist sofort auf Googles Consumer- und Entwicklerplattformen verfügbar. Benutzer der Gemini-App mit AI-Pro- und AI-Ultra-Plänen erhalten Zugang mit höheren Nutzungslimits, während Entwickler auf 3.1 Pro über die Gemini-API in AI Studio, Vertex AI, Gemini CLI, Antigravity und Android Studio zugreifen können. NotebookLM erhält auch das Upgrade für Pro- und Ultra-Abonnenten.

Die Preise bleiben bei 2 $ pro Million Eingabetoken für Prompts unter 200.000 Token, steigen aber auf 4 $ für längere Kontexte. Die Ausgabe kostet 12 $ pro Million Token. Für alle, die bereits Gemini 3 Pro über die API verwenden, ist das Upgrade kostenlos.

Benchmark-Leistung über den gesamten Bereich

Die Modellkarte zeigt, dass Gemini 3.1 Pro auf 12 von 18 verfolgten Benchmarks den ersten Platz belegt. Neben ARC-AGI-2 gehören die Highlights 94,3 % auf GPQA Diamond, einem wissenschaftlichen Argumentationstest auf Graduiertenebene, und 2.887 Elo auf LiveCodeBench Pro, der höchste Wert unter allen Grenzmodellen für wettbewerbsfähiges Programmieren.

Auf Humanity’s Last Exam – einem Benchmark, der aus Crowdsourcing-Expertenfragen aus verschiedenen akademischen Disziplinen erstellt wurde – erreicht 3.1 Pro 44,4 %, gegenüber 37,5 % für Gemini 3 Pro und vor GPT-5.2 mit 34,5 %. Der multilinguale MMLU-Benchmark zeigt 92,6 %, und die Langkontextgenauigkeit bei 128.000 Token bleibt bei 84,9 %.

Das Modell behält ein Eingabekontextfenster von 1 Million Token und generiert bis zu 64.000 Ausgabe-Token, was den Spezifikationen von AI-Code-Generatoren entspricht, die ganze Codebasen verdauen und in einer Sitzung erhebliche Codeblöcke produzieren müssen.

Wo 3.1 Pro nicht führt, ist auch aufschlussreich. Bei SWE-Bench Verified, einem Test für reale Software-Engineering-Aufgaben, erreicht es 80,6 % – nur knapp hinter Anthropics Claude Opus 4.6 mit 80,8 %. Die Lücke ist marginal, aber sie zeigt, dass Anthropic immer noch einen schmalen Vorsprung bei den praktischen Codierungsaufgaben hat, die die Unternehmensadoption antreiben.

Was sich durch dynamisches Denken ändert

Gemini 3.1 Pro verwendet dynamisches Denken standardmäßig, ein Ansatz, bei dem das Modell die interne Argumentation an die Komplexität jedes Prompts anpasst. Einfache Fragen erhalten schnelle Antworten. Komplexe Mehrschrittprobleme lösen tiefere Verarbeitungsketten aus, bevor das Modell seine Antwort generiert.

Entwickler können dieses Verhalten über einen thinking_level-Parameter in der API steuern, indem sie die maximale Tiefe der internen Argumentation festlegen. Dies löst eine Spannung in Argumentationsmodellen: Erweitertes Denken verbessert die Genauigkeit bei schwierigen Problemen, aber fügt bei einfachen Abfragen Latenz und Kosten hinzu. Dynamisches Denken versucht, diesen Kompromiss zu automatisieren.

Diese Funktion spiegelt eine breitere Branchentendenz wider. OpenAIs o-Serie-Modelle führten die kettenartige Argumentation als auswählbaren Modus ein. Anthropics Claude verwendet erweitertes Denken als optionalen Modus. Googles Ansatz, es standardmäßig zu machen – mit variabler Intensität – setzt darauf, dass die meisten Benutzer lieber das Modell entscheiden lassen, wie hart es denken soll, anstatt diese Entscheidung selbst zu treffen.

Das Wettbewerbsfeld wird enger

Gemini 3.1 Pro kommt in einem Markt, in dem die Benchmark-Führung monatlich wechselt. Googles Gemini 3 löste einen “Code Red” bei OpenAI aus, der GPT-5.2 in weniger als einem Monat produzierte. Anthropic hat Claude-Updates mit beschleunigtem Tempo ausgeliefert. Jede Veröffentlichung verringert die Lücke zwischen den Modellen, wodurch die Wahl zwischen Plattformen zunehmend von Ökosystem und Preis abhängt und nicht von der rohen Fähigkeit.

Googles Vorteil bleibt die Verteilung. Gemini 3.1 Pro passt direkt in Produkte, die von Hunderten Millionen Menschen verwendet werden: Gmail, Docs, Search und die Personal Intelligence-Funktionen, die das Modell mit den persönlichen Daten der Benutzer verbinden. Das Modell treibt auch Gemini Enterprise und Gemini CLI an, wodurch Entwickler und Unternehmen Zugang über Tools erhalten, die sie bereits verwenden.

Für Entwickler, die zwischen Grenzmodellen wählen, ist die Preisentscheidung einfacher geworden. Bei 2 $ pro Million Eingabetoken unterbietet Gemini 3.1 Pro die Preise von OpenAI und Anthropic für vergleichbare Fähigkeiten. Das kostenlose Upgrade von 3 Pro entfernt jeden Migrationswiderstand für bestehende Benutzer.

Die Argumentationsgewinne sind am wichtigsten für agentische Anwendungen – AI-Systeme, die planen, mehrschrittige Aufgaben ausführen und Werkzeuge autonom verwenden. ARC-AGI-2 testet speziell die Art von neuem Mustererkennung, die Agenten benötigen, wenn sie Probleme treffen, die ihre Trainingsdaten nicht abgedeckt haben. Ein Modell, das 77,1 % auf diesem Test erreicht, behandelt unbekannte Situationen weit zuverlässiger als eines, das 31,1 % erreicht.

Ob diese Benchmark-Gewinne zu proportionalen realen Verbesserungen führen, ist die Frage, die Google in den kommenden Wochen beantworten muss. Benchmarks erfassen bestimmte Fähigkeiten unter kontrollierten Bedingungen; die tatsächliche Benutzererfahrung hängt davon ab, wie das Modell über den unvorhersehbaren Bereich von Aufgaben funktioniert, die die Menschen ihm stellen. Der ARC-AGI-2-Sprung legt nahe, dass 3.1 Pro mit Neuheit besser umgeht als jedes Modell zuvor. Was die Benutzer mit dieser Fähigkeit machen, wird bestimmen, ob die Zahlen wichtig sind.

Alex McFarland ist ein KI-Journalist und Schriftsteller, der die neuesten Entwicklungen im Bereich der künstlichen Intelligenz erforscht. Er hat mit zahlreichen KI-Startups und Veröffentlichungen weltweit zusammengearbeitet.