Künstliche Intelligenz
Gemini 3.1 Pro erzielt Rekordgewinne bei der Argumentation

Google veröffentlicht Gemini 3.1 Pro Am 19. Februar wurde ein Update für das Flaggschiff-KI-Modell veröffentlicht, das die Denkleistung mehr als verdoppelt, während der Preis im Vergleich zum Vorgängermodell unverändert bleibt.
Die auffälligste Zahl: Beim ARC-AGI-2, einem Benchmark, der testet, ob Modelle völlig neue Logikmuster lösen können, anstatt Trainingsdaten abzurufen, erzielt Gemini 3.1 Pro 77.1 %. Gemini 3 Pro Er erzielte 31.1 %. Dieser Sprung um 46 Prozentpunkte ist der größte Zuwachs an Denkvermögen innerhalb einer Generation in einer beliebigen Frontier-Modellfamilie.
Das neue Modell ist ab sofort auf allen Google-Plattformen für Endverbraucher und Entwickler verfügbar. Nutzer der Gemini-App mit den Abonnements AI Pro und AI Ultra erhalten Zugriff mit höheren Nutzungslimits, während Entwickler über die Gemini-API in AI Studio, Vertex AI, Gemini CLI, Antigravity und Android Studio auf Version 3.1 Pro zugreifen können. NotebookLM erhält das Upgrade ebenfalls für Pro- und Ultra-Abonnenten.
Die Preise bleiben bei 2 US-Dollar pro Million eingegebener Token für Abfragen unter 200,000 Token und steigen auf 4 US-Dollar für längere Abfragen. Die Ausgabe kostet 12 US-Dollar pro Million Token. Für alle, die Gemini 3 Pro bereits über die API nutzen, ist das Upgrade kostenlos.
Durchweg herausragende Leistung
Die Modellkarte Gemini 3.1 Pro belegt in 12 von 18 erfassten Benchmarks den ersten Platz. Neben ARC-AGI-2 sticht es durch 94.3 % im GPQA Diamond, einem Test zum wissenschaftlichen Denken auf Hochschulniveau, und 2,887 Elo-Punkte im LiveCodeBench Pro hervor – die höchste Punktzahl aller führenden Modelle für Wettbewerbsprogrammierung.
Beim Humanity’s Last Exam – einem Benchmark, der auf von Experten bereitgestellten Fragen aus verschiedenen akademischen Disziplinen basiert – erreicht 3.1 Pro 44.4 %, gegenüber 37.5 % bei Gemini 3 Pro und vor GPT-5.2 mit 34.5 %. Der mehrsprachige MMLU-Benchmark zeigt 92.6 %, und die Genauigkeit im Langzeitkontext bei 128,000 Tokens liegt bei 84.9 %.
Das Modell behält ein Eingabekontextfenster von 1 Million Token bei und generiert bis zu 64,000 Ausgabetoken, was den Spezifikationen entspricht. KI-Codierungstools die die Notwendigkeit haben, ganze Codebasen einzulesen und umfangreiche Codeblöcke in einer einzigen Sitzung zu erzeugen.
Auch die Schwächen von 3.1 Pro sind aufschlussreich. Im SWE-Bench Verified-Test, einem Verfahren zur Simulation realer Softwareentwicklungsaufgaben, erzielt es 80.6 % – knapp hinter Anthropics Claude Opus 4.6 mit 80.8 %. Der Unterschied ist zwar gering, zeigt aber, dass Anthropic bei den praktischen Programmieraufgaben, die für die Akzeptanz in Unternehmen entscheidend sind, weiterhin einen leichten Vorsprung hat.
Was dynamisches Denken verändert
Gemini 3.1 Pro nutzt standardmäßig dynamisches Denken. Dabei passt das Modell den Umfang der internen Schlussfolgerungen an die Komplexität der jeweiligen Aufgabenstellung an. Einfache Fragen werden schnell beantwortet. Komplexe, mehrstufige Probleme lösen tiefergehende Verarbeitungsprozesse aus, bevor das Modell seine Antwort generiert.
Entwickler können dieses Verhalten über den Parameter `thinking_level` in der API steuern und so die maximale Tiefe der internen Schlussfolgerungen festlegen. Dies löst ein Problem in Schlussfolgerungsmodellen: Erweitertes Denken verbessert zwar die Genauigkeit bei komplexen Problemen, erhöht aber Latenz und Kosten bei einfachen Anfragen. Dynamisches Denken versucht, diesen Zielkonflikt zu automatisieren.
Diese Funktion spiegelt einen branchenweiten Wandel wider. Die O-Serie-Modelle von OpenAI führten das logische Denken als wählbaren Modus ein. Anthropics Claude nutzt erweitertes Denken als optionale Funktion. Googles Ansatz, diese Funktion standardmäßig – mit variabler Intensität – zu aktivieren, setzt darauf, dass die meisten Nutzer es vorziehen, die Denkintensität dem Modell zu überlassen, anstatt diese Entscheidung selbst zu treffen.
Das Wettbewerbsfeld verengt sich.
Gemini 3.1 Pro erscheint in einem Markt, in dem die Marktführerschaft bei Benchmarks monatlich wechselt. Googles Gemini 3 löste eine Welle von Reaktionen aus. „Alarmstufe Rot“ bei OpenAI Das Unternehmen entwickelte GPT-5.2 in weniger als einem Monat. Anthropic veröffentlicht Claude-Updates in immer kürzerer Zeit. Jede neue Version verringert die Unterschiede zwischen den Modellen, sodass die Wahl zwischen Plattformen zunehmend von Ökosystem und Preis und weniger von der reinen Leistungsfähigkeit abhängt.
Googles Vorteil liegt weiterhin in der Verbreitung. Gemini 3.1 Pro lässt sich nahtlos in Produkte integrieren, die von Hunderten Millionen Menschen genutzt werden: Gmail, Docs, Suche und … Persönliche Intelligenz Funktionen, die das Modell mit den persönlichen Daten der Nutzer verbinden. Das Modell ermöglicht außerdem Gemini Enterprise und Gemini CLIDadurch erhalten Entwickler und Unternehmen Zugriff über Tools, die sie bereits verwenden.
Für Entwickler, die zwischen zukunftsweisenden Modellen wählen müssen, ist die Preisentscheidung einfacher geworden. Mit 2 US-Dollar pro Million Input-Tokens unterbietet Gemini 3.1 Pro die Preise der Flaggschiffmodelle von OpenAI und Anthropic bei vergleichbarer Funktionalität. Das kostenlose Upgrade von Version 3 Pro beseitigt jegliche Migrationsprobleme für bestehende Nutzer.
Die Verbesserungen im logischen Denken sind besonders relevant für agentenbasierte Anwendungen – KI-Systeme, die selbstständig planen, mehrstufige Aufgaben ausführen und Werkzeuge einsetzen. ARC-AGI-2 testet gezielt die Art von neuartiger Mustererkennung, die Agenten benötigen, wenn sie auf Probleme stoßen, die nicht durch ihre Trainingsdaten abgedeckt wurden. Ein Modell, das in diesem Test 77.1 % erreicht, bewältigt unbekannte Situationen deutlich zuverlässiger als ein Modell mit 31.1 %.
Ob sich diese Verbesserungen in Benchmarks auch in proportionalen Verbesserungen im realen Einsatz niederschlagen, muss Google in den kommenden Wochen klären. Benchmarks erfassen spezifische Fähigkeiten unter kontrollierten Bedingungen; die tatsächliche Nutzererfahrung hängt davon ab, wie das Modell bei den unvorhersehbaren Aufgaben, die Nutzer ihm stellen, abschneidet. Der Sprung bei ARC-AGI-2 deutet darauf hin, dass Version 3.1 Pro mit neuen Funktionen besser umgeht als alle Vorgängermodelle. Ob die Zahlen aussagekräftig sind, wird sich erst im praktischen Einsatz zeigen.












