Connect with us

Umělá inteligence

Gemini 3.1 Pro dosahuje rekordních rozumových zisků

mm

Google vydal Gemini 3.1 Pro dne 19. února, aktualizaci své vlajkové AI modely, která více než zdvojnásobuje výkon rozumu a udržuje stejné ceny jako jeho předchůdce.

Nejvíce pozoruhodné číslo: na ARC-AGI-2, benchmarcích, který testuje, zda modely mohou řešit zcela nové logické vzory, spíše než vyvolávat trénovací data, Gemini 3.1 Pro dosahuje 77,1 %. Gemini 3 Pro dosáhl 31,1 %. Ten 46 procentní bodový skok je největší jednorázový rozumový zisk v jakékoli modelové rodině.

Model je okamžitě k dispozici napříč spotřebitelskými a vývojářskými platformami Google. Uživatelé aplikace Gemini na plánech AI Pro a AI Ultra získají přístup s vyššími limity využití, zatímco vývojáři mohou získat přístup k 3.1 Pro prostřednictvím Gemini API v AI Studio, Vertex AI, Gemini CLI, Antigravity a Android Studio. NotebookLM také získá upgrade pro předplatitele Pro a Ultra.

Ceny zůstávají na 2 $ za milion vstupních tokenů pro podněty pod 200 000 tokenů, se zvyšováním na 4 $ pro delší kontexty. Výstup stojí 12 $ za milion tokenů. Pro každého, kdo již používá Gemini 3 Pro prostřednictvím API, je upgrade zdarma.

Výkon benchmarků napříč všemi

Modelová karta ukazuje, že Gemini 3.1 Pro dosahuje první místo v 12 z 18 sledovaných benchmarků. Kromě ARC-AGI-2 patří mezi výjimečné výsledky 94,3 % na GPQA Diamond, test vědeckého rozumu na úrovni absolventů, a 2 887 Elo na LiveCodeBench Pro, nejvyšší skóre mezi všemi modely pro soutěžní programování.

Na Humanity’s Last Exam – benchmarcích sestaveném z odborných otázek z různých akademických oborů – 3.1 Pro dosahuje 44,4 %, oproti 37,5 % u Gemini 3 Pro a před GPT-5.2 s 34,5 %. Multilingvální MMLU benchmark ukazuje 92,6 %, a přesnost dlouhého kontextu při 128 000 tokenech zůstává na 84,9 %.

Model si zachovává okno vstupního kontextu o velikosti 1 milion tokenů a generuje až 64 000 výstupních tokenů, což odpovídá specifikacím AI nástrojů pro generování kódu, které potřebují ingestovat celé kódové základy a produkovat podstatné kódové bloky v jedné relaci.

Tam, kde 3.1 Pro nevede, je také výmluvné. Na SWE-Bench Verified, testu reálných softwarových inženýrských úloh, dosahuje 80,6 % – pouze mírně za Anthropic’s Claude Opus 4.6 s 80,8 %. Mezera je marginální, ale ukazuje, že Anthropic si zachovává úzkou výhodu v praktických kódovacích úkolech, které pohání podnikové přijetí.

Co se mění dynamické myšlení

Gemini 3.1 Pro používá dynamické myšlení ve výchozím nastavení, přístup, při kterém se model přizpůsobuje množství vnitřního rozumu na základě složitosti každého podnětu. Jednoduché otázky dostanou rychlé odpovědi. Složité vícekrokové problémy spustí hlubší zpracování řetězců předtím, než model vygeneruje svou odpověď.

Vývojáři mohou ovládat toto chování prostřednictvím parametru thinking_level v API, nastavující maximální hloubku vnitřního rozumu. Toto řeší napětí v modelech rozumu: prodloužené myšlení zlepšuje přesnost u tvrdých problémů, ale přidává latenci a náklady pro přímé dotazy. Dynamické myšlení se snaží automatizovat tuto výměnu.

Funkce odráží širší průmyslovou změnu. OpenAI’s o-series modely zavedly chain-of-thought rozumu jako vybíratelný režim. Anthropic’s Claude používá prodloužené myšlení jako volitelnou funkci. Google’s přístup k tomu, aby se stal výchozím – s proměnlivou intenzitou – vsází na to, že většina uživatelů raději nechá model rozhodnout, jak tvrdě myslet, než spravovat toto rozhodnutí sami.

Competitivní pole se zužuje

Gemini 3.1 Pro přichází na trh, kde vedení v benchmarcích mění ruce měsíčně. Google’s Gemini 3 spustil “code red” u OpenAI, který produkoval GPT-5.2 za méně než měsíc. Anthropic uvolňuje aktualizace Claude v zrychleném tempu. Každé vydání zužuje mezery mezi modely, což činí výběr mezi platformami stále více závislým na ekosystému a cenách než na surovém výkonu.

Google’s výhoda zůstává distribuce. Gemini 3.1 Pro se přímo zařazuje do produktů, které používají stovky milionů lidí: Gmail, Docs, Search a Personal Intelligence funkce, které propojují model s osobními údaji uživatelů. Model také pohání Gemini Enterprise a Gemini CLI, poskytující vývojářům a podnikům přístup prostřednictvím nástrojů, které již používají.

Pro vývojáře, kteří si vybírají mezi modely, se rozhodnutí o cenách stalo jednodušší. Za 2 $ za milion vstupních tokenů Gemini 3.1 Pro podkopává jak OpenAI, tak Anthropic’s vlajkové ceny za srovnatelnou schopnost. Bezplatný upgrade z 3 Pro odstraňuje jakoukoli migraci tření pro stávající uživatele.

Rozumové zisky jsou nejdůležitější pro agentické aplikace – AI systémy, které plánují, vykonávají vícekrokové úkoly a používají nástroje autonomně. ARC-AGI-2 konkrétně testuje typ novém vzor rozpoznávání, který agenti potřebují, když narazí na problémy, které jejich trénovací data nepokrývají. Model, který dosahuje 77,1 % na tomto testu, zvládá neznámé situace mnohem spolehlivěji než model, který dosahuje 31,1 %.

Zda tyto benchmarkové zisky přeloží do proporcionálních reálných zlepšení, je otázka, kterou Google bude muset zodpovědět v následujících týdnech. Benchmarky zachycují konkrétní schopnosti za kontrolovaných podmínek; skutečná uživatelská zkušenost závisí na tom, jak se model provádí napříč nepředvídatelným rozsahem úkolů, které lidé hází na něj. Skok na ARC-AGI-2 naznačuje, že 3.1 Pro zvládá novinku lépe než jakýkoli model předtím. Co uživatelé s touto schopností udělají, určí, zda se tyto čísla budou počítat.

Alex McFarland je AI novinář a spisovatel, který zkoumá nejnovější vývoj v oblasti umělé inteligence. Spolupracoval s mnoha AI startupy a publikacemi po celém světě.