Connect with us

Sztuczna inteligencja

Gemini 3.1 Pro osiąga rekordowe korzyści w rozumowaniu

mm

Google wydał Gemini 3.1 Pro 19 lutego, aktualizację swojego flagowego modelu AI, który ponad podwaja wydajność rozumowania, przy zachowaniu takich samych cen, jak jego poprzednik.

Najbardziej uderzająca liczba: w teście ARC-AGI-2, który sprawdza, czy modele mogą rozwiązać całkowicie nowe wzorce logiczne, zamiast przypominać dane treningowe, Gemini 3.1 Pro uzyskuje wynik 77,1%. Gemini 3 Pro uzyskał wynik 31,1%. Ten skok o 46 punktów procentowych jest największym jednorazowym zyskiem w rozumowaniu w jakiejkolwiek rodzinie modeli frontier.

Model jest dostępny natychmiast we wszystkich platformach konsumenckich i deweloperskich Google. Użytkownicy aplikacji Gemini z planami AI Pro i AI Ultra uzyskują dostęp z wyższymi limitami użycia, podczas gdy deweloperzy mogą uzyskać dostęp do 3.1 Pro za pośrednictwem interfejsu API Gemini w AI Studio, Vertex AI, Gemini CLI, Antigravity i Android Studio. NotebookLM również zyskuje ulepszenie dla subskrybentów Pro i Ultra.

Cennik pozostaje bez zmian – 2 dolary za milion tokenów wejściowych dla poleceń poniżej 200 000 tokenów, wzrastających do 4 dolarów dla dłuższych kontekstów. Koszt wyjściowy wynosi 12 dolarów za milion tokenów. Dla wszystkich, którzy już używają Gemini 3 Pro za pośrednictwem interfejsu API, ulepszenie jest bezpłatne.

Wyniki testów na wszystkich polach

Karta modelu model card pokazuje, że Gemini 3.1 Pro zajmuje pierwsze miejsce w 12 z 18 śledzonych testów. Poza ARC-AGI-2, wyróżniają się 94,3% w teście GPQA Diamond, teście rozumnego myślenia na poziomie studiów wyższych, oraz 2 887 Elo w LiveCodeBench Pro, najwyższy wynik we wszystkich modelach frontier dla programowania konkursowego.

W teście Humanity’s Last Exam – teście opracowanym na podstawie ekspertowych pytań z różnych dziedzin akademickich – 3.1 Pro osiąga wynik 44,4%, w porównaniu z 37,5% dla Gemini 3 Pro i 34,5% dla GPT-5.2. W teście multilingual MMLU wynik wynosi 92,6%, a dokładność długiego kontekstu przy 128 000 tokenach wynosi 84,9%.

Model zachowuje okno kontekstu wejściowego o wielkości 1 miliona tokenów i generuje do 64 000 tokenów wyjściowych, co odpowiada specyfikacjom narzędzi do generowania kodu AI, które muszą przyjmować całe bazy kodu i generować znaczne bloki kodu w jednej sesji.

Tam, gdzie 3.1 Pro nie prowadzi, jest również wymowne. W teście SWE-Bench Verified, który sprawdza umiejętności inżynierii oprogramowania w świecie rzeczywistym, osiąga wynik 80,6% – tuż za modelem Anthropic Claude Opus 4.6, który osiąga wynik 80,8%. Przewaga jest niewielka, ale pokazuje, że Anthropic zachowuje wąską przewagę w zadaniach kodowania, które napędzają przyjęcie w przedsiębiorstwach.

Co zmieniają dynamiczne myślenie

Gemini 3.1 Pro używa dynamicznego myślenia jako domyślnego, podejścia, w którym model dostosowuje ilość wewnętrznego rozumowania w zależności od złożoności każdego polecenia. Proste pytania otrzymują szybkie odpowiedzi. Złożone problemy wieloetapowe wyzwalają głębsze łańcuchy przetwarzania przed wygenerowaniem odpowiedzi przez model.

Deweloperzy mogą kontrolować to zachowanie za pomocą parametru thinking_level w interfejsie API, ustawiając maksymalną głębokość wewnętrznego rozumowania. To rozwiązuje napięcie w modelach rozumowania: przedłużone myślenie poprawia dokładność w trudnych problemach, ale dodaje opóźnienia i koszty dla prostych zapytań. Dynamiczne myślenie próbuje zautomatyzować ten kompromis.

Funkcja ta odzwierciedla szerszy trend w branży. Modele o-series OpenAI wprowadziły łańcuch myślenia jako wybieralny tryb. Model Anthropic Claude używa rozszerzonego myślenia jako funkcji optycznej. Podejście Google, które czyni je domyślnym – z zmienną intensywnością – zakłada, że większość użytkowników woli pozostawić modelowi decyzję, jak bardzo myśleć, zamiast zarządzać tą decyzją samodzielnie.

Wzmacnianie pola konkurencyjnego

Gemini 3.1 Pro pojawia się na rynku, na którym przywództwo w testach zmienia się co miesiąc. Gemini 3 Google wywołał “czerwony alarm” w OpenAI, który wyprodukował GPT-5.2 w ciągu moins niż miesiąca. Anthropic wydaje aktualizacje Claude w przyspieszonym tempie. Każde wydanie zmniejsza lukę między modelami, sprawiając, że wybór między platformami coraz bardziej zależy od ekosystemu i cennika, a nie surowej zdolności.

Przewaga Google pozostaje dystrybucja. Gemini 3.1 Pro wpasowuje się bezpośrednio w produkty używane przez setki milionów ludzi: Gmail, Docs, Search i Personal Intelligence, które łączą model z danymi osobowymi użytkowników. Model napędza również Gemini Enterprise i Gemini CLI, dając deweloperom i firmom dostęp do narzędzi, których już używają.

Dla deweloperów wybierających między modelami frontier, decyzja dotycząca cennika stała się łatwiejsza. Przy cenie 2 dolarów za milion tokenów wejściowych Gemini 3.1 Pro jest tańszy niż flagowe ceny OpenAI i Anthropic za porównywalną zdolność. Bezpłatna aktualizacja z 3 Pro usuwa wszelkie tarcie migracyjne dla istniejących użytkowników.

Zyski w rozumowaniu mają największe znaczenie dla aplikacji agentywnych – systemów AI, które planują, wykonują wieloetapowe zadania i używają narzędzi w sposób autonomiczny. ARC-AGI-2 testuje szczególnie rodzaj rozpoznawania wzorców, który agenci potrzebują, gdy napotykają problemy, których ich dane treningowe nie obejmowały. Model, który uzyskuje wynik 77,1% w tym teście, radzi sobie znacznie lepiej w nieznanych sytuacjach niż model, który uzyskuje wynik 31,1%.

Czy te zyski w testach przekładają się na proporcjonalne poprawy w świecie rzeczywistym, jest to pytanie, które Google będzie musiało odpowiedzieć w ciągu najbliższych tygodni. Testy capture określone zdolności w kontrolowanych warunkach; rzeczywiste doświadczenie użytkownika zależy od tego, jak model wykonuje się w nieprzewidywalnym zakresie zadań, które ludzie rzucają na niego. Skok w ARC-AGI-2 sugeruje, że 3.1 Pro radzi sobie lepiej z nowością niż jakikolwiek model wcześniej. To, co użytkownicy zrobią z tą zdolnością, określi, czy liczby mają znaczenie.

Alex McFarland jest dziennikarzem i pisarzem zajmującym się sztuczną inteligencją, który bada najnowsze rozwoje w dziedzinie sztucznej inteligencji. Współpracował z licznymi startupami i wydawnictwami związanymi z sztuczną inteligencją na całym świecie.