Штучний інтелект
Gemini 3.1 Pro Досягає Рекордних Розумових Здобутків

Google випустив Gemini 3.1 Pro 19 лютого, оновлення своєї флагманської моделі штучного інтелекту, яке більш ніж удвоє підвищує результати розумових здібностей, зберігаючи ціни ідентичними попередній версії.
Найбільш вражаюча цифра: на ARC-AGI-2, тесті, який перевіряє, чи можуть моделі вирішувати абсолютно нові логічні закономірності, а не просто згадувати дані з тренувальної вибірки, Gemini 3.1 Pro набирає 77,1%. Gemini 3 Pro набрав 31,1%. Це збільшення на 46 процентних пунктів є найбільшим одногенераційним зростанням результатів розумових здібностей серед будь-якої сім’ї моделей.
Модель доступна негайно на всіх споживчих та розробницьких платформах Google. Користувачі додатка Gemini на планах AI Pro і AI Ultra отримують доступ з вищими лімітами використання, тоді як розробники можуть отримати доступ до 3.1 Pro через Gemini API в AI Studio, Vertex AI, Gemini CLI, Antigravity та Android Studio. NotebookLM також отримує оновлення для абонентів Pro і Ultra.
Ціни залишаються на рівні 2 долари за мільйон входних токенів для запитів менших за 200 000 токенів, зростаючи до 4 доларів для довших контекстів. Вихідні дані коштують 12 доларів за мільйон токенів. Для тих, хто вже використовує Gemini 3 Pro через API, оновлення є безкоштовним.
Бенчмарк-Виступи Усієї Дошки
Картка моделі показує, що Gemini 3.1 Pro займає перше місце на 12 з 18 відстежуваних бенчмарків. Окрім ARC-AGI-2, видатними є 94,3% на GPQA Diamond, тесті наукового розуміння на рівні магістратури, і 2 887 Elo на LiveCodeBench Pro, найвищий бал серед усіх моделей для конкурентного програмування.
На Humanity’s Last Exam – бенчмарку, створеному на основі експертних питань з різних академічних дисциплін, 3.1 Pro досягає 44,4%, що вище, ніж 37,5% для Gemini 3 Pro і вище, ніж 34,5% для GPT-5.2. Мультимовний бенчмарк MMLU показує 92,6%, а точність довгих контекстів на рівні 128 000 токенів залишається на рівні 84,9%.
Модель зберігає вікно контексту на рівні 1 мільйона токенів і генерує до 64 000 вихідних токенів, що відповідає специфікаціям інструментів генерації коду AI, яким потрібно обробляти цілі кодові бази та генерувати суттєві блоки коду за одну сесію.
Де 3.1 Pro не лідирує, також інформативно. На SWE-Bench Verified, тесті реальних завдань програмної інженерії, він набирає 80,6% – трохи менше, ніж Anthropic’s Claude Opus 4.6 на рівні 80,8%. Розрив маржинальний, але він показує, що Anthropic зберігає вузьку перевагу в практичних завданнях програмування, які рухають корпоративне впровадження.
Що Змінює Динамічне Мислення
Gemini 3.1 Pro використовує динамічне мислення за замовчуванням, підхід, при якому модель регулює кількість внутрішніх розумових процесів залежно від складності кожного запиту. Прості запитання отримують швидкі відповіді. Складні багатокрокові завдання спонукають глибші ланцюги обробки перед тим, як модель генерує свою відповідь.
Розробники можуть контролювати це поведінку через параметр thinking_level в API, встановлюючи максимальну глибину внутрішніх розумових процесів. Це вирішує напруженість у моделях розумових здібностей: розширення розумових процесів покращує точність на складних завданнях, але додає затримку та витрати для простих запитань. Динамічне мислення намагається автоматизувати цей компроміс.
Ця функція відображає ширшу галузеву тенденцію. Моделі o-серіії OpenAI ввели ланцюгове мислення як вибрану функцію. Модель Anthropic’s Claude використовує розширені розумові процеси як опціональну функцію. Підхід Google, який робить його за замовчуванням – з змінною інтенсивністю, сподівається, що більшість користувачів віддають перевагу тому, щоб модель вирішувала, як сильно думати, а не керувати цією рішенням самостійно.
Конкурентне Поле Згладжується
Gemini 3.1 Pro з’являється на ринку, де лідерство бенчмарків змінюється щомісяця. Google’s Gemini 3 спровокував “код червоного стану” в OpenAI, який створив GPT-5.2 менш ніж за місяць. Anthropic випускає оновлення моделі Claude при прискореному темпі. Кожен реліз звужує розрив між моделями, роблячи вибір між платформами все більш залежним від екосистеми та ціни, а не сутої здатності.
Перевага Google залишається розподілом. Gemini 3.1 Pro безпосередньо входить до продуктів, які використовують сотні мільйонів людей: Gmail, Docs, Search та Особистий Інтелект, які зв’язують модель з особистими даними користувача. Модель також живить Gemini Enterprise і Gemini CLI, надаючи розробникам та підприємствам доступ через інструменти, які вони вже використовують.
Для розробників, які вибирають між моделями, рішення щодо ціни стало простішим. За 2 долари за мільйон входних токенів Gemini 3.1 Pro підганяє під ціни флагманських моделей OpenAI та Anthropic для порівнянної здатності. Безкоштовне оновлення з 3 Pro усуває будь-які труднощі з міграції для існуючих користувачів.
Здобутки розумових здібностей мають найбільше значення для агентських застосунків – систем штучного інтелекту, які планують, виконують багатокрокові завдання та використовують інструменти автономно. ARC-AGI-2 конкретно перевіряє тип визнання нових закономірностей, яких агенти потребують при зустрічі з проблемами, які їхні тренувальні дані не покривали. Модель, яка набирає 77,1% на цьому тесті, обробляє незнайомі ситуації набагато надійніше, ніж та, яка набирає 31,1%.
Чи ці здобутки бенчмарків перекладаються у пропорційні реальні поліпшення, це питання, яке Google буде потрібно відповісти протягом найближчих тижнів. Бенчмарки захоплюють конкретні можливості під контрольованими умовами; фактичний досвід користувача залежить від того, як модель працює на непередбачуваному діапазоні завдань, які люди кидають їй. Скачок ARC-AGI-2 свідчить про те, що 3.1 Pro обробляє новизну краще, ніж будь-яка інша модель до цього. Що користувачі робитимуть з цією можливістю, визначить, чи мають ці цифри значення.












