인공지능
Gemini 3.1 Pro, 기록적인 추론 성능 향상 달성

Google은 2월 19일 자사 플래그십 AI 모델인 Gemini 3.1 Pro를 출시했으며, 이는 이전 모델에 비해 추론 성능을 두 배 이상提高하면서 가격은 동일하게 유지했다.
가장 주목할 만한 숫자는 ARC-AGI-2 벤치마크에서 Gemini 3.1 Pro가 77.1%의 점수를 기록했다는 것이다. 이는 모델이 전적으로 새로운 논리 패턴을 해결하는 능력을 테스트하는 벤치마크로, Gemini 3 Pro는 31.1%의 점수를 기록했다. 46 퍼센트 포인트의 점프는 모든 프런티어 모델 패밀리에서 단일 세대 추론 성능의 가장 큰 향상이다.
이 모델은 Google의 소비자 및 개발자 플랫폼에서 즉시 사용할 수 있다. Gemini 앱 사용자들은 AI Pro 및 AI Ultra 플랜을 통해 높은 사용량 제한과 함께 접근할 수 있으며, 개발자들은 Gemini API를 통해 AI Studio, Vertex AI, Gemini CLI, Antigravity, Android Studio에서 3.1 Pro에 접근할 수 있다. NotebookLM도 Pro 및 Ultra 구독자에게 업그레이드된다.
200,000 토큰 미만의 프롬프트에 대한 가격은 1백만 토큰당 $2로 유지되며, 더 긴 컨텍스트의 경우 $4로 증가한다. 출력 비용은 1백만 토큰당 $12이다. API를 통해 이미 Gemini 3 Pro를 사용하고 있는 경우 업그레이드는 무료이다.
전반적인 벤치마크 성능
모델 카드에 따르면 Gemini 3.1 Pro는 18개의 추적 벤치마크 중 12개에서 1위를 차지했다. ARC-AGI-2를 넘어서, GPQA Diamond에서 94.3%, LiveCodeBench Pro에서 2,887 Elo를 기록했으며, 이는 모든 프런티어 모델에서 경쟁적 프로그래밍에 대한最高 점수이다.
인간의 마지막 시험은 학술 분야 전반에 걸친 전문가 질문을 크라우드소싱한 벤치마크로, 3.1 Pro는 44.4%의 점수를 기록했으며, 이는 Gemini 3 Pro의 37.5% 및 GPT-5.2의 34.5%를 앞섰다. 다국어 MMLU 벤치마크에서는 92.6%의 점수를 기록했으며, 128,000 토큰의 긴 컨텍스트 정확도는 84.9%로 유지되었다.
이 모델은 1백만 토큰의 입력 컨텍스트 창을 유지하며, 최대 64,000개의 출력 토큰을 생성하여, AI 코드 생성 도구가 전체 코드베이스를摄入하고 단일 세션에서 상당한 코드 블록을 생성하는 사양과 일치한다.
3.1 Pro가 선도하지 못하는 분야도 의미가 있다. SWE-Bench Verified는 실제 소프트웨어 엔지니어링 작업을 테스트하는 벤치마크로, 3.1 Pro는 80.6%의 점수를 기록했으며, Anthropic의 Claude Opus 4.6은 80.8%의 점수를 기록하여わず간의 차이로 Anthropic이 실제 코딩 작업에서 우위를 유지하고 있다.
동적 사고의 변화
Gemini 3.1 Pro는 기본적으로 동적 사고를 사용하는 접근 방식을採用했으며, 이는 모델이 각 프롬프트의 복잡성에 따라 내부적인 추론을 적용하는 정도를 조정한다. 간단한 질문에는 빠른 답변을 제공하며, 복잡한 다단계 문제에는 더 깊은 처리 체인을 트리거하여 모델이 응답을 생성하기 전에 내부적인 추론을 수행한다.
개발자는 API의 thinking_level 매개 변수를 통해 이 동작을 제어할 수 있으며, 이는 내부적인 추론의 최대 깊이를 설정한다. 이는 추론 모델에서 긴장관계를 해결하는 데 도움이 된다. 확장된 추론은 어려운 문제에서 정확도를 향상시키지만, 간단한 질의에 대한 대기 시간과 비용을 추가한다. 동적 사고는 이 트레이드오프를 자동화하려고 한다.
이 기능은 더 넓은 산업의 변화를 반영한다. OpenAI의 o-series 모델은 체인-오브-사고 추론을 선택 가능한 모드로 도입했다. Anthropic의 Claude는 확장된 사고를 선택 가능한 기능으로 사용한다. Google의 접근 방식은 대부분의 사용자가 모델이 얼마나 생각해야 하는지 결정하는 것을 자동화하는 방법인 동적 사고를 기본값으로 설정한다.
경쟁 분야의 경쟁
Gemini 3.1 Pro는 벤치마크 선두가 매월 변경되는 시장에 출시되었다. Google의 Gemini 3는 OpenAI에서 “코드 레드”를 발동시켜 GPT-5.2를 출시했다. Anthropic은 Claude 업데이트를 가속화된 속도로 출시하고 있다. 각 릴리스는 모델 간의 간격을 좁히며, 플랫폼 간의 선택은 원시 능력보다는 생태계 및 가격에 더 많이 의존하게 된다.
Google의优势는 분포이다. Gemini 3.1 Pro는 수백만 명의 사람들이 사용하는 제품에 직접적으로 통합된다: Gmail, Docs, Search, 및 개인 지능 기능이 모델을 사용자의 개인 데이터에 연결한다. 이 모델은 또한 Gemini Enterprise 및 Gemini CLI를 구동하며, 개발자와 비즈니스에게 이미 사용 중인 도구를 통해 접근할 수 있다.
개발자가 프런티어 모델 간의 선택을 할 때, 가격 결정은 더 쉬워졌다. 1백만 토큰당 $2의 가격으로 Gemini 3.1 Pro는 OpenAI 및 Anthropic의 플래그십 모델과 비교하여 비슷한 능력의 가격을 낮췄다. 3 Pro에서 무료 업그레이드는 기존 사용자에게 마이그레이션 마찰을 제거한다.
추론 성능 향상은 에이전트 응용 프로그램에 가장 중요하다. 에이전트는 계획을 수립하고, 다단계 작업을 실행하며, 도구를 자율적으로 사용하는 AI 시스템이다. ARC-AGI-2는 특히 에이전트가 훈련 데이터에 포함되지 않은 문제에遭遇할 때 필요한 새로운 패턴 인식 능력을 테스트한다. 77.1%의 점수를 기록한 모델은 31.1%의 점수를 기록한 모델보다 비슷한 상황을 훨씬 더 신뢰성 있게 처리한다.
이 벤치마크 성능 향상이 실제 사용자 경험으로 пропор션적으로 번역되는지는 Google이 향후 몇 주 동안 답변해야 할 질문이다. 벤치마크는 특정 능력을 제어된 조건에서 캡처하지만, 실제 사용자 경험은 모델이 사용자에게 던지는 예측할 수 없는 작업 범위에 걸쳐 수행하는 방식에 따라 다르다. ARC-AGI-2의 점프는 3.1 Pro가 이전 모델보다 새로운 상황을 더 잘 처리한다는 것을 시사한다. 사용자가 이 능력을 어떻게 사용하는지에 따라 숫자가 중요해질 것이다.












