인공지능
Gemini 3.1 Pro, 기록적인 추론 성능 향상 달성

Google은 2월 19일 Gemini 3.1 Pro를 출시했습니다. 이는 기존의 플래그십 AI 모델에 대한 업데이트로, 추론 성능을 두 배 이상提高하면서 가격은 동일하게 유지합니다.
가장 주목할 만한 숫자는 ARC-AGI-2 벤치마크에서 Gemini 3.1 Pro가 77.1%의 점수를 얻었다는 것입니다. 이는 모델이 완전히 새로운 논리 패턴을 해결하는 능력을 테스트하는 벤치마크로, Gemini 3 Pro는 31.1%의 점수를 얻었습니다. 46 퍼센트 포인트의 점프는 모든 프론티어 모델 패밀리에서 단일 세대 추론 성능의 가장 큰 향상입니다.
이 모델은 Google의 소비자 및 개발자 플랫폼에서 즉시 사용할 수 있습니다. Gemini 앱 사용자에게는 AI Pro 및 AI Ultra 플랜을 통해 높은 사용량 제한과 함께 접근할 수 있으며, 개발자는 Gemini API를 통해 AI Studio, Vertex AI, Gemini CLI, Antigravity, Android Studio에서 3.1 Pro에 접근할 수 있습니다. NotebookLM도 Pro 및 Ultra 구독자에게 업그레이드됩니다.
200,000 토큰 미만의 프롬프트에 대한 가격은 1백만 토큰당 $2로 유지되며, 더 긴 컨텍스트의 경우 $4로 증가합니다. 출력 비용은 1백만 토큰당 $12입니다. API를 통해 이미 Gemini 3 Pro를 사용 중인 경우 업그레이드는 무료입니다.
전반적인 벤치마크 성능
모델 카드에 따르면 Gemini 3.1 Pro는 18개의 추적 벤치마크 중 12개에서 1위를 차지했습니다. ARC-AGI-2를 넘어서, GPQA 다이아몬드에서 94.3%, 라이브코드벤치 프로에서 2,887 엘로(모든 프론티어 모델 중 최고 점수)를 기록했습니다.
인간의 마지막 시험은 학문적 분야의 전문가 질문을 크라우드소싱한 벤치마크로, 3.1 Pro는 44.4%의 점수를 얻었습니다. 이는 Gemini 3 Pro의 37.5%와 GPT-5.2의 34.5%를 앞섰습니다. 다국어 MMLU 벤치마크에서는 92.6%의 점수를 얻었으며, 128,000 토큰의 긴 컨텍스트 정확도는 84.9%로 유지되었습니다.
이 모델은 1백만 토큰의 입력 컨텍스트 창과 64,000개의 출력 토큰을 생성하는 것을 유지하며, 이는 AI 코드 생성 도구의 사양과 일치합니다. 이러한 도구는 전체 코드베이스를 처리하고 단일 세션에서 상당한 코드 블록을 생성해야 합니다.
3.1 Pro가 선도하지 않는 분야도 중요합니다. SWE-Bench Verified는 실제 소프트웨어 엔지니어링 작업을 테스트하는 벤치마크로, 80.6%의 점수를 얻었습니다. 이는 Anthropic의 Claude Opus 4.6의 80.8%에 비해 약간 낮은 점수입니다. 차이는 작지만, Anthropic이 실용적인 코딩 작업에서 여전히 약간의 우위를 점하고 있음을 보여줍니다.
다이나믹 싱킹의 변화
Gemini 3.1 Pro는 기본적으로 다이나믹 싱킹을 사용합니다. 이는 모델이 각 프롬프트의 복잡성에 따라 내부적인 추론을 조정하는 접근 방식입니다. 간단한 질문에는 빠른 답변을 제공하고, 복잡한 다단계 문제에는 더 깊은 처리 체인을 트리거하여 모델이 응답을 생성하기 전에 내부적인 추론을 수행합니다.
개발자는 API의 thinking_level 매개변수를 통해 이 동작을 제어할 수 있습니다. 이는 내부적인 추론의 최대 깊이를 설정합니다. 이는 추론 모델에서 긴장된 관계를 해결하는 데 도움이 됩니다. 즉, 확장된 추론은 어려운 문제에 대한 정확도를 향상시키지만, 간단한 쿼리에 대한 대기 시간과 비용을 추가합니다. 다이나믹 싱킹은 이 트레이드오프를 자동화하려고 합니다.
이 기능은 더广泛한 산업적 변화를 반영합니다. OpenAI의 o-시리즈 모델은 체인-오브-생각 추론을 선택 가능한 모드로 도입했습니다. Anthropic의 Claude는 확장된 추론을 선택 가능한 기능으로 사용합니다. Google의 접근 방식은 대부분의 사용자가 모델이 얼마나 생각해야 하는지 결정하는 것을 자동화하는 것입니다.
경쟁 분야의 경쟁
Gemini 3.1 Pro는 벤치마크 리더십이 매월 변경되는 시장에서 출시되었습니다. Google의 Gemini 3는 OpenAI에서 “코드 레드”를 트리거하여 GPT-5.2를 생성했습니다. Anthropic은 Claude 업데이트를 가속화된 속도로 출하하고 있습니다. 각 릴리스는 모델 간의 간격을 좁혀서 플랫폼과 가격이 아닌 원시적인 능력에 따라 플랫폼을 선택하는 것을 더 어렵게 만들고 있습니다.
Google의优势는 분포에 있습니다. Gemini 3.1 Pro는 수백만 명의 사람들이 사용하는 제품에 직접적으로 슬롯됩니다. 즉, Gmail, Docs, Search 및 개인 지능 기능이 모델을 사용자의 개인 데이터에 연결합니다. 이 모델은 또한 Gemini Enterprise 및 Gemini CLI를 구동하며, 개발자와 비즈니스에게 이미 사용 중인 도구를 통해 접근할 수 있습니다.
개발자가 프론티어 모델을 선택할 때, 가격 결정은 더 쉬워졌습니다. 1백만 토큰당 $2의 가격으로, Gemini 3.1 Pro는 비교 가능한 능력의 OpenAI 및 Anthropic의 플래그십 가격을 낮추었습니다. 3 Pro에서 무료 업그레이드는 기존 사용자에게 마이그레이션 마찰을 제거합니다.
추론 성능의 향상은 에이전트 응용 프로그램에 가장 중요합니다. 즉, 계획, 다단계 작업을 실행하고, 도구를 자율적으로 사용하는 AI 시스템입니다. ARC-AGI-2는 특히 모델이 훈련 데이터에서 다루지 않은 문제에遇했을 때 필요한 새로운 패턴 인식 능력을 테스트합니다. 77.1%의 점수를 얻는 모델은 31.1%의 점수를 얻는 모델보다 익숙하지 않은 상황을 훨씬 더 신뢰성 있게 처리합니다.
이 벤치마크 성능이 실제 사용자 경험으로 변환되는지는 Google이 향후 몇 주 동안 답변해야 할 질문입니다. 벤치마크는 특정 능력을 제어된 조건에서 캡처하지만, 실제 사용자 경험은 모델이 사용자에게 던지는 예측 불가능한 작업 범위에 따라 달라집니다. ARC-AGI-2의 점프는 3.1 Pro가 이전의 모든 모델보다 신규성에 더 잘 대처한다는 것을 시사합니다. 사용자가 이 능력으로 무엇을 하는지에 따라 숫자가 중요해집니다.












