Trí tuệ nhân tạo
Gemini 3.1 Pro Đạt Được Lợi Ích Lý Luận Ghi Kỷ Lục

Google đã phát hành Gemini 3.1 Pro vào ngày 19 tháng 2, một bản cập nhật cho mô hình AI hàng đầu của công ty, giúp tăng hơn gấp đôi hiệu suất lý luận trong khi giữ nguyên giá cả giống như người tiền nhiệm của nó.
Con số nổi bật nhất: trên ARC-AGI-2, một điểm chuẩn kiểm tra khả năng của các mô hình trong việc giải quyết các mẫu logic hoàn toàn mới thay vì nhớ lại dữ liệu đào tạo, Gemini 3.1 Pro đạt được 77,1%. Gemini 3 Pro đạt được 31,1%. Sự tăng 46 điểm phần trăm này là mức tăng lớn nhất trong một thế hệ của lợi ích lý luận trong bất kỳ gia đình mô hình tiền phong nào.
Mô hình này có sẵn ngay lập tức trên tất cả các nền tảng tiêu dùng và phát triển của Google. Người dùng ứng dụng Gemini trên các kế hoạch AI Pro và AI Ultra sẽ có quyền truy cập với giới hạn sử dụng cao hơn, trong khi các nhà phát triển có thể truy cập 3.1 Pro thông qua Gemini API trong AI Studio, Vertex AI, Gemini CLI, Antigravity và Android Studio. NotebookLM cũng đạt được bản nâng cấp này cho người đăng ký Pro và Ultra.
Giá cả vẫn giữ ở mức 2 đô la cho mỗi triệu token đầu vào cho các lời nhắc dưới 200.000 token, tăng lên 4 đô la cho các ngữ cảnh dài hơn. Chi phí đầu ra là 12 đô la cho mỗi triệu token. Đối với bất kỳ ai đã sử dụng Gemini 3 Pro thông qua API, bản nâng cấp này là miễn phí.
Hiệu Suất Điểm Chuẩn Trên Tất Cả Các Mặt
Thẻ mô hình model card cho thấy Gemini 3.1 Pro tuyên bố vị trí đầu tiên trên 12 trong 18 điểm chuẩn được theo dõi. Ngoài ARC-AGI-2, các điểm nổi bật bao gồm 94,3% trên GPQA Diamond, một bài kiểm tra lý luận khoa học cấp sau đại học, và 2.887 Elo trên LiveCodeBench Pro, điểm số cao nhất trên tất cả các mô hình tiền phong cho lập trình cạnh tranh.
Trên Humanity’s Last Exam – một điểm chuẩn được rút ra từ các câu hỏi chuyên gia được thu thập từ các ngành học khác nhau – 3.1 Pro đạt được 44,4%, tăng từ 37,5% cho Gemini 3 Pro và vượt qua GPT-5.2 với 34,5%. Điểm chuẩn đa ngôn ngữ MMLU cho thấy 92,6%, và độ chính xác của ngữ cảnh dài ở 128.000 token vẫn giữ ở 84,9%.
Mô hình này vẫn giữ một cửa sổ ngữ cảnh đầu vào 1 triệu token và tạo ra tối đa 64.000 token đầu ra, khớp với các thông số kỹ thuật của công cụ tạo mã AI cần phải tiêu thụ toàn bộ cơ sở mã và tạo ra các khối mã đáng kể trong một phiên.
Điểm mà 3.1 Pro không dẫn đầu cũng rất đáng chú ý. Trên SWE-Bench Verified, một bài kiểm tra về các nhiệm vụ kỹ thuật phần mềm thực tế, nó đạt được 80,6% – chỉ sau Anthropic’s Claude Opus 4.6 với 80,8%. Khoảng cách là nhỏ, nhưng nó cho thấy Anthropic vẫn giữ một lợi thế nhỏ trong các nhiệm vụ mã hóa thực tế mà thúc đẩy việc áp dụng trong doanh nghiệp.
Those Dynamic Thinking Changes
Gemini 3.1 Pro sử dụng tư duy động bằng mặc định, một cách tiếp cận nơi mô hình điều chỉnh lượng lý luận nội bộ mà nó áp dụng dựa trên độ phức tạp của mỗi lời nhắc. Các câu hỏi đơn giản nhận được câu trả lời nhanh. Các vấn đề đa bước phức tạp kích hoạt các chuỗi xử lý sâu hơn trước khi mô hình tạo ra phản hồi của nó.
Các nhà phát triển có thể kiểm soát hành vi này thông qua một tham số thinking_level trong API, đặt độ sâu tối đa của lý luận nội bộ. Điều này giải quyết một sự căng thẳng trong các mô hình lý luận: việc mở rộng tư duy cải thiện độ chính xác trên các vấn đề khó nhưng thêm độ trễ và chi phí cho các truy vấn đơn giản. Tư duy động cố gắng tự động hóa sự đánh đổi đó.
Tính năng này phản ánh một sự thay đổi rộng lớn hơn trong ngành công nghiệp. Các mô hình o-series của OpenAI đã giới thiệu tư duy chuỗi như một chế độ có thể chọn. Anthropic’s Claude sử dụng tư duy mở rộng như một tính năng tùy chọn. Cách tiếp cận của Google trong việc làm cho nó trở thành mặc định – với cường độ biến đổi – đặt cược rằng hầu hết người dùng sẽ rather để mô hình quyết định làm thế nào để suy nghĩ thay vì quản lý quyết định đó mình.
Sự Cạnh Tranh Trở Nên Siêu Cấp
Gemini 3.1 Pro đến trong một thị trường nơi lãnh đạo điểm chuẩn thay đổi tay hàng tháng. Gemini 3 của Google đã kích hoạt một “code red” tại OpenAI mà sản xuất GPT-5.2 trong dưới một tháng. Anthropic đã được vận chuyển các bản cập nhật Claude với tốc độ tăng tốc. Mỗi bản phát hành thu hẹp khoảng cách giữa các mô hình, khiến cho việc chọn giữa các nền tảng ngày càng phụ thuộc vào hệ sinh thái và giá cả hơn là khả năng thô.
Lợi thế của Google vẫn là phân phối. Gemini 3.1 Pro được tích hợp trực tiếp vào các sản phẩm được sử dụng bởi hàng trăm triệu người: Gmail, Docs, Search và các Tính Năng Trí Tuệ Cá Nhân kết nối mô hình với dữ liệu cá nhân của người dùng. Mô hình này cũng cung cấp năng lượng cho Gemini Enterprise và Gemini CLI, cung cấp cho các nhà phát triển và doanh nghiệp quyền truy cập thông qua các công cụ mà họ đã sử dụng.
Đối với các nhà phát triển chọn giữa các mô hình tiền phong, quyết định giá cả đã trở nên dễ dàng hơn. Ở mức 2 đô la cho mỗi triệu token đầu vào, Gemini 3.1 Pro dưới cắt cả OpenAI và Anthropic về giá cả cho khả năng tương đương. Bản nâng cấp miễn phí từ 3 Pro loại bỏ bất kỳ ma sát di chuyển nào cho người dùng hiện tại.
Lợi ích lý luận quan trọng nhất đối với các ứng dụng đại lý – các hệ thống AI kế hoạch, thực hiện các nhiệm vụ đa bước và sử dụng các công cụ tự động. ARC-AGI-2 cụ thể kiểm tra khả năng nhận dạng mẫu mới mà các đại lý cần khi gặp phải các vấn đề mà dữ liệu đào tạo của họ không bao gồm. Một mô hình đạt được 77,1% trên bài kiểm tra đó xử lý các tình huống không quen thuộc đáng tin cậy hơn nhiều so với mô hình đạt được 31,1%.
Liệu những lợi ích điểm chuẩn này có chuyển thành cải thiện thực tế tỷ lệ thuận hay không là câu hỏi mà Google sẽ cần phải trả lời trong những tuần tới. Các điểm chuẩn nắm bắt các khả năng cụ thể dưới các điều kiện được kiểm soát; kinh nghiệm người dùng thực tế phụ thuộc vào cách mô hình hoạt động trên phạm vi không thể đoán trước của các nhiệm vụ mà người dùng ném vào nó. Sự tăng ARC-AGI-2 cho thấy 3.1 Pro xử lý tính mới tốt hơn bất kỳ mô hình nào trước đó. Những gì người dùng làm với khả năng đó sẽ quyết định liệu các con số có quan trọng hay không.












