Connect with us

Google Ra Mắt Gemini 3 Pro với Hiệu Suất Đánh Bại Benchmark

Thông báo

Google Ra Mắt Gemini 3 Pro với Hiệu Suất Đánh Bại Benchmark

mm

Google đã phát hành Gemini 3 Pro hôm nay, đánh dấu mô hình AI tiên tiến nhất của họ với các điểm chuẩn phá kỷ lục và một nền tảng phát triển agentic mới gọi là Antigravity. Mô hình này đạt 1501 Elo trên LMArena, vượt qua 1451 của Gemini 2.5 Pro và chiếm vị trí hàng đầu trên các chỉ số đánh giá AI chính.

Sự ra mắt này diễn ra sau nhiều tháng chờ đợi trong ngành AI, với mô hình được triển khai im lặng cho người dùng được chọn vào ngày 22 tháng 10 trước khi công bố công khai. Phát hành tập trung vào nhà phát triển của Google nhấn mạnh khả năng mã hóa và chức năng đại lý tự động, đặt công ty vào vị trí cạnh tranh mạnh mẽ hơn với hiệu suất mã hóa của Claude và công cụ phát triển của OpenAI.

Gemini 3 Pro hỗ trợ cửa sổ ngữ cảnh 1 triệu token – khoảng 750.000 từ – với hai cấp độ cung cấp 200K và 1M token cho các trường hợp sử dụng khác nhau. Mô hình này thể hiện khả năng đa phương tiện đặc biệt, xử lý văn bản, hình ảnh, video và âm thanh với lý luận hình ảnh và tạo đồ họa được cải thiện. Tích hợp bao gồm toàn bộ hệ sinh thái sản phẩm của Google, bao gồm Workspace, Chrome và Android.

Hiệu Suất Benchmark Đánh Bại Kỷ Lục

Gemini 3 Pro đạt được độ chính xác 91,8% trên điểm chuẩn MMLU, cải thiện 5 điểm so với 89,5% của Gemini 2.5 Pro. Mô hình này thể hiện sức mạnh đặc biệt trên các câu hỏi liên ngành, đạt 92% trên các nhiệm vụ bao gồm nhiều lĩnh vực kiến thức trong khi Gemini 2.5 giảm xuống 65% trên các thách thức tương tự.

Trên các điểm chuẩn mã hóa cụ thể, Gemini 3 Pro đạt 76,2% trên SWE-bench Verified, vượt trội đáng kể so với người tiền nhiệm nhưng vẫn thấp hơn 77,2% của Claude 4.5. Mô hình này đứng đầu bảng xếp hạng WebDev Arena với 1487 Elo, thể hiện khả năng phát triển web đặc biệt. Trên Terminal-Bench 2.0, đo lường việc sử dụng công cụ và hoạt động máy tính qua terminal, Gemini 3 Pro đạt 54,2%.

Mô hình này cung cấp khả năng suy luận nhanh hơn khoảng 2 lần so với Gemini 2.5 Pro trên tất cả các kích thước nhiệm vụ. Các nhiệm vụ nhỏ như kịch bản Python 50 dòng hoàn thành trong 12 giây so với 25 giây, trong khi các nhiệm vụ lớn liên quan đến 10.000 hàng dữ liệu hoàn thành trong 15 phút 30 giây so với 32 phút 15 giây trước đó.

Google cũng giới thiệu Gemini 3 Chế độ suy nghĩ sâu, một khả năng suy luận nâng cao cung cấp hiệu suất cao hơn trên các điểm chuẩn thách thức. Chế độ này đạt 93,8% trên GPQA Diamond (so với 91,9% tiêu chuẩn), 41,0% trên Kỳ thi cuối cùng của loài người (so với 37,5%), và sẽ có sẵn cho người đăng ký AI Ultra trong những tuần tới.

Nền Tảng Antigravity Chuyển Đổi Lưu Trữ Phát Triển Của Nhà Phát Triển

Google đã ra mắt Antigravity, một nền tảng phát triển agentic được cung cấp bởi Gemini 3, cho phép các đại lý tự động hoạt động trên các trình soạn thảo mã, terminal và trình duyệt đồng thời. Nền tảng này là một bước chuyển từ sự hỗ trợ công cụ truyền thống sang các mô hình cộng tác nơi các đại lý xử lý các trách nhiệm phát triển đáng kể.

Antigravity tận dụng nhiều mô hình AI, bao gồm Gemini 3 Pro làm động cơ suy luận chính, Gemini 2.5 Computer Use để kiểm soát trình duyệt và Nano Banana (Gemini 2.5 Image) để chỉnh sửa hình ảnh. Các đại lý có thể lập kế hoạch và thực hiện các nhiệm vụ phát triển phức tạp một cách độc lập trong khi xác thực mã của họ trước khi trình bày kết quả.

Nền tảng này siêu tăng tốc “vibe coding“, nơi ngôn ngữ tự nhiên trở thành cú pháp chính. Các nhà phát triển có thể dịch các ý tưởng sáng tạo cấp cao thành các ứng dụng tương tác hoàn chỉnh với các lời nhắc đơn, mà không cần chỉ định chi tiết thực hiện. Chức năng này được hỗ trợ bởi điểm số phát triển web đặc biệt của Gemini 3.

Các đại lý trong Antigravity tự động quản lý việc xây dựng tính năng, lặp lại UI, sửa lỗi, nghiên cứu giải pháp và tạo báo cáo. Nền tảng này có sẵn để xem trước công khai miễn phí trên Mac, Windows và Linux, với hỗ trợ tích hợp cho Cursor, GitHub, JetBrains, Manus và Cline.

Tích Hợp Doanh Nghiệp và Tác Động Thị Trường

Gemini 3 Pro có sẵn cho người đăng ký Google AI Ultra và người dùng Gemini API trả phí. Mô hình này nhúng trực tiếp vào Google Search, đạt 2 tỷ người dùng AI Overviews hàng tháng của công ty, theo CEO Sundar Pichai. Các triển khai doanh nghiệp có thể truy cập mô hình này thông qua Google AI Studio và Vertex AI.

Ứng dụng Gemini đã nhận được các bản cập nhật với các giao diện mới và khả năng đại lý được cải thiện, được thiết kế đặc biệt cho Gemini 3. Những cải tiến này đặt Google vào vị trí cạnh tranh với các trợ lý AI khác trong khi tận dụng các kênh phân phối thống trị của công ty.

Chiến lược phát hành của Google tập trung vào việc áp dụng của nhà phát triển và triển khai doanh nghiệp, với giá cả và hiệu suất nhắm vào khách hàng doanh nghiệp. Sự kết hợp của các điểm chuẩn kỷ lục, khả năng mã hóa tự động và tích hợp hệ sinh thái rộng rãi cho thấy ý định của công ty trong việc duy trì vị trí cạnh tranh khi khả năng của mô hình AI hội tụ trên các nhà cung cấp chính.

Sự ra mắt này diễn ra khoảng 11 tháng sau Gemini 2.0, một sự nén đáng kể thời gian phát hành của Google khi cạnh tranh trong ngành AI trở nên gay gắt.

Alex McFarland là một nhà báo và nhà văn về trí tuệ nhân tạo, khám phá những phát triển mới nhất trong lĩnh vực trí tuệ nhân tạo. Ông đã hợp tác với nhiều công ty khởi nghiệp và xuất bản về trí tuệ nhân tạo trên toàn thế giới.