Trí tuệ nhân tạo
OpenAI và Anthropic Phát Hành Mô Hình Đấu Trường Khi Cuộc Đua Vũ Trang AI Tăng Cường

OpenAI và Anthropic đã phát hành các mô hình hàng đầu mới trong vòng vài phút sau khi nhau hôm nay, trong khi OpenAI đồng thời ra mắt một nền tảng đại lý doanh nghiệp và Perplexity giới thiệu một tính năng nghiên cứu đa mô hình. Hôm nay đã mang lại nhiều thông báo sản phẩm AI quan trọng hơn trong một buổi chiều so với hầu hết tuần sản xuất tổng thể.
Đây là những gì đã được vận chuyển và ý nghĩa của nó.
Anthropic’s Opus 4.6: Đội Đánh và Cửa Sổ Một Triệu Token
Anthropic phát hành Claude Opus 4.6, mô hình có khả năng nhất của họ, với hai tính năng nổi bật: cửa sổ ngữ cảnh một triệu token và một khả năng mới gọi là Đội Đánh.
Cửa sổ ngữ cảnh là thành tựu kỹ thuật lớn hơn. Ở một triệu token, Opus 4.6 có thể xử lý khoảng 3.000 trang văn bản trong một lời nhắc duy nhất – bốn lần giới hạn 256.000 token của người tiền nhiệm. Kết hợp với hỗ trợ đầu ra 128.000 token, mô hình hiện có thể tiêu thụ và làm việc với toàn bộ cơ sở mã, hồ sơ pháp lý hoặc tập đoàn nghiên cứu mà không cần chia nhỏ hoặc tóm tắt.
Đội Đánh, có sẵn trong Claude Code, cho phép nhiều thể hiện Claude làm việc song song trên một cơ sở mã chung. Thay vì một đại lý duy nhất thực hiện các nhiệm vụ tuần tự, các nhà phát triển có thể tạo ra các đội nơi một đại lý xử lý các thay đổi phía trước, một đại lý khác viết các thử nghiệm và một đại lý thứ ba tái cấu trúc logic phía sau – tất cả đều phối hợp trên cùng một dự án đồng thời.
Opus 4.6 cũng giới thiệu tư duy thích ứng, cho phép mô hình hiệu chỉnh mức độ nỗ lực tư duy để đầu tư vào một lời nhắc nhất định. Các câu hỏi đơn giản nhận được phản hồi nhanh; các vấn đề phức tạp kích hoạt tư duy sâu hơn. Các nhà phát triển có thể điều chỉnh điều này thông qua các điều khiển nỗ lực trên bốn cấp độ: thấp, trung bình, cao và tối đa.
Trên các điểm chuẩn, Opus 4.6 đạt điểm cao nhất trên Terminal-Bench 2.0 cho mã hóa đại lý và dẫn đầu Kỳ thi cuối cùng của loài người, một đánh giá lý luận phức tạp. Anthropic tuyên bố có lợi thế 144 điểm Elo so với GPT-5.2 trên đánh giá GDPval-AA và cải thiện 190 điểm so với Opus 4.5.
Giá API vẫn không thay đổi ở mức 5 đô la mỗi triệu token đầu vào và 25 đô la mỗi triệu token đầu ra, mặc dù các lời nhắc vượt quá 200.000 token sẽ có mức giá cao cấp là 10/37,50 đô la.
Trong một động thái doanh nghiệp đáng chú ý, Anthropic đã công bố bản xem trước nghiên cứu của Claude trong Microsoft PowerPoint, nơi mô hình có thể đọc các bố cục và mẫu trình bày hiện có và tạo hoặc chỉnh sửa trình bày trong khi vẫn giữ nguyên định dạng thương hiệu.
Mô Hình GPT-5.3-Codex Của OpenAI: Mô Hình Giúp Xây Dựng Nó
Vài phút sau thông báo của Anthropic, OpenAI ra mắt GPT-5.3-Codex, mô hình mã hóa có khả năng nhất của họ. Phát hành này thống nhất hiệu suất mã hóa tiên phong của GPT-5.2-Codex với khả năng lý luận và kiến thức chuyên nghiệp của GPT-5.2 thành một hệ thống duy nhất cũng nhanh hơn 25%.
Tuyên bố đáng chú ý nhất: GPT-5.3-Codex đã giúp xây dựng chính nó. Đội Codex của OpenAI đã sử dụng các phiên bản đầu tiên của mô hình trong quá trình đào tạo của chính nó – gỡ lỗi các lần chạy đào tạo, quản lý cơ sở hạ tầng triển khai và chẩn đoán kết quả đánh giá. Đây là sự công nhận công khai đầu tiên của OpenAI rằng một mô hình đã đóng vai trò quan trọng trong sự phát triển của chính nó, một cột mốc đặt ra cả vấn đề hiệu quả và an toàn.
GPT-5.3-Codex thiết lập các điểm chuẩn cao nhất trong ngành trên SWE-Bench Pro và Terminal-Bench, các điểm chuẩn đánh giá các nhiệm vụ kỹ thuật phần mềm thực tế. Mô hình có thể xử lý các nhiệm vụ dài chạy liên quan đến nghiên cứu, sử dụng công cụ và thực hiện phức tạp, và người dùng có thể tương tác với nó giữa các nhiệm vụ mà không mất ngữ cảnh – giống như cộng tác với một đồng nghiệp hơn là đưa ra lệnh.
Mô hình này hiện có sẵn cho tất cả người dùng kế hoạch trả phí của ChatGPT thông qua ứng dụng Codex, CLI, tiện ích mở rộng IDE và giao diện web. Truy cập API sắp có sẵn.
Đối với các nhà phát triển chọn giữa trình tạo mã AI, hình ảnh cạnh tranh hiện đã rõ ràng: Opus 4.6 dẫn đầu về phối hợp đại lý và công việc ngữ cảnh dài, trong khi GPT-5.3-Codex nhấn mạnh tốc độ và lý luận tích hợp. Cả hai đều tuyên bố đạt điểm cao nhất trên các điểm chuẩn trùng lặp, và các công cụ như Cursor và Xcode của Apple hỗ trợ cả hai, vì vậy các nhà phát triển có thể chuyển đổi tự do.
OpenAI Frontier: Đại Lý Doanh Nghiệp Được Cấp Nền Tảng Riêng
Cùng với việc ra mắt mô hình, OpenAI giới thiệu Frontier, một nền tảng doanh nghiệp để xây dựng, triển khai và quản lý các đại lý AI. Frontier kết nối với cơ sở dữ liệu, hệ thống CRM, nền tảng HR, công cụ vé và các ứng dụng kinh doanh khác, sau đó cho phép các đại lý AI thực hiện các quy trình trên chúng.
OpenAI mô tả Frontier như một “lớp ngữ nghĩa cho doanh nghiệp” nơi nhân viên và đại lý AI hoạt động trên cùng một nền tảng với quyền truy cập dữ liệu và kiểm soát bảo mật chung. Các đại lý nhận được danh tính giống như nhân viên, ngữ cảnh tổ chức chung và quyền của doanh nghiệp.
Nền tảng này không phụ thuộc vào mô hình – các công ty có thể quản lý các đại lý được xây dựng trên các mô hình của OpenAI cùng với những mô hình từ Google, Microsoft và Anthropic. Khách hàng ban đầu bao gồm Intuit, State Farm, Thermo Fisher và Uber.
Frontier đặt OpenAI vào vị trí cạnh tranh trực tiếp với các nền tảng doanh nghiệp như Agentforce của Salesforce và các đại lý AI của ServiceNow. Sự khác biệt: OpenAI đang xây dựng từ lớp mô hình lên, trong khi các công ty đã thành lập đang thêm AI vào các công cụ làm việc hiện có. Liệu các doanh nghiệp có thích cơ sở hạ tầng đại lý của họ từ nhà cung cấp AI hay nhà cung cấp phần mềm của họ sẽ định nghĩa cạnh tranh AI doanh nghiệp vào năm 2026.
Hội Đồng Mô Hình Của Perplexity: Ba Mô Hình, Một Câu Trả Lời
Perplexity ra mắt Model Council, một tính năng chạy cùng một truy vấn trên三个 mô hình đồng thời – Claude Opus, GPT và Gemini – sau đó sử dụng một mô hình tổng hợp để hòa giải đầu ra của chúng thành một câu trả lời duy nhất mà đánh dấu các khu vực đồng ý và không đồng ý.

Hình ảnh: Perplexity
Giả định là không có mô hình duy nhất nào đáng tin cậy nhất trên tất cả các truy vấn. Khi ba mô hình tiên phong hội tụ trên cùng một câu trả lời, sự tự tin là cao. Khi chúng phân kỳ, người dùng biết cần điều tra thêm. Model Council có sẵn cho người đăng ký Max và được định vị cho nghiên cứu đầu tư, phân tích chiến lược và ra quyết định phức tạp.
Tính năng này phản ánh chiến lược của Perplexity trong việc khác biệt hóa thông qua việc dàn xếp đa mô hình thay vì xây dựng các mô hình cơ sở. Khi khoảng cách giữa các mô hình AI tiên phong thu hẹp trên các điểm chuẩn cá nhân, việc tổng hợp đầu ra của chúng có thể chứng minh được giá trị hơn là chọn một nhà cung cấp duy nhất.
Điều Tất Cả Có Nghĩa Là Gì
Những phát hành này xác nhận rằng cuộc cạnh tranh AI đã chuyển từ khả năng mô hình sang cơ sở hạ tầng sản phẩm. Cả OpenAI và Anthropic đều có các mô hình đứng đầu cùng một điểm chuẩn; sự khác biệt bây giờ nằm trong những gì bạn có thể xây dựng trên chúng.
Perplexity, trong khi đó, đang đưa ra một lập luận im lặng rằng cuộc chiến mô hình có thể ít quan trọng hơn cách bạn kết hợp các mô hình. Nếu Model Council chứng minh hữu ích, nó cho thấy tương lai không phải là chọn giữa Claude và GPT – mà là sử dụng cả hai.
Đối với các nhà phát triển và doanh nghiệp đánh giá ngăn xếp AI của họ, điều này vừa làm cho quyết định trở nên khó khăn hơn.












