Kết nối với chúng tôi

Anthropic ra mắt Claude Opus 4.1, phá vỡ các chuẩn mực mã hóa

Thông báo

Anthropic ra mắt Claude Opus 4.1, phá vỡ các chuẩn mực mã hóa

Anthropic đã ra mắt Claude Opus 4.1 ngày nay, phiên bản nâng cấp của mô hình AI chủ lực đạt độ chính xác 74.5% đối với các tác vụ mã hóa trong thế giới thực, lập kỷ lục chuẩn mực mới trong khi vẫn giữ nguyên mức giá như phiên bản tiền nhiệm.

Bản cập nhật là một động thái chiến lược như ngành công nghiệp AI dự đoán Bản phát hành GPT-5 của OpenAIAnthropic định vị mô hình mới nhất của mình như một giải pháp thay thế cạnh tranh, vượt trội trong các thử thách lập trình phức tạp và hoàn thành nhiệm vụ tự động. Công ty hứa hẹn "những cải tiến lớn hơn đáng kể" trong những tuần tới, báo hiệu sự cạnh tranh ngày càng gay gắt giữa các nhà phát triển AI hàng đầu.

Cải tiến hiệu suất chính

Theo thông báo của Anthropic, Claude Opus 4.1 cải thiện hiệu suất của phiên bản tiền nhiệm ở ba lĩnh vực chính: nhiệm vụ tác nhân đòi hỏi suy luận nhiều bước, ứng dụng mã hóa thực tế và khả năng suy luận phân tích.

Mô hình đạt được 74.5% trên Điểm chuẩn đã được xác minh của SWE-bench, đo lường khả năng của AI trong việc xác định và sửa lỗi thực tế trong phần mềm nguồn mở—vượt qua điểm số Claude Opus 4 trước đó là 72.5% và vượt trội hơn các mô hình o-series của OpenAI khoảng năm phần trăm.

GitHub ghi nhận những tiến bộ đặc biệt mạnh mẽ trong khả năng tái cấu trúc mã đa tệp, trong khi Rakuten Group nhấn mạnh độ chính xác của mô hình trong việc xác định các bản sửa lỗi trong cơ sở mã lớn mà không gây ra lỗi mới. Lướt ván, một công ty khởi nghiệp về lập trình, đã báo cáo rằng Opus 4.1 đã cải thiện một độ lệch chuẩn so với Opus 4 trong tiêu chuẩn dành cho nhà phát triển mới vào nghề của họ, so sánh bước nhảy vọt về hiệu suất với bước nhảy vọt trước đó từ Sonnet 3.7 lên Sonnet 4.

Tính sẵn có và tích hợp

Phiên bản nâng cấp có sẵn ngay cho người dùng Claude trả phí thông qua giao diện web và Claude Code, cũng như thông qua API của Anthropic, Amazon Bedrock và Vertex AI của Google Cloud. Các nhà phát triển có thể truy cập mô hình mới bằng thẻ API mà không tăng giá so với phiên bản trước, duy trì cơ cấu giá điều đó đã giúp Claude có sức cạnh tranh trên thị trường doanh nghiệp.

Ngoài kỹ thuật phần mềm, Claude Opus 4.1 còn chứng minh khả năng nâng cao trong phân tích dữ liệu và các nhiệm vụ nghiên cứu. Anthropic đặc biệt nhấn mạnh những cải tiến trong "theo dõi chi tiết và tìm kiếm tác nhân", đề cập đến khả năng duy trì ngữ cảnh của mô hình trong các hoạt động phức tạp, nhiều bước - một tính năng quan trọng đối với ứng dụng doanh nghiệp đòi hỏi khả năng tự giải quyết vấn đề.

Bối cảnh ngành và cạnh tranh

Thời điểm phát hành có vẻ được cân nhắc kỹ lưỡng, vì các báo cáo trong ngành cho thấy OpenAI có kế hoạch ra mắt GPT-5 trong tương lai gần. Theo Thông tinGPT-5 dự kiến sẽ tập trung vào các lĩnh vực tương tự—lập trình, toán học và các tác vụ dựa trên tác nhân—mặc dù các nhà phân tích dự đoán những cải tiến có thể chỉ mang tính gia tăng chứ không mang tính cách mạng.

Việc lặp lại nhanh chóng các mô hình Claude—với bản cập nhật này diễn ra chỉ ba tháng sau khi dòng Claude 4 ra mắt vào tháng XNUMX—phản ánh tốc độ phát triển AI ngày càng nhanh chóng khi các công ty cạnh tranh giành vị thế trên thị trường trong lĩnh vực công cụ dành cho doanh nghiệp và nhà phát triển. Điều này tiếp nối lịch sử định vị của Anthropic như một giải pháp thay thế tập trung vào an toàn cho OpenAI trong khi vẫn duy trì các chỉ số hiệu suất cạnh tranh.

Chi tiết kỹ thuật và triển khai

thẻ hệ thống Claude Opus 4.1 cho thấy đây là một mô hình lý luận lai, có khả năng hoạt động với hoặc không có chế độ tư duy mở rộng. Đối với các phép đo chuẩn như SWE-bench Verified và Terminal-Bench, mô hình đạt được kết quả mà không cần tư duy mở rộng, trong khi các phép đo chuẩn khác như GPQA Diamond và MMMU sử dụng tới 64 token khả năng tư duy mở rộng.

Mô hình tiếp tục sử dụng cùng một nền tảng đơn giản cho thử nghiệm SWE-bench mà Anthropic đã sử dụng trên toàn bộ dòng Claude 4—trang bị cho mô hình chỉ một công cụ bash và một công cụ chỉnh sửa tệp hoạt động thông qua việc thay thế chuỗi. Cách tiếp cận tối giản này trái ngược với các triển khai phức tạp hơn, nhưng vẫn đạt được kết quả hàng đầu trong ngành.

Nhìn về phía trước

Anthropic khuyến nghị tất cả người dùng Opus 4 hiện tại nâng cấp lên phiên bản mới cho mọi trường hợp sử dụng. Công ty đã cung cấp tài liệu hướng dẫn toàn diện bao gồm trang mô hình và thông số kỹ thuật dành cho các nhà phát triển quan tâm đến việc triển khai công nghệ.

Với việc cả Anthropic và OpenAI đều chuẩn bị phát hành các bản phát hành quan trọng, những tuần tới có thể đóng vai trò then chốt trong việc xác định vị trí dẫn đầu trong thế hệ năng lực AI tiếp theo. Các mô hình AI ngày càng trở nên tinh vi về khả năng lập luận và lập trình, sự cạnh tranh đang chuyển từ các số liệu hiệu suất thô sang việc triển khai thực tế và độ tin cậy trong môi trường sản xuất.

Câu hỏi thường gặp (Claude Opus 4.1)

Claude Opus 4.1 cải thiện nhiệm vụ lập trình và suy luận như thế nào so với các phiên bản trước?

Claude Opus 4.1 đạt 74.5% trên SWE-bench Verified (tăng từ 72.5% trong Opus 4), với những cải tiến đáng chú ý trong việc tái cấu trúc mã nhiều tệp, theo dõi chi tiết trong cơ sở mã phức tạp và khả năng tìm kiếm tác nhân cho phép xử lý các tác vụ suy luận nhiều bước hiệu quả hơn.

Những ứng dụng thực tế quan trọng của Claude Opus 4.1 trong mã hóa và tác nhân AI là gì?

Mô hình này có khả năng gỡ lỗi các cơ sở mã lớn mà không gây ra lỗi mới, tái cấu trúc mã tự động trên nhiều tệp, phân tích dữ liệu chuyên sâu và các nhiệm vụ nghiên cứu đòi hỏi bối cảnh liên tục, khiến nó trở nên lý tưởng cho phát triển phần mềm doanh nghiệp và tối ưu hóa quy trình làm việc tự động.

Hiệu suất của Claude Opus 4.1 trên SWE-bench phản ánh khả năng lập trình của nó như thế nào?

SWE-bench Verified đo lường khả năng của AI trong việc xác định và sửa lỗi thực tế trong phần mềm nguồn mở và điểm số 4.1% của Claude Opus 74.5 thể hiện hiệu suất cao nhất được báo cáo công khai, vượt trội hơn các mô hình o-series của OpenAI khoảng năm phần trăm.

Sự khác biệt chính giữa Claude Opus 4.1 và các mô hình AI khác như GitHub Copilot hoặc ChatGPT là gì?

Không giống như GitHub Copilot tập trung vào hoàn thiện mã, Claude Opus 4.1 xử lý toàn bộ quy trình giải quyết vấn đề bao gồm gỡ lỗi và tái cấu trúc, đồng thời cung cấp các chế độ suy luận kết hợp có thể chuyển đổi giữa phản hồi nhanh và tư duy mở rộng cho các tác vụ phức tạp—một khả năng không có trong các triển khai ChatGPT tiêu chuẩn.

Các nhà phát triển và doanh nghiệp có thể tích hợp Claude Opus 4.1 vào quy trình làm việc và nền tảng của họ như thế nào?

Các nhà phát triển có thể truy cập Claude Opus 4.1 thông qua API bằng cách sử dụng thẻ “claude-opus-4-1-20250805”, thông qua Amazon Bedrock, Google Cloud Vertex AI hoặc thông qua Claude Code để tích hợp dòng lệnh, với cùng mức giá như Opus 4 và không cần thay đổi mã cho các triển khai hiện có.

Alex McFarland là một nhà báo và nhà văn về AI đang khám phá những phát triển mới nhất về trí tuệ nhân tạo. Anh ấy đã cộng tác với nhiều công ty khởi nghiệp và ấn phẩm về AI trên toàn thế giới.