Trí tuệ nhân tạo

Những thay đổi của Opus 4.8 đối với bất kỳ ai chạy Trợ lý trên Claude

mm

Anthropic đã phát hành Opus 4.8 vào ngày 28 tháng 5 năm 2026, chỉ hơn sáu tuần sau khi Opus 4.7. Đó là một sự quay lại nhanh chóng, nhanh hơn so với dòng Sonnet và Haiku đã thấy, và các số liệu điểm chuẩn đã tăng lên như chúng làm mọi lần phát hành. Nếu bạn đọc báo chí AI, đó là câu chuyện. Mô hình mới, điểm số cao hơn, sang mô hình tiếp theo.

Đó là một câu chuyện sai.

Khi bạn đã xây dựng công việc của mình trên Claude, việc phát hành mô hình không còn là tin tức bạn đọc mà trở thành một bản nâng cấp nằm trong hệ thống bạn đã xây dựng. Câu hỏi không phải là Opus 4.8 ghi được bao nhiêu điểm. Đó là nó thay đổi công việc đang chạy như thế nào. Đó là một câu hỏi khác, và hầu hết các bài báo không đặt câu hỏi đó.

Hai điều trong bản phát hành này thay đổi công việc đó. Không điều nào trong số đó là điểm chuẩn.

Mô hình đã học cách đánh dấu những gì nó không biết

Trong ghi chú phát hành, những người thử nghiệm sớm của Anthropic đã tìm thấy Opus 4.8 “có nhiều khả năng đánh dấu những điều không chắc chắn về công việc của nó và ít có khả năng đưa ra những tuyên bố không được hỗ trợ.” Một người thử nghiệm từ Bridgewater, được trích dẫn trong bài báo, cho biết sự khác biệt lớn nhất là mô hình chủ động đánh dấu các vấn đề với đầu vào và đầu ra của phân tích, “một điều mà các mô hình khác thường bỏ qua và để người dùng bắt gặp.”

Đọc nó như một người vận hành và đó là dòng quan trọng nhất trong bài đăng.

Đây là lý do. Điều làm hỏng một đường ống tự động không phải là một mô hình sai. Đó là một mô hình tự tin sai và không nói như vậy. Hãy tưởng tượng một tác nhân kéo tin tức, soạn thảo một bài viết và kiểm tra các sự kiện của nó mà không có người giám sát các bước trung gian. Mỗi tuyên bố không được hỗ trợ mà mô hình đưa ra mà không đánh dấu nó là một tuyên bố phải được bắt ở hạ lưu, hoặc một tuyên bố được gửi. Một mô hình giơ tay và nói “đầu vào này trông có vẻ không ổn” đáng giá hơn hai điểm trên điểm chuẩn mã hóa sẽ bao giờ.

Đó là nguyên tắc mà mọi thứ hoạt động: các công cụ trở nên tốt hơn, hệ thống của bạn trở nên tốt hơn. Nhưng chỉ khi bạn đang theo dõi sự cải thiện đúng. Hầu hết các bài báo đánh giá Opus 4.8 về khả năng thô. Những người chạy nó không có giám sát nên đánh giá nó về việc nó biết những gì nó không biết, và về điều đó, bản phát hành này đã di chuyển.

Dynamic Workflows biến các đàn subagent thành một nguyên thủy thực sự

Cùng với mô hình, Anthropic đã phát hành Dynamic Workflows trong bản xem trước nghiên cứu, một hệ thống để phối hợp các nhiệm vụ phức tạp trên hàng trăm subagent song song trong Claude Code. Ví dụ họ dẫn đầu: di chuyển cơ sở mã trên quy mô cơ sở mã trên hàng trăm nghìn dòng mã, từ khởi động đến hợp nhất, với bộ thử nghiệm hiện có làm thanh tiêu chuẩn.

Bất kỳ ai đã cố gắng điều phối subagent bằng tay đều biết tại sao điều này lại quan trọng. Hình dạng luôn giống nhau: một trình điều phối mà chuyển giao cho một tác nhân chọn, một tác giả, một người kiểm tra sự kiện. Nó hoạt động, nhưng nó đòi hỏi phải có kỹ sư thực sự để làm cho việc chuyển giao đáng tin cậy, và mỗi đường ống mới có nghĩa là phải nối lại logic điều phối từ đầu.

Dynamic Workflows kéo việc điều phối vào chính nền tảng. Đó là sự thay đổi. Khi lớp điều phối trở thành một nguyên thủy thay vì một bản xây dựng tùy chỉnh, những người vận hành đã nghĩ về các tác nhân thay vì các cuộc trò chuyện có thể bỏ qua phần khó khăn. Những người được giúp đỡ nhiều nhất không phải là những người bắt đầu hôm nay. Họ là những người đã xây dựng đàn bằng tay và bây giờ có thể vứt bỏ khung đỡ.

Có một điều đáng chú ý. Đó là một bản xem trước nghiên cứu, vì vậy nó còn sớm, và Anthropic vẫn đang giữ lại mô hình Mythos tiên tiến nhất của mình vì lo ngại về an ninh mạng. Việc điều phối hàng trăm subagent tự chủ là chính xác khả năng mạnh mẽ và một chút nguy hiểm trong cùng một hơi thở. “Có sẵn trong bản xem trước nghiên cứu” là Anthropic nói với bạn để kiểm tra trước khi bạn đặt cược sản xuất vào nó. Đó là bản năng đúng. Hãy làm điều đó.

Mẫu dưới bản phát hành

Lùi lại từ số phiên bản và nhìn vào hướng. Các bản phát hành Opus gần đây đã đi, một cách có chủ ý, đến các tác nhân chạy lâu hơn, phối hợp rộng hơn và cần ít giám sát hơn. Tự đánh dấu và một lớp điều phối thực sự là hai bước mới nhất trên con đường đó.

Nếu bạn đang xây dựng trên đó, sự kết hợp là toàn bộ trò chơi. Mỗi khả năng mà hạ cánh là một điều ít hơn mà bạn phải xây dựng xung quanh. Người vận hành đã xây dựng kiểm tra không chắc chắn vào đường ống của họ bằng tay tháng trước sẽ nhận được một phiên bản của nó miễn phí tháng này và di chuyển lên một cấp độ. Người đã xây dựng điều phối subagent sẽ có thể xóa nó. Đó là đòn bẩy kết hợp thông qua một hệ thống bạn đã sở hữu: mô hình được cải thiện, và mọi thứ bạn xếp chồng lên nó được cải thiện với nó.

Hầu hết mọi người sẽ đọc “Opus 4.8” như một số tăng lên. Những người chạy các hoạt động thực sự trên Claude nên đọc nó như nền tảng làm nhiều công việc hơn cho họ. Đó chỉ là điều xảy ra khi bạn cam kết với một hệ thống đủ lâu để các cải thiện hạ cánh lên nhau, thay vì bắt đầu lại mỗi khi lĩnh vực di chuyển.

Alex McFarland là một nhà báo và nhà văn về trí tuệ nhân tạo, khám phá những phát triển mới nhất trong lĩnh vực trí tuệ nhân tạo. Ông đã hợp tác với nhiều công ty khởi nghiệp và xuất bản về trí tuệ nhân tạo trên toàn thế giới.