Connect with us

Lãnh đạo tư tưởng

Cuộc tranh luận “Nerfing” của Claude không phải về Claude. Nó là về những gì xảy ra khi các hoạt động của bạn chạy trên quyết định của người khác.

mm
A series of glowing hexagonal glass modules containing microchips in a dark server room; one module on the left is cracked and glowing blue, while others remain intact and glowing amber, connected by flowing data cables.

Đầu năm nay, Stella Laurenzo, Giám đốc cấp cao về Trí tuệ nhân tạo tại AMD, đã xuất bản dữ liệu đo từ gần 7.000 phiên họp Claude Code, ghi lại điều mà các kỹ sư đã cảm nhận nhưng khó diễn đạt: giữa tháng 1 và tháng 3, độ sâu lý lẽ nhìn thấy giảm 73%, số lượng cuộc gọi API trên mỗi nhiệm vụ tăng gấp 80 lần, và mô hình đọc ít tệp hơn trước khi thực hiện chỉnh sửa. Những con số này lan truyền nhanh chóng. Việc giải thích lan truyền nhanh hơn.

Anthropic phản bác cách đặt vấn đề. Công ty cho biết những thay đổi này phản ánh quyết định sản phẩm có chủ ý, bao gồm một cơ chế suy nghĩ thích ứng mới và chuyển sang nỗ lực trung bình là mặc định. Các nhà phân tích độc lập cũng đã phản đối một số phần của phương pháp luận. Cuộc tranh luận vẫn đang diễn ra, và những người hợp lý không đồng ý về những gì thực sự đã xảy ra.

Nhưng đây là phần quan trọng nếu bạn đang chạy một doanh nghiệp trên các hệ thống này: cho dù đó là sự suy giảm hay điều chỉnh có chủ ý không thay đổi những gì các nhà vận hành doanh nghiệp đã trải qua. Họ không thể dự đoán nó. Họ không thể kiểm soát nó. Và một số trong số họ cảm nhận được nó trong sản xuất trước khi họ hiểu những gì đang xảy ra. Đó là câu chuyện thực sự, và nó không liên quan đến Anthropic cụ thể.

Đây là một vấn đề về sự phụ thuộc, không phải là vấn đề về mô hình.

Những gì chúng tôi đang mô tả có một tên: sự mong manh của mô hình. Đó là tình trạng mà các hoạt động quan trọng của nhiệm vụ được gắn chặt với hành vi của một mô hình duy nhất, để bất kỳ thay đổi nào tại lớp mô hình, cho dù là quyết định điều chỉnh, mặc định mới, thay đổi định tuyến do công suất hoặc loại bỏ im lặng, sẽ ảnh hưởng trực tiếp đến doanh nghiệp, không có bộ đệm và không có cảnh báo.

Đây không phải là một mẫu mới. GPT-4 đã trải qua một phiên bản của nó vào năm 2023. Claude 3.5 đã trải qua một phiên bản vào năm 2024. Claude Opus đang trải qua một phiên bản bây giờ. Nó sẽ xảy ra lại với mô hình tiền phong tiếp theo, và mô hình tiếp theo sau đó. Không phải vì bất kỳ nhà cung cấp nào đang hành động trong niềm tin xấu, mà vì tối ưu hóa mô hình tiền phong cho chi phí, độ trễ và quy mô ở khối lượng toàn cầu là chính xác những gì các nhà cung cấp tiền phong phải làm. Các động lực và động lực của một doanh nghiệp đang chạy các hoạt động sản xuất trên chúng là liên quan. Chúng không phải là giống hệt. Chúng không bao giờ sẽ là như vậy.

Chúng tôi bắt đầu Qurrent vào năm 2023 và có kiến thức lịch sử để biết chu kỳ phần mềm doanh nghiệp diễn ra như thế nào: Một công ty đầu tư vào Trí tuệ nhân tạo. Demo hoạt động. Phiên bản thử nghiệm hoạt động. Sau đó nó đi trực tiếp, điều gì đó thay đổi tại lớp mô hình, và đột nhiên khách hàng sở hữu vấn đề. Họ là những người duy trì các quy trình làm việc, theo đuổi các hồi quy, hấp thụ sự gián đoạn. Điều đó không bao giờ có ý nghĩa với tôi như một mô hình bền vững cho các hoạt động doanh nghiệp.

Phiên bản doanh nghiệp của câu chuyện này là hoạt động, không phải là kỹ thuật.

Đối với các nhà phát triển, tình hình hiện tại là không tiện lợi. Ngân sách token bị cháy nhanh hơn. Các phiên họp mã hóa bị đình trệ. Các điểm chuẩn thất vọng. Đó là một vấn đề thực sự, nhưng nó là một vấn đề có thể phục hồi.

Đối với các doanh nghiệp đang chạy các hoạt động tài chính, các quy trình tuân thủ, tài khoản phải thu và phải trả, và các quy trình văn phòng phức tạp, các ставки là khác nhau. Các quy trình làm việc này không thể hấp thụ một tuần tồi tệ. Các lỗi tích lũy. Khối lượng tích lũy. SLA là các cam kết với khách hàng thực sự, không phải là sở thích nội bộ. Khoảnh khắc một mô hình bắt đầu hoạt động kém trên một quy trình quan trọng, thiệt hại đang tích lũy cho dù ai đó đã nhận thấy nó hay chưa.

Điều làm cho điều này khó khăn hơn là hầu hết các công ty đã cố gắng vượt lên trên Trí tuệ nhân tạo bằng cách xây dựng các tác nhân nội bộ trên một mô hình duy nhất hiện đang phát hiện ra nền tảng đó là không đầy đủ. Tác nhân đầu tiên là phần dễ dàng. Điều không được xây dựng là cơ sở hạ tầng xung quanh: các khung đánh giá phát hiện sự trôi dạt hành vi trước khi nó đến với khách hàng, logic chuyển đổi tự động khi mô hình bắt đầu hoạt động kém, và quản trị liên tục có khả năng theo kịp với một cảnh quan thay đổi mỗi quý. Ba khoảng trống này không còn quản lý được. Chúng phát triển thành một chức năng kỹ thuật vĩnh viễn mà không ai dự toán cho, được nhân viên bởi những người có công việc cơ bản là theo dõi các quyết định được thực hiện bởi các nhà cung cấp mà họ không có ảnh hưởng.

Điều gì thực sự trông như sự bền vững trong sản xuất.

Tại Qurrent, chúng tôi xây dựng lực lượng lao động kỹ thuật số để trở nên không phụ thuộc vào mô hình từ đầu, không phải là một vị trí tiếp thị mà là một yêu cầu kiến trúc. Mỗi nhiệm vụ được định tuyến đến mô hình hoạt động tốt nhất cho nhiệm vụ đó, được đánh giá liên tục. Khi một mô hình tốt hơn được giao, khách hàng sẽ nhận được nó tự động. Khi một mô hình hiện tại suy giảm trên một quy trình làm việc cụ thể, lớp điều phối định tuyến công việc đó trong vài giây, mà không cần can thiệp của con người và mà không ai thức dậy để đọc một chuỗi Slack vào lúc 2 giờ sáng.

Dưới đó, các mô phỏng tự động chạy chống lại các quy trình làm việc sản xuất quanh đồng hồ, đo lường xem đầu ra có khớp với hành vi dự kiến hay không. Sự trôi dạt được phát hiện tại lớp cơ sở hạ tầng, trước khi nhóm hoạt động cảm nhận được nó và lâu trước khi khách hàng làm như vậy. Và mọi quyết định được thực hiện bởi mỗi công nhân kỹ thuật số được ghi nhật ký và có thể xem lại, một hộp thủy tinh đầy đủ, bởi vì bạn không thể quản trị những gì bạn không thể thấy.

Những điều này không phải là các tính năng cao cấp. Chúng là giá vé để chạy Trí tuệ nhân tạo trong sản xuất ở quy mô doanh nghiệp. Hầu hết các công ty đang học rằng trong giữa một chu kỳ tin tức, điều đó là cách tốn kém để tìm ra.

Câu hỏi đáng được hỏi trong quý này.

Nếu mô hình mà các hoạt động của bạn phụ thuộc vào nhiều nhất có một tuần tồi tệ vào quý tiếp theo, bao nhiêu quy trình làm việc của bạn sẽ cảm nhận được nó? Làm thế nào bạn sẽ biết? Và bạn có thể định tuyến xung quanh nó nhanh như thế nào?

Nếu câu trả lời cho câu hỏi thứ hai là “chúng tôi sẽ nghe từ một khách hàng”, thì hoạt động không sẵn sàng cho sản xuất. Nó là một phiên bản thử nghiệm đang chạy ở quy mô, và sự khác biệt này quan trọng hơn hầu hết các nhà lãnh đạo nhận ra cho đến khi nó không còn quan trọng.

Cuộc tranh luận hiện tại, theo một cách gián tiếp, là hữu ích. Mỗi CFO và COO đang theo dõi sự việc này vừa nhận được một bản xem trước miễn phí về những gì sự mong manh của mô hình trông như thế nào dưới tải hoạt động thực sự, mà không phải trả tiền cho nó mình.

Phản ứng đúng đắn không phải là chuyển sang mô hình khác. Đó là xây dựng các hoạt động không phụ thuộc vào bất kỳ mô hình duy nhất nào.

Công nghệ sẽ tiếp tục thay đổi. Đó là sự chắc chắn duy nhất trong thị trường này. Các doanh nghiệp sẽ thoát ra khỏi thập kỷ này mạnh mẽ nhất sẽ không phải là những người đã chọn mô hình đúng. Họ sẽ là những người mà các hoạt động của họ không bao giờ phải quan tâm.

Colin Wiel, CEO và Đồng sáng lập của Qurrent, là một doanh nhân giàu kinh nghiệm đã làm việc sâu sắc với AI từ những năm 1990. Các dự án trước đây của Colin bao gồm Mynd, một nền tảng công nghệ cho đầu tư cho thuê nhà riêng lẻ được đặt tên là công ty phát triển nhanh nhất tại Bay Area vào năm 2020, và Waypoint Homes, đã huy động hơn 3,5 tỷ đô la và quản lý 17.000 ngôi nhà trước khi niêm yết trên NYSE vào năm 2014. Được công nhận vì những đổi mới trong AI, Colin nắm giữ nhiều bằng sáng chế, giành được một vị trí trong danh sách 100 Doanh nhân Đổi mới nhất của Goldman Sachs và được vinh danh là Doanh nhân của Năm của Ernst & Young.