Phỏng vấn
Nikunj Bajaj, Đồng sáng lập và CEO của TrueFoundry – Loạt phỏng vấn

Bạn đã làm việc trên nghiên cứu học máy, sản xuất AI tại Facebook và các hệ thống đề xuất quy mô lớn trước khi thành lập TrueFoundry — những kinh nghiệm nào đã trực tiếp thúc đẩy bạn xây dựng một công ty cơ sở hạ tầng AI doanh nghiệp, và những khó khăn nào bạn cảm thấy không được giải quyết tại thời điểm đó?
Tại Meta, chúng tôi xem học máy như một trường hợp đặc biệt của phần mềm, và GenAI như một trường hợp đặc biệt của học máy, dẫn đến một ngăn xếp dọc với phần mềm ở dưới cùng, học máy ở giữa và GenAI ở trên cùng. Trong thiết lập này, nếu tôi là một nhà phát triển học máy, các mô hình tôi xây dựng sẽ theo cùng một mẫu triển khai như phần còn lại của phần mềm, điều này làm cho việc mở rộng hệ thống trở nên rất đơn giản.
Tuy nhiên, hầu hết các doanh nghiệp đều triển khai các ngăn xếp song song, có nghĩa là họ có các ngăn xếp riêng biệt cho phần mềm, học máy và GenAI. Khi bạn có những ngăn xếp song song, việc mở rộng trở nên phức tạp hơn do các giao tiếp cần thiết giữa học máy và thế giới phần mềm.
Đội ngũ của chúng tôi đã luôn làm việc tại giao điểm của việc xây dựng các mô hình học máy và cơ sở hạ tầng học máy, vì vậy chúng tôi có một quan điểm duy nhất mà chúng tôi có thể mang lại các ngăn xếp dọc tương tự cho các doanh nghiệp và thích nghi với các yêu cầu cụ thể của họ. Chúng tôi cũng có một giả thuyết vào cuối năm 2021 rằng học máy đang tiếp cận một điểm chuyển đổi, và khi nó xảy ra, nhiều công ty sẽ cần một ngăn xếp tích hợp dọc để triển khai và mở rộng các hệ thống này một cách hiệu quả. Đây là điều cuối cùng đã dẫn chúng tôi đến việc thành lập TrueFoundry, và giả thuyết của chúng tôi là đúng. Việc áp dụng AI đã tăng tốc sau khi ra mắt ChatGPT vào cuối năm 2022.
Khi các hệ thống AI chuyển từ thí nghiệm sang hoạt động hàng ngày, điều gì đã thay đổi về cách các tổ chức nên suy nghĩ về độ tin cậy và thất bại?
Các ставки với Gen AI cao hơn đáng kể so với các hệ thống học máy truyền thống. Khi các hệ thống này chuyển sang sản xuất, các tổ chức đang xử lý mức độ không chắc chắn và không xác định cao hơn vì LLM là ngẫu nhiên theo bản chất. Các hệ thống tác nhân được xây dựng trên chúng thêm sự không chắc chắn.
Hơn nữa, các sự cố không còn là nhị phân. Thay vì các hệ thống chỉ thất bại hoặc không thất bại, nhiều vấn đề xuất hiện dưới dạng thất bại một phần hoặc suy giảm âm thầm. Các hệ thống có thể phản hồi với độ trễ cao hơn, chất lượng suy giảm hoặc hành vi không chính xác theo thời gian. Trong nhiều trường hợp, những suy giảm này có thể khó phát hiện và đôi khi thậm chí gây hại hơn một sự cố hoàn toàn.
Các tổ chức cần suy nghĩ về độ tin cậy không chỉ về thời gian hoạt động mà còn về sự suy giảm hiệu suất theo thời gian.
TrueFailover được ra mắt giữa một làn sóng gián đoạn dịch vụ đám mây và AI. Những sự kiện gần đây nào đã khiến bạn nhận ra rằng độ tin cậy AI đã chuyển từ một “thứ tốt” thành một yêu cầu kiến trúc cốt lõi?
Một trong những khách hàng chăm sóc sức khỏe của chúng tôi xử lý các yêu cầu của bệnh nhân theo thời gian thực và nhạy cảm đã bị ảnh hưởng bởi một sự cố gây ra bởi sự cố của mô hình. Các quy trình làm việc của họ tạo ra hàng nghìn đô la doanh thu mỗi giây, và sự cố đã gián đoạn một số quy trình quan trọng này. Là một khách hàng TrueFailover sớm, chúng tôi đã giúp họ phục hồi nhanh chóng, và tác động đã được kiểm soát.
Những sự cố như thế này đặt ra một câu hỏi quan trọng. Khi các ставки của các hệ thống Gen AI tiếp tục tăng cao, tại sao các quy trình phục hồi vẫn còn chủ yếu là thủ công? Điều này củng cố ý tưởng rằng các hệ thống nên được xây dựng với giả định rằng các sự cố sẽ xảy ra, và chúng nên được thiết kế để tự động sửa chữa mình. Độ tin cậy cũng phải được xây dựng vào ngăn xếp AI bản thân thông qua việc sử dụng các cổng AI, có thể cung cấp định tuyến tập trung, khả năng quan sát, hàng rào và chuyển đổi mô hình thông minh trên các nhà cung cấp.
Nhiều sự cố AI vẫn được coi là “sự cố kỹ thuật”. Bạn nhìn thấy những chi phí và tổn thất thực sự về kinh tế và con người bắt đầu xuất hiện khi các hệ thống AI gặp sự cố?
AI doanh nghiệp đã phát triển đến mức những “sự cố kỹ thuật” này không còn chỉ ảnh hưởng đến các quy trình nội bộ. Ngày nay, các sự cố và suy giảm ảnh hưởng trực tiếp đến nhận thức của công chúng và lợi nhuận, vì các trường hợp sử dụng sản xuất hiện đang hướng đến khách hàng.
Khi các hệ thống AI trở nên sâu sắc hơn trong các quy trình hoạt động, các sự cố không còn chỉ là vấn đề kỹ thuật. Chúng ngày càng có hậu quả trực tiếp đến kinh doanh, khách hàng và danh tiếng.
Trong môi trường quan trọng như nhà thuốc, hoạt động chăm sóc sức khỏe hoặc hỗ trợ khách hàng, làm thế nào nhanh chóng thời gian ngừng hoạt động AI có thể leo thang thành rủi ro hoạt động hoặc danh tiếng?
Trong môi trường quan trọng, leo thang xảy ra gần như ngay lập tức vì các hệ thống này hỗ trợ các quy trình theo thời gian thực và nhạy cảm. Ngay cả một gián đoạn ngắn cũng có thể dừng các quy trình quan trọng, trì hoãn việc cung cấp dịch vụ hoặc gián đoạn các hệ thống hạ游 phụ thuộc vào các đầu ra đó, tạo ra các hiệu ứng hoạt động级 trên toàn tổ chức.
Trong lĩnh vực chăm sóc sức khỏe, tác động mở rộng ra ngoài gián đoạn hoạt động đến trải nghiệm khách hàng và kết quả dịch vụ. Nếu một bệnh nhân không thể thực hiện đơn thuốc của họ đúng hạn, có thể có hậu quả thực sự. Không chỉ là vấn đề đối với bệnh nhân, mà còn có thể làm tổn hại danh tiếng của nhà thuốc hoặc nhà cung cấp dịch vụ chăm sóc sức khỏe. Trong môi trường quan trọng nơi niềm tin là một yếu tố, điều quan trọng là các hệ thống phải luôn trực tuyến. Đây là lý do tại sao các tổ chức ngày càng nhận ra rằng các hệ thống AI phải được thiết kế với giả định rằng các sự cố sẽ xảy ra và các cơ chế phục hồi cần được kích hoạt tự động để giảm thiểu rủi ro.
Bạn đã nói rằng nhiều đội kiến trúc cho khả năng hơn là tính liên tục. Tại sao bạn nghĩ rằng sự phục hồi đã được ưu tiên thấp trong thiết kế hệ thống AI?
Điều này chủ yếu là do các động lực trong các tổ chức. Các khả năng mới là có thể nhìn thấy và thú vị. Chúng mở khóa các bản demo, tính năng và khả năng sản phẩm mà lãnh đạo có thể nhìn thấy ngay lập tức.
Tính liên tục, theo định nghĩa, là vô hình khi mọi thứ hoạt động tốt. Vì vậy, các hệ thống phần thưởng thường bị thiên vị toward việc vận chuyển các tính năng mới hơn là đảm bảo không có gì bị hỏng. Kết quả là, các tổ chức thường đầu tư không cân đối vào việc phát triển khả năng hơn là kỹ thuật phục hồi.
Khi các doanh nghiệp ngày càng phụ thuộc vào các mô hình và API bên ngoài, những điểm yếu mới nào đang được giới thiệu vào ngăn xếp AI mà các nhà lãnh đạo có thể chưa đánh giá cao?
LLM cơ bản là tài nguyên được chia sẻ, và các doanh nghiệp không sở hữu chúng như cách họ sở hữu cơ sở hạ tầng truyền thống. Ngoài ra, các hệ thống kinh doanh quan trọng trong doanh nghiệp đang chạy trên các hệ thống bên ngoài không được kiểm tra thời gian đầy đủ. LLM bản thân đang phát triển nhanh chóng, điều này có nghĩa là một nhà cung cấp mô hình không thể bị ràng buộc về những thứ như độ trễ hoặc hiệu suất mô hình giảm nhẹ, vì họ đang lặp lại nghiên cứu của mình rất nhanh.
Bởi vì LLM là tài nguyên được chia sẻ, độ trễ có thể tăng vọt vì một người tiêu dùng khác của những LLM này thực hiện một hành động cụ thể. Có rất nhiều điểm yếu như vậy được giới thiệu do bản chất cơ bản của LLM, và các doanh nghiệp trong thế giới mới này đơn giản là không có quyền kiểm soát đầy đủ. Không có quyền kiểm soát đầy đủ, điều tốt nhất một doanh nghiệp có thể làm là tạo ra đủ sự dư thừa của hệ thống để thiết kế một hệ thống phục hồi.
Nếu không tập trung vào các sản phẩm cụ thể, các tổ chức nên suy nghĩ lại kiến trúc AI như thế nào để giả định sự cố thay vì coi các sự cố là các trường hợp ngoại lệ hiếm gặp?
Các tổ chức nên quay lại các nguyên tắc cơ bản của thiết kế hệ thống phân tán. Các hệ thống phần mềm được xây dựng dựa trên giả định rằng các thành phần mạng và máy sẽ bị hỏng, và rằng một toàn bộ khu vực có thể bị ngắt.
Hệ thống AI không nên khác biệt. Chúng tôi nên giả định rằng các nhà cung cấp mô hình sẽ gặp phải các vấn đề về độ trễ, suy giảm hoặc sự cố, và kết hợp sự dư thừa để các ứng dụng vẫn phục hồi trên các kịch bản sự cố khác nhau.
Bạn có kỳ vọng rằng sự phục hồi AI sẽ trở thành một yếu tố quyết định trong việc lựa chọn nền tảng và nhà cung cấp, tương tự như cách thời gian hoạt động và tính dư thừa đã định hình quyết định cơ sở hạ tầng đám mây?
Khi nhiều hệ thống AI hơn chuyển sang sản xuất, sự phục hồi sẽ trở thành một yếu tố cơ bản. Nếu một nhà cung cấp không thể展示 biểu đồ và số liệu về thời gian hoạt động và tính phục hồi tổng thể, họ sẽ không được xem xét. Một khi tính phục hồi trở thành một kỳ vọng cơ bản trên tất cả các nhà cung cấp, các yếu tố quyết định sẽ chuyển sang hướng trải nghiệm người dùng, tối ưu hóa hiệu suất, khả năng quan sát và các khả năng sản phẩm cấp cao hơn. Theo thời gian, các thành phần như cổng AI và khả năng chuyển đổi tự động sẽ trở thành các yếu tố nền tảng cơ bản của cơ sở hạ tầng AI doanh nghiệp.
Nhìn về phía trước, “sẵn sàng sản xuất” AI thực sự có nghĩa là gì trong một thế giới nơi AI được kỳ vọng là liên tục có sẵn, không chỉ偶爾 hữu ích?
Hệ thống AI sẵn sàng sản xuất nên có khả năng quan sát, kiểm soát và phục hồi. Tất cả ba hộp này cần được kiểm tra.
Để AI sản xuất có thể quan sát được, các đội cần có tầm nhìn sâu sắc vào hành vi mô hình, độ trễ, tỷ lệ lỗi, sử dụng token, trôi và mẫu thất bại. Không có khả năng quan sát mạnh mẽ, việc phát hiện suy giảm trước khi người dùng bắt đầu nhận thấy chúng sẽ trở nên rất khó khăn.
Để các hệ thống có thể kiểm soát được, điều đó bao gồm hình thành lưu lượng, giới hạn tỷ lệ, hàng rào, thực thi chính sách và định tuyến thông minh trên các mô hình và nhà cung cấp. Đây là nơi cổng AI trở thành nền tảng, hoạt động như một mặt phẳng điều khiển tập trung thực thi hàng rào, cung cấp quản lý nhất quán và cho phép chuyển đổi mô hình động khi hiệu suất hoặc độ tin cậy giảm.
Và cuối cùng, khi nói đến việc phục hồi, các hệ thống nên được xây dựng với giả định rằng các thành phần có thể bị hỏng một phần hoặc hoàn toàn, cho dù do sự cố của nhà cung cấp, chất lượng mô hình suy giảm, giới hạn tỷ lệ hoặc đầu vào không mong muốn từ các tác nhân độc hại. Các cơ chế chuyển đổi tự động và tự phục hồi nên là bản địa trong kiến trúc, không phải là các cuốn sách tay thủ công được kích hoạt sau khi điều gì đó đi sai.
Đây là hướng chúng tôi đang làm việc tại TrueFoundry. Các nhà cung cấp định nghĩa sự sẵn sàng sản xuất theo cách này, kết hợp khả năng quan sát, kiểm soát tập trung và phục hồi tự động, sẽ kiếm được niềm tin của khách hàng lâu dài và sẽ có thể tiếp tục giải quyết các vấn đề mới khi chúng xuất hiện. Cảm ơn bạn vì cuộc phỏng vấn tuyệt vời, những người đọc muốn tìm hiểu thêm nên truy cập TrueFoundry.












