Kết nối với chúng tôi

Ronak Desai, Người sáng lập kiêm CEO của Ciroos – Loạt bài phỏng vấn

Phỏng vấn

Ronak Desai, Người sáng lập kiêm CEO của Ciroos – Loạt bài phỏng vấn

mm

Ronak DesaiDesai, người sáng lập kiêm CEO của Ciroos, dẫn dắt công ty với sứ mệnh rõ ràng là loại bỏ những công việc nặng nhọc trong lĩnh vực CNTT và trả lại thời gian cho các kỹ sư SRE, DevOps và vận hành. Ông tin tưởng sâu sắc rằng trí tuệ nhân tạo (AI) nên hỗ trợ một cách có ý nghĩa cho chuyên môn của con người chứ không phải thay thế nó, đặc biệt là trong các môi trường vận hành có rủi ro cao. Trước khi thành lập Ciroos, Desai đã có hơn 20 năm làm việc tại Cisco, nơi ông nắm giữ nhiều vai trò lãnh đạo cấp cao, bao gồm Phó Chủ tịch cấp cao và Tổng Giám đốc của Cisco Full-Stack Observability và AppDynamics. Trong suốt sự nghiệp của mình, ông tập trung vào việc xây dựng các nền tảng có khả năng mở rộng, lấy khách hàng làm trung tâm, sở hữu hơn 50 bằng sáng chế đang được sử dụng và tiếp tục phát huy các nguyên tắc đổi mới và sự tận tâm với khách hàng đã định hình nên nhiệm kỳ của ông tại Cisco.

Ciroos Ciroos đang xây dựng một cộng sự SRE tích hợp trí tuệ nhân tạo (AI) được thiết kế để giảm đáng kể thời gian điều tra và giải quyết các sự cố CNTT phức tạp trong môi trường đa miền hiện đại. Nền tảng này sử dụng AI đa tác nhân tích hợp để suy luận từ các tín hiệu, tự động hóa quá trình điều tra và hỗ trợ tự động hóa, tăng cường và vận hành tự động – đồng thời đảm bảo con người vẫn nắm quyền kiểm soát. Bằng cách tương quan dữ liệu giữa các công cụ và miền thường bị phân tách, Ciroos cho phép các nhóm chuyển từ việc phản ứng khi xảy ra sự cố sang đưa ra quyết định nhanh hơn và tự tin hơn, giúp các kỹ sư tập trung vào công việc có tác động cao hơn thay vì các công việc vận hành lặp đi lặp lại và mệt mỏi.

Ông đã dành hơn hai thập kỷ làm việc tại Cisco, góp phần xây dựng một số sản phẩm mạng và giám sát thành công nhất của công ty. Điều gì đã truyền cảm hứng cho ông để mạo hiểm thành lập Ciroos?

Trong suốt quá trình tương tác với nhiều nhóm doanh nghiệp khác nhau, tôi nhận thấy cùng một câu chuyện lặp đi lặp lại. Các nhóm vận hành bị quá tải bởi các bảng điều khiển, phải liên tục xử lý các cảnh báo và phụ thuộc vào kiến ​​thức nội bộ để khắc phục sự cố trên nhiều hệ thống. Mặc dù đã đầu tư một lượng vốn đáng kể vào khả năng quan sát hệ thống, họ vẫn thiếu cách thức kết nối bằng chứng giữa các lĩnh vực trong thời gian thực. Tôi và các đồng sáng lập muốn thay đổi điều đó. Chúng tôi bắt đầu xây dựng một hệ thống AI có khả năng suy luận như một người vận hành giàu kinh nghiệm và phối hợp chặt chẽ với các kỹ sư SRE ngay từ đầu, cho phép các nhóm tập trung vào việc cải thiện khả năng phục hồi và độ tin cậy thay vì dành thời gian tìm kiếm thông tin chi tiết hoặc giải quyết các vấn đề khẩn cấp.

Ông đã mô tả Ciroos như một giải pháp cho một trong những vấn đề khó khăn nhất trong hoạt động vận hành — các cuộc điều tra trải rộng trên nhiều lĩnh vực. Kinh nghiệm của ông khi lãnh đạo mảng AppDynamics và Full-Stack Observability tại Cisco đã định hình nhận thức đó và ảnh hưởng như thế nào đến kiến ​​trúc của Ciroos?

Tại AppDynamics, chúng tôi đã đạt được mức độ hiểu biết sâu sắc về hành vi của ứng dụng. Tuy nhiên, khi nguyên nhân của sự cố nằm ngoài ứng dụng (cho dù đó là cấu hình đám mây, mạng hay IAM), việc chỉ có khả năng hiển thị ở lớp ứng dụng là không đủ. Thách thức nằm ở việc thiết lập bối cảnh. Kinh nghiệm đó đã định hướng cách chúng tôi thiết kế Ciroos. Nền tảng của chúng tôi mang khả năng suy luận AI đến quy mô hoạt động sản xuất. Nó xem xét các tín hiệu trên nhiều miền, sắp xếp các sự kiện trên một dòng thời gian chung và suy luận trên các ranh giới miền để xác định nguyên nhân gốc rễ thực sự của các sự cố.

Ciroos giới thiệu khái niệm về “Trợ lý SRE AI”. Ý tưởng về AI như một cộng tác viên này khác biệt như thế nào so với các công cụ tự động hóa hoặc giám sát truyền thống?

Trợ lý AI SRE hoạt động giống như một đồng đội mới hơn là một công cụ mới. Trước tiên, nó lắng nghe, hiểu rõ môi trường, chấp nhận các nhiệm vụ được xác định và xây dựng lòng tin theo thời gian. Trong khi tự động hóa truyền thống thực thi các quy tắc, trợ lý này áp dụng khả năng suy luận. Khi xác định được vấn đề, nó sẽ chọn các chuyên gia có liên quan để truy vấn, thu thập bằng chứng hỗ trợ và trình bày chúng trong ngữ cảnh. Yếu tố hợp tác này giúp các kỹ sư có thêm thời gian để xác thực và giải quyết vấn đề thay vì phải tự mình tìm ra mối tương quan.

Nền tảng của bạn sử dụng suy luận AI đa tác nhân. Bạn có thể giải thích cách nhiều tác nhân AI phối hợp để đẩy nhanh quá trình phân tích nguyên nhân gốc rễ và cải thiện độ chính xác trên các hệ thống phức tạp không?

Mỗi tác nhân đều có chuyên môn riêng – một người về Kubernetes, một người về điện toán đám mây, một người về mạng, v.v. Khi sự cố xảy ra, các tác nhân này phối hợp với nhau như một phần của lớp suy luận trung tâm, đối chiếu các phát hiện trong thời gian thực. Hệ thống sẽ xác định tác nhân nào cần được gọi, nhiệm vụ nào cần giao cho mỗi tác nhân, theo thứ tự nào và trong bao lâu. Sự phối hợp này giúp giảm thời gian điều tra và cải thiện độ chính xác bằng cách đảm bảo rằng mọi lớp được đánh giá trong bối cảnh tổng thể chứ không phải riêng lẻ.

Từ góc độ kỹ thuật, làm thế nào Ciroos có thể tự động suy luận từ nhiều nguồn dữ liệu khác nhau — chẳng hạn như dữ liệu đo từ xa trên đám mây, nhật ký ứng dụng và số liệu về cơ sở hạ tầng — mà không làm người dùng bị quá tải bởi thông tin nhiễu?

Ciroos xem xét mọi nguồn dữ liệu như một phần nhỏ trong bức tranh tổng thể lớn hơn. Nó sắp xếp các quan sát từ nhiều nguồn dữ liệu trên một dòng thời gian thống nhất và chỉ hiển thị các mối quan hệ nhân quả có liên quan. Ví dụ, nếu sự kiện khởi động lại pod xảy ra sau một thay đổi nhỏ trong chính sách IAM hoặc mạng, Ciroos sẽ tự động kết nối chuỗi sự kiện đó. Nó không chỉ cung cấp các bảng điều khiển thô mà còn tập hợp một câu chuyện hoàn chỉnh dựa trên bằng chứng, giúp các kỹ sư hiểu tại sao điều đó lại xảy ra.

Sự tin tưởng và khả năng giải thích là cốt lõi trong triết lý thiết kế của bạn. Làm thế nào để bạn đảm bảo rằng các đề xuất do AI đưa ra vẫn minh bạch và các kỹ sư con người vẫn nắm chắc quyền kiểm soát?

Mỗi khuyến nghị đều đi kèm với bằng chứng hỗ trợ và lý luận dẫn đến khuyến nghị đó. Các kỹ sư có thể theo dõi từng kết luận, kiểm tra các giả định của họ và quản lý mức độ tự chủ của hệ thống, từ hỗ trợ đến bán tự chủ. Hệ thống duy trì kiến ​​thức theo ngữ cảnh theo thời gian thông qua phản hồi của con người, cho phép nó cải thiện chất lượng quyết định trong khi vẫn được quản lý hoàn toàn. Cách tiếp cận của chúng tôi tương tự như cách một nhóm hướng dẫn các thành viên mới, với các quy tắc rõ ràng, lý luận trực tiếp và sự giám sát đầy đủ của con người. Niềm tin được xây dựng khi hệ thống thể hiện hiệu suất ngày càng đáng tin cậy theo thời gian.

Những người dùng đầu tiên cho biết Ciroos giúp giảm thời gian điều tra từ hàng giờ xuống còn vài phút. Loại mô hình hoặc thông tin chi tiết nào khiến bạn ngạc nhiên nhất khi các nhóm bắt đầu sử dụng AI SRE Teammate trong môi trường sản xuất?

Đã có hai điều bất ngờ thú vị — thứ nhất, tốc độ phản hồi tích cực của ngay cả các doanh nghiệp lớn đối với giá trị cốt lõi mà chúng tôi mang lại thật đáng khích lệ. Thứ hai, khách hàng của chúng tôi đã xem xét kỹ lưỡng công nghệ của chúng tôi và đưa ra một số trường hợp sử dụng rất độc đáo, vượt xa cả việc phân tích nguyên nhân gốc rễ. Những trường hợp sử dụng này làm nổi bật những thách thức thực tế mà các doanh nghiệp lớn đang phải đối mặt trong hoạt động sản xuất hiện nay.

Thuật ngữ “Trí tuệ nhân tạo như một đồng đội” gợi ý sự hợp tác hơn là thay thế. Bạn thấy khái niệm này sẽ phát triển như thế nào khi các tổ chức ngày càng thoải mái hơn khi làm việc cùng với các hệ thống thông minh?

Chúng tôi xem đây là một hành trình bao gồm tự động hóa, tăng cường và cuối cùng là chế độ tự lái. Mặc dù Ciroos hiện hỗ trợ cả ba chế độ này, nhưng chúng tôi thường thấy việc các tổ chức áp dụng AI tuân theo một đường cong trưởng thành. Trước hết, các doanh nghiệp sử dụng hệ thống AI của chúng tôi để tự động hóa các tác vụ được xác định rõ ràng và có thể lặp lại, đồng thời giảm thiểu gánh nặng nhận thức cho con người. Ngược lại, các hệ thống không tích hợp AI được thiết kế riêng lại đặt quá nhiều gánh nặng lên người vận hành trong việc cấu hình nhiều tham số và quy tắc trước khi khách hàng nhận ra giá trị.

Ở giai đoạn tiếp theo, các doanh nghiệp tận dụng hệ thống AI để hỗ trợ khả năng suy luận của con người trên quy mô lớn ở nhiều lĩnh vực, đồng thời hệ thống cũng cung cấp các giải thích và khuyến nghị chi tiết về biện pháp khắc phục mà con người sẽ xác nhận và thực hiện. Đây là giai đoạn mà hầu hết các doanh nghiệp đang ở hiện nay.

Theo thời gian, AI có thể tự động quản lý toàn bộ quy trình xử lý sự cố cho toàn doanh nghiệp, chỉ chuyển tiếp đến con người khi cần thiết. Chúng tôi kỳ vọng điều này sẽ được mở rộng dần dần dựa trên nhiệm vụ. Quá trình này tương tự như cách các nhóm xây dựng lòng tin với nhân viên mới. Khi bạn có được sự tin tưởng hơn, mối quan hệ hợp tác sẽ ngày càng sâu sắc hơn.

Nhiều doanh nghiệp hiện đã dựa vào các nền tảng giám sát và quản lý sự cố đã được thiết lập. Làm thế nào để Ciroos tích hợp với các hệ sinh thái hiện có này mà không làm gián đoạn quy trình làm việc?

Ngay từ đầu, việc tích hợp chưa bao giờ là tùy chọn. Chúng tôi tin rằng mô hình dữ liệu liên kết mang lại cho doanh nghiệp thời gian đạt được giá trị nhanh nhất, nhiều tùy chọn nhất và tổng chi phí sở hữu thấp nhất. Ciroos AI SRE Teammate hiện tích hợp với bảy loại hệ thống doanh nghiệp khác nhau — khả năng quan sát, phản hồi sự cố, công cụ cộng tác, nền tảng đám mây, hệ thống quản lý vé, công cụ CI/CD và cơ sở hạ tầng vật lý thông qua các API và giao thức mở như MCP và A2A. Nó tích hợp vào các quy trình làm việc hiện có thay vì yêu cầu các nhóm phải áp dụng các quy trình mới. Thiết kế này đã giúp các doanh nghiệp dễ dàng áp dụng. Các nhóm nhận được câu trả lời nhanh hơn mà không cần thay đổi quy trình làm việc hiện tại của họ.

Trong suốt sự nghiệp của mình, ông luôn nhấn mạnh sự tận tâm với khách hàng và tinh thần đổi mới. Những giá trị đó định hướng văn hóa của Ciroos và tầm nhìn dài hạn của công ty trong việc định hình lại kỹ thuật độ tin cậy như thế nào?

Việc đặt khách hàng làm trọng tâm có nghĩa là tập trung không ngừng vào những thách thức thực tế mà các nhóm vận hành của khách hàng phải đối mặt, chẳng hạn như giờ làm việc kéo dài, mệt mỏi, vất vả và việc liên tục tìm kiếm câu trả lời cho những câu hỏi phát sinh trong quá trình vận hành. Đổi mới là giải quyết những vấn đề đó theo những cách giúp tiết kiệm thời gian và tập trung một cách có ý nghĩa. Chúng tôi hình dung tất cả các nhóm vận hành đều có một đồng đội AI học hỏi liên tục, mở rộng quy mô theo nhu cầu và giúp đảm bảo độ tin cậy trên toàn hệ thống. Về lâu dài, chúng tôi thấy dịch vụ AI dưới dạng phần mềm trở thành tiêu chuẩn trong toàn bộ chu trình vận hành từ phát triển đến sản xuất — các hệ thống suy nghĩ, hành động và cải thiện cùng với các đồng nghiệp là con người. Nếu chúng ta có thể cung cấp cho người dùng sự rõ ràng và không gian thở mà họ luôn cần, chúng ta đã hoàn thành tốt công việc của mình. Những người dùng này có thể là các kỹ sư SRE, nhân viên vận hành CNTT, kỹ sư vận hành sản xuất, kỹ sư vận hành đám mây hoặc thành viên nhóm DevOps thực hiện vận hành sản xuất.

Độc giả muốn tìm hiểu thêm về cách một thành viên nhóm AI SRE có thể giảm thiểu công việc vận hành, đẩy nhanh quá trình điều tra và hỗ trợ kỹ thuật độ tin cậy có sự tham gia của con người, hãy truy cập... Ciroos.

Antoine là một nhà lãnh đạo có tầm nhìn xa và là đối tác sáng lập của Unite.AI, được thúc đẩy bởi niềm đam mê không ngừng nghỉ trong việc định hình và thúc đẩy tương lai của AI và robot. Là một doanh nhân nối tiếp, ông tin rằng AI sẽ gây rối loạn cho xã hội như điện, và thường bị bắt gặp khi đang ca ngợi về tiềm năng của các công nghệ đột phá và AGI.

Là một nhà tương lai học, ông cống hiến hết mình để khám phá cách những đổi mới này sẽ định hình thế giới của chúng ta. Ngoài ra, ông là người sáng lập Chứng khoán.io, một nền tảng tập trung vào việc đầu tư vào các công nghệ tiên tiến đang định hình lại tương lai và định hình lại toàn bộ các lĩnh vực.