Phỏng vấn
Alex Holovach, Đồng sáng lập Kubiks – Loạt bài phỏng vấn

Alex HolovachĐồng sáng lập Kubiks là một kỹ sư phần mềm giàu kinh nghiệm, chuyên về các hệ thống hiệu suất cao, có khả năng mở rộng. Ông đã dẫn dắt các chuyển đổi số, xây dựng các dịch vụ vi mô chịu lỗi và phát triển tích hợp doanh nghiệp tại Prove, TAG – The Aspen Group, airSlate và Google. Hiện nay, ông đang vận dụng chuyên môn này để tái tạo khả năng quan sát bằng AI tại Kubiks.
Kubiks là một nền tảng quan sát dựa trên AI, giúp các nhóm kỹ thuật theo dõi, chẩn đoán và giải quyết sự cố nhanh hơn. Nền tảng này tự động ghi lại nhật ký, dấu vết, truy vấn và các cuộc gọi LLM mà không cần thiết lập thủ công, sau đó sử dụng AI để xác định nguyên nhân gốc rễ, gửi cảnh báo theo ngữ cảnh và thậm chí đề xuất các bản sửa lỗi. Với bản đồ dịch vụ thời gian thực, ảnh chụp nhanh lịch sử và tích hợp trên các công cụ phổ biến và nhà cung cấp đám mây, Kubiks hợp lý hóa phản hồi sự cố và cải thiện độ tin cậy của hệ thống.
Anh đã xây dựng và mở rộng cơ sở hạ tầng tại các công ty như airSlate, Prove và Google. Vai trò nào trong số đó đã định hình quan điểm của anh về những thách thức của việc mở rộng hệ thống, và những bài học đó cuối cùng đã truyền cảm hứng như thế nào để anh đồng sáng lập Kubiks?
Tôi đã trực tiếp trải nghiệm việc duy trì độ tin cậy khi hơn 100 kỹ sư thúc đẩy thay đổi mỗi ngày. Trong những thiết lập đó, hệ số bus, tức rủi ro nếu các thành viên chủ chốt trong nhóm đột nhiên không có mặt, là rất cao, và chìa khóa là tự động hóa mọi thứ có thể để duy trì dịch vụ hoạt động trơn tru. Nhưng bạn không thể luôn dự đoán được điều gì sẽ xảy ra tiếp theo. Những trải nghiệm này đã làm nổi bật những hạn chế của các phương pháp tiếp cận truyền thống, đó là lý do tại sao việc có các tác nhân AI liên tục giám sát mọi bộ phận theo thời gian thực lại thay đổi mọi thứ. Chúng luôn hoạt động, cảnh báo bạn ngay lập tức và xử lý phân tích nguyên nhân gốc rễ khi có sự cố xảy ra. Đó là lý do thúc đẩy tôi đồng sáng lập Kubiks.ai, để giúp nhiều nhóm hơn có thể tiếp cận được với khả năng giám sát thông minh, luôn hoạt động đó.
Kubiks ra mắt vào tháng 2025 năm XNUMX với lời hứa táo bạo: thiết lập trong một phút và sửa lỗi bằng AI. Anh thấy khoảng trống nào trên thị trường khiến anh tin rằng đây là thời điểm thích hợp để thành lập công ty này?
Hiện tại, có một khoảng cách rất lớn vì AI cuối cùng cũng có thể thêm một lớp tự phục hồi vào internet. Nhiệm vụ của chúng tôi rất đơn giản: để AI giám sát hệ thống sản xuất của bạn, tự động phân tích nguyên nhân gốc rễ khi xảy ra sự cố và chuẩn bị các bản sửa lỗi an toàn, để các nhóm có thể phản ứng trong vài giây. Với việc AI đảm nhận việc giám sát chủ động liên tục, các kỹ sư có thể tập trung vào các phản ứng nhanh chóng thay vì kiểm tra liên tục. Đó chính là bước chuyển lớn mà chúng tôi đang tạo điều kiện.
Kubiks độc đáo trong việc nắm bắt toàn bộ yêu cầu và các cuộc gọi LLM, tự động tạo bản sửa lỗi và gửi yêu cầu kéo để xem xét. Những đột phá kỹ thuật nào đã tạo nên quy trình phát hiện-giải quyết trơn tru này? Việc cân bằng giữa tính kỹ lưỡng và sự đơn giản có khó không?
Đột phá của chúng tôi là kỹ thuật tương quan và ngữ cảnh đầu cuối: chúng tôi tự động lấy ID chính từ mọi yêu cầu, chẳng hạn như thanh toán, người dùng, phiên, cơ sở dữ liệu, hàng đợi, mô hình và phiên bản, và kết hợp chúng thành một dòng thời gian duy nhất. Với toàn bộ chuỗi được kết nối, AI xác định chính xác lệnh gọi lỗi đầu tiên, các yếu tố đầu vào gây ra lỗi và chính xác những gì cần sửa. Điều này được lấy cảm hứng từ Scuba của Facebook, công cụ quan sát nội bộ của họ. Một khi đã sử dụng công cụ như vậy, bạn không thể quay lại chỉ dựa vào số liệu và tổng hợp.
Kubiks cung cấp hình ảnh trực quan theo thời gian thực, bản đồ dịch vụ và chế độ xem tập trung vào mối quan hệ. Việc kết hợp nhật ký, dấu vết, số liệu và lập bản đồ vào một bảng điều khiển thống nhất sẽ thay đổi hoàn toàn cách các nhóm phát hiện và giải quyết vấn đề như thế nào?
Hệ thống hiện đại giống như lái xe ở tốc độ cao trên đường cao tốc. Nếu bạn phải phân tích từng dữ liệu cảm biến thô, chắc chắn bạn sẽ gặp sự cố. Thay vào đó, bạn cần một bảng điều khiển đánh dấu lỗi và vị trí lỗi. Đó là lý do tại sao chúng tôi kết hợp nhật ký, dấu vết, số liệu và bản đồ trực tiếp: chỉ cần một cái nhìn nhanh là bạn có thể thấy toàn cảnh, và chỉ cần một cú nhấp chuột là bạn có thể khắc phục sự cố. Nó biến việc gỡ lỗi rời rạc thành một giải pháp tập trung và hiệu quả.
Du hành thời gian và chú thích ảnh chụp nhanh nghe có vẻ hữu ích cho việc gỡ lỗi lịch sử. Trên thực tế, có những trường hợp sử dụng nào mà tính năng này phát hiện ra những vấn đề mà chế độ xem thời gian thực không thể làm được?
Hãy tưởng tượng dịch vụ cốt lõi của bạn bị sập, và bản đồ trực tiếp chuyển sang màu đỏ khắp nơi với các lỗi toàn hệ thống, nhưng bạn không thể biết lỗi nào xảy ra trước giữa cảnh hỗn loạn. Ví dụ, chúng tôi từng có một tác vụ Airflow với chính sách thử lại bị cấu hình sai; nó được lên lịch vào ban đêm nhưng lại được kích hoạt vào giữa ngày trong giờ cao điểm, làm nghẽn cơ sở dữ liệu. Chế độ xem theo thời gian thực chỉ hiển thị các lỗi trên diện rộng, nhưng du hành thời gian cho phép chúng tôi tua lại và xem sự cố bắt đầu từ lỗi của tác vụ đó, hé lộ nguyên nhân gốc rễ chưa được làm rõ trong quá trình trực tiếp.
AI của bạn phân tích dữ liệu đo từ xa để phát hiện các bất thường và đề xuất các giải pháp khắc phục như thế nào? Bạn có thể chia sẻ ví dụ về việc Kubik phát hiện các vấn đề khó phát hiện hoặc âm thầm mà hệ thống giám sát truyền thống thường bỏ qua không?
Một kỹ sư đã triển khai logic mới đằng sau một cờ tính năng, và quá trình sản xuất vẫn ổn định trong hai tuần khi cờ tắt. Sau đó, việc bật nó cho một phân khúc người dùng đã gây ra lỗi chỉ cho những người dùng đó. Trong các bảng điều khiển tiêu chuẩn, việc truy xuất lỗi trông có vẻ ngẫu nhiên và khó khăn. Kubiks kết nối từng yêu cầu với phiên bản mã, trạng thái cờ, phân khúc người dùng và các lệnh gọi hạ nguồn. Khi lỗi tăng đột biến, AI sẽ so khớp chúng với kích hoạt cờ và đường dẫn mã cụ thể. Nó làm nổi bật chức năng bị lỗi và các đầu vào kích hoạt. Bằng cách liên kết khả năng quan sát với mã và cờ, AI nhanh chóng xác định nguyên nhân và đề xuất các bản sửa lỗi cụ thể, phát hiện những gì các công cụ truyền thống bỏ qua.
Người dùng cho biết Kubiks "không cần cài đặt phức tạp" và "có thể nắm bắt mọi thứ ngay khi mở hộp". Bạn đã thực hiện những biện pháp nào để đảm bảo cả độ tin cậy và khả năng sử dụng—từ khâu cài đặt đến quy trình làm việc hàng ngày?
Chúng tôi thiết kế Kubik để mang lại cảm giác quen thuộc ngay từ giai đoạn phát triển cục bộ, giúp bạn xây dựng niềm tin trước khi quá trình sản xuất bắt đầu. CLI của chúng tôi chạy ứng dụng của bạn cục bộ, tự động thiết lập các lệnh gọi HTTP, DB, hàng đợi và LLM, đồng thời truyền dữ liệu đo từ xa rõ ràng; không cần ghi nhật ký hoặc theo dõi thủ công. Nó cung cấp ngữ cảnh phong phú cho trình soạn thảo mã AI của bạn thông qua MCP, với các chế độ xem chính xác giống như bạn sẽ thấy trong giai đoạn dàn dựng và sản xuất. Bạn sẽ học nó một lần, theo quy trình tự nhiên của mình khi xây dựng các tính năng, giúp nó liền mạch và đáng tin cậy khi cần thiết nhất.
Nhiều công ty khởi nghiệp AI ngày nay đang vật lộn với khả năng quan sát khi hệ thống của họ mở rộng nhanh chóng. Kubik giúp các nhóm nhỏ hơn hoạt động với cùng tiêu chuẩn độ tin cậy như các công ty tỷ đô như thế nào?
Các công ty khởi nghiệp phát triển nhanh chóng. Bạn không thể dừng một cuộc chạy nước rút để thêm nhật ký và dấu vết ở khắp mọi nơi. Đó là lý do tại sao chúng tôi nhấn mạnh vào công cụ đo lường tự động. Chỉ với một lần cài đặt, Kubiks nắm bắt toàn bộ bức tranh ngay lập tức: các tuyến HTTP, lệnh gọi cơ sở dữ liệu, tương tác LLM. Nó cho phép các nhóm nhỏ đạt được độ tin cậy cấp doanh nghiệp mà không cần chi phí bổ sung.
Với sự phức tạp ngày càng tăng của các hệ thống hỗ trợ AI, bạn thấy Kubik đóng vai trò gì trong việc đảm bảo độ tin cậy, khả năng quan sát và khả năng hành động trên toàn bộ khối lượng công việc AI phân tán?
Các microservice truyền thống phức tạp nhưng có thể dự đoán được. Bạn có thể lập bản đồ biểu đồ cuộc gọi và dự đoán luồng. AI phân tán đảo ngược điều này: các tác nhân tương tác động, khởi chạy công cụ, điều chỉnh kế hoạch tức thời và định tuyến dựa trên ngữ cảnh. Nó mang tính đột phá nhưng lại là cơn ác mộng cho việc gỡ lỗi. Kubiks tự động hóa toàn bộ quá trình thiết lập (mỗi tác nhân, công cụ, hàng đợi, webhook và lệnh gọi mô hình) sau đó tạo ra một biểu đồ nhân quả trực tiếp về việc ai đã làm gì, khi nào và với dữ liệu nào. AI của chúng tôi theo dõi điều này theo thời gian thực, phát hiện các lỗi trôi dạt, vòng lặp, chuyển giao bị bỏ lỡ và các quyết định kém ngay khi chúng xảy ra, chứ không phải sau đó trong nhật ký.
Nhìn về tương lai, ông hình dung sự phát triển của khả năng quan sát trong môi trường đám mây, được hỗ trợ bởi AI như thế nào? Ông đang theo đuổi lộ trình nào - tự động hóa nhiều hơn, trí tuệ nhân tạo sâu hơn, hay tích hợp mở rộng - cho Kubiks.ai trong vài năm tới?
Sắp tới, các công ty sẽ vận hành hàng triệu tác nhân đồng thời trên các đám mây, cần có khả năng hiển thị rõ ràng về những gì được gọi là dữ liệu gì, khi nào và với dữ liệu nào. Khả năng quan sát sẽ phát triển để cung cấp thông tin chi tiết theo thời gian thực về các hệ thống động này, xem xét bên trong các LLM để hiểu các quyết định của chúng. Đối với Kubik, chúng tôi tập trung vào việc theo dõi đầu cuối ở cấp độ tác nhân: lời nhắc, tham số, chế độ, công cụ, đầu vào và đầu ra. Điều này sẽ giúp các kỹ sư phát hiện sớm các mối đe dọa, trường hợp ngoại lệ và bất thường, giúp các môi trường AI phức tạp trở nên đáng tin cậy và dễ hành động hơn.
Cảm ơn bạn về cuộc phỏng vấn tuyệt vời, độc giả muốn tìm hiểu thêm hãy truy cập Kubiks.