Lãnh đạo tư tưởng
Vượt lên trên/đưới: Có một cách tốt hơn để định nghĩa ‘bình thường’ trong cơ sở hạ tầng phức tạp

Chúng ta đã đi được một chặng đường dài từ việc giám sát lên/xuống. Từ sàn nhà máy đến cơ sở hạ tầng doanh nghiệp hiện đại, các quản trị viên IT hiện yêu cầu nhiều thông tin hơn nhiều so với một kiểm tra đơn giản để xác định xem một trang web hoặc ứng dụng có thể phục vụ người dùng hay không. Đúng, việc xem trạng thái “lên” hoặc “xuống” cơ bản là hữu ích, nhưng điều này không kể toàn bộ câu chuyện về cách công nghệ cung cấp giá trị kinh doanh dự kiến. Hơn nữa, khi môi trường IT và OT hội tụ và hệ sinh thái trở nên động và tạm thời hơn, các cảnh báo này không thiết lập hoặc phản ánh chính xác các đường cơ sở.
Hiểu được điều gì là bình thường, học các mẫu hiệu suất và ngăn chặn thời gian ngừng hoạt động tốn kém là các chức năng quan trọng trong cơ sở hạ tầng phức tạp ngày nay. Điều này đặc biệt đúng khi các tác nhân đe dọa sử dụng các công cụ ngày càng tinh vi để làm được nhiều hơn với ít hơn và cơ sở hạ tầng liên kết hiện đại tạo ra các điểm yếu mới.
Đó là trong bối cảnh này mà giám sát dựa trên AI biến đổi quản lý cơ sở hạ tầng bằng cách cung cấp thông tin về hành vi bình thường và không bình thường, do đó loại bỏ các đường cơ sở kém và mệt mỏi cảnh báo. Hãy khám phá cách sự chuyển đổi này từ việc chữa cháy phản ứng sang phòng ngừa chủ động đánh dấu một sự tiến hóa giám sát cần thiết.
Khám phá bình thường mới
Bình thường là gì? Đây là một câu hỏi mà các đội cơ sở hạ tầng giám sát máy chủ, thiết bị mạng, ứng dụng và cơ sở dữ liệu đã hỏi trong nhiều thập kỷ. Tại sao? Bởi vì định nghĩa ‘bình thường’ là phức tạp và dễ xảy ra lỗi trên các môi trường động và phân tán ngày càng tăng với nhiều hệ thống để giám sát. Việc tìm câu trả lời sẽ phụ thuộc vào các mẫu kinh doanh và công nghệ cụ thể của bạn. Ngoài ra, nó sẽ phụ thuộc vào công nghệ và cấu hình giám sát của bạn, vì việc đặt ngưỡng tĩnh không bắt được nhiều vấn đề. Thay vào đó, nó sẽ đưa cho bạn một ý tưởng tốt khi nào có điều gì đó xảy ra mà bạn dự kiến, nhưng không giúp bắt các vấn đề bạn không dự kiến, dẫn đến cảnh báo sai, mệt mỏi cảnh báo và khoảng trống trong khả năng hiển thị.
Hãy xem xét một cơ sở sản xuất nơi lưu lượng truy cập đột ngột tăng vọt vào lúc 2 giờ chiều vào ngày thứ Ba. Giám sát truyền thống có thể kích hoạt cảnh báo vì nó vượt quá ngưỡng đặt trước, nhưng liệu đây thực sự là một vấn đề? Không có cách nào để biết được điều này mà không có dữ liệu và chẩn đoán sâu hơn. Sự tăng vọt có thể chỉ ra hoạt động kinh doanh hợp pháp như lịch trình ca mới hoặc sản xuất tăng để đáp ứng thời hạn, hoặc nó có thể báo hiệu một mối đe dọa bảo mật nghiêm trọng, chẳng hạn như xuất dữ liệu hoặc hệ thống bị xâm phạm đang gửi tín hiệu đến máy chủ điều khiển và kiểm soát.
Đây là nơi phát hiện bất thường dựa trên AI tăng cường trí tuệ của giám sát cơ sở hạ tầng. Phương pháp mới nổi này liên tục phân tích dữ liệu lịch sử để tạo ra các đường cơ sở thông minh tự động điều chỉnh để phù hợp với các điều kiện thay đổi. Cách tiếp cận này cho phép cảnh báo chủ động hơn, cung cấp thêm thời gian cho các quản trị viên IT và đội DevOps để can thiệp và giảm thiểu vấn đề trước khi có tác động lớn.
Giám sát lưu lượng truy cập mạng là một ví dụ tốt về điều này trong thực tế. Các hệ thống giám sát cơ sở hạ tầng thu thập các tín hiệu khác nhau, bao gồm nhật ký và số liệu. Một nhật ký là một sự kiện được tạo bởi hệ thống, trong khi một số liệu là một thước đo. Theo thời gian, các thước đo này được thu thập và thể hiện dưới dạng chuỗi thời gian, tương tự như nhiệt độ được đo trong suốt cả ngày. Dữ liệu được thu thập để giám sát điều kiện mạng bao gồm các số liệu như tốc độ gói phát sóng đến và đi, số lượng loại bỏ và lỗi, và tổng lượng lưu lượng truy cập. Nếu có điều gì đó không đúng so với hiệu suất thường xuyên, giám sát thông minh có thể đảm bảo rằng các cảnh báo đúng được kích hoạt và tránh được cảnh báo sai.
Kết quả là, các đội cơ sở hạ tầng có thể tập trung vào việc cung cấp giá trị kinh doanh thay vì liên tục tinh chỉnh các cài đặt cảnh báo và chữa cháy các vấn đề có thể không tồn tại.
Tránh trùng lặp cảnh báo
Sự giám sát trùng lặp có thể giới thiệu các thách thức bổ sung bằng cách tạo ra nhiều cảnh báo hơn. Giám sát có thể trở nên lộn xộn theo thời gian khi các đội thêm theo dõi cho các dự án mới hoặc tạo giám sát bổ sung khi khắc phục sự cố hoặc thử nghiệm. Trước khi bạn biết, thiết lập giám sát sạch và đơn giản dường như có thể trở thành một mê cung cảnh báo dư thừa và không liên quan che khuất vấn đề thay vì làm sáng tỏ chúng.
Ví dụ, các đội IT đôi khi nhận được cảnh báo về việc sử dụng CPU cao, thời gian phản hồi ứng dụng chậm và tắc nghẽn mạng từ cùng một máy chủ quá tải. Không hiểu được mối tương quan, các đội có thể điều tra ba vấn đề riêng biệt thay vì một nguyên nhân gốc rễ duy nhất.
Các công nghệ AI hiện đại, khi kết hợp với giám sát, lại biến đổi vấn đề này thông qua việc phát hiện tự động các cấu hình giám sát tương tự. Sử dụng các kỹ thuật như toán học mờ và thuật toán, cách tiếp cận này phân tích các mẫu hành vi và tiết lộ các mối liên hệ giữa các giám sát tương tự.
Điều này quan trọng vì hai lý do chính. Thứ nhất, nó giảm tiếng ồn cảnh báo. Thay vì nhận được ba cảnh báo riêng biệt từ một vấn đề, các đội nhận được một cảnh báo duy nhất với sự hiểu rõ về những gì cần chú ý và tại sao. Thứ hai, nó loại bỏ giám sát trùng lặp. Điều này giúp tạo ra một thiết lập có thể quản lý được hơn, giúp đơn giản hóa bảng điều khiển và giảm tải nhận thức.
Tương lai của giám sát thông minh
Các phát triển mạng và an ninh mạng khác cũng hỗ trợ trường hợp cho giám sát tăng lên khi sự phức tạp tiếp tục tăng theo cấp số nhân. Những gì từng là các mạng công nghiệp riêng biệt, không kết nối internet hiện nay được kết nối với các hệ thống doanh nghiệp, tạo ra các môi trường lai nơi một vấn đề mạng có thể ảnh hưởng đến cả dây chuyền sản xuất và ứng dụng kinh doanh. Và chúng tôi đang thấy sự hội tụ này trên toàn bộ ngăn xếp hiện đại.
Các cảm biến IoT công nghiệp, cổng edge và thiết bị OT hiện đang giao tiếp cùng với các giao thức IT tiêu chuẩn. Khi các hệ thống đa dạng này gặp phải vấn đề, các quản trị viên yêu cầu giám sát có thể hiểu mối quan hệ trên toàn hệ sinh thái thay vì đối xử với từng hệ thống như một silo riêng biệt. Sự cảnh giác là không thể thương lượng khi một cuộc tấn công thành công có thể dừng dây chuyền sản xuất, làm hỏng thiết bị đắt tiền và gây ra nguy cơ an toàn. Trên thực tế, thời gian ngừng hoạt động không kế hoạch hiện đang chi phí cho các công ty Fortune Global 500 11% doanh thu hàng năm, nhấn mạnh rằng chi phí giám sát thông minh ít hơn nhiều so với chi phí khắc phục sự cố thủ công và mất năng suất.
Trong khi đó, không có cách nào để thoát khỏi thực tế rằng các hacker ở phía bên kia của bảng tính an ninh mạng đang sử dụng công nghệ này như một đột phá về năng suất để tấn công quy mô lớn. Các mô hình ngôn ngữ lớn AI (LLM) tự sinh miễn phí hoặc giá rẻ cho phép các hacker tạo và sửa đổi các cuộc tấn công với chi phí tối thiểu. Và, theo thời gian, rõ ràng rằng các tác nhân xấu ngày càng coi AI là một yếu tố thay đổi trò chơi. Hiện tại, 7 trên 10 tin rằng công nghệ và các công cụ khác nhau của nó tăng cường khả năng tấn công, tăng từ chỉ 2 trên 10 vào năm 2023.
Các thuật toán phát hiện bất thường ngày nay dựa trên toán học và thống kê đã được thiết lập từ lâu. Công nghệ này hoạt động nhưng sự ra đời và ứng dụng của AI và LLM vào giám sát số liệu là một yếu tố thay đổi trò chơi. Chúng tôi đang thấy một số mô hình LLM dựa trên chuỗi thời gian đầu tiên ra mắt thị trường và có thể mong đợi điều này sẽ biến đổi phát hiện bất thường trong hai năm tới. Một số mô hình mới này đang thể hiện độ chính xác và tiến bộ tuyệt vời.
Lựa chọn hiện nằm trong tay các đội IT và vận hành về cách giám sát tốt nhất các hệ sinh thái của họ và đối phó với các mối đe dọa. Tin tốt là phát hiện bất thường tự động và giám sát đường cơ sở có thể giúp bảo vệ tài sản tốt hơn trong khi học hỏi, thích nghi và tối ưu hóa, điều này cho phép lập kế hoạch khả năng và tối ưu hóa tài nguyên hiệu quả hơn. Các kiểm tra lên/xuống cơ bản vẫn có giá trị nhưng – khi một vấn đề duy nhất có thể lan truyền trên các hệ thống IT, OT và IoT – chúng tôi cần thông tin ngữ cảnh thông minh trên nền tảng đó. Các đội bảo vệ cơ sở hạ tầng có thể đáp ứng thời điểm bằng cách tăng khả năng hiển thị của họ tương ứng.












