ソートリーダー
アップ/ダウンを超えて:複雑なインフラストラクチャーで‘通常’を定義するためのより良い方法

私たちは、単純なアップ/ダウン監視から長い距離を歩んできました。工場の床からモダンなエンタープライズインフラストラクチャーまで、IT管理者は、単純なチェックでウェブサイトまたはアプリケーションがユーザーにサービスを提供できるかどうかを判断するために、以前よりもはるかに多くの情報を必要としています。もちろん、基本的な「アップ」または「ダウン」状態を表示することは役立つですが、これ aloneでは、テクノロジーが期待されるビジネス価値をどのように提供しているかという物語を語ることはできません。さらに、ITとOT環境が融合し、エコシステムがよりダイナミックで短暂になるにつれて、これらのアラートは基準を正確に確立または反映しません。
何が通常であるかを理解し、パフォーマンスパターンを学び、コストのかかるダウンタイムを防ぐことは、今日の複雑なインフラストラクチャーにおける重要な機能です。これは、脅威行為者がより洗練されたツールを使用してより少ないリソースでより多くのことを行うようになり、モダンな相互接続インフラストラクチャーが新しい脆弱性を作成するにつれて、特に真実です。
この風景の中で、AI駆動の監視は、正常な動作とそうでない動作の洞察を提供することで、インフラストラクチャー管理を変革し、基準の悪さとアラート疲労を排除します。反応的な消防から予防的な予防へのシフトが、必要な監視の進化をどのように示すかを見てみましょう。
新しい通常を発見する
何が通常であるのか?これは、サーバー、ネットワークデバイス、アプリケーション、データベースを担当するインフラストラクチャー チームが何十年も前に問い続けてきた質問です。なぜなら、通常を定義することは、ダイナミックで分布された環境で、多様なシステムを監視することになるため、複雑でエラーが発生しやすいからです。答えを見つけるには、特定のビジネス パターンとテクノロジーに依存します。さらに、監視テクノロジーと設定にも依存します。静的なしきい値を設定するだけでは、多くの問題を捉えることができません。代わりに、期待されるものが発生しているかどうかを判断するのに役立ちますが、期待していない問題を捉えるのには役に立たないため、誤った陽性、警報疲労、可視性のギャップにつながります。
製造工場で、突然火曜日の午後2時にトラフィックが急増することを考えてみましょう。従来の監視では、予め設定されたしきい値を超えたため、アラートが発生するかもしれませんが、これは本当に問題ですか?より深いデータと診断なしには、判断することはできません。スパイクは、新しいシフトスケジュールや納期を満たすために生産量を増やすなどの合法的なビジネス活動を示している可能性があります。あるいは、データの流出やシステムがコマンドアンドコントロールサーバーにビーコンを送信しているなどの深刻なセキュリティ脅威を示している可能性もあります。
ここで、異常検出をAI駆動で行うことで、インフラストラクチャー監視の知能を高めることができます。この新しい方法では、継続的に歴史データを分析して、自動的に変更されるインテリジェントな基準を作成します。このアプローチにより、IT管理者とDevOpsチームが問題を軽減するための余裕を持って対応できる、より予防的なアラートが可能になります。
ネットワークトラフィックの監視は、これが実際にどのように機能するかの一例です。インフラストラクチャー監視システムは、ログやメトリックなどのさまざまな信号を収集します。ログはシステムによって生成されるイベントであり、メトリックは測定値です。時間の経過とともに、これらの測定値は収集され、時系列として表現されます。ネットワーク状態を監視するために収集されるデータには、受信および送信ブロードキャストパケットレート、破棄およびエラーの数、合計トラフィックのスループットなどのメトリックが含まれます。何かが通常のパフォーマンスと比較して異常である場合、インテリジェントな監視では、適切なアラームが発生し、誤った陽性が回避されます。
結果として、インフラストラクチャー チームは、問題が存在しない可能性のある問題に対する消防活動やアラート設定の微調整に常に従事するのではなく、ビジネス価値の提供に集中できます。
アラートの重複を避ける
監視を二重化することは、さらに多くのアラートを生成することによって追加の課題をもたらす可能性があります。監視は、新しいプロジェクトを追跡したり、トラブルシューティングまたはテスト中に追加の監視を作成したりするにつれて、時間の経過とともに混雑する可能性があります。長い間、シンプルで整理された監視設定が、冗長または無関係なアラートの迷宮と化して、問題を明らかにするのではなく、隠してしまう可能性があります。
たとえば、ITチームは、同じオーバーロードされたサーバーから、CPU使用率の高さ、応答時間の遅さ、ネットワークの輻輳についてアラートを受け取ることがあります。関連性を理解せずに、チームは3つの個別の問題を調査するかもしれませんが、実際には1つの根本的な原因があります。
モダンなAIテクノロジーは、監視と組み合わせて、この問題を解決します。監視設定の類似性を自動的に検出することで、ふわふわした数学やヒューリスティックなどの手法を使用して、行動パターンを分析し、類似の監視間の相関関係を明らかにします。
これは2つの理由で重要です。まず、アラートノイズを軽減します。1つの問題に対して3つの個別のアラートを受け取るのではなく、チームは何に注目し、理由を理解した1つのアラートを受け取ります。2番目に、冗長な監視を排除します。これにより、ダッシュボードをストリームライン化し、認知負荷を軽減することができます。
インテリジェント監視の未来
他のネットワークおよびサイバーセキュリティの開発も、複雑さが指数関数的に増大するにつれて、監視の増加を支持しています。かつては独立したエアギャップの産業用ネットワークでしたが、現在はエンタープライズ システムと相互接続されており、ハイブリッド環境を作成し、1つのネットワーク問題が生産ラインとビジネス アプリケーションの両方に影響を及ぼす可能性があります。さらに、この融合は、モダンなスタック全体で発生しています。
産業用IoTセンサー、エッジゲートウェイ、OTデバイスは、標準的なITプロトコルとともに通信します。これらの多様なシステムで問題が発生すると、管理者は個別のシロとして扱うのではなく、エコシステム全体の関係を理解できる監視が必要になります。生産ラインを停止させ、機器を損傷させ、安全上の危険をもたらす可能性があるため、警戒は交渉できないものです。実際、計画外のダウンタイムは、現在、フォーチュン グローバル 500 社に年間収益の 11% のコストをもたらしており、インテリジェントな監視のコストは、手動でのトラブルシューティングと生産性の低下のコストよりもはるかに低いことを強調しています。
一方、サイバーセキュリティの反対側にあるハッカーは、このテクノロジーをプロダクティビティ ブレークスルーとして使用して大規模な攻撃を仕掛けています。無料または低コストのジェネレーティブ AI ラージ ラングエージ モデル (LLM) を使用すると、ハッカーは最小限のコストで攻撃を生成および変更できます。時間の経過とともに、悪意のある行為者は、AI とそのさまざまなツールが攻撃を強化することをますます認識しています。今日、7 人のハッカーのうち 10 人 が、このテクノロジーとツールがハッキングを強化することを信じています。2023 年の 2 人のうち 10 人から増加しました。
今日の異常検出アルゴリズムは、数十年前に確立された数学と統計に基づいています。このテクノロジーは機能しますが、メトリック監視に AI と LLM を適用することはゲームチェンジャーです。時系列ベースの LLM の最初のものが市場に出てきており、異常検出が次の 2 年間で変化することを期待できます。これらの新しいモデルの中には、優れた精度と進歩を示しているものがあります。
選択は、IT および運用チームがエコシステムをどのように監視し、脅威に対抗するかによって決まります。良いニュースは、自動的な異常検出と基準監視が、学習、適応、最適化を可能にし、さらに効果的な容量計画とリソース最適化を可能にすることで、資産をより効果的に保護できることです。基本的なアップ/ダウン チェックはまだ価値がありますが、1 つの問題が IT、OT、IoT システム全体に波及する可能性がある場合、インフラストラクチャー防御者は、基盤となるものの上にインテリジェントなコンテキストを必要とします。












