

スーパーボウルの興奮の中で、舞台裏のインフラストラクチャーを忘れることが容易いです。ボウルがハITCHなく進行するためには、放送自体だけでなく、イベントを取り巻く広範なビジネスネットワークも含め、数千のバックエンドシステムが計画どおりに動作し、最大容量まで伸縮する必要があります。これは、クラウドでは特に真実です。AWSがPeacock ストリーミングをサポートしているか、シアトル シーホークス オペレーションをサポートしているか、または、たとえば、Google Cloud が2028 年オリンピックをサポートしているか、または Microsoft Azure がプレミアリーグを動かしているか、クラウドは主要なスポーツイベントを実現するために重要です。そのため、2026 年のスーパーボウルに参加する会社は、ゲーム デーのクラウド プランを考慮したはずです (考慮していない場合は、もう遅いかもしれません)。しかし、2027 年のスーパーボウルに参加することを検討している場合、またはクラウドのゲームを強化したい場合は、この記事はあなたのためにです。以下、クラウド プレイブックを提供します。ゲーム デーにクラウド ストレスが発生する 2 つの重要な領域、つまり、例のないデータ サージと AI への頑丈な依存関係に焦点を当てます。しかし、まずクラウド アウトエージの脅威を確認するためのクイック ハドルを実行しましょう。ファースト ダウン...


この週のAWSのようなメジャークラウド障害は避けられない。これらの4つの方法により、貴社は続行することができます。 数多くの生産性の低下、金融システムが数百万のユーザーにわたって混乱、および数百億ドルの損失が発生する可能性がある、この週のAWS障害は、世界のITチームにとって間違いなく最悪の日となりました。もちろん、これは、前回の出来事以来、最も深刻なクラウド災害であり、そして次の出来事まで続くでしょう。 AWS、GCP、Azure、またはその他のプラットフォーム上にいても、メジャーな障害はクラウドコンピューティングの現実の当たり前です。そこで、貴社はクラウド障害の影響を和らげるために何をすることができますか。以下に、貴社のチームがすぐに取り組むことができる4つのステップを示します。 懐疑心を持ち、調査をします。 多くの場合、チームはクラウド企業が本来信頼できるという前提でクラウド契約に臨み、災難を招きます。確かに、最も信頼できる企業はその評判を得る理由があるのです。しかし、すべてのクラウドとハイパースケーラーには、さまざまなインフラストラクチャオプションが提供されています。たとえば、AWS North America aloneには、31のアベイラビリティーゾーンと31のエッジネットワークロケーションがあります。しかしそのうちのいくつかは他のよりもはるかに信頼性が高いです。 実際、US-EAST-1リージョンは、この週の障害の原因となり、2020年、2021年、2023年に大規模な障害を引き起こしました。また、一部のIT関係者の中では、最も信頼性の低いリージョンとして知られていました。多くの企業は、リージョンの低コストと豊富な提供サービスを考慮して、リスクを負ってUS-EAST-1を選択したのでしょう。しかし、障害の規模からすると、どのくらいの企業が完全に驚かされたのか、またどのくらいの企業がもっと信頼性の高いリージョンを選択したかは、想像に難くありません。私はUS-EAST-1での悪い経験の後、他のAWSリージョンに移行したITリーダーと出会ったことがあります。 ここでの教訓は、どのクラウドを使用しているかに関係なく、クラウドインフラストラクチャオプションについて十分な調査をすることです。調査を開始するための場所として、cloudprice、Cloudping、およびハイパースケーラー提供のCloud Service Healthツールからの歴史的インシデントビューなどの無料ツールがあります。 クラウドネイティブではなく、ポータブルを選択します。 クラウド構成を設計する際、最も簡単な方法はクラウドネイティブを選択することです。しかし、クラウドプロバイダーによって事前に構築されたアプリケーションを選択することは便利ですが、クラウドがダウンした場合にさらなるクラウド依存につながります。 その追加のクラウド依存を避けるために、可能な限り独立したおよび/またはオープンソース製品を選択します。以下は、代替製品の例です: カテゴリ ネイティブオファリングの例 オープンソースの代替製品 認証とアイデンティティ AWS Cognito Keycloak 検索 Azure Monitor Elasticsearch...


電子商取引のリーダーにとって、ホリデー・シーズンには2つの確実性があります。大量のショッパーが訪れることと、クラウド・プロバイダー・アウトエージのリスクが高まることです。主要なクラウドの障害は、より頻繁に発生し、より深刻な影響を及ぼすようになっています。たとえば、AWS US-East-1 リージョンには、ホリデー・シーズンの大規模な障害の歴史があります。同様に、毎年1月ごろ、Microsoft Azure は、特定のリージョンでのリリースまたはテスト・プランにより、ネットワークの遅延やネットワーク・アウトエージが発生する傾向があります。また、先月の6月には、大規模な Google Cloud のアウトエージ が多数のアプリケーションに影響を及ぼしたことを思い出せば、単一のプロバイダーは誰もが免疫ではないことを思い知らされることになります。あなたが電子商取引の運営を担当している場合、すべてを正しく設定していても、最も重要な時期に何かが止まっていることを知ることはしたくないでしょう。これらのクラウド・プロバイダー・アウトエージや問題の傾向は、あなたのレーダー上にないかもしれませんが、実際にはそうであるべきではありません。如果あなたがサイトの信頼性エンジニアである場合、クラウド・プラットフォームのアウトエージがあなたのアプリケーションに影響を及ぼすことを心配する必要はなく、問題が発生したときにインフラストラクチャを即座に調整する必要もありません。代わりに、多クラウドについてあなたが知っていることを再検討する必要があります。マルチクラウド・アプリケーションあなたの組織が AWS、Azure、GCP の料金を支払っている場合、実際には 3 つのクラウドを利用できることになります。しかし、1 層目に深く掘り下げてみると、重要な点があります。AWS、Azure、または GCP に特化したアプリケーションを持っている場合、クラウド・プロバイダーの 1 つがダウンしたときに、迅速に別のクラウドに切り替えることができますか?あなたのアプリケーションは、どのクラウド上でも完璧に動作する必要があります。那が真正なマルチクラウド・セットアップです。如果あなたがクラウド・アグノスティックであることを望む場合、単にマルチクラウドを支払うのではなく、あなたのアプリケーションもマルチクラウドであることを確認する必要があります。さらに、単一のプロバイダーに依存することで、コンピュート・キャパシティ、API レート制限、およびリージョンごとの可用性に関する固有の制約が生じます。真正なマルチクラウド・アーキテクチャは、集約されたコンピュート・パワーを増加させ、これらの制約に対する耐性を提供します。単一のプロバイダーの制限を超えて、需要に応じてスケールアップし、地理的に容量を迅速に拡大し、ピークのショッピング・デー中に一貫したパフォーマンスを確保する能力が解放されます。しかし、ポータブルでクラウド・アグノスティックなアプリケーションを持つことは、最初のステップにすぎません。次のステップは、それを真正に耐性のあるアーキテクチャでデプロイすることです。アクティブ・アクティブ・アプローチへのスケーリングこれには、DevOps による重大な準備が必要です。100% の正確な ビジネス・コンティニュイティ・ディザスター・リカバリー (BCDR) 戦略を持つことは、非常に困難です。なぜなら、実際の運用において、多数の障害点があるからです。BCDR 戦略をアウトエージでテストしたくないので、可能なシナリオを予測し、準備することだけができるかもしれません。サイトの信頼性エンジニアに対する私のアドバイスは、デフォルトで障害を想定してアーキテクチャを設計することです。これは、セカンダリまたはテリアリのクラウドをアクティブな状態で実行することを意味します。単一のプロバイダーに限定された BCDR...