Myslitelé
Začněte se připravovat nyní na další výpadek cloudu

Velké cloudové incidenty, jako ten, ke kterému došlo tento týden u AWS, jsou nevyhnutelné. Tyto čtyři metody mohou pomoci vaší firmě překonat tuto situaci.
S nesčetnými hodinami ztracené produktivity, finanční systémy narušeny pro miliony uživatelů, a potenciálně stovky miliard dolarů ztracených, tento týden výpadek AWS vytvořil nepochybně hrozný den pro globální IT týmy. Samozřejmě, že to byl také nejhorší globální cloudová katastrofa od poslední jedné… a až do dalšího.
Buďte-li na AWS, GCP, Azure, nebo na jakékoli jiné platformě, velké výpadky jsou daní cloudu. Co tedy může vaše firma udělat, aby zmírnila dopad? Níže nabízím čtyři kroky, které váš tým může okamžitě podniknout.
Přineste skepsi – a udělejte si domácí úkol.
Často týmy uvítají katastrofu tím, že vstupují do cloudových dohod s předpokladem, že velké cloudové společnosti jsou samy o sobě spolehlivé. Je pravda, že nejvíce důvěryhodné firmy si své renomé zasloužily. Současně však každý cloud a hyperscaler nabízí širokou škálu infrastrukturních možností – AWS Severní Amerika má 31 Availability Zones a 31 Edge Network Locations – a některé možnosti jsou mnohem spolehlivější než ostatní.
Skutečně, region US-EAST-1 AWS, který způsobil tento týden výpadek, byl za velkou narušení v roce 2020, 2021 a 2023, a bylo dlouho známo v určitých IT kruzích jako nejspolehlivější region. Mnoho firem pravděpodobně rozumělo situaci, ale přijalo kalkulované riziko s ohledem na nízkou cenu a hojné nabídky regionu. Ale s ohledem na rozsah výpadku je nemožné neuvažovat o tom, kolik firem bylo zcela překvapeno – a jistě by si vybralo spolehlivější regiony, kdyby byly vědomy kompromisů. Osobně jsem se setkal s IT lídry, kteří se rozhodli přesunout do jiných regionů AWS pouze po špatných zkušenostech s US-EAST-1 v minulosti.
Lekce zde je, aby jste udělali domácí úkol, pokud jde o cloudové infrastrukturní možnosti, bez ohledu na to, jaký cloud používáte. Místa, kde začít, zahrnují bezplatné nástroje, jako je cloudprice, Cloudping, a historické incidenty z hyperscaler-provided Cloud Service Health tools.
Vyberte přenositelný místo cloudu.
Když navrhujete cloudové konfigurace, jednodušší cesta je jít cloudu. Ale zatímco je pohodlné vybrat aplikace připravené cloudovým poskytovatelem, tyto cloudové možnosti vás více vystavují, pokud váš cloud selže.
Abyste se vyhnuli další vrstvě cloudu, zvolte nezávislé a/nebo open-source produkty, kde je to možné. Některé příklady náhrad zahrnují:
|
Kategorie |
Příklad nativního nabídky |
Otevřené alternativy zahrnují… |
|
Autentizace & Identita |
AWS Cognito |
Keycloak |
|
Hledání |
Azure Monitor |
Elasticsearch |
|
Relační databáze |
Google Cloud SQL |
PostgreSQL |
|
NoSQL Databáze |
AWS DynamoDB |
MongoDB |
|
Kontejnerová orchestrace |
Azure Kubernetes Service (AKS) |
Kubernetes |
|
Monitorování & Sledování |
Google Cloud Monitoring |
Prometheus + Grafana |
|
Fronty zpráv |
AWS SQS/SNS |
Apache Kafka |
|
Ukládání objektů |
Azure Blob Storage |
MinIO |
|
Brána API |
Google Cloud API Gateway |
Kong |
Je pravda, že stavba více cloudu ze scratch znamená více práce pro vaše týmy. Nicméně, podle mé zkušenosti, jednou, co máte infrastrukturu spuštěnou, je málo až žádný rozdíl mezi přidáním zatížení do zavedené domácí infrastruktury nebo do provozu na cloudu. A výhody v oblasti odolnosti – nejenom snížení cloudu – činí nezávislé možnosti vysoce účinnými.
Navrhněte pro selhání.
Vzhledem k tomu, že cloudová selhání budou nastávat, ujistěte se, že navrhujete produkty s cloudovým selháním na mysli. Jeden příklad, na který se můžete podívat, je Datadog: v incidentu z roku 2023 firma náhle ztratila přístup k více než polovině svých uzlů Kubernetes ve výrobě a úplně přestavěl svůj přístup k katastrofě v reakci. Změny zahrnovaly odstranění architektonických úzkých míst a řešení technického dluhu, aby se zabránilo tomu, že částečná selhání by se rozšiřovala skrze systém, zlepšení příjmu a ukládání dat pro větší dostupnost dat během výpadků a stavbu systémů pro automatické obnovení v měřítku. Jedno skvělé místo, kde začít v cestě, je následovat doporučení Datadog, aby “začali s tím, co je důležité pro koncového uživatele,” a vytvořili bezpečnostní sítě, aby chránili to, co je nejdůležitější.
Běžte na alespoň dvou cloudech.
Samozřejmě, že nejlepší způsob, jak se nevydat cloudu, je multicloud redundance. Dosáhnout skutečné multicloud fluidity je obrovský úkol pro mnoho firem, protože je extrémně obtížné přeložit infrastrukturu z jednoho cloudu do jiného. Ale stavba infrastruktury na pouhých dvou cloudech je silným – a často proveditelným – místem, kde začít. Kritickým pro to, aby to fungovalo, je mít tým na místě s odborníkem v každém cloudu, na kterém běžíte.
Je pravda, že nic nemůže zcela chránit firmy před dopadem masivního výpadku, jako byl ten, který jsme viděli tento týden. Ale s správnou péčí, cloud-portabilním přístupem, navrhováním pro selhání a používáním “dual-cloud” jako startovacího kamene pro skutečné multicloud, firmy mohou být mnohem pružnější, když nastane další (a bohužel nevyhnutelný) velký cloudový incident.










