Myslitelé

Začněte se připravovat nyní na další výpadek cloudu

Published November 5, 2025

Updated April 1, 2026

Harshit Omar, Co-Founder and CTO, FluidCloud

Velké cloudové incidenty, jako ten, ke kterému došlo tento týden u AWS, jsou nevyhnutelné. Tyto čtyři metody mohou pomoci vaší firmě překonat tuto situaci.

S nesčetnými hodinami ztracené produktivity, finanční systémy narušeny pro miliony uživatelů, a potenciálně stovky miliard dolarů ztracených, tento týden výpadek AWS vytvořil nepochybně hrozný den pro globální IT týmy. Samozřejmě, že to byl také nejhorší globální cloudová katastrofa od poslední jedné… a až do dalšího.

Buďte-li na AWS, GCP, Azure, nebo na jakékoli jiné platformě, velké výpadky jsou daní cloudu. Co tedy může vaše firma udělat, aby zmírnila dopad? Níže nabízím čtyři kroky, které váš tým může okamžitě podniknout.

Přineste skepsi – a udělejte si domácí úkol.

Často týmy uvítají katastrofu tím, že vstupují do cloudových dohod s předpokladem, že velké cloudové společnosti jsou samy o sobě spolehlivé. Je pravda, že nejvíce důvěryhodné firmy si své renomé zasloužily. Současně však každý cloud a hyperscaler nabízí širokou škálu infrastrukturních možností – AWS Severní Amerika má 31 Availability Zones a 31 Edge Network Locations – a některé možnosti jsou mnohem spolehlivější než ostatní.

Skutečně, region US-EAST-1 AWS, který způsobil tento týden výpadek, byl za velkou narušení v roce 2020, 2021 a 2023, a bylo dlouho známo v určitých IT kruzích jako nejspolehlivější region. Mnoho firem pravděpodobně rozumělo situaci, ale přijalo kalkulované riziko s ohledem na nízkou cenu a hojné nabídky regionu. Ale s ohledem na rozsah výpadku je nemožné neuvažovat o tom, kolik firem bylo zcela překvapeno – a jistě by si vybralo spolehlivější regiony, kdyby byly vědomy kompromisů. Osobně jsem se setkal s IT lídry, kteří se rozhodli přesunout do jiných regionů AWS pouze po špatných zkušenostech s US-EAST-1 v minulosti.

Lekce zde je, aby jste udělali domácí úkol, pokud jde o cloudové infrastrukturní možnosti, bez ohledu na to, jaký cloud používáte. Místa, kde začít, zahrnují bezplatné nástroje, jako je cloudprice, Cloudping, a historické incidenty z hyperscaler-provided Cloud Service Health tools.

Vyberte přenositelný místo cloudu.

Když navrhujete cloudové konfigurace, jednodušší cesta je jít cloudu. Ale zatímco je pohodlné vybrat aplikace připravené cloudovým poskytovatelem, tyto cloudové možnosti vás více vystavují, pokud váš cloud selže.

Abyste se vyhnuli další vrstvě cloudu, zvolte nezávislé a/nebo open-source produkty, kde je to možné. Některé příklady náhrad zahrnují:

Kategorie	Příklad nativního nabídky	Otevřené alternativy zahrnují…
Autentizace & Identita	AWS Cognito	Keycloak
Hledání	Azure Monitor	Elasticsearch
Relační databáze	Google Cloud SQL	PostgreSQL
NoSQL Databáze	AWS DynamoDB	MongoDB
Kontejnerová orchestrace	Azure Kubernetes Service (AKS)	Kubernetes
Monitorování & Sledování	Google Cloud Monitoring	Prometheus + Grafana
Fronty zpráv	AWS SQS/SNS	Apache Kafka
Ukládání objektů	Azure Blob Storage	MinIO
Brána API	Google Cloud API Gateway	Kong

Je pravda, že stavba více cloudu ze scratch znamená více práce pro vaše týmy. Nicméně, podle mé zkušenosti, jednou, co máte infrastrukturu spuštěnou, je málo až žádný rozdíl mezi přidáním zatížení do zavedené domácí infrastruktury nebo do provozu na cloudu. A výhody v oblasti odolnosti – nejenom snížení cloudu – činí nezávislé možnosti vysoce účinnými.

Navrhněte pro selhání.

Vzhledem k tomu, že cloudová selhání budou nastávat, ujistěte se, že navrhujete produkty s cloudovým selháním na mysli. Jeden příklad, na který se můžete podívat, je Datadog: v incidentu z roku 2023 firma náhle ztratila přístup k více než polovině svých uzlů Kubernetes ve výrobě a úplně přestavěl svůj přístup k katastrofě v reakci. Změny zahrnovaly odstranění architektonických úzkých míst a řešení technického dluhu, aby se zabránilo tomu, že částečná selhání by se rozšiřovala skrze systém, zlepšení příjmu a ukládání dat pro větší dostupnost dat během výpadků a stavbu systémů pro automatické obnovení v měřítku. Jedno skvělé místo, kde začít v cestě, je následovat doporučení Datadog, aby “začali s tím, co je důležité pro koncového uživatele,” a vytvořili bezpečnostní sítě, aby chránili to, co je nejdůležitější.

Běžte na alespoň dvou cloudech.

Samozřejmě, že nejlepší způsob, jak se nevydat cloudu, je multicloud redundance. Dosáhnout skutečné multicloud fluidity je obrovský úkol pro mnoho firem, protože je extrémně obtížné přeložit infrastrukturu z jednoho cloudu do jiného. Ale stavba infrastruktury na pouhých dvou cloudech je silným – a často proveditelným – místem, kde začít. Kritickým pro to, aby to fungovalo, je mít tým na místě s odborníkem v každém cloudu, na kterém běžíte.

Je pravda, že nic nemůže zcela chránit firmy před dopadem masivního výpadku, jako byl ten, který jsme viděli tento týden. Ale s správnou péčí, cloud-portabilním přístupem, navrhováním pro selhání a používáním “dual-cloud” jako startovacího kamene pro skutečné multicloud, firmy mohou být mnohem pružnější, když nastane další (a bohužel nevyhnutelný) velký cloudový incident.

Related Topics:cloud Cloud Outage FluidCloud

Harshit Omar, Co-Founder and CTO, FluidCloud

Harshit Omar je spoluzakladatel a technický ředitel FluidCloud, kde buduje budoucnost cloudové infrastruktury – umožňuje firmám bezproblémově migrovat, replikovat a optimalizovat úlohy napříč multi-cloudovými prostředími. Předtím byl prvním inženýrem v Accurics, kde vedl základní vývojové úsilí na jeho policy engine a cloudové bezpečnostní platformě.

S hlubokými znalostmi v Go, Kubernetes, Terraform a cloudové compliance, strávil Harshit přes deset let navrhováním odolných systémů napříč AWS, Azure a GCP.

Jeho mise nyní je eliminovat cloudové uzamčení a učinit infrastrukturu stejně přenositelnou a odolnou jako kód.

Unite.AI

Začněte se připravovat nyní na další výpadek cloudu

Přineste skepsi – a udělejte si domácí úkol.

Vyberte přenositelný místo cloudu.

Navrhněte pro selhání.

Běžte na alespoň dvou cloudech.

You may like