์ฌ์ ๋ฆฌ๋
๋ค์ ํด๋ผ์ฐ๋ ์ค๋จ์ ๋๋นํ์ฌ ์ง๊ธ ์ค๋นํ์ธ์

이번 주와 같은 주요 클라우드 사고는 불가피합니다. 이러한 4가지 방법으로 귀하의 회사에서 지속할 수 있습니다.
수많은 시간의 생산성 손실, 금융 시스템이 수백만 명의 사용자에게 중단되었으며, 잠재적으로 수백억 달러의 손실이 발생할 수 있습니다. 이번 주의 AWS 중단은 글로벌 IT 팀에게 의심할 여지 없이 끔찍한 하루가 되었습니다. 물론, 이것은 마지막 중단 이후 가장 최근의 글로벌 클라우드 재난이었으며… 다음 중단까지입니다.
AWS, GCP, Azure 또는 기타 플랫폼에 관계없이 주요 중단은 클라우드 컴퓨팅 현실의 당연한 결과입니다.那么 귀하의 회사에서 충격을 완화하기 위해 무엇을 할 수 있습니까? 아래에서 귀하의 팀이 즉시 수행할 수 있는 4가지 단계를 제공하겠습니다.
의심하고 조사하세요.
종종 팀은 주요 클라우드 기업이 본질적으로 신뢰할 수 있다고 가정하여 클라우드 계약을 체결하여 재난을 초래합니다. 물론, 가장 신뢰할 수 있는 회사들은 이유가 있기 때문에 그 명성을 얻었습니다. 同时, 모든 클라우드와 하이퍼스케일러는 다양한 인프라 옵션을 제공합니다. 예를 들어, AWS 북미 지역은 31개의 가용 영역과 31개의 에지 네트워크 위치를 가지고 있습니다. 이러한 옵션 중 일부는 다른 옵션보다 훨씬 더 신뢰할 수 있습니다.
실제로, 이번 중단의 원인이 된 AWS의 US-EAST-1 리전은 2020년, 2021년, 2023년에 주요 중단을 일으켰으며, 某些 IT круг에서 가장 신뢰할 수 없는 리전으로 알려져 있었습니다. 많은 회사들은 리전의 낮은 비용과 풍부한 제공에도 불구하고 계산된 위험을 감수했습니다. 그러나 중단의 규모를 고려하면 많은 회사들이 완전히 놀랐을 것이라는 사실을 무시할 수 없습니다. 그리고 더 신뢰할 수 있는 리전을 선택했을 것입니다. 저는 과거에 US-EAST-1와의 나쁨 경험으로 인해 다른 AWS 리전으로 이동한 IT 리더들을 만났습니다.
여기서의 교훈은 클라우드 인프라 옵션에 대해 조사하고 검토하는 것입니다. 시작할 수 있는 곳은 무료 도구인 cloudprice, Cloudping, 및 하이퍼스케일러 제공 클라우드 서비스 헬스 도구의 역사적 사건 보기입니다.
클라우드 네이티브 대신 이식 가능한 옵션을 선택하세요.
클라우드 구성 아키텍처를 설계할 때, 더 간단한 방법은 클라우드 네이티브를 선택하는 것입니다. 그러나 클라우드 제공업체가 제공한 클라우드 네이티브 옵션을 선택하면 클라우드가 중단되면 더 취약해집니다.
추가적인 클라우드 종속성을 피하기 위해, 독립적이고/또는 오픈 소스 제품을 선택하세요. 몇 가지 예는 다음과 같습니다:
|
카테고리 |
네이티브 오퍼링 예 |
오픈 소스 대안 |
|
인증 및 身分 |
AWS Cognito |
Keycloak |
|
검색 |
Azure Monitor |
Elasticsearch |
|
관계형 데이터베이스 |
Google Cloud SQL |
PostgreSQL |
|
NoSQL 데이터베이스 |
AWS DynamoDB |
MongoDB |
|
컨테이너 오케스트레이션 |
Azure Kubernetes Service (AKS) |
Kubernetes |
|
모니터링 및 관찰 가능성 |
Google Cloud Monitoring |
Prometheus + Grafana |
|
메시지 큐 |
AWS SQS/SNS |
Apache Kafka |
|
오브젝트 스토리지 |
Azure Blob Storage |
MinIO |
|
API 게이트웨이 |
Google Cloud API Gateway |
Kong |
물론, 클라우드 스택을 스스로 구축하는 것은 더 많은 작업을 의미합니다. 그러나 일단 인프라가 구축되면 클라우드 네이티브와 독립적인 인프라에서 작업량을 추가하는 데 거의 차이가 없습니다. 그리고 탄력성과 클라우드 잠금 해제의 이점은 독립적인 옵션을 매우 가치 있게 만듭니다.
실패에 대비하여 설계하세요.
클라우드 실패가 발생할 수 있으므로, 클라우드 실패를 고려하여 제품을 설계하세요. 예를 들어, Datadog의 경우 2023년에突然 Kubernetes 노드의 반 이상을 잃었으며, 재난 접근 방식을 완전히 재설계했습니다. 변경 사항에는 아키텍처 병목 현상을 제거하고 기술 부채를 해결하여 부분 실패가 시스템을 통해 캐스케이드되지 않도록 하는 것이 포함되었습니다. 또한 중단 기간 동안 더 나은 데이터 가용성을 위해 데이터 수집 및 저장을 개선했습니다. 또한 자동으로 대규모로 복구할 수 있는 시스템을 구축했습니다. 시작할 수 있는 좋은 곳은 Datadog의 “사용자에게 중요한 것부터 시작”이라는 추천입니다. 그리고 가장 중요한 것을 보호하기 위한 안전 장치를 구축하세요.
최소 2개의 클라우드에서 실행하세요.
물론, 클라우드 실패에 구속되지 않으려면 멀티 클라우드 중복성이 필요합니다.真正한 멀티 클라우드 유연성을 달성하는 것은 많은 회사들에게巨大한 작업입니다. 왜냐하면 인프라를 한 클라우드에서 다른 클라우드로 변환하는 것은 매우 어렵기 때문입니다. 그러나 2개의 클라우드에서 인프라를 구축하는 것은 강력하고 종종 달성 가능한 시작점입니다. 이것을 작동하게 하기 위한 중요한 것은 각 클라우드의 전문가가 있는 팀을 갖는 것입니다.
물론, 아무도 회사들을巨大한 중단의 영향으로부터 완전히 보호할 수 없습니다. 그러나 적절한 조사, 클라우드 이식 가능한 접근 방식, 실패에 대한 설계, 및 “듀얼 클라우드”를 실제 멀티 클라우드로 가는 첫 단계로 사용하면, 다음(불행히도) 주요 클라우드 사고가 발생했을 때 회사들은 훨씬 더 민첩하게 대응할 수 있습니다.










