공지

Google Cloud Next 2025: 실리콘, 소프트웨어, 그리고 개방형 에이전트 생태계로 AI에 대한 투자를 강화하다

Published April 9, 2025

Updated March 21, 2026

Alex McFarland

라스베이거스는 기술 산업에 있어 중요한 순간에 열리고 있는 Google Cloud Next 2025의 무대가 되었습니다. 클라우드 거인들 – Amazon Web Services(AWS), Microsoft Azure, Google Cloud – 사이의 인공 지능 군비 경쟁은 빠르게 가열되고 있습니다. 강력한 기술력과 깊은 AI 연구 기반에도 불구하고 종종 3위 경쟁자로 여겨지는 Google은 Cloud Next 무대를 통해 기업 AI 시장을 정조준한 포괄적이고 공격적인 전략을 명확히 밝혔습니다. Google Cloud CEO 토마스 쿠리안이 전하고 Google 및 Alphabet CEO 순다르 피차이가 공유한 이야기의 중심은 AI 변혁을 단순한 가능성에서 실질적인 현실로 옮기는 것이었습니다. Google은 자사의 주장하는 성장세를 강조하며, 지난해 3,000개 이상의 제품 개선, 지난 Cloud Next 이후 Vertex AI 플랫폼 사용량 20배 증가, Gemini 모델군으로 적극적으로 구축 중인 4백만 명 이상의 개발자, 컨퍼런스 중 500개 이상의 고객 성공 사례를 선보이는 것을 언급했습니다. 그러나 Google Cloud Next 2025는 점진적인 업데이트나 인상적인 지표를 보여주는 데 그치지 않았습니다. 또한 다각적인 공세를 공개했습니다. 강력하고 추론에 최적화된 맞춤형 실리콘(Ironwood TPU) 출시, 실용성에 초점을 맞춰 주력 AI 모델 포트폴리오를 개선(Gemini 2.5 Flash), 방대한 글로벌 네트워크 인프라를 기업에 개방(Cloud WAN), 그리고 AI 에이전트를 위한 개방적이고 상호 운용 가능한 생태계에 대한 중대한 전략적 배팅(Agent2Agent 프로토콜)을 통해, Google은 기업 AI의 다음 진화 단계 – 회사가 점점 “에이전트 시대”라고 부르는 – 를 정의하는 위치에 자신을 공격적으로 포지셔닝하고 있습니다.

Ironwood, Gemini, 그리고 네트워크 효과

Google의 AI 야망의 중심에는 맞춤형 실리콘에 대한 지속적인 투자가 있습니다. Cloud Next 2025의 스타는 Google의 Tensor Processing Unit(TPU) 7세대인 Ironwood이었습니다. 중요한 것은, Ironwood이 명시적으로 AI 추론 – 훈련된 모델을 사용하여 실제 애플리케이션에서 예측을 하거나 출력을 생성하는 과정 – 을 위해 설계된 첫 번째 TPU로 소개된다는 점입니다. Ironwood에 대한 성능 주장은 상당합니다. Google은 단일 팟 내에서 상호 연결된 최대 9,216개의 액체 냉각 칩으로 확장되는 구성을 상세히 설명했습니다. 이 가장 큰 구성은 어마어마한 42.5 엑사플롭스의 컴퓨팅 성능을 제공한다고 주장합니다. Google은 이것이 현재 세계에서 가장 강력한 슈퍼컴퓨터로 평가받는 El Capitan의 팟당 컴퓨팅 성능보다 24배 이상을 나타낸다고 주장합니다. 인상적이지만, 이러한 비교는 종종 다른 수치 정밀도를 포함하므로 직접적인 동등성은 복잡하다는 점을 유의하는 것이 중요합니다. 그럼에도 불구하고, Google은 Ironwood을 이전 고성능 TPU 세대보다 10배 이상의 개선으로 포지셔닝합니다. 원시 컴퓨팅 성능을 넘어, Ironwood은 전작인 Trillium(TPU v6)에 비해 메모리와 상호 연결성에서 상당한 발전을 자랑합니다. 아마도 동등하게 중요한 것은 에너지 효율성에 대한 강조입니다. Google은 Ironwood이 Trillium 대비 와트당 성능을 두 배 제공하며, 2018년 첫 Cloud TPU보다 거의 30배 더 전력 효율적이라고 주장합니다. 이는 AI를 위한 데이터 센터 확장에 있어 전력 가용성이라는 증가하는 제약을 직접적으로 해결합니다.

Google TPU 세대 비교: Ironwood(v7) 대 Trillium(v6)

기능	Trillium (TPU v6)	Ironwood (TPU v7)	개선 계수
주요 초점	훈련 & 추론	추론	전문화
최대 컴퓨팅/칩	직접 비교 불가 (세대 차이)	4,614 TFLOPs (FP8 가능성)	–
HBM 용량/칩	32 GB (6배 주장 기반 추정)	192 GB	6x
HBM 대역폭/칩	~1.6 Tbps (4.5배 주장 기반 추정)	7.2 Tbps	4.5x
ICI 대역폭 (양방향)	~0.8 Tbps (1.5배 주장 기반 추정)	1.2 Tbps	1.5x
이전 세대 대비 성능/와트	비교 기준선	Trillium 대비 2x	2x
TPU v1(2018) 대비 성능/와트	~15x (추정)	거의 30x	Trillium 대비 ~2x

참고: 일부 Trillium 수치는 Google의 Ironwood에 대한 주장된 개선 계수를 기반으로 추정되었습니다. 최대 컴퓨팅 비교는 세대 차이와 정밀도 변동 가능성으로 인해 복잡합니다. Ironwood은 Google의 “AI 하이퍼컴퓨터” 개념의 핵심 부분을 형성합니다 – 이는 최적화된 하드웨어(TPU 및 Nvidia의 Blackwell 및 예정된 Vera Rubin과 같은 GPU 포함), 소프트웨어(Pathways 분산 ML 런타임과 같은), 스토리지(Hyperdisk Exapools, Managed Lustre), 그리고 네트워킹을 통합하여 까다로운 AI 워크로드를 처리하는 아키텍처입니다. 모델 전선에서는, Google은 고급형 Gemini 2.5 Pro에 대한 전략적인 대응점으로 Gemini 2.5 Flash를 소개했습니다. Pro가 복잡한 추론을 위한 최대 품질을 목표로 하는 반면, Flash는 낮은 지연 시간과 비용 효율성을 명시적으로 최적화하여 고객 서비스 상호작용이나 빠른 요약과 같은 대량의 실시간 애플리케이션에 적합합니다. Gemini 2.5 Flash는 쿼리 복잡도에 따라 처리를 조정하는 동적 “사고 예산” 기능을 갖추고 있어 사용자가 속도, 비용, 정확도 사이의 균형을 조정할 수 있게 합니다. 고성능 추론 칩(Ironwood)과 비용/지연 시간 최적화 모델(Gemini Flash)에 대한 이 동시적 초점은 AI의 실질적인 운영화를 향한 Google의 추진을 강조하며, 프로덕션에서 모델을 실행하는 비용과 효율성이 기업에게 점점 더 중요한 관심사가 되고 있음을 인식하고 있습니다. 실리콘 및 모델 업데이트를 보완하는 것은 Cloud WAN의 출시입니다. Google은 사실상 자사의 방대한 내부 글로벌 네트워크 – 2백만 마일 이상의 광섬유에 걸쳐 200개 이상의 PoP를 통해 42개 리전을 연결하는 – 를 제품화하여 기업 고객이 직접 이용할 수 있게 만들었습니다. Google은 이 서비스가 공용 인터넷 대비 최대 40% 더 빠른 성능을 제공할 수 있으며, 자체 관리 WAN 대비 총 소유 비용을 최대 40% 절감할 수 있다고 주장하며, 99.99% 신뢰성 SLA로 뒷받침됩니다. 주로 데이터 센터 간의 고성능 연결 및 지사/캠퍼스 환경 연결을 대상으로 하는 Cloud WAN은 Network Connectivity Center를 포함한 Google의 기존 인프라를 활용합니다. Google이 네슬레와 시타델 증권을 초기 채용 사례로 언급했지만, 이 움직임은 근본적으로 핵심 인프라 자산을 무기화합니다. 이는 내부 운영 필수 요소를 경쟁 차별화 요소이자 잠재적 수익원으로 변환시켜, 전통적인 통신 사업자와 AWS Cloud WAN 및 Azure Virtual WAN과 같은 경쟁 클라우드 플랫폼의 네트워킹 제품에 직접적으로 도전합니다.

(출처: Google DeepMind)

에이전트 공세: ADK와 A2A로 다리 놓기

인프라와 핵심 모델을 넘어, Google Cloud Next 2025는 AI 에이전트와 이를 구축하고 연결하는 도구에 비범한 강조를 두었습니다. 제시된 비전은 단순한 챗봇을 훨씬 넘어, 자율적인 추론, 계획 수립, 복잡한 다단계 작업 실행이 가능한 정교한 시스템을 상상합니다. 초점은 명확히 다중 에이전트 시스템을 가능하게 하는 쪽으로 이동하고 있으며, 여기서 특화된 에이전트들이 협력하여 더 넓은 목표를 달성합니다. 이 비전을 용이하게 하기 위해, Google은 Agent Development Kit (ADK)를 소개했습니다. ADK는 개별 에이전트와 복잡한 다중 에이전트 시스템 생성을 단순화하도록 설계된 오픈소스 프레임워크로, 처음에는 Python에서 사용 가능합니다. Google은 개발자가 100줄 미만의 코드로 기능적인 에이전트를 구축할 수 있다고 주장합니다. 주요 기능에는 정밀한 제어를 위한 코드 우선 접근 방식, 다중 에이전트 아키텍처에 대한 기본 지원, 유연한 도구 통합(Model Context Protocol, 즉 MCP 지원 포함), 내장 평가 기능, 로컬 컨테이너부터 관리형 Vertex AI Agent Engine에 이르는 배포 옵션이 포함됩니다. ADK는 또한 더 자연스럽고 인간 같은 상호작용을 위한 양방향 오디오 및 비디오 스트리밍을 독특하게 지원합니다. 동반되는 “Agent