인공지능

Vertex AI에 대한 소개

Published January 19, 2026

Updated April 25, 2026

Kunal Kejriwal

인공 지능의 빠르게 발전하는 환경에서 기술 리더가 직면하는 가장 큰 장애물 중 하나는 “실험적”에서 “엔터프라이즈 준비”로의 전환입니다. 소비자 채팅봇과 상호작용 플랫폼은 대중의 상상력을 도울 수 있지만, 비즈니스에서는 채팅 인터페이스만으로 성공할 수 없습니다. 경쟁이 이전보다 더 공격적인 시대에, 비즈니스에는 강력하고, 확장 가능하며, 보안이 뛰어난 생태계가 필요하며, 이것이 Google이 Vertex AI, Google Cloud의 통합 인공 지능 및 기계 학습 플랫폼을 제공하려고 하는 것입니다.

Vertex AI는 현대의 클라우드 인프라와의 제너레이티브 AI 통합을 위한 백본으로 자리 잡으려고 합니다. 원시 기초 모델과 생산급 애플리케이션 간의 간격을 메우는 포괄적인 기능 세트를 제공합니다. Vertex AI는 대규모 언어 모델(Large Language Model, LLM)의 래퍼가 아니라, 제너레이티브 AI를 현대의 클라우드 인프라의 1차 시민으로 처리하는 통일된 기계 학습 및 인공 지능(Machine Learning & Artificial Intelligence, ML/AI) 생태계입니다.

Vertex AI의 핵심에는 모델 가든이 있습니다. 200개 이상의 큐레이션된 기초 모델, 포함된 Gemini 2.5 Pro(2백만 토큰 컨텍스트 창을 특징으로 함)에 대한 액세스를 제공하는 중앙 마켓플레이스입니다. 이 기사에서는 Vertex AI의 아키텍처를 분해하고, 모델 가든이 지능의 “앱 스토어”로 어떻게 작용하는지 탐구하고, 이 플랫폼을 다음 세대의 엔터프라이즈 소프트웨어의 백본으로 만드는 기술 기둥을 살펴보겠습니다.

코어 아키텍처: 통일된 플랫폼

Vertex AI는 느슨하게 결합된 도구의 모음이 아니라, 데이터와 AI 생태계를 분리하는 데이터, 도구 및 팀의 단편화를 해결하기 위해 설계된 통일된 플랫폼입니다. 전통적으로 AI 개발은 고립된 환경에서 발생하며, 때때로 데이터는 여러 저장소에 걸쳐 분산되어 있습니다. 예를 들어, 조직은 고객 데이터를 SQL 웨어하우스에 저장할 수 있지만 비정형 문서는 데이터 레이크에 덤프될 수 있습니다. 데이터가 시로된 경우, AI는 “부분적인 진실”만 볼 수 있으며, 엔터프라이즈의 전체 컨텍스트를缺乏하기 때문에 편향된 결과 또는 높은 환각률이 발생할 수 있습니다.

Vertex AI는 원시 데이터 수집에서 생산 모니터링까지 전체 라이프사이클을 통합하려고 하며, 본질적으로 클라우드 스토리지와 빅쿼리와의 네이티브 통합을 허용하여 AI 모델이 복잡한 추출, 변환 및 로드 파이프라인 없이 데이터를 검색할 수 있습니다.

기초: Google의 AI 하이퍼컴퓨터

Vertex AI의 GenAI 계층은 Google의 AI 하이퍼컴퓨터 아키텍처 위에 위치하며, 통합 슈퍼컴퓨팅 시스템으로 구성됩니다.

TPU v5p & v5e (Tensor Processing Units)

Google의 Tensor Processing Units는 깊은 학습을 정의하는 행렬 곱셈을 위해 특별히 설계된 사용자 정의 ASIC(응용 프로그램 특정 집적 회로)입니다.

TPU v5p (성능): 이것은 대규모 훈련을 위한 플래그십 가속기입니다. 각 TPU v5p 포드는 8,960개의 칩이 Google의最高 대역폭의 Inter-Chip Interconnect (ICI)를 통해 연결되어 있습니다. 기술 리더에게 이것은 이전 세대보다 2.8배 빠른 훈련(GPT-3 크기 모델의 경우 175B 파라미터)을 의미하며, 시장 출시 시간을 크게 줄입니다.
TPU v5e (효율성): “비용 최적화” 성능을 위해 설계된 v5e는 중규모 훈련과 고처리 추론을 위한 작업 마력입니다. 이것은 2.5배 더 나은 가격-성능을 제공하며, 24/7 추론을 실행해야 하는 대규모 예산 없이 비즈니스에理想적인 선택입니다.

NVIDIA H100/A100 GPU를 위한 유연성

TPU는 전문적인 반면에, 많은 개발 팀은 NVIDIA CUDA 생태계에 의존합니다. Vertex AI는 NVIDIA의 최신 하드웨어에 대한 1차 지원을 제공합니다:

NVIDIA H100 (Hopper): 가장 큰 오픈 소스 모델(Llama 3.1 405B)을 미세 조정하는 데 필요한大量 메모리 대역폭을 위한 것입니다.
주피터 네트워킹: “네트워크 병목”을 방지하기 위해 Google은 자신의 데이터 센터 네트워크 패브릭인 주피터를 사용합니다. 이것은 데이터가 분산된 노드 간에 번개 속도로 이동하여 RDMA(Remote Direct Memory Access)를 통해 CPU 오버헤드를 우회하고, 분산 노드 간에 거의 로컬 성능을 제공합니다.

동적 오케스트레이션

Vertex AI에서 가장 중요한 기술적 전환은 동적 오케스트레이션입니다. 레거시 환경에서, GPU 노드가 3주간의 훈련 실행 중에 실패하면 전체 작업이 충돌할 수 있습니다.

자동 복원력: Vertex AI, 종종 Google Kubernetes Engine (GKE) 아래에서 구동되는 경우, “자체 회복” 노드를 특징으로 합니다. 하드웨어 결함이 감지되면 플랫폼이 자동으로 작업을 건강한 노드로 마이그레이션합니다.
동적 워크로드 스케줄러: 이 도구를 통해 팀은 용량을 요청할 수 있습니다. 유연한 시작(더 저렴하고, 용량이 사용 가능할 때 시작) 또는 임무 중요 릴리스를 위한 보장된 용량을 선택할 수 있습니다.
서버리스 훈련: 인프라 관리가 없는 팀을 위해 Vertex AI 서버리스 훈련을 허용하여 코드와 데이터를 제출할 수 있습니다. 플랫폼은 클러스터를 제공하고, 작업을 실행하고, 분해하며, 사용된 컴퓨팅 초만 청구합니다.

세 가지 진입점: 발견, 실험, 자동화

다양한 기술 인물(데이터 과학자에서 애플리케이션 개발자까지)을 수용하기 위해 Vertex AI는 세 가지 주요 진입점을 제공합니다:

모델 가든: 발견을 위한 마켓플레이스.
Vertex AI 스튜디오: 실험을 위한 놀이터.
Vertex AI 에이전트 빌더: 자동화를 위한 공장.

모델 가든: 발견을 위한 마켓플레이스

Google Cloud의 Vertex AI 모델 가든은 다양한 비즈니스 요구 사항을 위한 제1당, 오픈 소스 및 제3당 AI 모델을 발견, 테스트, 사용자 정의 및 배포할 수 있는 중앙 플랫폼입니다. 이것은 Vertex AI의 도구와의无缝 통합을 제공하여 MLOps를 간소화하는 포괄적인 라이브러리입니다.

모델 가든은 200개 이상의 모델을 세 가지 계층으로 분류하여 아키텍트가 성능, 비용 및 제어를 균형있게 조정할 수 있도록 합니다:

제1당 (Google) 모델: 이것은 Vertex AI 내에서 사용할 수 있는 플래그십 멀티모달 모델이며, Google은 다양한 크기(복잡한推論을 가진 Pro에서 낮은 지연 및 높은 볼륨을 가진 Flash까지)로 제공하여 개발자가 모델을 사용 사례에 따라 최적화할 수 있도록 합니다.
제3당 (독점) 모델: 전략적 제휴를 통해 Vertex AI는 “모델-서비스” (MaaS)로 Anthropic (Claude 3.5) 및 Mistral AI와 같은 타이탄에 대한 액세스를 제공합니다. 5개의 다른 AI 공급업체에 대한 별도의 청구 및 보안 자격 증명을 관리하는 대신, 기술 팀은 기존 Google Cloud 프로젝트를 통해 모든 것을 액세스할 수 있으며, 통일된 API 형식을 사용합니다.
오픈 소스 및 오픈 가중치 모델: 이것은 Meta의 Llama 3.2, Mistral, Google의 Gemma를 포함합니다. 이것은 최대 데이터 분리 보장을 위해 자체 VPC (가상 사설 클라우드) 내에서 모델을 자체적으로 배포하려는 조직에 적합합니다.

통합되지 않은 환경에서 오픈 소스 모델을 배포하는 경우 PyTorch 환경을 설정하고, CUDA 드라이버를 구성하고, Flask 또는 FastAPI 래퍼를 관리해야 합니다.

모델 가든은 통합 관리 엔드포인트를 통해 이 “Munging” 단계를 제거합니다:

한 번 클릭 배포: 많은 모델의 경우, “배포”를 클릭하면 필요한 TPU/GPU 자원을 자동으로 프로비저닝하고, 모델을 생산 준비된 컨테이너에 래핑하고, REST API 엔드포인트를 제공합니다.
허깅 페이스 통합: Vertex AI는 이제 개발자가 허깅 페이스 허브에서 모델을 직접 Vertex 엔드포인트로 배포할 수 있도록 허용하여 거의 무한한 지능 확장을 제공합니다.
프라이빗 서비스 커넥트 (PSC):高度 규제 산업의 경우, 모델은 프라이빗 서비스 커넥트를 사용하여 배포할 수 있으며, 모델 엔드포인트가 공용 인터넷에 노출되지 않도록 하여 데이터 트래픽을 회사 네트워크 내에서만 유지합니다.

Vertex AI 스튜디오: 실험을 위한 놀이터

모델 가든은 선택에 관한 반면에, Vertex AI 스튜디오는 정밀도에 관한 것입니다. Vertex AI 스튜디오는 전통적인 소프트웨어 세계에서 컴파일러 및 디버거와 비교할 수 있습니다. Vertex AI 스튜디오는 원시 모델을 특정 비즈니스 도구로 조각하는 작업 공간입니다. 이것은 프롬프트 엔지니어링, 멀티모달 테스트 및 고급 하이퍼파라미터 조정을 통해 이루어집니다.

멀티모달 프로토 타이핑: 텍스트를 넘어서

스튜디오의 대표적인 기능 중 하나는 멀티모달리티를 위한 네이티브 지원입니다. 다른 플랫폼에서는 비텍스트 데이터를 처리하기 위해 복잡한 코딩이 필요한 반면, Vertex AI 스튜디오에서는 인터페이스에 파일을 직접 떨어뜨려 Gemini 2.5의 推論 능력을 테스트할 수 있습니다.

비디오 인텔리전스: 45분 기술 키노트를 업로드하고 모델에 “특정 API가 언급될 때마다 타임스탬프가 있는 요약본을 식별하도록” 요청할 수 있습니다.
문서 분석: 모델은 텍스트를 읽는 것만이 아니라, 1,000페이지 PDF의 시각적 레이아웃을 분석하고, 차트, 테이블 및周囲의 산문과의 관계를 이해할 수 있습니다.
코드 실행: 스튜디오는 이제 플레이그라운드에서 코드 실행을 지원합니다. 모델에 복잡한 수학 문제를 해결하거나 CSV를 분석하도록 요청하면, 모델은 보안 샌드박스 환경에서 Python 코드를 작성하고 실행하여 검증된 답변을 제공할 수 있습니다.

고급 사용자 정의: 튜닝 경로

프롬프트 엔지니어링(Zero-shot 또는 Few-shot)이 천장을 때면, Vertex AI 스튜디오는 중장비를 제공합니다: 모델 튜닝.

감독된 미세 조정 (SFT): 개발자는 “프롬프트/응답” 페어(이상 100개의 예시)의 데이터 세트를 제공합니다. 이것은 모델이 특정 브랜드 음성, 출력 형식(전문 JSON과 같은) 또는 도메인 특정 용어를 채택하도록 가르칩니다.
컨텍스트 캐싱: 대규모 정적 데이터 세트(법률 도서관 또는 코드베이스와 같은)를 다루는 기업을 위해 스튜디오는 컨텍스트 캐싱을 허용합니다. 이것은 모델의 메모리에 1백만 토큰의 데이터를 “preload”하도록 허용하여, 이후 쿼리에서 대기 시간과 비용을 크게 줄입니다.
蒸留 (교사-학생): 이것은 고수준의 아키텍처 이동입니다. 큰 모델(Gemini 2.5 Pro)을 사용하여 더 작은, 더 빠른 모델(Gemini 2.0 Flash)을 “가르칠” 수 있습니다. 결과는 “Pro” 수준의 성능을 제공하지만 “Flash” 속도와 비용으로 실행되는 가벼운 모델입니다.

Vertex AI 에이전트 빌더: 자동화를 위한 공장

Vertex AI 에이전트 빌더는 기초 모델을 엔터프라이즈 데이터 및 외부 API와 결합하여 에이전트를 생성할 수 있는 고수준 오케스트레이션 프레임워크입니다.

“진리”의 아키텍처: 그라운드 및 RAG

엔터프라이즈 AI의 주요 기술적 장벽은 환각입니다. 에이전트 빌더는 그라운드 엔진을 통해 이를 해결합니다.

Google 검색과 그라운드: 실시간 세계 지식을 요구하는 쿼리(예: “뉴욕의 현재 모기지 금리는 무엇인가?”)에 대해, 에이전트는 Google 검색을 수행하고, 사실을 추출하고, 출처를 인용할 수 있습니다.
Vertex AI 검색 (RAG-as-a-Service): 대신에 개발자는 Vertex AI 검색을 사용하여 자신의 문서(PDF, HTML, BigQuery)를 색인화할 수 있으며, “chunking”, “embedding” 및 “retrieval” 단계를 자동으로 처리하여 에이전트가 내부 “진리 출처”에만 기반하여 답변하도록 보장합니다.
Vertex AI RAG 엔진: 고규모 사용자 정의 구현을 위해 이 관리 서비스는 벡터 기반 및 키워드 기반 결과를 결합하여 표준 LLM 출력보다 정확도를 최대 30%까지 개선할 수 있습니다.

멀티 에이전트 오케스트레이션 (A2A 프로토콜)

고급 엔터프라이즈 워크플로는 종종 여러 전문 에이전트가 협력하여 작동합니다. Vertex AI는 에이전트-에이전트 (A2A) 프로토콜을 도입하여 다음을 허용합니다:

“여행 에이전트”가 “금융 에이전트”와 통신하여 비행기 예약이 기업 예산 내에 있는지 확인할 수 있습니다.
상호 운용성: 이것은 개방형 프로토콜을 사용하기 때문에, Vertex AI에서 구축된 에이전트는 LangChain 또는 CrewAI와 같은 다른 프레임워크에서 구축된 에이전트와 통신할 수 있습니다.

개발자 스택: ADK 및 에이전트 엔진

“기술 플랫폼” 대상으로, 에이전트 빌더는 두 가지 별개의 경로를 제공합니다:

노코드 콘솔: 빠른 프로토 타이핑 및 비즈니스 사용자 구성에 대한 시각적 드래그 앤 드롭 인터페이스입니다.
에이전트 개발 키트 (ADK): 엔지니어를 위한 코드 우선 Python 툴킷입니다. 이것은 “프롬프트-어스-코드”, 버전 제어 통합 및 Vertex AI 에이전트 엔진에 배포할 수 있는 기능을 허용합니다. 이것은 세션 지속성, 확장 및 상태 관리를 자동으로 처리하는 관리 런타임입니다.

결론: “무엇이 가능할까”에서 “무엇이 다음일까”로

화려한 AI 데모에서 생산급 엔터프라이즈 애플리케이션으로의 전환은 디지털 변혁 프로젝트를 위한 “죽음의 계곡”이었습니다. Vertex AI는 이 간격을 메우기 위해 설계되었습니다. 데이터, 인프라 및 모델 오케스트레이션의 단편화된 실로를 통일함으로써, Google Cloud는 Large Language Model의 원시적인 힘에서 AI 수명주기의 운영적 성숙도로 대화를 이동시켰습니다.