Trí tuệ nhân tạo
Giới Thiệu Về Vertex AI

Trong bối cảnh trí tuệ nhân tạo đang phát triển nhanh chóng, một trong những thách thức lớn nhất mà các nhà lãnh đạo công nghệ thường gặp phải là chuyển đổi từ “thử nghiệm” sang “sẵn sàng cho doanh nghiệp”. Trong khi các chatbot và nền tảng tương tác giúp với tưởng tượng công chúng, các doanh nghiệp không thể thành công chỉ với một giao diện trò chuyện. Trong một thời đại mà cạnh tranh trở nên gay gắt hơn bao giờ hết, các doanh nghiệp cần một hệ sinh thái mạnh mẽ, có thể mở rộng và bảo mật, và đây là những gì Google cố gắng cung cấp với Vertex AI, nền tảng trí tuệ nhân tạo và học máy thống nhất của Google Cloud.
Vertex AI cố gắng thiết lập mình là nền tảng cho tích hợp trí tuệ nhân tạo tạo sinh với cơ sở hạ tầng đám mây hiện đại, cung cấp một bộ tính năng toàn diện giúp bắc cầu giữa các mô hình nền tảng thô và các ứng dụng cấp sản xuất. Vertex AI không chỉ là một lớp vỏ cho các mô hình ngôn ngữ lớn (LLM), mà nó là một hệ sinh thái học máy và trí tuệ nhân tạo (ML/AI) thống nhất coi trí tuệ nhân tạo tạo sinh là một công dân hạng nhất của cơ sở hạ tầng đám mây hiện đại.
Tại trung tâm của Vertex AI là Model Garden, một thị trường trung tâm cung cấp quyền truy cập vào hơn 200 mô hình nền tảng được kiểm duyệt, bao gồm cả mô hình đa phương tiện Gemini 2.5 Pro, có khả năng xử lý 2 triệu token ngữ cảnh. Trong bài viết này, chúng tôi sẽ phân tích kiến trúc của Vertex AI, khám phá cách Model Garden phục vụ như “Cửa hàng ứng dụng” cho trí tuệ, và xem xét các trụ cột kỹ thuật giúp nền tảng này trở thành xương sống của thế hệ phần mềm doanh nghiệp tiếp theo.
Kiến Trúc Cốt Lõi: Một Nền Tảng Thống Nhất

Vertex AI không phải là một tập hợp các công cụ rời rạc, mà là một hệ sinh thái dữ liệu và trí tuệ thống nhất được thiết kế để bắc cầu giữa sự phân mảnh của dữ liệu, công cụ và đội ngũ mà vẫn còn tồn tại trong học máy cho đến ngày nay. Thông thường, phát triển trí tuệ nhân tạo diễn ra trong các môi trường cô lập, và đôi khi, dữ liệu được lưu trữ và bị mắc kẹt trong nhiều kho lưu trữ. Ví dụ, các tổ chức có thể lưu trữ dữ liệu khách hàng trong các nhà kho SQL trong khi các tài liệu không cấu trúc được đổ vào một Hồ dữ liệu. Khi dữ liệu bị phân mảnh, trí tuệ nhân tạo chỉ nhìn thấy “sự thật một phần”, dẫn đến kết quả bị thiên vị hoặc tỷ lệ ảo giác cao vì nó thiếu bối cảnh đầy đủ của doanh nghiệp.
Vertex AI cố gắng tích hợp toàn bộ chu kỳ sống, từ việc nhập dữ liệu thô vào BigQuery và Cloud Storage đến giám sát sản xuất, về cơ bản phục vụ như một “mô hình kết nối” giữa các silo này. Vertex AI tích hợp bản địa với Cloud Storage và BigQuery, cho phép các mô hình trí tuệ nhân tạo lấy dữ liệu mà không cần các đường ống phức tạp Extraction, Transformation, và Load.
Cơ Sở: Siêu Máy Tính Trí Tuệ Nhân Tạo Của Google
Lớp GenAI của Vertex AI nằm trên kiến trúc siêu máy tính trí tuệ nhân tạo của Google, một hệ thống siêu máy tính tích hợp, bao gồm:
TPU v5p & v5e (Đơn Vị Xử Lý Tensor)
Đơn vị xử lý tensor của Google là các ASIC (Integrated Circuit ứng dụng cụ thể) được thiết kế đặc biệt cho phép nhân ma trận định nghĩa học sâu.
- TPU v5p (Hiệu Suất): Đây là gia tốc器 hàng đầu cho đào tạo quy mô lớn. Mỗi pod TPU v5p có thể mở rộng đến 8.960 chip được kết nối bởi Inter-Chip Interconnect (ICI) có băng thông cao nhất của Google ở 4.800 Gbps. Đối với một nhà lãnh đạo công nghệ, điều này có nghĩa là đào tạo nhanh hơn 2,8 lần cho một mô hình cỡ GPT-3 (175B tham số) so với thế hệ trước, giảm đáng kể thời gian đưa ra thị trường.
- TPU v5e (Hiệu Quả): Được thiết kế cho hiệu suất “tối ưu hóa chi phí”, v5e là công việc chính cho đào tạo quy mô trung bình và suy luận đầu ra cao. Nó cung cấp hiệu suất giá tốt hơn 2,5 lần, khiến nó trở thành lựa chọn lý tưởng cho các doanh nghiệp cần chạy suy luận 24/7 mà không có ngân sách lớn.
NVIDIA H100/A100 GPUs Cho Tính Linh Hoạt
Trong khi TPU là chuyên dụng, nhiều đội phát triển phụ thuộc vào hệ sinh thái CUDA của NVIDIA. Vertex AI cung cấp hỗ trợ cấp một cho phần cứng mới nhất của NVIDIA:
- NVIDIA H100 (Hopper): Lý tưởng cho việc tinh chỉnh các mô hình mã nguồn mở lớn nhất (như Llama 3.1 405B) đòi hỏi băng thông bộ nhớ khổng lồ.
- Mạng Lưới Jupiter: Để ngăn chặn “Đệm Mạng”, Google sử dụng vải mạng trung tâm Jupiter. Điều này đảm bảo rằng dữ liệu di chuyển giữa các GPU ở tốc độ ánh sáng, hỗ trợ RDMA (Truy cập Bộ nhớ Từ xa) để bỏ qua tải CPU và cung cấp hiệu suất gần như cục bộ trên các nút phân tán.
Orchestration Động
Sự thay đổi kỹ thuật quan trọng nhất trong Vertex AI là Orchestration Động. Trong một môi trường di sản, nếu một nút GPU thất bại trong quá trình đào tạo 3 tuần, toàn bộ công việc có thể bị sập.
- Tính Tự Phục Hồi Tự Động: Vertex AI, thường được cung cấp bởi Google Kubernetes Engine (GKE) dưới dạng nắp, có các nút “tự chữa lành”. Nếu một lỗi phần cứng được phát hiện, nền tảng sẽ tự động di chuyển tải trọng công việc sang một nút khỏe mạnh.
- Lập Lịch Công Việc Động: Công cụ này cho phép các đội yêu cầu khả năng dựa trên mức độ khẩn cấp. Bạn có thể chọn Flex Start (rẻ hơn, bắt đầu khi khả năng sẵn có) hoặc Dung lượng Đảm bảo cho các bản phát hành quan trọng.
- Đào Tạo Không Cần Máy Chủ: Đối với các đội muốn quản lý cơ sở hạ tầng không, Đào tạo Không cần Máy chủ của Vertex AI cho phép bạn gửi mã và dữ liệu của mình; nền tảng cung cấp cụm, chạy công việc và hủy bỏ nó – chỉ tính phí cho các giây tính toán được sử dụng.
Ba Điểm Nhập Cảnh: Khám Phá, Thử Nghiệm và Tự Động Hóa
Để đáp ứng các nhân vật kỹ thuật khác nhau – từ các nhà khoa học dữ liệu đến các nhà phát triển ứng dụng – Vertex AI cung cấp ba điểm nhập cảnh chính:
- Model Garden: Thị trường cho Khám Phá.
- Vertex AI Studio: Khu Vui Chơi cho Thử Nghiệm.
- Vertex AI Agent Builder: Nhà Máy cho Tự Động Hóa.
Model Garden: Thị Trường Cho Khám Phá
Model Garden của Google Cloud là một nền tảng trung tâm trong Google Cloud để khám phá, thử nghiệm, tùy chỉnh và triển khai một loạt các mô hình trí tuệ nhân tạo, bao gồm cả mô hình đa phương tiện (hình ảnh, văn bản, mã) cho các nhu cầu kinh doanh khác nhau, cung cấp tích hợp liền mạch với các công cụ của Vertex AI cho MLOps được sắp xếp hợp lý. Nó hoạt động như một thư viện toàn diện, giúp các nhà phát triển và doanh nghiệp chọn mô hình phù hợp (từ mô hình nền tảng lớn đến mô hình chuyên dụng) cho các nhiệm vụ của họ, cho dù đó là tạo văn bản, phân tích hình ảnh hay hoàn thành mã, và triển khai chúng một cách hiệu quả trong môi trường Google Cloud của họ.

Model Garden phân loại hơn 200 mô hình của mình thành ba cấp độ riêng biệt, cho phép các kiến trúc sư cân bằng hiệu suất, chi phí và kiểm soát:
- Mô Hình Đầu Tiên (Google): Đây là các mô hình đa phương tiện hàng đầu có sẵn trong Vertex AI, và Google cung cấp chúng ở các kích cỡ khác nhau, từ Pro với lý luận phức tạp đến Flash với độ trễ thấp và khối lượng cao, cho phép các nhà phát triển tối ưu hóa mô hình của họ theo các trường hợp sử dụng của họ.
- Mô Hình Độc Quyền (Thứ Ba): Thông qua các quan hệ đối tác chiến lược, Vertex AI cung cấp quyền truy cập “Mô Hình như một Dịch Vụ” (MaaS) vào các gã khổng lồ như Anthropic (Claude 3.5) và Mistral AI. Thay vì quản lý các thông tin thanh toán và chứng chỉ bảo mật riêng biệt cho năm nhà cung cấp trí tuệ nhân tạo khác nhau, một đội công nghệ có thể truy cập tất cả chúng thông qua dự án Google Cloud hiện có của họ, sử dụng định dạng API thống nhất.
- Mô Hình Mở & Mở Trọng Lượng: Cấp độ này bao gồm Mô Hình Llama 3.2 của Meta, Mistral và Gemma của Google. Những mô hình này lý tưởng cho các tổ chức muốn tự triển khai mô hình trong VPC (Mạng riêng ảo) của riêng họ để đảm bảo sự cô lập dữ liệu tối đa.
Trong một môi trường không thống nhất, việc triển khai một mô hình mã nguồn mở như Llama đòi hỏi thiết lập một môi trường PyTorch, cấu hình trình điều khiển CUDA và quản lý một lớp bọc Flask hoặc FastAPI.
Model Garden loại bỏ giai đoạn “Munging” này thông qua Điểm Kết Nối Quản Lý Thống Nhất:
- Triển Khai Một Clicken: Đối với nhiều mô hình, nhấp vào “Triển khai” sẽ tự động cung cấp các tài nguyên TPU/GPU cần thiết, bao gồm mô hình trong một контейнер sẵn sàng cho sản xuất và cung cấp một điểm cuối API.
- Tích Hợp Hugging Face: Vertex AI hiện cho phép các nhà phát triển triển khai mô hình trực tiếp từ Hugging Face Hub vào một điểm cuối Vertex, cung cấp một sự mở rộng gần như vô tận của trí tuệ có sẵn.
- Kết Nối Dịch Vụ Riêng: Đối với các ngành công nghiệp được quản lý chặt chẽ, mô hình có thể được triển khai bằng cách sử dụng Kết Nối Dịch Vụ Riêng, đảm bảo rằng điểm cuối mô hình không bao giờ được暴露 cho internet công cộng – giữ lưu lượng dữ liệu nghiêm ngặt trong mạng doanh nghiệp.
Vertex AI Studio: Khu Vui Chơi Cho Thử Nghiệm
Trong khi Model Garden là về việc lựa chọn, Vertex AI Studio là về chính xác. Vertex AI Studio có thể được so sánh với các trình biên dịch và gỡ lỗi mà bạn gặp trong thế giới phần mềm truyền thống. Vertex AI Studio là không gian làm việc nơi các mô hình thô được điêu khắc thành các công cụ kinh doanh cụ thể thông qua sự kết hợp của kỹ thuật nhắc, thử nghiệm đa phương tiện và điều chỉnh siêu tham số tiên tiến.

Nguyên Mẫu Đa Phương Tiện: Vượt Ra Ngoài Văn Bản
Một trong những tính năng nổi bật của Studio là hỗ trợ đa phương tiện bản địa. Trong khi các nền tảng khác đòi hỏi mã hóa phức tạp để xử lý dữ liệu không phải văn bản, Vertex AI Studio cho phép bạn thả các tệp trực tiếp vào giao diện để kiểm tra khả năng lý luận của Gemini 2.5.
- Trí Tuệ Video: Bạn có thể tải lên một bài nói chuyện kỹ thuật 45 phút và yêu cầu mô hình “xác định mọi lúc một API cụ thể được đề cập và cung cấp một bản tóm tắt có dấu thời gian.”
- Phân Tích Tài Liệu: Thay vì chỉ đọc văn bản, mô hình có thể phân tích bố cục trực quan của một tệp PDF 1.000 trang, hiểu mối quan hệ giữa các biểu đồ, bảng và văn bản xung quanh.
- Thực Thi Mã: Studio hiện hỗ trợ thực thi mã trong khu vui chơi. Nếu bạn yêu cầu mô hình giải quyết một vấn đề toán học phức tạp hoặc phân tích một tệp CSV, mô hình có thể viết và thực thi mã Python trong một môi trường an toàn được cách ly để cung cấp một câu trả lời đã được xác minh.
Tùy Chỉnh Nâng Cao: Con Đường Điều Chỉnh

Khi kỹ thuật nhắc (Zero-shot hoặc Few-shot) đạt đến giới hạn, Vertex AI Studio cung cấp máy móc hạng nặng: Điều Chỉnh Mô Hình.
- Đào Tạo Fine-Tuning (SFT): Các nhà phát triển cung cấp một tập dữ liệu “Nhắc/Trả Lời” (lý tưởng là 100+ ví dụ). Điều này dạy cho mô hình cách áp dụng một giọng nói thương hiệu cụ thể, định dạng đầu ra (như JSON chuyên dụng), hoặc jargon chuyên ngành.
- Đệm Caching: Đối với các doanh nghiệp xử lý các tập dữ liệu tĩnh lớn (như một thư viện pháp lý hoặc một cơ sở mã), Studio cho phép Đệm Caching. Điều này cho phép bạn “tải trước” một triệu token dữ liệu vào bộ nhớ của mô hình, giảm đáng kể độ trễ và chi phí cho các truy vấn tiếp theo.
- Chưng Cất (Giáo Viên-Học Sinh): Đây là một động thái kiến trúc cấp cao. Bạn có thể sử dụng một mô hình lớn (Gemini 2.5 Pro) để “dạy” một mô hình nhỏ hơn, nhanh hơn (Gemini 2.0 Flash). Kết quả là một mô hình nhẹ hoạt động ở mức “Pro” nhưng chạy ở tốc độ và chi phí “Flash”.
Vertex AI Agent Builder: Nhà Máy Cho Tự Động Hóa
Vertex AI Agent Builder là một khuôn khổ dàn xếp cấp cao cho phép các nhà phát triển tạo ra các tác nhân này bằng cách kết hợp mô hình nền tảng với dữ liệu doanh nghiệp và API bên ngoài.
Kiến Trúc Của “Sự Thật”: Gắn Kết & RAG
Rào cản kỹ thuật chính cho trí tuệ nhân tạo doanh nghiệp là ảo giác. Agent Builder giải quyết điều này thông qua một động cơ Gắn Kết tinh vi.
- Gắn Kết Với Tìm Kiếm Google: Đối với các truy vấn đòi hỏi kiến thức thế giới thực (ví dụ: “Tỷ lệ thế chấp hiện tại ở New York là gì?”), tác nhân có thể thực hiện tìm kiếm Google, trích xuất các sự kiện và trích dẫn nguồn.
- Tìm Kiếm Vertex AI (RAG-as-a-Service): Thay vì xây dựng một cơ sở dữ liệu vector (Pinecone, Weaviate) thủ công, các nhà phát triển có thể sử dụng Tìm Kiếm Vertex AI để lập chỉ mục các tài liệu của riêng họ (PDF, HTML, BigQuery). Nó xử lý các bước “chia nhỏ”, “nhúng” và “truy hồi” tự động, đảm bảo rằng tác nhân chỉ trả lời dựa trên “Nguồn Sự Thật” nội bộ của bạn.
- Động Cơ RAG của Vertex AI: Đối với các triển khai tùy chỉnh quy mô lớn, dịch vụ được quản lý này cho phép tìm kiếm hỗn hợp (kết hợp kết quả dựa trên vector và từ khóa) để cải thiện độ chính xác lên đến 30% so với đầu ra LLM tiêu chuẩn.
Orchestration Đa Tác Nhân (Giao Thức A2A)
Các quy trình làm việc doanh nghiệp tiên tiến thường đòi hỏi nhiều tác nhân chuyên dụng làm việc cùng nhau. Vertex AI giới thiệu Giao Thức Tác Nhân-Tác Nhân (A2A), một tiêu chuẩn mở cho phép:
- “Tác Nhân Du Lịch” nói chuyện với “Tác Nhân Tài Chính” để đảm bảo rằng việc đặt vé máy bay nằm trong ngân sách doanh nghiệp.
- Tính Tương Thích: Bởi vì nó sử dụng một giao thức mở, các tác nhân được xây dựng trên Vertex có thể giao tiếp với những tác nhân được xây dựng trên các khuôn khổ khác như LangChain hoặc CrewAI.
Tầng Phát Triển: ADK và Động Cơ Tác Nhân
Đối với khán giả “nền tảng kỹ thuật”, Agent Builder cung cấp hai con đường riêng biệt:
- Bảng Điều Khiển Không Cần Mã: Một giao diện kéo và thả trực quan cho nguyên mẫu nhanh và cấu hình kinh doanh.
- Bộ Phát Triển Tác Nhân (ADK): Một công cụ Python mã đầu tiên cho các kỹ sư. Nó cho phép “Nhắc như Mã”, tích hợp kiểm soát phiên bản và khả năng triển khai đến Động Cơ Tác Nhân Vertex AI – một thời gian chạy được quản lý xử lý sự tồn tại phiên, mở rộng và quản lý trạng thái tự động.
Kết Luận: Từ “Giả Sử” Đến “Tiếp Theo”
Chuyển đổi từ một bản demo trí tuệ nhân tạo ấn tượng sang một ứng dụng cấp sản xuất đã lâu là “thung lũng chết” cho các dự án chuyển đổi số. Như chúng ta đã khám phá, Vertex AI được thiết kế đặc biệt để bắc cầu qua khoảng cách này. Bằng cách thống nhất các silo phân mảnh của dữ liệu, cơ sở hạ tầng và dàn xếp mô hình, Google Cloud đã chuyển cuộc trò chuyện từ sức mạnh thô của các mô hình ngôn ngữ lớn sang chất lượng vận hành của chu kỳ sống trí tuệ nhân tạo.












