Connect with us

การแนะนำ Vertex AI

ปัญญาประดิษฐ์

การแนะนำ Vertex AI

mm

เมื่อพื้นที่ของปัญญาประดิษฐ์กำลังพัฒนาไปอย่างรวดเร็ว อุปสรรคที่สำคัญที่ผู้นำด้านเทคโนโลยี thườngพบคือการเปลี่ยนแปลงจากการทดลองไปสู่การเป็น “ระบบที่พร้อมสำหรับการใช้งานในองค์กร” ในขณะที่แชทบอทสำหรับผู้บริโภคและแพลตฟอร์มแบบโต้ตอบช่วยให้คนเห็นภาพได้ดีขึ้น แต่ธุรกิจไม่สามารถประสบความสำเร็จได้ด้วยการมีเพียงอินเทอร์เฟซการแชทเท่านั้น ในยุคที่การแข่งขันรุนแรงกว่าเดิม ธุรกิจต้องการระบบนิเวศที่มีความแข็งแกร่ง มีความสามารถในการปรับขนาด และมีความปลอดภัย และนี่คือสิ่งที่ Google พยายามที่จะนำเสนอด้วย Vertex AI ซึ่งเป็นแพลตฟอร์ม Artificial Intelligence & Machine Learning ที่รวมเป็นหนึ่งของ Google Cloud

Vertex AI พยายามที่จะสร้างตัวเองให้เป็นรากฐานสำหรับการรวม Generative AI เข้ากับโครงสร้างพื้นฐานของคลาวด์สมัยใหม่ โดยนำเสนอชุดคุณสมบัติที่ครอบคลุมซึ่งช่วยลดช่องว่างระหว่างโมเดลพื้นฐานที่ไม่ได้ถูกตัดทอนและแอปพลิเคชันที่พร้อมสำหรับการผลิต Vertex AI ไม่ใช่แค่การห่อหุ้มโมเดลภาษาขนาดใหญ่ (LLMs) แต่เป็นระบบนิเวศของ Machine Learning และ Artificial Intelligence (ML/AI) ที่รวม Generative AI เป็นส่วนหนึ่งของโครงสร้างพื้นฐานของคลาวด์สมัยใหม่

ที่ใจกลางของ Vertex AI คือ Model Garden ซึ่งเป็นตลาดกลางที่ให้เข้าถึงโมเดลพื้นฐานมากกว่า 200 โมเดล รวมถึง Gemini 2.5 Pro ซึ่งเป็นโมเดลที่มีหน้าต่างบริบทขนาด 2 ล้านโทเคน ในบทความนี้ เราจะวิเคราะห์สถาปัตยกรรมของ Vertex AI ตรวจสอบว่า Model Garden ทำหน้าที่เป็น “App Store” สำหรับอุตสาหกรรม และมองไปที่เสาหลักทางเทคนิคที่ทำให้แพลตฟอร์มนี้เป็นกระดูกสันหลังของซอฟต์แวร์องค์กรรุ่นต่อไป

สถาปัตยกรรมหลัก : แพลตฟอร์มที่รวมเป็นหนึ่ง

Vertex AI ไม่ใช่แค่การรวบรวมเครื่องมือที่ไม่เชื่อมต่อกัน แต่เป็นระบบนิเวศของข้อมูลและ AI ที่ออกแบบมาเพื่อเชื่อมต่อความแตกแยกของข้อมูล เครื่องมือ และทีมที่ยังคงเป็นปัญหาในการเรียนรู้ของเครื่องจักรมาจนถึงทุกวันนี้ การพัฒนาด้าน AI มักเกิดขึ้นในสภาพแวดล้อมที่แยกจากกัน และบางครั้งข้อมูลก็กระจายและถูกกักขังในหลายๆ ที่เก็บข้อมูล เช่น องค์กรอาจเก็บข้อมูลลูกค้าในคลังข้อมูล SQL ในขณะที่เอกสารที่ไม่มีโครงสร้างถูกทิ้งลงใน Data Lake เมื่อข้อมูลถูกกักขัง AI จะเห็นเพียง “ความจริงที่ไม่สมบูรณ์” ส่งผลให้เกิดผลลัพธ์ที่มีอคติหรืออัตราการหลอกลวงสูงเพราะไม่มีข้อมูลทั้งหมดขององค์กร

Vertex AI พยายามที่จะรวมชีวิตการทำงานทั้งหมด ตั้งแต่การนำเข้าข้อมูลดิบใน BigQuery และ Cloud Storage ไปจนถึงการตรวจสอบการผลิต โดยทำหน้าที่เป็น “เนื้อเยื่อเชื่อม” ระหว่างซิลโลเหล่านี้ Vertex AI รวมเข้ากับ Cloud Storage และ BigQuery โดยธรรมชาติ ทำให้โมเดล AI สามารถดึงข้อมูลได้โดยไม่ต้องมีการขนส่งข้อมูลที่ซับซ้อน

รากฐาน : AI Hypercomputer ของ Google

ชั้น GenAI ของ Vertex AI นั่งอยู่บนสถาปัตยกรรม AI Hypercomputer ของ Google ซึ่งเป็นระบบซูเปอร์คอมพิวเตอร์ที่รวมเข้าด้วยกัน ประกอบด้วย:

TPU v5p & v5e (Tensor Processing Units)

Tensor Processing Units ของ Google เป็น ASIC (Application-Specific Integrated Circuits) ที่ออกแบบมาโดยเฉพาะสำหรับการคูณเมทริกซ์ที่กำหนดการเรียนรู้เชิงลึก

  • TPU v5p (Performance): นี่คือตัวเร่งความเร็วสำหรับการฝึกอบรมขนาดใหญ่ แต่ละ TPU v5p pod สามารถปรับขนาดได้ถึง 8,960 ชิปที่เชื่อมต่อกันด้วย Inter-Chip Interconnect (ICI) ที่มีแบนด์วิธสูงสุดของ Google ที่ 4,800 Gbps สำหรับผู้นำด้านเทคนิค สิ่งนี้หมายถึงการฝึกอบรมที่เร็วขึ้น 2.8 เท่าสำหรับโมเดล GPT-3 ขนาด (175B พารามิเตอร์) เมื่อเทียบกับรุ่นก่อนหน้า ลดเวลาในการเข้าสู่ตลาดอย่างมาก
  • TPU v5e (Efficiency): ออกแบบมาเพื่อประสิทธิภาพที่มีต้นทุน ตัวเร่งความเร็ว v5e เป็นตัวเร่งความเร็วสำหรับการฝึกอบรมขนาดกลางและอินเฟอร์เรนซ์ที่มีปริมาณสูง มันให้ประสิทธิภาพที่ดีขึ้น 2.5 เท่า ทำให้เป็นตัวเลือกที่เหมาะสำหรับธุรกิจที่ต้องการรันการอนุมาน 24/7 โดยไม่ต้องมีงบประมาณขนาดใหญ่

NVIDIA H100/A100 GPUs สำหรับความยืดหยุ่น

ในขณะที่ TPUs เป็นแบบเฉพาะเจาะจง ทีมพัฒนามากมายพึ่งพานิเวศระบบ CUDA ของ NVIDIA Vertex AI ให้การสนับสนุนแบบแรกสำหรับการฮาร์ดแวร์ใหม่ล่าสุดของ NVIDIA:

  • NVIDIA H100 (Hopper): เหมาะสำหรับการปรับให้เหมาะสมของโมเดลโอเพ่นซอร์สที่ใหญ่ที่สุด (เช่น Llama 3.1 405B) ที่ต้องการแบนด์วิธหน่วยความจำขนาดใหญ่
  • Jupiter Networking: เพื่อป้องกัน “ปัญหาคอขวดของเครือข่าย” Google ใช้เนื้อผ้าเครือข่ายศูนย์ข้อมูล Jupiter ซึ่งรับประกันว่าข้อมูลจะเคลื่อนที่ระหว่าง GPU ด้วยความเร็วสูง โดยสนับสนุน RDMA (การเข้าถึงหน่วยความจำระยะไกล) เพื่อหลีกเลี่ยงภาระงานของ CPU และส่งมอบประสิทธิภาพที่ใกล้เคียงกันในโหนดที่กระจาย

การกำกับดูแลแบบไดนามิก

การเปลี่ยนแปลงทางเทคนิคที่สำคัญที่สุดใน Vertex AI คือ การกำกับดูแลแบบไดนามิก ในสภาพแวดล้อมที่มีประวัติการใช้งาน หากโหนด GPU ล้มเหลวระหว่างการฝึกอบรม 3 สัปดาห์ งานทั้งหมดอาจล้มเหลว

  • การฟื้นตัวอัตโนมัติ: Vertex AI ซึ่งมักจะขับเคลื่อนโดย Google Kubernetes Engine (GKE) ภายใต้ฮูด มีคุณลักษณะ “การฟื้นตัวของตัวเอง” ของโหนด หากพบข้อผิดพลาดของฮาร์ดแวร์ แพลตฟอร์มจะย้ายงานไปยังโหนดที่มีสุขภาพดีโดยอัตโนมัติ
  • ตัวกำหนดการวางแผนงานแบบไดนามิก: เครื่องมือนี้ช่วยให้ทีมสามารถขอความสามารถตามความเร่งด่วนได้ คุณสามารถเลือก Flex Start (ราคาถูกกว่า เริ่มต้นที่ความสามารถที่มีอยู่) หรือความสามารถที่รับประกันสำหรับการเปิดตัวที่สำคัญต่อภารกิจ
  • การฝึกอบรมแบบเซิร์ฟเวอร์เลส: สำหรับทีมที่ต้องการการจัดการโครงสร้างพื้นฐานเป็นศูนย์ การฝึกอบรมแบบเซิร์ฟเวอร์เลสของ Vertex AI ช่วยให้คุณส่งโค้ดและข้อมูลของคุณ แพลตฟอร์มจะจัดเตรียมคลัสเตอร์ รันงาน และทำลายคลัสเตอร์ – คิดค่าใช้จ่ายเฉพาะสำหรับวินาทีการคำนวณที่ใช้

จุดเข้าถึงสามจุด: การค้นพบ การทดลอง และการทำให้自动

เพื่อให้เหมาะสมกับบุคลิกทางเทคนิคที่แตกต่างกัน ตั้งแต่นักวิทยาศาสตร์ข้อมูลไปจนถึงนักพัฒนาแอปพลิเคชัน Vertex AI มีจุดเข้าถึงหลักสามจุด:

Model Garden: ตลาดสำหรับการค้นพบ

Model Garden ของ Google Cloud เป็นแพลตฟอร์มที่รวมเป็นหนึ่งใน Google Cloud สำหรับการค้นพบ การทดสอบ การปรับแต่ง และการนำไปใช้ของโมเดล AI หลายรูปแบบ รวมถึงโมเดลหลายรูปแบบ (การมองเห็น ข้อความ รหัส) สำหรับความต้องการทางธุรกิจต่างๆ โดยให้การผสานรวมที่ไร้รอยต่อกับเครื่องมือของ Vertex AI สำหรับการจัดการ MLOps ที่เป็นกระแส มันทำหน้าที่เป็นห้องสมุดที่ครอบคลุม ช่วยให้นักพัฒนาและธุรกิจเลือกโมเดลที่เหมาะสม (ตั้งแต่โมเดลพื้นฐานขนาดใหญ่ไปจนถึงโมเดลที่มีความเชี่ยวชาญ) สำหรับงานของตน ไม่ว่าจะเป็นการสร้างข้อความ การวิเคราะห์ภาพ หรือการเติมโค้ด และนำไปใช้อย่างมีประสิทธิภาพภายในสภาพแวดล้อม Google Cloud ของตน

Model Garden จัดหมวดหมู่โมเดลมากกว่า 200 โมเดลออกเป็นสามระดับที่แตกต่างกัน ทำให้архิตекторสามารถสร้างสมดุลระหว่างประสิทธิภาพ ต้นทุน และการควบคุม:

  1. โมเดล Google (First-Party): โมเดลหลายรูปแบบที่เป็นโมเดลหลักของ Vertex AI และ Google นำเสนอโมเดลเหล่านี้ในหลายขนาด ตั้งแต่ Pro ที่มีการให้เหตุผลที่ซับซ้อนไปจนถึง Flash ที่มีความหน่วงต่ำและปริมาณสูง ทำให้นักพัฒนาสามารถปรับโมเดลให้เหมาะกับกรณีการใช้งานของตน
  2. โมเดลของบุคคลที่สาม (Proprietary): ผ่านการร่วมมือเชิงกลยุทธ์ Vertex AI นำเสนอ “Model-as-a-Service” (MaaS) สำหรับยักษ์ใหญ่ด้าน AI เช่น Anthropic (Claude 3.5) และ Mistral AI แทนที่จะจัดการการเรียกเก็บเงินและข้อมูลรับรองความปลอดภัยแยกกันสำหรับผู้ให้บริการ AI ห้าราย ทีมเทคนิคสามารถเข้าถึงทั้งหมดผ่านโครงการ Google Cloud ที่มีอยู่ โดยใช้รูปแบบ API ที่รวมเป็นหนึ่ง
  3. โมเดลโอเพ่นซอร์สและโมเดลหนักเปิด: ระดับนี้รวมถึง Meta’s Llama 3.2, Mistral และ Gemma ของ Google โมเดลเหล่านี้เหมาะสำหรับองค์กรที่ต้องการติดตั้งโมเดลภายใน VPC (Virtual Private Cloud) ของตนเองเพื่อให้แน่ใจถึงการแยกข้อมูลสูงสุด

ในระบบที่ไม่รวมเป็นหนึ่ง การนำไปใช้ของโมเดลโอเพ่นซอร์ส เช่น Llama ต้องตั้งค่าสภาพแวดล้อม PyTorch การกำหนดค่าไดรเวอร์ CUDA และการจัดการส่วนหุ้ม Flask หรือ FastAPI

Model Garden ลดระยะเวลา “Munging” นี้ผ่าน จุดสิ้นสุดแบบจัดการแบบรวม:

  • การนำไปใช้ด้วยคลิกเดียว: สำหรับหลายๆ โมเดล การคลิก “Deploy” จะเตรียมทรัพยากร TPU/GPU ที่จำเป็น ห่อโมเดลในคอนเทนเนอร์ที่พร้อมสำหรับการผลิต และให้จุดสิ้นสุด API แบบ REST
  • การรวม Hugging Face: Vertex AI ตอนนี้ช่วยให้นักพัฒนาสามารถนำไปใช้โมเดลโดยตรงจาก Hugging Face Hub ไปยังจุดสิ้นสุดของ Vertex โดยให้การขยายความฉลาดที่เกือบจะไม่มีขอบเขต
  • การเชื่อมต่อบริการส่วนตัว (PSC): สำหรับอุตสาหกรรมที่มีการควบคุมอย่างเข้มงวด โมเดลสามารถนำไปใช้โดยใช้ การเชื่อมต่อบริการส่วนตัว โดยรับประกันว่าจุดสิ้นสุดของโมเดลจะไม่ถูกเปิดเผยต่ออินเทอร์เน็ตสาธารณะ – ทำให้การจราจรข้อมูลอยู่ภายในเครือข่ายองค์กรเท่านั้น

Vertex AI Studio: สนามทดลองสำหรับการทดลอง

ในขณะที่ Model Garden เกี่ยวกับการเลือก Vertex AI Studio เกี่ยวกับ ความแม่นยำ Vertex AI Studio สามารถเปรียบได้กับเครื่องมือและตัวแก้ปัญหาแบบดั้งเดิมที่คุณพบในสภาพแวดล้อมซอฟต์แวร์แบบดั้งเดิม สตูดิโอของ Vertex AI คือพื้นที่ทำงานที่โมเดลดิบถูกแกะสลักให้เป็นเครื่องมือทางธุรกิจโดยเฉพาะผ่านการผสมผสานของวิศวกรรมคำสั่ง การทดสอบหลายรูปแบบ และการปรับไฮเปอร์พารามิเตอร์ที่ทันสมัย

การสร้างต้นแบบหลายรูปแบบ: นอกเหนือจากข้อความ

คุณลักษณะที่โดดเด่นของสตูดิโอคือการสนับสนุน หลายรูปแบบ โดยธรรมชาติ ในขณะที่แพลตฟอร์มอื่นๆ ต้องการการเขียนโค้ดที่ซับซ้อนเพื่อรับมือกับข้อมูลที่ไม่ใช่ข้อความ Vertex AI Studio ช่วยให้คุณสามารถวางไฟล์โดยตรงลงในอินเทอร์เฟซเพื่อทดสอบความสามารถในการให้เหตุผลของ Gemini 2.5

  • การวิเคราะห์วิดีโอ: คุณสามารถอัปโหลดวิดีโอบทความทางเทคนิค 45 นาทีและขอให้โมเดล “ระบุเวลาที่ API ที่เฉพาะเจาะจงถูกกล่าวถึงและให้สรุปที่มีเวลาเริ่มต้น”
  • การวิเคราะห์เอกสาร: แทนที่จะอ่านข้อความเพียงอย่างเดียว โมเดลสามารถวิเคราะห์ การวางแนวภาพ ของเอกสาร PDF 1,000 หน้า โดยเข้าใจความสัมพันธ์ระหว่างแผนภูมิ ตาราง และข้อความที่อยู่รอบๆ
  • การดำเนินการโค้ด: สตูดิโอสนับสนุน การดำเนินการโค้ดในพื้นที่เล่น หากคุณขอให้โมเดลแก้ปัญหาทางคณิตศาสตร์ที่ซับซ้อนหรือวิเคราะห์ CSV โมเดลสามารถเขียนและดำเนินการโค้ด Python ในสภาพแวดล้อมที่ปลอดภัยและแยกจากกันเพื่อให้ได้คำตอบที่ตรวจสอบแล้ว

การปรับแต่งขั้นสูง: เส้นทางการปรับแต่ง

เมื่อการวิศวกรรมคำสั่ง (Zero-shot หรือ Few-shot) ถึงขีดจำกัด Vertex AI Studio ให้เครื่องมือหนัก: การปรับแต่งโมเดล

  1. การปรับให้เหมาะสมแบบมีผู้ดูแล (SFT): นักพัฒนาสามารถให้เซตข้อมูลของ “คำสั่ง/คำตอบ” (โดยทั่วไป 100+ ตัวอย่าง) ซึ่งสอนโมเดลให้ใช้เสียงแบรนด์ที่เฉพาะเจาะจง รูปแบบการออก (เช่น JSON ที่มีรายละเอียด) หรือภาษาเฉพาะโดเมน
  2. การแคชบริบท: สำหรับองค์กรที่จัดการกับเซตข้อมูลขนาดใหญ่และคงที่ (เช่น ห้องสมุดทางกฎหมายหรือฐานโค้ด) สตูดิโอช่วยให้สามารถ การแคชบริบท ได้ ซึ่งช่วยให้คุณสามารถ “โหลดล่วงหน้า” ล้านโทเค็นของข้อมูลเข้าไปในหน่วยความจำของโมเดล ลดความหน่วงและต้นทุนสำหรับการสืบค้นต่อๆ ไปอย่างมาก
  3. การกลั่นกรอง (ครู-นักเรียน): นี่คือการเคลื่อนไหวทางสถาปัตยกรรมระดับสูง คุณสามารถใช้โมเดลขนาดใหญ่ (Gemini 2.5 Pro) เพื่อ “สอน” โมเดลที่เล็กกว่าและเร็วกว่า (Gemini 2.0 Flash) ผลลัพธ์คือโมเดลที่มีขนาดเล็กและเร็วที่สุดซึ่งทำงานในระดับ “Pro” แต่ทำงานด้วยความเร็วและต้นทุนที่ “Flash”

Vertex AI Agent Builder: โรงงานสำหรับการทำให้自动

Vertex AI Agent Builder เป็นเฟรมเวิร์กการกำกับดูแลระดับสูงซึ่งช่วยให้นักพัฒนาสามารถสร้างตัวแทนเหล่านี้ได้โดยการรวมโมเดลพื้นฐานเข้ากับข้อมูลขององค์กรและ API ภายนอก

สถาปัตยกรรมของ “ความจริง”: การยึดและ RAG

อุปสรรคทางเทคนิคหลักที่สำคัญที่สุดต่อ AI องค์กรคือ การหลอกลวง Agent Builder ช่วยแก้ปัญหานี้ผ่านเครื่องยนต์ การยึด ที่ซับซ้อน

  • การยึดด้วยการค้นหา Google: สำหรับการสืบค้นที่ต้องการความรู้ของโลกแบบเรียลไทม์ (เช่น “อัตราดอกเบี้ยจำนองปัจจุบันในนิวยอร์กคืออะไร?”) ตัวแทนสามารถค้นหา Google ได้ นำข้อเท็จจริงมา และอ้างอิงแหล่งที่มา
  • Vertex AI Search (RAG-as-a-Service): แทนที่จะสร้างฐานข้อมูลเวกเตอร์ (Pinecone, Weaviate) ด้วยตนเอง นักพัฒนาสามารถใช้ Vertex AI Search เพื่อสร้างดัชนีเอกสารของตนเอง (PDF, HTML, BigQuery) โดยจัดการขั้นตอนการแบ่งชิ้น การฝัง และการดึงข้อมูลโดยอัตโนมัติ เพื่อให้แน่ใจว่าตัวแทนจะตอบตาม “แหล่งที่มาของความจริง” ภายในองค์กรเท่านั้น
  • Vertex AI RAG Engine: สำหรับการใช้งานแบบกำหนดเองขนาดใหญ่ บริการนี้ช่วยให้สามารถค้นหาที่ผสมผสาน (การรวมผลลัพธ์เวกเตอร์และคีย์เวิร์ด) เพื่อปรับปรุงความแม่นยำได้ถึง 30% มากกว่าผลลัพธ์ LLM ทั่วไป

การกำกับดูแลตัวแทนหลายราย (A2A Protocol)

การทำงานขององค์กรขั้นสูงมักต้องการตัวแทนหลายรายที่ทำงานร่วมกัน Vertex AI นำ โปรโตคอลตัวแทนถึงตัวแทน (A2A) มาใช้ ซึ่งเป็นมาตรฐานที่เปิดกว้างที่ช่วยให้:

  • “ตัวแทนการเดินทาง” พูดคุยกับ “ตัวแทนการเงิน” เพื่อให้แน่ใจว่าการจองเที่ยวบินอยู่ในงบประมาณขององค์กร
  • การทำงานร่วมกัน: เนื่องจากใช้โปรโตคอลที่เปิดกว้าง ตัวแทนบน Vertex AI สามารถสื่อสารกับตัวแทนบนเฟรมเวิร์กอื่นๆ เช่น LangChain หรือ CrewAI

สแต็คของนักพัฒนา: ADK และ Agent Engine

สำหรับผู้ชม “แพลตฟอร์มเทคนิค” Agent Builder มีเส้นทางสองเส้นที่แตกต่างกัน:

  1. คอนโซลแบบไม่ต้องเขียนโค้ด: อินเทอร์เฟซแบบลากและวางสำหรับการสร้างต้นแบบและกำหนดค่าผู้ใช้งานธุรกิจอย่างรวดเร็ว
  2. ชุดพัฒนาตัวแทน (ADK): ชุดพัฒนาซอฟต์แวร์ Python สำหรับวิศวกร ซึ่งช่วยให้สามารถทำ “คำสั่งเป็นโค้ด” ได้ รวมถึงการบูรณาการกับการควบคุมเวอร์ชันและการนำไปใช้กับ Vertex AI Agent Engine—รันไทม์ที่จัดการการรักษาสถานะ การปรับขนาด และการจัดการสถานะโดยอัตโนมัติ

สรุป: จาก “สมมติว่า” ถึง “อะไรต่อไป”

การเปลี่ยนแปลงจากตัวอย่าง AI ที่น่าประทับใจไปสู่แอปพลิเคชันองค์กรที่พร้อมสำหรับการผลิตได้ยาวนานเป็น “หุบเขาตาย” สำหรับโครงการการเปลี่ยนแปลงดิจิทัล เมื่อเราได้สำรวจ Vertex AI ได้รับการออกแบบมาโดยเฉพาะเพื่อข้ามช่องว่างนี้ โดยการรวมความแตกแยกของข้อมูล โครงสร้างพื้นฐาน และการกำกับดูแลโมเดล Google Cloud ได้ย้ายการอภิปรายจากพลังของโมเดลภาษาขนาดใหญ่ไปสู่ ความต่อเนื่องในการทำงาน ของวงจรชีวิต AI

วิศวกรโดยอาชีพ นักเขียนโดยหัวใจ คุณ Kunal เป็นนักเขียนเทคนิคที่มีความรักและเข้าใจอย่างลึกซึ้งเกี่ยวกับ AI และ ML มุ่งมั่นที่จะทำให้แนวคิดที่ซับซ้อนในด้านเหล่านี้ง่ายขึ้นผ่านเอกสารที่น่าสนใจและให้ข้อมูล