AGI
การสำรวจ Gemini 1.5: วิธีการที่โมเดล AI มัลติม็อดัลล่าสุดของ Google ยกระดับภูมิทัศน์ AI ไปไกลกว่าผู้ tiền nhiệm
ในภูมิทัศน์ของปัญญาประดิษฐ์ที่เปลี่ยนแปลงอย่างรวดเร็ว Google ยังคงเป็นผู้นำด้วยการพัฒนาที่เป็นปioneer ในเทคโนโลยี มัลติม็อดัล AI ไม่นานหลังจากการเปิดตัว Gemini 1.0 โมเดลภาษามัลติม็อดัลขนาดใหญ่แบบตัดตัวที่เฉียบคมของพวกเขา Google ได้เปิดตัว Gemini 1.5 แล้ว การอัปเดตนี้ไม่เพียงแต่เพิ่มขีดความสามารถที่กำหนดโดย Gemini 1.0 เท่านั้น แต่ยังนำการปรับปรุงอย่างมีนัยสำคัญในกระบวนการประมวลผลและรวมข้อมูลมัลติม็อดัลของ Google มาให้ด้วย บทความนี้ให้การสำรวจ Gemini 1.5 โดยเน้นย้ำถึงแนวทางใหม่และคุณลักษณะที่โดดเด่น
Gemini 1.0: การวางรากฐาน
เปิดตัวโดย Google DeepMind และ Google Research เมื่อวันที่ 6 ธันวาคม 2023 Gemini 1.0 ได้แนะนำโมเดล AI มัลติม็อดัลรุ่นใหม่ที่สามารถเข้าใจและสร้างเนื้อหาที่มีหลายรูปแบบ เช่น ข้อความ เสียง รูปภาพ และวิดีโอ ซึ่งเป็นขั้นตอนที่สำคัญในการพัฒนาปัญญาประดิษฐ์ โดยขยายขอบเขตในการจัดการข้อมูลที่หลากหลาย
คุณลักษณะเด่นของ Gemini คือความสามารถในการผสมผสานข้อมูลหลายประเภทได้อย่างไร้รอยต่อ ไม่เหมือนกับโมเดล AI แบบดั้งเดิมที่อาจเชี่ยวชาญเฉพาะรูปแบบข้อมูลหนึ่งเท่านั้น Gemini รวมข้อความ วิสัยทัศน์ และเสียงเข้าด้วยกัน ทำให้สามารถทำงานได้ เช่น วิเคราะห์โน้ตที่เขียนด้วยมือหรือตีความแผนภาพที่ซับซ้อน ดังนั้นจึงสามารถแก้ไขปัญหาที่ซับซ้อนได้ในหลายด้าน
Gemini มีโมเดลสำหรับการใช้งานต่างๆ: โมเดล Ultra สำหรับงานที่ซับซ้อน โมเดล Pro สำหรับความเร็วและความสามารถในการปรับขนาดบนแพลตฟอร์มหลักๆ เช่น Google Bard และโมเดล Nano (Nano-1 และ Nano-2) ที่มีพารามิเตอร์ 1.8 และ 3.25 พันล้านพารามิเตอร์ ตามลำดับ ซึ่งออกแบบมาเพื่อใช้ในอุปกรณ์ เช่น สมาร์ทโฟน Google Pixel 8 Pro
การกระโดดสู่ Gemini 1.5
การเปิดตัวล่าสุดของ Google คือ Gemini 1.5 ซึ่งเพิ่มฟังก์ชันและประสิทธิภาพการทำงานของ Gemini 1.0 รุ่นก่อนหน้า เวอร์ชันนี้ใช้ สถาปัตยกรรม Mixture-of-Experts (MoE) ซึ่งเป็นการเปลี่ยนแปลงจากแนวทางโมเดลขนาดใหญ่ที่รวมเป็นหนึ่งเดียวที่เห็นในรุ่นก่อนหน้า สถาปัตยกรรมนี้ประกอบด้วยโมเดลทรานส์ฟอร์เมอร์ขนาดเล็กที่เชี่ยวชาญซึ่งสามารถจัดการข้อมูลหรืองานเฉพาะได้ดี ทำให้ Gemini 1.5 สามารถเรียกใช้ผู้เชี่ยวชาญที่เหมาะสมตามข้อมูลที่เข้ามาได้อย่างมีประสิทธิภาพ
แนวทางใหม่นี้เพิ่มประสิทธิภาพในการฝึกอบรมและใช้งานโมเดลอย่างมากโดยการเรียกใช้เฉพาะผู้เชี่ยวชาญที่จำเป็นสำหรับงาน ทำให้ Gemini 1.5 สามารถเรียนรู้และประมวลผลข้อมูลได้อย่างรวดเร็วและมีประสิทธิภาพมากกว่าโมเดลแบบดั้งเดิม การพัฒนานี้ช่วยให้ทีมวิจัยของ Google สามารถเร่งพัฒนาและปรับปรุงโมเดล Gemini ได้ โดยขยายความเป็นไปได้ในด้าน AI
การขยายความสามารถ
การปรับปรุงที่สำคัญใน Gemini 1.5 คือความสามารถในการประมวลผลข้อมูลที่เพิ่มขึ้น “วินโดว์บริบท” ของโมเดล ซึ่งเป็นจำนวนข้อมูลของผู้ใช้ที่สามารถวิเคราะห์เพื่อสร้างคำตอบได้ ตอนนี้สามารถขยายได้ถึง 1 ล้านโทเค็น ซึ่งเป็นการเพิ่มขึ้นอย่างมากจาก 32,000 โทเค็นของ Gemini 1.0 การปรับปรุงนี้หมายความว่า Gemini 1.5 Pro สามารถประมวลผลข้อมูลจำนวนมากได้ เช่น วิดีโอหนึ่งชั่วโมง เสียงสิบเอ็ดชั่วโมง หรือโค้ดเบสและเอกสารข้อความขนาดใหญ่ และได้รับการทดสอบสำเร็จด้วยโทเค็นถึง 10 ล้านโทเค็น โดยแสดงให้เห็นถึงความสามารถที่น่าประทับใจในการเข้าใจและตีความเซตข้อมูลขนาดใหญ่
ภาพรวมของความสามารถของ Gemini 1.5
การปรับปรุงสถาปัตยกรรมและวินโดว์บริบทที่ขยายของ Gemini 1.5 ทำให้สามารถวิเคราะห์ข้อมูลขนาดใหญ่ได้อย่างซับซ้อน ไม่ว่าจะเป็นการสำรวจรายละเอียดของภารกิจ Apollo 11 การถอดความ หรือการตีความภาพยนตร์เงียบ Gemini 1.5 แสดงให้เห็นถึงความสามารถในการแก้ปัญหาที่ไม่เคยเห็นมาก่อน โดยเฉพาะอย่างยิ่งกับบล็อกโค้ดขนาดใหญ่
พัฒนาโดยใช้เครื่องเร่ง TPUv4 ของ Google Gemini 1.5 Pro ได้รับการฝึกอบรมจากเซตข้อมูลที่หลากหลาย ซึ่งครอบคลุมหลายโดเมนและรวมถึงเนื้อหามัลติม็อดัลและหลายภาษา ฐานการฝึกอบรมที่กว้างขวางนี้ เมื่อรวมกับการปรับให้เหมาะสมตามข้อมูลความชอบของมนุษย์ ทำให้ Gemini 1.5 Pro สามารถสร้างผลลัพธ์ที่สอดคล้องกับการรับรู้ของมนุษย์ได้อย่างดี
การเข้าถึงตัวอย่างแบบจำกัด
Gemini 1.5 Pro มีให้ใช้งานในแบบตัวอย่างแบบจำกัดสำหรับนักพัฒนาและลูกค้าองค์กรผ่าน AI Studio และ Vertex AI โดยมีแผนสำหรับการเปิดตัวที่กว้างขึ้นและตัวเลือกที่สามารถปรับแต่งได้ในอนาคต ช่วงตัวอย่างนี้ให้โอกาสพิเศษในการสำรวจวินโดว์บริบทที่ขยาย โดยมีการปรับปรุงความเร็วในการประมวลผลที่คาดหวัง นักพัฒนาและลูกค้าองค์กรที่สนใจ Gemini 1.5 Pro สามารถลงทะเบียนผ่าน AI Studio หรือติดต่อทีม Vertex AI ของตนเพื่อรับข้อมูลเพิ่มเติม
สรุป
Gemini 1.5 เป็นตัวแทนของขั้นตอนที่สำคัญในการพัฒนา AI มัลติม็อดัล โดยสร้างบนพื้นฐานที่ Gemini 1.0 วางไว้ รุ่นนี้นำวิธีการที่ดีขึ้นในการประมวลผลและรวมข้อมูลต่างๆ มาให้ การแนะนำแนวทางสถาปัตยกรรมใหม่และความสามารถในการประมวลผลข้อมูลที่เพิ่มขึ้น เน้นย้ำถึงความพยายามอย่างต่อเนื่องของ Google ในการปรับปรุงเทคโนโลยี AI ด้วยศักยภาพในการจัดการงานที่มีประสิทธิภาพและเรียนรู้ที่ดีขึ้น Gemini 1.5 แสดงให้เห็นถึงการเปลี่ยนแปลงอย่างต่อเนื่องของ AI ในปัจจุบัน และมีให้ใช้งานสำหรับกลุ่มผู้พัฒนาและลูกค้าองค์กรที่เลือกไว้ โดยมีการเปิดตัวที่กว้างขึ้นและความก้าวหน้าเพิ่มเติมในอนาคต












