ปัญญาประดิษฐ์

สำรวจ Gemini 1.5: โมเดล AI ต่อเนื่องหลายรูปแบบล่าสุดของ Google ยกระดับภูมิทัศน์ AI ให้เหนือกว่ารุ่นก่อนได้อย่างไร

การตีพิมพ์

3 เดือนที่ผ่านมา

กุมภาพันธ์ 20, 2024

ในภูมิทัศน์ที่พัฒนาอย่างรวดเร็วของปัญญาประดิษฐ์ Google ยังคงเป็นผู้นำในการพัฒนาแบบบุกเบิกในด้าน AI หลายรูปแบบ เทคโนโลยี ไม่นานหลังจากการเปิดตัว Gemini 1.0 ซึ่งเป็นรุ่นที่ล้ำสมัย แบบจำลองภาษาขนาดใหญ่หลายรูปแบบ, Google ก็ได้เผยโฉมแล้ว ราศีเมถุน 1.5. การทำซ้ำนี้ไม่เพียงแต่ช่วยเพิ่มขีดความสามารถที่กำหนดโดย ราศีเมถุน 1.0 แต่ยังนำมาซึ่งการปรับปรุงที่สำคัญในวิธีการประมวลผลและบูรณาการข้อมูลหลายรูปแบบของ Google บทความนี้นำเสนอการสำรวจ Gemini 1.5 โดยให้ความกระจ่างเกี่ยวกับแนวทางที่เป็นนวัตกรรมและคุณสมบัติที่โดดเด่น

ราศีเมถุน 1.0: การวางรากฐาน

Gemini 6 เปิดตัวโดย Google DeepMind และ Google Research เมื่อวันที่ 2023 ธันวาคม 1.0 โดยนำเสนอโมเดล AI ต่อเนื่องหลายรูปแบบรูปแบบใหม่ที่สามารถทำความเข้าใจและสร้างเนื้อหาในรูปแบบต่างๆ เช่น ข้อความ เสียง รูปภาพ และวิดีโอ นี่เป็นก้าวสำคัญใน AI โดยขยายขอบเขตในการจัดการข้อมูลประเภทต่างๆ

คุณสมบัติเด่นของราศีเมถุน คือความสามารถในการผสมผสานข้อมูลหลายประเภทได้อย่างราบรื่น ต่างจากโมเดล AI ทั่วไปที่อาจเชี่ยวชาญในรูปแบบข้อมูลเดียว Gemini ผสานรวมข้อความ ภาพ และเสียง การบูรณาการนี้ช่วยให้สามารถทำงานต่างๆ เช่น การวิเคราะห์บันทึกย่อที่เขียนด้วยลายมือ หรือการถอดรหัสไดอะแกรมที่ซับซ้อน ซึ่งจะช่วยแก้ปัญหาความท้าทายที่ซับซ้อนในวงกว้าง

ตระกูล Gemini นำเสนอโมเดลสำหรับการใช้งานที่หลากหลาย ได้แก่ รุ่น Ultra สำหรับงานที่ซับซ้อน รุ่น Pro สำหรับความเร็วและความสามารถในการขยายขนาดบนแพลตฟอร์มหลัก เช่น Google Bard และรุ่น Nano (Nano-1 และ Nano-2) ที่มีพารามิเตอร์ 1.8 พันล้านและ 3.25 พันล้าน ตามลำดับ โดยออกแบบมาเพื่อใช้งานร่วมกับอุปกรณ์อย่างสมาร์ทโฟน Google Pixel 8 Pro

The Leap to Gemini 1.5

Gemini 1.5 รุ่นล่าสุดของ Google ปรับปรุงฟังก์ชันการทำงานและประสิทธิภาพการดำเนินงานของ Gemini 1.0 รุ่นก่อน เวอร์ชันนี้ใช้นวนิยาย ส่วนผสมของผู้เชี่ยวชาญ สถาปัตยกรรม (MoE) แตกต่างจากแนวทางโมเดลขนาดใหญ่แบบครบวงจรที่เห็นในรุ่นก่อน สถาปัตยกรรมนี้รวมเอาคอลเลกชันที่เล็กกว่าและเชี่ยวชาญเป็นพิเศษ รุ่นหม้อแปลงแต่ละคนเชี่ยวชาญในการจัดการส่วนเฉพาะของข้อมูลหรืองานที่แตกต่างกัน การตั้งค่านี้ช่วยให้ Gemini 1.5 สามารถดึงดูดผู้เชี่ยวชาญที่เหมาะสมที่สุดแบบไดนามิกโดยพิจารณาจากข้อมูลที่เข้ามา ปรับปรุงความสามารถของโมเดลในการเรียนรู้และประมวลผลข้อมูล

แนวทางที่เป็นนวัตกรรมนี้ช่วยยกระดับการฝึกอบรมและประสิทธิภาพการใช้งานของโมเดลได้อย่างมาก โดยการเปิดใช้งานเฉพาะผู้เชี่ยวชาญที่จำเป็นสำหรับงานต่างๆ ด้วยเหตุนี้ Gemini 1.5 จึงสามารถทำงานที่ซับซ้อนได้อย่างรวดเร็ว และให้ผลลัพธ์คุณภาพสูงได้อย่างมีประสิทธิภาพมากกว่ารุ่นทั่วไป ความก้าวหน้าดังกล่าวช่วยให้ทีมวิจัยของ Google สามารถเร่งการพัฒนาและเพิ่มประสิทธิภาพโมเดล Gemini และเพิ่มความเป็นไปได้ภายในโดเมน AI

ขยายขีดความสามารถ

ความก้าวหน้าที่โดดเด่นใน Gemini 1.5 คือความสามารถในการประมวลผลข้อมูลที่ขยายออกไป หน้าต่างบริบทของโมเดล ซึ่งเป็นจำนวนข้อมูลผู้ใช้ที่สามารถวิเคราะห์เพื่อสร้างการตอบสนอง ขณะนี้ขยายได้ถึง 1 ล้านโทเค็น ซึ่งเพิ่มขึ้นอย่างมากจาก 32,000 โทเค็นของ Gemini 1.0 การปรับปรุงนี้หมายความว่า Gemini 1.5 Pro สามารถประมวลผลข้อมูลจำนวนมหาศาลได้พร้อมกัน เช่น เนื้อหาวิดีโอหนึ่งชั่วโมง เสียงสิบเอ็ดชั่วโมง หรือฐานโค้ดขนาดใหญ่และเอกสารข้อความ นอกจากนี้ยังได้รับการทดสอบอย่างประสบความสำเร็จด้วยโทเค็นมากถึง 10 ล้านโทเค็น ซึ่งแสดงให้เห็นถึงความสามารถพิเศษในการทำความเข้าใจและตีความชุดข้อมูลขนาดมหึมา

ภาพรวมความสามารถของ Gemini 1.5

การปรับปรุงสถาปัตยกรรมของ Gemini 1.5 และหน้าต่างบริบทที่ขยายออกไป ช่วยให้สามารถทำการวิเคราะห์ที่ซับซ้อนบนชุดข้อมูลขนาดใหญ่ได้ ไม่ว่าจะเป็นการเจาะลึกรายละเอียดอันซับซ้อนของภารกิจอะพอลโล 11 ใบรับรองผลการเรียน หรือการตีความภาพยนตร์เงียบ Gemini 1.5 แสดงให้เห็นถึงความสามารถในการแก้ปัญหาที่ไม่มีใครเทียบได้ โดยเฉพาะอย่างยิ่งกับบล็อกโค้ดที่มีความยาว

Gemini 4 Pro ได้รับการพัฒนาบนตัวเร่งความเร็ว TPUv1.5 ขั้นสูงของ Google และได้รับการฝึกฝนเกี่ยวกับชุดข้อมูลที่หลากหลาย ครอบคลุมโดเมนต่างๆ และรวมถึงเนื้อหาหลายรูปแบบและหลายภาษา ฐานการฝึกอบรมที่กว้างขวางนี้ ผสมผสานกับการปรับแต่งอย่างละเอียดตามข้อมูลความชอบของมนุษย์ ช่วยให้มั่นใจได้ว่าผลลัพธ์ของ Gemini 1.5 Pro จะสะท้อนความรู้สึกของมนุษย์ได้ดี

ตลอด การทดสอบเกณฑ์มาตรฐานที่เข้มงวด เมื่อเทียบกับงานต่างๆ มากมาย Gemini 1.5 Pro ไม่เพียงแต่มีประสิทธิภาพเหนือกว่ารุ่นก่อนในการประเมินส่วนใหญ่เท่านั้น แต่ยังยืนหยัดแบบตัวต่อตัวกับรุ่น Gemini 1.0 Ultra ที่ใหญ่กว่าอีกด้วย Gemini 1.5 Pro แสดงให้เห็นถึงความสามารถ "การเรียนรู้ในบริบท" ที่แข็งแกร่ง โดยได้รับความรู้ใหม่อย่างมีประสิทธิภาพจากการแจ้งเตือนโดยละเอียดโดยไม่จำเป็นต้องปรับเปลี่ยนเพิ่มเติม สิ่งนี้เห็นได้ชัดเจนโดยเฉพาะอย่างยิ่งในประสิทธิภาพการทำงานบน เครื่องแปลจากหนังสือเล่มเดียว เกณฑ์มาตรฐาน (MTOB) ซึ่งแปลจากภาษาอังกฤษเป็นภาษาคาลามัง ซึ่งเป็นภาษาที่คนจำนวนไม่มากพูด โดยมีความสามารถเทียบได้กับการเรียนรู้ของมนุษย์ โดยเน้นย้ำถึงความสามารถในการปรับตัวและประสิทธิภาพการเรียนรู้

การเข้าถึงตัวอย่างแบบจำกัด

Gemini 1.5 Pro พร้อมให้ใช้งานในช่วงตัวอย่างแบบจำกัดสำหรับนักพัฒนาและลูกค้าองค์กรผ่านทาง เอไอ สตูดิโอ และ เวอร์เท็กซ์ AIพร้อมแผนการเปิดตัวที่กว้างขึ้นและตัวเลือกที่ปรับแต่งได้ในอนาคตอันใกล้ ระยะแสดงตัวอย่างนี้มอบโอกาสพิเศษในการสำรวจหน้าต่างบริบทที่ขยายออกไป โดยคาดว่าจะมีการปรับปรุงความเร็วในการประมวลผล นักพัฒนาและลูกค้าองค์กรที่สนใจ Gemini 1.5 Pro สามารถลงทะเบียนผ่าน AI Studio หรือติดต่อทีมบัญชี Vertex AI เพื่อขอข้อมูลเพิ่มเติม

บรรทัดด้านล่าง

Gemini 1.5 ถือเป็นก้าวสำคัญในการพัฒนา AI ต่อเนื่องหลายรูปแบบ เวอร์ชันใหม่นี้ต่อยอดมาจากรากฐานของ Gemini 1.0 โดยนำวิธีที่ได้รับการปรับปรุงสำหรับการประมวลผลและบูรณาการข้อมูลประเภทต่างๆ การเปิดตัวแนวทางสถาปัตยกรรมแบบใหม่และความสามารถในการประมวลผลข้อมูลที่ขยายออกไป เน้นย้ำถึงความพยายามอย่างต่อเนื่องของ Google ในการปรับปรุงเทคโนโลยี AI ด้วยศักยภาพในการจัดการงานที่มีประสิทธิภาพมากขึ้นและการเรียนรู้ขั้นสูง Gemini 1.5 นำเสนอวิวัฒนาการที่ต่อเนื่องของ AI ปัจจุบันมีให้บริการสำหรับกลุ่มนักพัฒนาและลูกค้าองค์กรที่ได้รับการคัดเลือก ซึ่งส่งสัญญาณถึงความเป็นไปได้ที่น่าตื่นเต้นสำหรับอนาคตของ AI พร้อมความพร้อมใช้งานที่กว้างขึ้นและความก้าวหน้าเพิ่มเติมที่ขอบฟ้า

หัวข้อที่เกี่ยวข้อง:โมเดลหลายรูปแบบขนาดใหญ่AI หลายรูปแบบ แบบจำลองภาษาขนาดใหญ่หลายรูปแบบ

ต่อไป

เสริมศักยภาพโมเดลวิสัยทัศน์ขนาดใหญ่ (LVM) ในงานเฉพาะโดเมนผ่านการเรียนรู้แบบถ่ายโอน

อย่าพลาด

สิ่งที่เรารู้เกี่ยวกับ Sora ของ OpenAI จนถึงตอนนี้

ดร. เทห์เซน เซีย

Dr. Tehseen Zia เป็นรองศาสตราจารย์ประจำที่ COMSATS University Islamabad โดยสำเร็จการศึกษาระดับปริญญาเอกสาขา AI จาก Vienna University of Technology ประเทศออสเตรีย ด้วยความเชี่ยวชาญในปัญญาประดิษฐ์ การเรียนรู้ของเครื่องจักร วิทยาศาสตร์ข้อมูล และคอมพิวเตอร์วิทัศน์ เขามีส่วนสำคัญในการตีพิมพ์ในวารสารวิทยาศาสตร์ที่มีชื่อเสียง ดร. Tehseen ยังเป็นผู้นำโครงการอุตสาหกรรมต่างๆ ในฐานะ Principal Investigator และทำหน้าที่เป็นที่ปรึกษาด้าน AI