Connect with us

การสำรวจ Gemini 1.5: วิธีการที่โมเดล AI มัลติม็อดัลล่าสุดของ Google ยกระดับภูมิทัศน์ AI ไปไกลกว่าผู้ tiền nhiệm

AGI

การสำรวจ Gemini 1.5: วิธีการที่โมเดล AI มัลติม็อดัลล่าสุดของ Google ยกระดับภูมิทัศน์ AI ไปไกลกว่าผู้ tiền nhiệm

mm

ในภูมิทัศน์ของปัญญาประดิษฐ์ที่เปลี่ยนแปลงอย่างรวดเร็ว Google ยังคงเป็นผู้นำด้วยการพัฒนาที่เป็นปioneer ในเทคโนโลยี มัลติม็อดัล AI ไม่นานหลังจากการเปิดตัว Gemini 1.0 โมเดลภาษามัลติม็อดัลขนาดใหญ่แบบตัดตัวที่เฉียบคมของพวกเขา Google ได้เปิดตัว Gemini 1.5 แล้ว การอัปเดตนี้ไม่เพียงแต่เพิ่มขีดความสามารถที่กำหนดโดย Gemini 1.0 เท่านั้น แต่ยังนำการปรับปรุงอย่างมีนัยสำคัญในกระบวนการประมวลผลและรวมข้อมูลมัลติม็อดัลของ Google มาให้ด้วย บทความนี้ให้การสำรวจ Gemini 1.5 โดยเน้นย้ำถึงแนวทางใหม่และคุณลักษณะที่โดดเด่น

Gemini 1.0: การวางรากฐาน

เปิดตัวโดย Google DeepMind และ Google Research เมื่อวันที่ 6 ธันวาคม 2023 Gemini 1.0 ได้แนะนำโมเดล AI มัลติม็อดัลรุ่นใหม่ที่สามารถเข้าใจและสร้างเนื้อหาที่มีหลายรูปแบบ เช่น ข้อความ เสียง รูปภาพ และวิดีโอ ซึ่งเป็นขั้นตอนที่สำคัญในการพัฒนาปัญญาประดิษฐ์ โดยขยายขอบเขตในการจัดการข้อมูลที่หลากหลาย

คุณลักษณะเด่นของ Gemini คือความสามารถในการผสมผสานข้อมูลหลายประเภทได้อย่างไร้รอยต่อ ไม่เหมือนกับโมเดล AI แบบดั้งเดิมที่อาจเชี่ยวชาญเฉพาะรูปแบบข้อมูลหนึ่งเท่านั้น Gemini รวมข้อความ วิสัยทัศน์ และเสียงเข้าด้วยกัน ทำให้สามารถทำงานได้ เช่น วิเคราะห์โน้ตที่เขียนด้วยมือหรือตีความแผนภาพที่ซับซ้อน ดังนั้นจึงสามารถแก้ไขปัญหาที่ซับซ้อนได้ในหลายด้าน

Gemini มีโมเดลสำหรับการใช้งานต่างๆ: โมเดล Ultra สำหรับงานที่ซับซ้อน โมเดล Pro สำหรับความเร็วและความสามารถในการปรับขนาดบนแพลตฟอร์มหลักๆ เช่น Google Bard และโมเดล Nano (Nano-1 และ Nano-2) ที่มีพารามิเตอร์ 1.8 และ 3.25 พันล้านพารามิเตอร์ ตามลำดับ ซึ่งออกแบบมาเพื่อใช้ในอุปกรณ์ เช่น สมาร์ทโฟน Google Pixel 8 Pro

การกระโดดสู่ Gemini 1.5

การเปิดตัวล่าสุดของ Google คือ Gemini 1.5 ซึ่งเพิ่มฟังก์ชันและประสิทธิภาพการทำงานของ Gemini 1.0 รุ่นก่อนหน้า เวอร์ชันนี้ใช้ สถาปัตยกรรม Mixture-of-Experts (MoE) ซึ่งเป็นการเปลี่ยนแปลงจากแนวทางโมเดลขนาดใหญ่ที่รวมเป็นหนึ่งเดียวที่เห็นในรุ่นก่อนหน้า สถาปัตยกรรมนี้ประกอบด้วยโมเดลทรานส์ฟอร์เมอร์ขนาดเล็กที่เชี่ยวชาญซึ่งสามารถจัดการข้อมูลหรืองานเฉพาะได้ดี ทำให้ Gemini 1.5 สามารถเรียกใช้ผู้เชี่ยวชาญที่เหมาะสมตามข้อมูลที่เข้ามาได้อย่างมีประสิทธิภาพ

แนวทางใหม่นี้เพิ่มประสิทธิภาพในการฝึกอบรมและใช้งานโมเดลอย่างมากโดยการเรียกใช้เฉพาะผู้เชี่ยวชาญที่จำเป็นสำหรับงาน ทำให้ Gemini 1.5 สามารถเรียนรู้และประมวลผลข้อมูลได้อย่างรวดเร็วและมีประสิทธิภาพมากกว่าโมเดลแบบดั้งเดิม การพัฒนานี้ช่วยให้ทีมวิจัยของ Google สามารถเร่งพัฒนาและปรับปรุงโมเดล Gemini ได้ โดยขยายความเป็นไปได้ในด้าน AI

การขยายความสามารถ

การปรับปรุงที่สำคัญใน Gemini 1.5 คือความสามารถในการประมวลผลข้อมูลที่เพิ่มขึ้น “วินโดว์บริบท” ของโมเดล ซึ่งเป็นจำนวนข้อมูลของผู้ใช้ที่สามารถวิเคราะห์เพื่อสร้างคำตอบได้ ตอนนี้สามารถขยายได้ถึง 1 ล้านโทเค็น ซึ่งเป็นการเพิ่มขึ้นอย่างมากจาก 32,000 โทเค็นของ Gemini 1.0 การปรับปรุงนี้หมายความว่า Gemini 1.5 Pro สามารถประมวลผลข้อมูลจำนวนมากได้ เช่น วิดีโอหนึ่งชั่วโมง เสียงสิบเอ็ดชั่วโมง หรือโค้ดเบสและเอกสารข้อความขนาดใหญ่ และได้รับการทดสอบสำเร็จด้วยโทเค็นถึง 10 ล้านโทเค็น โดยแสดงให้เห็นถึงความสามารถที่น่าประทับใจในการเข้าใจและตีความเซตข้อมูลขนาดใหญ่

ภาพรวมของความสามารถของ Gemini 1.5

การปรับปรุงสถาปัตยกรรมและวินโดว์บริบทที่ขยายของ Gemini 1.5 ทำให้สามารถวิเคราะห์ข้อมูลขนาดใหญ่ได้อย่างซับซ้อน ไม่ว่าจะเป็นการสำรวจรายละเอียดของภารกิจ Apollo 11 การถอดความ หรือการตีความภาพยนตร์เงียบ Gemini 1.5 แสดงให้เห็นถึงความสามารถในการแก้ปัญหาที่ไม่เคยเห็นมาก่อน โดยเฉพาะอย่างยิ่งกับบล็อกโค้ดขนาดใหญ่

พัฒนาโดยใช้เครื่องเร่ง TPUv4 ของ Google Gemini 1.5 Pro ได้รับการฝึกอบรมจากเซตข้อมูลที่หลากหลาย ซึ่งครอบคลุมหลายโดเมนและรวมถึงเนื้อหามัลติม็อดัลและหลายภาษา ฐานการฝึกอบรมที่กว้างขวางนี้ เมื่อรวมกับการปรับให้เหมาะสมตามข้อมูลความชอบของมนุษย์ ทำให้ Gemini 1.5 Pro สามารถสร้างผลลัพธ์ที่สอดคล้องกับการรับรู้ของมนุษย์ได้อย่างดี

การเข้าถึงตัวอย่างแบบจำกัด

Gemini 1.5 Pro มีให้ใช้งานในแบบตัวอย่างแบบจำกัดสำหรับนักพัฒนาและลูกค้าองค์กรผ่าน AI Studio และ Vertex AI โดยมีแผนสำหรับการเปิดตัวที่กว้างขึ้นและตัวเลือกที่สามารถปรับแต่งได้ในอนาคต ช่วงตัวอย่างนี้ให้โอกาสพิเศษในการสำรวจวินโดว์บริบทที่ขยาย โดยมีการปรับปรุงความเร็วในการประมวลผลที่คาดหวัง นักพัฒนาและลูกค้าองค์กรที่สนใจ Gemini 1.5 Pro สามารถลงทะเบียนผ่าน AI Studio หรือติดต่อทีม Vertex AI ของตนเพื่อรับข้อมูลเพิ่มเติม

สรุป

Gemini 1.5 เป็นตัวแทนของขั้นตอนที่สำคัญในการพัฒนา AI มัลติม็อดัล โดยสร้างบนพื้นฐานที่ Gemini 1.0 วางไว้ รุ่นนี้นำวิธีการที่ดีขึ้นในการประมวลผลและรวมข้อมูลต่างๆ มาให้ การแนะนำแนวทางสถาปัตยกรรมใหม่และความสามารถในการประมวลผลข้อมูลที่เพิ่มขึ้น เน้นย้ำถึงความพยายามอย่างต่อเนื่องของ Google ในการปรับปรุงเทคโนโลยี AI ด้วยศักยภาพในการจัดการงานที่มีประสิทธิภาพและเรียนรู้ที่ดีขึ้น Gemini 1.5 แสดงให้เห็นถึงการเปลี่ยนแปลงอย่างต่อเนื่องของ AI ในปัจจุบัน และมีให้ใช้งานสำหรับกลุ่มผู้พัฒนาและลูกค้าองค์กรที่เลือกไว้ โดยมีการเปิดตัวที่กว้างขึ้นและความก้าวหน้าเพิ่มเติมในอนาคต

ดร. Tehseen Zia เป็น Professor ที่ COMSATS University Islamabad โดยได้รับ PhD ใน AI จาก Vienna University of Technology, Austria มีเชี่ยวชาญด้าน Artificial Intelligence, Machine Learning, Data Science, และ Computer Vision โดยมีส่วนร่วมที่สำคัญด้วยการเผยแพร่ในวารสารวิทยาศาสตร์ที่มีชื่อเสียง ดร. Tehseen ยังได้ดำเนินโครงการอุตสาหกรรมต่างๆ ในฐานะ Principal Investigator และให้บริการเป็นที่ปรึกษาด้าน AI