ต้นขั้ว AI Gemini ต่อเนื่องหลายรูปแบบของ Google - เจาะลึกทางเทคนิค - Unite.AI
เชื่อมต่อกับเรา

ปัญญาประดิษฐ์

AI Gemini ต่อเนื่องหลายรูปแบบของ Google – เจาะลึกทางเทคนิค

mm
วันที่อัพเดท on
โมเดลต่อเนื่องหลายรูปแบบแรกของ Google: ราศีเมถุน

Sundar Pichai ซีอีโอของ Google พร้อมด้วย Demis Hassabi จาก Google DeepMind เปิดตัว Gemini ในเดือนธันวาคม 2023. โมเดลภาษาขนาดใหญ่ใหม่นี้รวมอยู่ในผลิตภัณฑ์ที่หลากหลายของ Google โดยนำเสนอการปรับปรุงที่ส่งผ่านบริการและเครื่องมือที่ใช้โดยคนนับล้าน

Gemini ซึ่งเป็น AI ต่อเนื่องหลายรูปแบบขั้นสูงของ Google เกิดจากความร่วมมือของห้องปฏิบัติการ DeepMind และ Brain AI ที่รวมเป็นหนึ่งเดียว Gemini ยืนอยู่บนไหล่ของรุ่นก่อน โดยสัญญาว่าจะมอบชุดแอพพลิเคชั่นที่เชื่อมโยงถึงกันและชาญฉลาดยิ่งขึ้น

การประกาศเปิดตัว Google Gemini ซึ่งตั้งอยู่อย่างใกล้ชิดหลังจากการเปิดตัว Bard, Duet AI และ PaLM 2 LLM ถือเป็นความตั้งใจที่ชัดเจนของ Google ที่ไม่เพียงแต่แข่งขันเท่านั้น แต่ยังเป็นผู้นำในการปฏิวัติ AI ด้วย

ตรงกันข้ามกับแนวคิดใดๆ เกี่ยวกับฤดูหนาวของ AI การเปิดตัว Gemini บ่งบอกถึงฤดูใบไม้ผลิของ AI ที่เจริญรุ่งเรือง ซึ่งเต็มไปด้วยศักยภาพและการเติบโต เมื่อเรานึกถึงหนึ่งปีนับตั้งแต่ ChatGPT ถือกำเนิดขึ้น ซึ่งเป็นช่วงเวลาแห่งการปฏิวัติสำหรับ AI ความเคลื่อนไหวของ Google บ่งชี้ว่าการขยายตัวของอุตสาหกรรมยังไม่สิ้นสุด ที่จริงแล้วมันอาจจะแค่ก้าวไปอย่างรวดเร็วเท่านั้น

ราศีเมถุนคืออะไร?

โมเดลราศีเมถุนของ Google สามารถประมวลผลข้อมูลได้หลากหลายประเภท เช่น ข้อความ รูปภาพ เสียง และวิดีโอ มีสามเวอร์ชัน—รุนแรง, มือโปรและ นาโน—แต่ละอันได้รับการปรับแต่งมาสำหรับการใช้งานเฉพาะ ตั้งแต่การให้เหตุผลที่ซับซ้อนไปจนถึงการใช้งานบนอุปกรณ์ Ultra เป็นเลิศในงานที่มีหลายแง่มุม และจะมีให้ใช้งานใน Bard Advanced ในขณะที่ Pro มอบความสมดุลระหว่างประสิทธิภาพและประสิทธิภาพของทรัพยากร ซึ่งรวมเข้ากับ Bard แล้วสำหรับข้อความแจ้ง นาโนที่ปรับให้เหมาะกับการใช้งานในอุปกรณ์ มี 4 ขนาดและฟีเจอร์การปรับแต่งฮาร์ดแวร์ เช่น การวัดปริมาณ 8 บิตสำหรับการใช้งานออฟไลน์ในอุปกรณ์อย่าง Pixel XNUMX Pro

สถาปัตยกรรมของ Gemini มีเอกลักษณ์เฉพาะตัวในด้านความสามารถในการส่งออกหลายรูปแบบโดยใช้โทเค็นภาพแยกสำหรับการสร้างภาพและบูรณาการคุณสมบัติเสียงจาก Universal Speech Model เพื่อการทำความเข้าใจเสียงที่เหมาะสมยิ่ง ความสามารถในการจัดการข้อมูลวิดีโอเป็นภาพต่อเนื่อง ผสมผสานกับอินพุตข้อความหรือเสียง ถือเป็นตัวอย่างให้เห็นถึงความสามารถที่ต่อเนื่องหลายรูปแบบ

Gemini รองรับลำดับข้อความ รูปภาพ เสียง และวิดีโอเป็นอินพุต

Gemini รองรับลำดับข้อความ รูปภาพ เสียง และวิดีโอเป็นอินพุต

การเข้าถึงราศีเมถุน

Gemini 1.0 กำลังเปิดตัวทั่วทั้งระบบนิเวศของ Google รวมถึง Bard ซึ่งขณะนี้ได้รับประโยชน์จากความสามารถที่ได้รับการปรับปรุงของ Gemini Pro Google ยังได้รวม Gemini เข้ากับบริการการค้นหา โฆษณา และ Duet เพื่อปรับปรุงประสบการณ์ผู้ใช้ด้วยการตอบสนองที่รวดเร็วและแม่นยำยิ่งขึ้น

สำหรับผู้ที่กระตือรือร้นที่จะควบคุมความสามารถของ Gemini นั้น Google AI Studio และ Google Cloud Vertex เสนอการเข้าถึง Gemini Pro โดยอย่างหลังให้คุณสมบัติการปรับแต่งและความปลอดภัยที่ดียิ่งขึ้น

หากต้องการสัมผัสประสบการณ์ความสามารถที่เพิ่มขึ้นของ Bard ที่ขับเคลื่อนโดย Gemini Pro ผู้ใช้สามารถทำตามขั้นตอนง่ายๆ ต่อไปนี้:

  1. นำทางไปยังบาร์ด: เปิดเว็บเบราว์เซอร์ที่คุณต้องการแล้วไปที่เว็บไซต์ Bard
  2. เข้าสู่ระบบที่ปลอดภัย: เข้าถึงบริการโดยลงชื่อเข้าใช้ด้วยบัญชี Google ของคุณ รับรองประสบการณ์ที่ราบรื่นและปลอดภัย
  3. แชทแบบโต้ตอบ: ตอนนี้คุณสามารถใช้ Bard ได้แล้ว โดยที่สามารถเลือกฟีเจอร์ขั้นสูงของ Gemini Pro ได้

พลังแห่งความหลากหลาย:

โดยแก่นแท้แล้ว Gemini ใช้สถาปัตยกรรมที่ใช้หม้อแปลงไฟฟ้า คล้ายกับที่ใช้ในโมเดล NLP ที่ประสบความสำเร็จ เช่น GPT-3 อย่างไรก็ตาม เอกลักษณ์ของ Gemini อยู่ที่ความสามารถในการประมวลผลและบูรณาการข้อมูลจากรูปแบบต่างๆ รวมถึงข้อความ รูปภาพ และโค้ด สามารถทำได้ด้วยเทคนิคใหม่ที่เรียกว่า ความสนใจข้ามโมดอลซึ่งช่วยให้โมเดลเรียนรู้ความสัมพันธ์และการขึ้นต่อกันระหว่างข้อมูลประเภทต่างๆ

ต่อไปนี้คือรายละเอียดส่วนประกอบสำคัญของราศีเมถุน:

  • ตัวเข้ารหัสหลายรูปแบบ: โมดูลนี้ประมวลผลข้อมูลอินพุตจากแต่ละรูปแบบ (เช่น ข้อความ รูปภาพ) อย่างเป็นอิสระ โดยแยกคุณลักษณะที่เกี่ยวข้องและสร้างการนำเสนอแต่ละรายการ
  • เครือข่ายความสนใจข้ามโมดัล: เครือข่ายนี้เป็นหัวใจสำคัญของราศีเมถุน ช่วยให้โมเดลเรียนรู้ความสัมพันธ์และการพึ่งพาระหว่างการนำเสนอที่แตกต่างกัน ช่วยให้พวกเขาสามารถ "พูดคุย" ซึ่งกันและกันและเพิ่มพูนความเข้าใจได้
  • ตัวถอดรหัสหลายรูปแบบ: โมดูลนี้ใช้การนำเสนอที่สมบูรณ์ยิ่งขึ้นซึ่งสร้างโดยเครือข่ายความสนใจแบบข้ามโมดอลเพื่อดำเนินการต่างๆ เช่น คำบรรยายภาพ การสร้างข้อความเป็นภาพ และการสร้างโค้ด

แบบจำลองราศีเมถุนไม่ได้เป็นเพียงการทำความเข้าใจข้อความหรือรูปภาพเท่านั้น แต่ยังเกี่ยวกับการบูรณาการข้อมูลประเภทต่างๆ ในลักษณะที่ใกล้เคียงกับวิธีที่มนุษย์รับรู้ต่อโลกมากขึ้น ตัวอย่างเช่น ราศีเมถุนสามารถดูลำดับของรูปภาพและกำหนดลำดับเชิงตรรกะหรือเชิงพื้นที่ของวัตถุที่อยู่ภายในรูปภาพเหล่านั้นได้ นอกจากนี้ยังสามารถวิเคราะห์คุณลักษณะการออกแบบของวัตถุเพื่อตัดสิน เช่น รถสองคันคันใดที่มีรูปร่างตามหลักอากาศพลศาสตร์มากกว่า

แต่พรสวรรค์ของราศีเมถุนมีมากกว่าแค่การเข้าใจด้วยสายตา โดยสามารถเปลี่ยนชุดคำสั่งให้เป็นโค้ด สร้างเครื่องมือที่ใช้งานได้จริง เช่น ตัวจับเวลาถอยหลัง ซึ่งไม่เพียงแต่ทำงานตามคำสั่งเท่านั้น แต่ยังรวมถึงองค์ประกอบที่สร้างสรรค์ เช่น อิโมจิที่สร้างแรงบันดาลใจ เพื่อปรับปรุงการโต้ตอบของผู้ใช้ สิ่งนี้บ่งบอกถึงความสามารถในการจัดการงานที่ต้องใช้การผสมผสานระหว่างความคิดสร้างสรรค์และการทำงาน ซึ่งเป็นทักษะที่มักถือเป็นทักษะของมนุษย์อย่างชัดเจน

ความสามารถของราศีเมถุน: การใช้เหตุผลเชิงพื้นที่

ความสามารถของราศีเมถุน : การใช้เหตุผลเชิงพื้นที่ (แหล่ง)

 

ความสามารถของราศีเมถุนขยายไปถึงการดำเนินงานด้านการเขียนโปรแกรม

ความสามารถของ Gemini ขยายไปถึงการดำเนินงานด้านการเขียนโปรแกรม (แหล่ง)

การออกแบบที่ซับซ้อนของ Gemini มีพื้นฐานมาจากประวัติศาสตร์อันยาวนานของการวิจัยโครงข่ายประสาทเทียม และใช้ประโยชน์จากเทคโนโลยี TPU ที่ล้ำสมัยของ Google สำหรับการฝึกอบรม โดยเฉพาะอย่างยิ่ง Gemini Ultra ได้สร้างเกณฑ์มาตรฐานใหม่ในโดเมน AI ต่างๆ โดยแสดงให้เห็นการเพิ่มประสิทธิภาพที่โดดเด่นในงานการให้เหตุผลแบบหลายรูปแบบ

ด้วยความสามารถในการแยกวิเคราะห์และทำความเข้าใจข้อมูลที่ซับซ้อน Gemini นำเสนอโซลูชันสำหรับการใช้งานในโลกแห่งความเป็นจริง โดยเฉพาะอย่างยิ่งในด้านการศึกษา สามารถวิเคราะห์และแก้ไขปัญหา เช่น ในวิชาฟิสิกส์ โดยการทำความเข้าใจบันทึกย่อที่เขียนด้วยลายมือ และจัดเตรียมการเรียงพิมพ์ทางคณิตศาสตร์ที่แม่นยำ ความสามารถดังกล่าวบ่งบอกถึงอนาคตที่ AI ช่วยในด้านการศึกษา โดยนำเสนอเครื่องมือขั้นสูงสำหรับการเรียนรู้และการแก้ปัญหาแก่นักเรียนและนักการศึกษา

Gemini's ได้รับการยกระดับเพื่อสร้างเอเจนต์เช่น AlphaCode 2 ซึ่งเชี่ยวชาญด้านปัญหาการเขียนโปรแกรมที่แข่งขันได้ สิ่งนี้แสดงให้เห็นถึงศักยภาพของ Gemini ในการทำหน้าที่เป็น AI ทั่วไป ซึ่งสามารถจัดการกับปัญหาที่ซับซ้อนหลายขั้นตอนได้

Gemini Nano นำพลังของ AI มาสู่อุปกรณ์ในชีวิตประจำวัน โดยรักษาความสามารถที่น่าประทับใจในงานต่างๆ เช่น การสรุปและความเข้าใจในการอ่าน รวมถึงความท้าทายในการเขียนโค้ดและ STEM โมเดลขนาดเล็กเหล่านี้ได้รับการปรับแต่งอย่างละเอียดเพื่อให้มีฟังก์ชัน AI คุณภาพสูงบนอุปกรณ์ที่มีหน่วยความจำต่ำกว่า ทำให้ AI ขั้นสูงเข้าถึงได้ง่ายกว่าที่เคย

การพัฒนา Gemini เกี่ยวข้องกับนวัตกรรมในอัลกอริทึมการฝึกอบรมและโครงสร้างพื้นฐาน โดยใช้ TPU ล่าสุดของ Google สิ่งนี้ทำให้สามารถปรับขนาดได้อย่างมีประสิทธิภาพและกระบวนการฝึกอบรมที่แข็งแกร่ง ทำให้มั่นใจได้ว่าแม้แต่รุ่นที่เล็กที่สุดก็มอบประสิทธิภาพที่ยอดเยี่ยม

ชุดข้อมูลการฝึกอบรมสำหรับ Gemini มีความหลากหลายพอๆ กับความสามารถ รวมถึงเอกสารบนเว็บ หนังสือ โค้ด รูปภาพ เสียง และวิดีโอ ชุดข้อมูลหลากรูปแบบและหลายภาษานี้ช่วยให้แน่ใจว่าโมเดล Gemini สามารถเข้าใจและประมวลผลเนื้อหาประเภทต่างๆ ได้อย่างมีประสิทธิภาพ

ราศีเมถุนและ GPT-4

แม้จะมีโมเดลอื่นๆ เกิดขึ้น แต่คำถามที่อยู่ในใจของทุกคนก็คือ Gemini ของ Google เทียบกับ GPT-4 ของ OpenAI ซึ่งเป็นเกณฑ์มาตรฐานของอุตสาหกรรมสำหรับ LLM ใหม่ได้อย่างไร ข้อมูลของ Google แนะนำว่าแม้ว่า GPT-4 อาจเก่งในเรื่องการให้เหตุผลทั่วไป แต่ Gemini Ultra ก็มีความได้เปรียบในเกือบทุกด้าน

ราศีเมถุน VS GPT-4

ราศีเมถุน VS GPT-4

ตารางเปรียบเทียบด้านบนแสดงประสิทธิภาพที่น่าประทับใจของ Gemini AI ของ Google ในงานต่างๆ โดยเฉพาะอย่างยิ่ง Gemini Ultra ได้รับผลลัพธ์ที่น่าทึ่งในเกณฑ์มาตรฐาน MMLU ด้วยความแม่นยำ 90.04% ซึ่งบ่งชี้ถึงความเข้าใจที่เหนือกว่าในคำถามแบบปรนัยใน 57 วิชา

ใน GSM8K ซึ่งประเมินคำถามคณิตศาสตร์ระดับประถมศึกษา Gemini Ultra ได้คะแนน 94.4% ซึ่งแสดงให้เห็นถึงทักษะการประมวลผลทางคณิตศาสตร์ขั้นสูง ในเกณฑ์มาตรฐานการเข้ารหัส โดย Gemini Ultra ได้คะแนน 74.4% ใน HumanEval สำหรับการสร้างโค้ด Python ซึ่งบ่งชี้ว่ามีความเข้าใจภาษาการเขียนโปรแกรมที่แข็งแกร่ง

เกณฑ์มาตรฐาน DROP ซึ่งทดสอบความเข้าใจในการอ่าน พบว่า Gemini Ultra ขึ้นนำอีกครั้งด้วยคะแนน 82.4% ในขณะเดียวกัน ในการทดสอบการใช้เหตุผลทั่วไปอย่าง HellaSwag นั้น Gemini Ultra ก็ทำผลงานได้อย่างน่าชื่นชม แม้ว่าจะไม่ได้เหนือกว่าเกณฑ์มาตรฐานที่สูงมากที่กำหนดโดย GPT-4 ก็ตาม

สรุป

สถาปัตยกรรมที่เป็นเอกลักษณ์ของ Gemini ซึ่งขับเคลื่อนโดยเทคโนโลยีล้ำสมัยของ Google ทำให้ Gemini เป็นผู้เล่นที่น่าเกรงขามในเวที AI และท้าทายเกณฑ์มาตรฐานที่มีอยู่ซึ่งกำหนดโดยโมเดลอย่าง GPT-4 เวอร์ชัน Ultra, Pro และ Nano แต่ละเวอร์ชันตอบสนองความต้องการเฉพาะ ตั้งแต่งานการให้เหตุผลที่ซับซ้อนไปจนถึงแอปพลิเคชันที่มีประสิทธิภาพบนอุปกรณ์ ซึ่งแสดงให้เห็นถึงความมุ่งมั่นของ Google ในการสร้าง AI ขั้นสูงให้สามารถเข้าถึงได้บนแพลตฟอร์มและอุปกรณ์ต่างๆ

การบูรณาการ Gemini เข้ากับระบบนิเวศของ Google ตั้งแต่ Bard ไปจนถึง Google Cloud Vertex ตอกย้ำถึงศักยภาพในการปรับปรุงประสบการณ์ผู้ใช้ในบริการต่างๆ โดยสัญญาว่าจะไม่เพียงแค่ปรับแต่งแอปพลิเคชันที่มีอยู่เท่านั้น แต่ยังเปิดช่องทางใหม่สำหรับโซลูชันที่ขับเคลื่อนด้วย AI ไม่ว่าจะเป็นความช่วยเหลือส่วนบุคคล ความพยายามเชิงสร้างสรรค์ หรือการวิเคราะห์ธุรกิจ

เมื่อเรามองไปข้างหน้า ความก้าวหน้าอย่างต่อเนื่องในโมเดล AI เช่น Gemini เน้นย้ำถึงความสำคัญของการวิจัยและพัฒนาอย่างต่อเนื่อง ความท้าทายในการฝึกอบรมโมเดลที่ซับซ้อนดังกล่าว และการรับรองการใช้งานอย่างมีจริยธรรมและความรับผิดชอบยังคงเป็นประเด็นสำคัญในการพูดคุยกัน

ฉันใช้เวลาห้าปีที่ผ่านมาหมกมุ่นอยู่กับโลกแห่งการเรียนรู้ของเครื่องและการเรียนรู้เชิงลึกที่น่าสนใจ ความหลงใหลและความเชี่ยวชาญของฉันทำให้ฉันมีส่วนร่วมในโครงการวิศวกรรมซอฟต์แวร์ที่หลากหลายกว่า 50 โครงการ โดยเน้นเฉพาะที่ AI/ML ความอยากรู้อยากเห็นอย่างต่อเนื่องของฉันยังดึงฉันไปสู่การประมวลผลภาษาธรรมชาติ ซึ่งเป็นสาขาที่ฉันกระตือรือร้นที่จะสำรวจเพิ่มเติม