ต้นขั้ว Mini-Gemini: การขุดค้นศักยภาพของโมเดลภาษาการมองเห็นแบบหลายรูปแบบ - Unite.AI
เชื่อมต่อกับเรา

ปัญญาประดิษฐ์

Mini-Gemini: การขุดค้นศักยภาพของโมเดลภาษาการมองเห็นแบบหลายรูปแบบ

mm

การตีพิมพ์

 on

Mini-Gemini: การขุดค้นศักยภาพของโมเดลภาษาการมองเห็นแบบหลายรูปแบบ

ความก้าวหน้าในด้าน โมเดลภาษาขนาดใหญ่ ได้เร่งการพัฒนาอย่างมาก การประมวลผลภาษาธรรมชาติหรือ เอ็นแอลพี การแนะนำกรอบการทำงานของหม้อแปลงไฟฟ้าได้รับการพิสูจน์แล้วว่าเป็นก้าวสำคัญ ซึ่งอำนวยความสะดวกในการพัฒนาแบบจำลองภาษาคลื่นลูกใหม่ ซึ่งรวมถึง OPT และ BERT ซึ่งแสดงความเข้าใจทางภาษาอย่างลึกซึ้ง นอกจากนี้ การเริ่มต้นของ GPT หรือโมเดลหม้อแปลงไฟฟ้าที่ได้รับการฝึกอบรมล่วงหน้าแบบ Generative ได้แนะนำกระบวนทัศน์ใหม่ที่มีการสร้างแบบจำลองแบบถดถอยอัตโนมัติ และสร้างวิธีการที่แข็งแกร่งสำหรับการทำนายและการสร้างภาษา การเกิดขึ้นของโมเดลภาษา เช่น GPT-4, ChatGPT, Mixtral, LLaMA และอื่นๆ ได้กระตุ้นให้เกิดการพัฒนาอย่างรวดเร็ว โดยแต่ละโมเดลแสดงให้เห็นถึงประสิทธิภาพที่เพิ่มขึ้นในงานที่เกี่ยวข้องกับการประมวลผลภาษาที่ซับซ้อน ในบรรดาวิธีการที่มีอยู่ การปรับแต่งคำสั่งได้กลายเป็นเทคนิคสำคัญในการปรับแต่งผลลัพธ์ของโมเดลภาษาขนาดใหญ่ที่ได้รับการฝึกอบรมล่วงหน้า และการบูรณาการโมเดลเหล่านี้กับเครื่องมือเฉพาะสำหรับงานด้านภาพได้เน้นย้ำถึงความสามารถในการปรับตัวและเปิดประตูสู่การใช้งานในอนาคต สิ่งเหล่านี้ขยายไปไกลกว่าการประมวลผลแบบข้อความแบบดั้งเดิมของ LLM เพื่อรวมการโต้ตอบหลายรูปแบบ

นอกจากนี้ การบรรจบกันของการประมวลผลภาษาธรรมชาติและแบบจำลองการมองเห็นของคอมพิวเตอร์ได้ก่อให้เกิด VLM หรือแบบจำลองภาษาของการมองเห็น ซึ่งรวมแบบจำลองทางภาษาและการมองเห็นเพื่อให้บรรลุความสามารถในการเข้าใจและการใช้เหตุผลแบบข้ามโมดัล การบูรณาการและการเกิดขึ้นของแบบจำลองภาพและภาษามีบทบาทสำคัญในการพัฒนางานที่ต้องใช้ทั้งการประมวลผลภาษาและความเข้าใจด้วยภาพ การเกิดขึ้นของโมเดลการปฏิวัติอย่าง CLIP ได้เชื่อมช่องว่างระหว่างงานด้านการมองเห็นและโมเดลภาษาเพิ่มเติม ซึ่งแสดงให้เห็นถึงความเป็นไปได้และการปฏิบัติจริงของแอปพลิเคชันข้ามโมดัล เฟรมเวิร์กล่าสุด เช่น LLaMA และ BLIP ใช้ประโยชน์จากข้อมูลคำแนะนำที่ได้รับการปรับแต่งเพื่อกำหนดกลยุทธ์ที่มีประสิทธิภาพซึ่งแสดงให้เห็นถึงความสามารถอันทรงพลังของโมเดล นอกจากนี้ การรวมโมเดลภาษาขนาดใหญ่เข้ากับเอาต์พุตรูปภาพเป็นจุดเน้นของการวิจัยหลายรูปแบบล่าสุด โดยวิธีการล่าสุดสามารถข้ามการสร้างโดยตรงโดยใช้วิธีการดึงรูปภาพเพื่อสร้างเอาต์พุตรูปภาพและข้อความที่แทรกสลับกัน

ดังที่กล่าวไปแล้ว และแม้จะมีความก้าวหน้าอย่างรวดเร็วในแบบจำลองภาษาการมองเห็นซึ่งอำนวยความสะดวกในการให้เหตุผลพื้นฐานและบทสนทนาด้วยภาพ แต่ก็ยังมีช่องว่างด้านประสิทธิภาพที่สำคัญระหว่างแบบจำลองขั้นสูง เช่น GPT-4 และแบบจำลองภาษาการมองเห็น Mini-Gemini เป็นความพยายามที่จะจำกัดช่องว่างที่มีอยู่ระหว่างโมเดลภาษาการมองเห็นและโมเดลขั้นสูงเพิ่มเติมโดยการขุดศักยภาพของ VLM เพื่อประสิทธิภาพที่ดีขึ้นจากสามด้าน ได้แก่ การสร้างตามคำแนะนำของ VLM ข้อมูลคุณภาพสูง และโทเค็นภาพที่มีความละเอียดสูง เพื่อปรับปรุงโทเค็นภาพ เฟรมเวิร์ก Mini-Gemini เสนอให้ใช้ตัวเข้ารหัสภาพเพิ่มเติมเพื่อการปรับแต่งที่มีความละเอียดสูงโดยไม่ต้องเพิ่มจำนวนโทเค็นภาพ กรอบงาน Mini-Gemini สร้างชุดข้อมูลคุณภาพสูงเพิ่มเติมในความพยายามที่จะส่งเสริมความเข้าใจที่แม่นยำของภาพและการสร้างตามเหตุผล โดยรวมแล้ว กรอบงาน Mini-Gemini พยายามที่จะขุดศักยภาพของแบบจำลองภาษาการมองเห็น และมีเป้าหมายเพื่อเพิ่มขีดความสามารถให้กับกรอบงานที่มีอยู่ด้วยความสามารถในการให้เหตุผลด้านภาพ ความเข้าใจ และความสามารถในการสร้างสรรค์ไปพร้อมๆ กัน บทความนี้มีจุดมุ่งหมายเพื่อครอบคลุมกรอบงาน Mini-Gemini ในเชิงลึก และเราสำรวจกลไก วิธีการ สถาปัตยกรรมของกรอบงาน รวมถึงการเปรียบเทียบกับกรอบงานที่ทันสมัย มาเริ่มกันเลย 

Mini-Gemini: การเร่ง VLM แบบหลายรูปแบบ

ในช่วงหลายปีที่ผ่านมา โมเดลภาษาขนาดใหญ่ได้พัฒนาไป และตอนนี้โมเดลเหล่านี้มีความสามารถหลากหลายรูปแบบที่น่าทึ่ง และกำลังกลายเป็นส่วนสำคัญของโมเดลภาษาการมองเห็นในปัจจุบัน อย่างไรก็ตาม ยังมีช่องว่างระหว่างประสิทธิภาพหลายรูปแบบของโมเดลภาษาขนาดใหญ่และโมเดลภาษาของการมองเห็นด้วยการวิจัยล่าสุดที่กำลังมองหาวิธีในการรวมการมองเห็นเข้ากับโมเดลภาษาขนาดใหญ่โดยใช้รูปภาพและวิดีโอ สำหรับงานด้านการมองเห็น ความละเอียดของภาพเป็นองค์ประกอบสำคัญในการมองเห็นอย่างชัดเจนแม้จะมีสภาพแวดล้อมโดยรอบและมีอาการประสาทหลอนน้อยที่สุดก็ตาม เพื่อลดช่องว่างนี้ นักวิจัยกำลังพัฒนาแบบจำลองเพื่อปรับปรุงความเข้าใจด้านการมองเห็นในปัจจุบัน แบบจำลองภาษาวิสัยทัศน์และวิธีที่พบบ่อยที่สุดสองวิธีคือ: การเพิ่มความละเอียด และการเพิ่มจำนวนโทเค็นภาพ แม้ว่าการเพิ่มจำนวนโทเค็นภาพด้วยภาพที่มีความละเอียดสูงขึ้นจะช่วยเพิ่มความเข้าใจด้านภาพ แต่การเพิ่มขึ้นนี้มักจะมาพร้อมกับข้อกำหนดในการคำนวณที่เพิ่มขึ้นและค่าใช้จ่ายที่เกี่ยวข้อง โดยเฉพาะอย่างยิ่งเมื่อประมวลผลภาพหลายภาพ นอกจากนี้ ความสามารถของแบบจำลองที่มีอยู่ คุณภาพของข้อมูลที่มีอยู่ และการบังคับใช้ยังคงไม่เพียงพอสำหรับกระบวนการพัฒนาที่เร่งรีบ ทำให้นักวิจัยเกิดคำถามว่า “วิธีเร่งการพัฒนาโมเดลภาษาวิชั่นด้วยต้นทุนที่ยอมรับได้"?

เฟรมเวิร์ก Mini-Gemini เป็นความพยายามที่จะตอบคำถามในขณะที่พยายามสำรวจศักยภาพของโมเดลภาษาการมองเห็นจากสามด้าน: การสร้างหรือแอปพลิเคชันแบบขยายที่แนะนำโดย VLM ข้อมูลคุณภาพสูง และโทเค็นภาพที่มีความละเอียดสูง ประการแรก กรอบงาน Mini-Gemini ใช้สถาปัตยกรรม ConvNet เพื่อสร้างตัวเลือกที่มีความละเอียดสูงกว่าอย่างมีประสิทธิภาพ เพิ่มรายละเอียดภาพในขณะที่ยังคงรักษาจำนวนโทเค็นภาพสำหรับโมเดลภาษาขนาดใหญ่ กรอบงาน Mini-Gemini ผสมผสานชุดข้อมูลคุณภาพสูงที่เปิดเผยต่อสาธารณะในความพยายามที่จะปรับปรุงคุณภาพของข้อมูล และรวมการปรับปรุงเหล่านี้เข้ากับโมเดลกำเนิดที่ทันสมัยและภาษาขนาดใหญ่ด้วยความพยายามที่จะปรับปรุงประสิทธิภาพของ VLM และปรับปรุง ประสบการณ์ผู้ใช้ กลยุทธ์หลายแง่มุมที่นำมาใช้โดยเฟรมเวิร์ก Mini-Gemini ช่วยให้สามารถสำรวจความสามารถที่ซ่อนอยู่ของโมเดลภาษาการมองเห็น และบรรลุความก้าวหน้าที่สำคัญโดยมีข้อจำกัดด้านทรัพยากรที่ชัดเจน 

โดยทั่วไป กรอบงาน Mini-Gemini ใช้ตัวแปรใด ๆ กับกระบวนทัศน์ใดๆ เนื่องจากสามารถจัดการทั้งข้อความและรูปภาพเป็นอินพุตและเอาต์พุตได้ โดยเฉพาะอย่างยิ่ง กรอบงาน Mini-Gemini แนะนำไปป์ไลน์ที่มีประสิทธิภาพสำหรับการปรับปรุงโทเค็นภาพสำหรับรูปภาพอินพุต และมีระบบตัวเข้ารหัสคู่ที่ประกอบด้วยตัวเข้ารหัสคู่ ตัวเข้ารหัสตัวแรกใช้สำหรับภาพที่มีความละเอียดสูง ในขณะที่ตัวเข้ารหัสที่สองใช้สำหรับภาพที่มีความละเอียดสูง การฝังภาพที่มีคุณภาพ ในระหว่างการอนุมาน ตัวเข้ารหัสทำงานในกลไกความสนใจ โดยที่ตัวเข้ารหัสความละเอียดต่ำจะสร้างการสืบค้นแบบภาพ ในขณะที่ตัวเข้ารหัสความละเอียดสูงจะให้คีย์และค่าสำหรับการอ้างอิง เพื่อเพิ่มคุณภาพข้อมูล กรอบงาน Mini-Gemini จะรวบรวมและสร้างข้อมูลเพิ่มเติมตามทรัพยากรสาธารณะ รวมถึงคำสั่งเชิงงาน ข้อมูลที่เกี่ยวข้องกับการสร้าง และการตอบสนองที่มีความละเอียดสูง ด้วยปริมาณที่เพิ่มขึ้นและคุณภาพที่ได้รับการปรับปรุง จะช่วยปรับปรุงประสิทธิภาพโดยรวมและ ความสามารถของโมเดล นอกจากนี้ กรอบงาน Mini-Gemini ยังสนับสนุนการสร้างข้อความและรูปภาพพร้อมกันอันเป็นผลมาจากการรวมโมเดลภาษาการมองเห็นเข้ากับโมเดลการสร้างขั้นสูง 

Mini-Gemini: ระเบียบวิธีและสถาปัตยกรรม

หัวใจหลักของเฟรมเวิร์ก Mini-Gemini นั้นมีแนวคิดที่เรียบง่าย และประกอบด้วยองค์ประกอบสามส่วน 

  1. เฟรมเวิร์กใช้ตัวเข้ารหัสแบบดูอัลวิชั่นเพื่อจัดเตรียมการฝังภาพที่มีความละเอียดต่ำและตัวเลือกที่มีความละเอียดสูง 
  2. กรอบงานเสนอให้ใช้การขุดข้อมูลแพตช์เพื่อดำเนินการขุดในระดับแพตช์ระหว่างคิวรีภาพความละเอียดต่ำและภูมิภาคที่มีความละเอียดสูง 
  3. กรอบงาน Mini-Gemini ใช้แบบจำลองภาษาขนาดใหญ่เพื่อรวมข้อความเข้ากับรูปภาพสำหรับทั้งรุ่นและความเข้าใจพร้อมกัน 

ตัวเข้ารหัสแบบดูอัลวิชั่น

กรอบงาน Mini-Gemini สามารถประมวลผลทั้งอินพุตข้อความและรูปภาพ โดยมีตัวเลือกในการจัดการทีละรายการหรือรวมกัน ดังที่แสดงในภาพต่อไปนี้ กรอบงาน Mini-Gemini เริ่มต้นกระบวนการโดยใช้การแก้ไขแบบไบลิเนียร์เพื่อสร้างภาพความละเอียดต่ำจากภาพที่มีความละเอียดสูงที่สอดคล้องกัน 

จากนั้นเฟรมเวิร์กจะประมวลผลรูปภาพเหล่านี้และเข้ารหัสเป็นภาพแบบหลายตารางที่ฝังอยู่ในโฟลว์รูปภาพคู่ขนานสองภาพ โดยเฉพาะอย่างยิ่ง กรอบงาน Mini-Gemini จะรักษาไปป์ไลน์แบบดั้งเดิมสำหรับโฟลว์ที่มีความละเอียดต่ำ และใช้ Visual Transformer ที่ได้รับการฝึกล่วงหน้าด้วย CLIP เพื่อเข้ารหัสการฝังภาพ อำนวยความสะดวกให้กับโมเดลในการรักษาความสัมพันธ์ระยะยาวระหว่างแพตช์ภาพสำหรับการโต้ตอบในภายหลังในภาษาขนาดใหญ่ โมเดล สำหรับโฟลว์ความละเอียดสูง เฟรมเวิร์ก Mini-Gemini ใช้ตัวเข้ารหัสที่ใช้ CNN หรือ Convolution Neural Networks เพื่อการประมวลผลภาพความละเอียดสูงที่ปรับเปลี่ยนได้และมีประสิทธิภาพ 

การขุดข้อมูลแพทช์

ด้วยตัวเข้ารหัสการมองเห็นคู่ที่สร้างการฝัง LR และคุณสมบัติด้านทรัพยากรบุคคล เฟรมเวิร์ก Mini-Gemini เสนอให้ใช้การขุดข้อมูลแพทช์โดยมีเป้าหมายเพื่อขยายศักยภาพของแบบจำลองภาษาการมองเห็นด้วยโทเค็นการมองเห็นที่ได้รับการปรับปรุง เพื่อรักษาจำนวนโทเค็นภาพเพื่อประสิทธิภาพในแบบจำลองภาษาขนาดใหญ่ เฟรมเวิร์ก Mini-Gemini ใช้การฝังภาพความละเอียดต่ำเป็นแบบสอบถาม และมุ่งหวังที่จะดึงสัญญาณภาพที่เกี่ยวข้องจากผู้สมัครฟีเจอร์ HR โดยเฟรมเวิร์กจะใช้ แผนผังคุณลักษณะด้านทรัพยากรบุคคลเป็นคีย์และคุณค่า

ดังที่แสดงในภาพด้านบน สูตรสรุปกระบวนการปรับแต่งและสังเคราะห์สัญญาณภาพ ซึ่งนำไปสู่การสร้างโทเค็นภาพขั้นสูงสำหรับการประมวลผลโมเดลภาษาขนาดใหญ่ที่ตามมา กระบวนการนี้ช่วยให้แน่ใจว่ากรอบงานสามารถจำกัดการขุดสำหรับแต่ละแบบสอบถามไปยังภูมิภาคย่อยที่สอดคล้องกันในแผนผังคุณลักษณะ HR ด้วยจำนวนคุณลักษณะแบบพิกเซล ส่งผลให้ประสิทธิภาพเพิ่มขึ้น ด้วยการออกแบบนี้ กรอบงาน Mini-Gemini จึงสามารถแยกรายละเอียดคุณลักษณะด้าน HR ได้โดยไม่ต้องเพิ่มจำนวนโทเค็นภาพ และรักษาสมดุลระหว่างความเป็นไปได้ในการคำนวณและรายละเอียดที่สมบูรณ์ 

การสร้างข้อความและรูปภาพ

กรอบงาน Mini-Gemini เชื่อมต่อโทเค็นภาพและโทเค็นข้อความอินพุตเป็นอินพุตไปยังโมเดลภาษาขนาดใหญ่สำหรับการสร้างการถดถอยอัตโนมัติ แตกต่างจากโมเดลภาษาวิชั่นแบบดั้งเดิม กรอบงาน Mini-Gemini รองรับเฉพาะข้อความและการสร้างข้อความและรูปภาพเป็นอินพุตและเอาท์พุต กล่าวคือ ใดๆ สำหรับการอนุมานใดๆ และมันเป็นผลมาจากความสามารถด้านความเข้าใจข้อความรูปภาพและการใช้เหตุผลที่โดดเด่น Mini-Gemini สามารถสร้างภาพคุณภาพสูงได้ แตกต่างจากงานล่าสุดที่มุ่งเน้นไปที่ช่องว่างระหว่างโดเมนระหว่างการฝังข้อความของรุ่นรุ่นและรุ่นภาษาขนาดใหญ่ เฟรมเวิร์ก Mini-Gemini พยายามปรับช่องว่างในโดเมนของข้อความแจ้งภาษาให้เหมาะสมโดยการแปลคำแนะนำผู้ใช้เป็นพร้อมท์คุณภาพสูงที่สร้างภาพที่เกี่ยวข้องกับบริบท ในแบบจำลองการแพร่กระจายแฝง นอกจากนี้ เพื่อความเข้าใจที่ดีขึ้นเกี่ยวกับการปรับแต่งคำสั่งและการจัดตำแหน่งข้ามโมดาลลิตี เฟรมเวิร์ก Mini-Gemini จะรวบรวมตัวอย่างจากชุดข้อมูลคุณภาพสูงที่เปิดเผยต่อสาธารณะ และใช้เฟรมเวิร์กเทอร์โบ GPT-4 เพื่อสร้างคำสั่ง 13K ตามชุดข้อมูลเพิ่มเติมเพื่อรองรับการสร้างอิมเมจ 

Mini-Gemini : การทดลองและผลลัพธ์

เพื่อประเมินประสิทธิภาพ เฟรมเวิร์ก Mini-Gemini จะถูกสร้างอินสแตนซ์ด้วยเฟรมเวิร์ก ConvNext-L ที่ได้รับการฝึกอบรมล่วงหน้าสำหรับตัวเข้ารหัสการมองเห็น HR และด้วย CLIP ที่ได้รับการฝึกอบรมล่วงหน้า วิสัยทัศน์ Transformer สำหรับตัวเข้ารหัสการมองเห็น LR เพื่อให้มั่นใจในประสิทธิภาพการฝึกอบรม เฟรมเวิร์ก Mini-Gemini จะรักษาตัวเข้ารหัสการมองเห็นสองตัวไว้คงที่ และเพิ่มประสิทธิภาพโปรเจ็กเตอร์ของการขุดข้อมูลแพตช์ในทุกขั้นตอน และปรับโมเดลภาษาขนาดใหญ่ให้เหมาะสมในระหว่างขั้นตอนการปรับแต่งคำสั่งเอง 

ตารางต่อไปนี้เปรียบเทียบประสิทธิภาพของเฟรมเวิร์ก Mini-Gemini กับโมเดลล้ำสมัยในการตั้งค่าที่แตกต่างกัน และยังคำนึงถึงโมเดลส่วนตัวด้วย ตามที่สังเกตได้ Mini-Gemini มีประสิทธิภาพเหนือกว่าเฟรมเวิร์กที่มีอยู่ใน LLM ที่หลากหลายอย่างสม่ำเสมอที่ความละเอียดปกติ และแสดงให้เห็นถึงประสิทธิภาพที่เหนือกว่าเมื่อกำหนดค่าด้วย Gemma-2B ในประเภทของรุ่นที่มีประสิทธิภาพ นอกจากนี้ เมื่อใช้โมเดลภาษาขนาดใหญ่ที่ใหญ่กว่า ความสามารถในการปรับขนาดของเฟรมเวิร์ก Mini-Gemini ก็ปรากฏชัดเจน 

เพื่อประเมินประสิทธิภาพการทำงานกับความละเอียดสูงและโทเค็นภาพแบบขยาย การทดลองจะดำเนินการด้วยขนาดอินพุต 672 ​​สำหรับตัวเข้ารหัสการมองเห็น LR และ 1536 สำหรับตัวเข้ารหัสภาพ ดังที่ได้กล่าวไว้ข้างต้น วัตถุประสงค์หลักของตัวเข้ารหัสภาพ HR คือการนำเสนอข้อมูลผู้สมัครที่มีความละเอียดสูง ตามที่สังเกตได้ กรอบงาน Mini-Gemini มอบประสิทธิภาพที่เหนือกว่าเมื่อเปรียบเทียบกับกรอบงานล้ำสมัย 

นอกจากนี้ เพื่อประเมินความสามารถในการเข้าใจภาพของกรอบงาน Mini-Gemini ในโลกแห่งความเป็นจริง นักพัฒนาได้ใช้แบบจำลองกับงานการให้เหตุผลและการทำความเข้าใจที่หลากหลาย ดังที่แสดงในภาพต่อไปนี้ ดังที่สังเกตได้ กรอบงาน Mini-Gemini สามารถแก้ปัญหางานที่ซับซ้อนได้มากมายด้วยการใช้การขุดข้อมูลแพตช์และข้อมูลคุณภาพสูง แต่สิ่งที่น่าประทับใจกว่านั้นก็คือความจริงที่ว่ากรอบงาน Mini-Gemini แสดงให้เห็นถึงการเพิ่มรายละเอียดที่เฉียบคม ซึ่งขยายออกไปมากกว่าความสามารถในการจดจำ และอธิบายองค์ประกอบที่สลับซับซ้อนอย่างประณีต 

รูปต่อไปนี้เป็นการประเมินที่ครอบคลุมเกี่ยวกับความสามารถในการสร้างของกรอบงาน Mini-Gemini 

เมื่อเปรียบเทียบกับโมเดลล่าสุด เช่น ChatIllusion และ AnyGPT เฟรมเวิร์ก Mini-Gemini แสดงให้เห็นถึงความสามารถในการทำความเข้าใจหลายรูปแบบที่แข็งแกร่งขึ้น ทำให้สามารถสร้าง ข้อความเป็นภาพ คำบรรยายที่สอดคล้องกับคำแนะนำในการป้อนข้อมูลจะดีกว่า และส่งผลให้คำตอบแบบรูปภาพเป็นข้อความมีความคล้ายคลึงกันทางแนวคิดมากขึ้น สิ่งที่น่าประทับใจกว่านั้นคือข้อเท็จจริงที่ว่ากรอบงาน Mini-Gemini แสดงให้เห็นถึงความสามารถที่โดดเด่นในการสร้างเนื้อหาคุณภาพสูงโดยใช้คำสั่งของมนุษย์หลายแบบจำลองพร้อมข้อมูลการฝึกอบรมข้อความเท่านั้น ซึ่งเป็นความสามารถที่แสดงให้เห็นถึงทักษะการตีความความหมายและการจัดตำแหน่งข้อความรูปภาพและข้อความที่แข็งแกร่งของ Mini-Gemini 

ข้อคิด

ในบทความนี้ เราได้พูดคุยเกี่ยวกับ Mini-Gemini ซึ่งเป็นเฟรมเวิร์กที่มีประสิทธิภาพและคล่องตัวสำหรับโมเดลภาษาการมองเห็นแบบหลายรูปแบบ จุดมุ่งหมายหลักของเฟรมเวิร์ก Mini-Gemini คือการควบคุมความสามารถแฝงของโมเดลภาษาการมองเห็นโดยใช้ข้อมูลคุณภาพสูง การออกแบบเชิงกลยุทธ์ของเฟรมเวิร์ก และขอบเขตการทำงานที่ขยาย Mini-Gemini เป็นความพยายามที่จะจำกัดช่องว่างที่มีอยู่ระหว่างโมเดลภาษาการมองเห็นและโมเดลขั้นสูงเพิ่มเติมโดยการขุดศักยภาพของ VLM เพื่อประสิทธิภาพที่ดีขึ้นจากสามด้าน ได้แก่ การสร้างตามคำแนะนำของ VLM ข้อมูลคุณภาพสูง และโทเค็นภาพที่มีความละเอียดสูง เพื่อปรับปรุงโทเค็นภาพ เฟรมเวิร์ก Mini-Gemini เสนอให้ใช้ตัวเข้ารหัสภาพเพิ่มเติมเพื่อการปรับแต่งที่มีความละเอียดสูงโดยไม่ต้องเพิ่มจำนวนโทเค็นภาพ กรอบงาน Mini-Gemini สร้างชุดข้อมูลคุณภาพสูงเพิ่มเติมในความพยายามที่จะส่งเสริมความเข้าใจที่แม่นยำของภาพและการสร้างตามเหตุผล โดยรวมแล้ว กรอบงาน Mini-Gemini พยายามที่จะขุดศักยภาพของแบบจำลองภาษาการมองเห็น และมีเป้าหมายเพื่อเพิ่มขีดความสามารถให้กับกรอบงานที่มีอยู่ด้วยความสามารถในการให้เหตุผลด้านภาพ ความเข้าใจ และความสามารถในการสร้างสรรค์ไปพร้อมๆ กัน

"อาชีพวิศวกร นักเขียนด้วยหัวใจ". Kunal เป็นนักเขียนด้านเทคนิคที่มีความรักและความเข้าใจอย่างลึกซึ้งเกี่ยวกับ AI และ ML โดยอุทิศตนเพื่อทำให้แนวคิดที่ซับซ้อนในสาขาเหล่านี้ง่ายขึ้นผ่านเอกสารประกอบที่ให้ข้อมูลที่น่าสนใจ