ปัญญาประดิษฐ์

EAGLE: Exploring the Design Space for Multimodal Large Language Models with a Mixture of Encoders

Published September 10, 2024

Updated April 27, 2026

Kunal Kejriwal

EAGLE: Exploring the Design Space for Multimodal Large Language Models with a Mixture of Encoders

ความสามารถในการตีความข้อมูลภาพที่ซับซ้อนอย่างแม่นยำเป็นจุดสนใจที่สำคัญของโมเดลภาษาขนาดใหญ่หลายโหมด (MLLMs) งานวิจัยล่าสุดแสดงให้เห็นว่าการเพิ่มการรับรู้ภาพที่ดีขึ้นจะช่วยลดการเห็นภาพหลอกลวงและปรับปรุงประสิทธิภาพในการทำงานที่ต้องใช้ความละเอียด เช่น การจดจำตัวอักษรออปติคัลและวิเคราะห์เอกสาร โมเดล MLLM หลายรุ่นบรรลุเป้าหมายนี้โดยใช้การผสมผสานของตัวเข้ารหัสภาพ尽管พวกเขาประสบความสำเร็จ แต่ก็ยังมีความขาดแคลนในการเปรียบเทียบแบบเป็นระบบและศึกษาการลบส่วนประกอบที่สำคัญ เช่น การเลือกผู้เชี่ยวชาญและการบูรณาการผู้เชี่ยวชาญด้านภาพหลายคน บทความนี้ให้การสำรวจอย่างครอบคลุมเกี่ยวกับพื้นที่การออกแบบสำหรับ MLLM โดยใช้การผสมผสานของตัวเข้ารหัสภาพและความละเอียด โดยใช้โครงสร้าง Eagle ที่พยายามสำรวจพื้นที่การออกแบบสำหรับโมเดลภาษาขนาดใหญ่หลายโหมดที่มีการผสมผสานของตัวเข้ารหัส การค้นพบเหล่านี้เปิดเผยหลักการพื้นฐานที่ซ่อนอยู่ซึ่งเหมือนกันสำหรับกลยุทธ์ที่มีอยู่หลายอย่าง ซึ่งนำไปสู่แนวทางในการออกแบบที่เรียบง่ายแต่มีประสิทธิภาพ Eagle ค้นพบว่าการเชื่อมต่อโทเค็นภาพจากชุดตัวเข้ารหัสภาพที่เสริมกันอย่างง่ายดายมีประสิทธิภาพเท่ากับการผสมผสานโครงสร้างหรือกลยุทธ์ที่ซับซ้อนมากขึ้น นอกจากนี้ Eagle ยังแนะนำ Pre-Alignment เพื่อเชื่อมช่องว่างระหว่างตัวเข้ารหัสภาพที่มุ่งเน้นไปที่ภาพและโทเค็นภาษา ซึ่งเพิ่มความสอดคล้องของโมเดล ผลลัพธ์คือครอบครัวของ MLLM Eagle ที่เหนือกว่าโมเดลโอเพ่นซอร์สชั้นนำใน MLLM ที่สำคัญ

งานของ Eagle สัมพันธ์กับการออกแบบโครงสร้างทั่วไปของโมเดลภาษาขนาดใหญ่หลายโหมด (MLLMs) นอกเหนือจากเส้นของการวิจัยโอเพ่นซอร์สที่กล่าวถึงก่อนหน้านี้ ครอบครัว MLLM ที่มีชื่อเสียงอื่นๆ ได้แก่ MiniGPT-4, Lynx, Otter, QwenVL, CogVLM, VILA, GPT-4V, Gemini และ Llama 3.1 ขึ้นอยู่กับว่าสัญญาณภาพถูกบูรณาการเข้ากับโมเดลภาษาได้อย่างไร MLLM สามารถแบ่งออกเป็น “cross-modal attention” และ “prefix-tuning” ได้广泛 โมเดลแรกฉีดข้อมูลภาพเข้าไปในหลายชั้นของ LLMs โดยใช้การดึงความสนใจแบบหลายโหมด ในขณะที่อีกแบบหนึ่งถือว่าโทเค็นภาพเป็นส่วนหนึ่งของลำดับโทเค็นภาษาและติดท้ายโดยตรงพร้อมกับอิมเบดดิ้งภาษา โมเดลของ Eagle เป็นส่วนหนึ่งของครอบครัว prefix-tuning โดยปฏิบัติตามโครงสร้างหลายโหมดแบบ LLaVA

งานของ Eagle สัมพันธ์กับการวิจัยที่มุ่งเน้นในการปรับปรุงการออกแบบตัวเข้ารหัสภาพสำหรับ MLLM งานวิจัยในระยะแรกมักใช้ตัวเข้ารหัสภาพที่ได้รับการฝึกฝนล่วงหน้าในงานที่จัดตำแหน่งภาพและภาษา เช่น CLIP และ EVA-CLIP ตัวเข้ารหัสภาพที่แข็งแกร่งกว่า เช่น SigLIP และ InternVL ได้ถูกเสนอเพื่อเพิ่มประสิทธิภาพในการทำงานที่เกี่ยวข้องกับภาพและภาษาโดยใช้การออกแบบที่ดีขึ้น ขนาดโมเดลที่ใหญ่ขึ้น และสูตรการฝึกที่มีประสิทธิภาพมากขึ้น เนื่องจากโมเดลมักจะถูกฝึกฝนล่วงหน้าในภาพที่มีความละเอียดต่ำและอาจขาดความสามารถในการเข้ารหัสรายละเอียดที่ละเอียดอ่อน การปรับให้เหมาะสมกับความละเอียดที่สูงขึ้นจึงมักจะทำเพื่อเพิ่มความละเอียดของ MLLM นอกเหนือจากการปรับให้เหมาะสมกับความละเอียดที่สูงขึ้น โมเดลเช่น LLaVA-NeXT, LLaVA-UHD, Monkey, InternLM-XComposer และ InternVL ใช้เทคนิคไทลิ่งหรือไทลิ่งที่ปรับเปลี่ยนได้เพื่อจัดการกับอินพุตที่มีความละเอียดสูง โดยที่ภาพถูกแบ่งออกเป็นแพทช์ที่มีความละเอียดต่ำกว่าและประมวลผลแยกจากกัน

EAGLE: การใช้การผสมผสานของตัวเข้ารหัสเพื่อสำรวจพื้นที่การออกแบบสำหรับ MLLM

ความสำเร็จของโมเดลภาษาขนาดใหญ่ (LLM) ได้กระตุ้นความสนใจอย่างมากในการเพิ่มความสามารถในการรับรู้ภาพให้กับพวกมัน ทำให้พวกมันสามารถมองเห็น เข้าใจ และให้เหตุผลในโลกแห่งความเป็นจริงได้ ณ จุดศูนย์กลางของโมเดลภาษาขนาดใหญ่หลายโหมด (MLLMs) คือการออกแบบทั่วไปที่ภาพถูกแปลงเป็นชุดของโทเค็นภาพโดยตัวเข้ารหัสภาพและติดท้ายกับอิมเบดดิ้งภาษา CLIP มักถูกเลือกเป็นตัวเข้ารหัสภาพเพราะการแสดงภาพของมันถูกจัดตำแหน่งกับพื้นที่ภาษาโดยการฝึกฝนล่วงหน้าในคู่ภาพและข้อความ

งานของ Eagle สัมพันธ์กับโมเดลที่ใช้ตัวเข้ารหัสภาพหลายตัวเพื่อปรับปรุงการรับรู้ สำหรับตัวอย่างเช่น โมเดล Mini-Gemini และ LLaVA-HR เสนอการหลอมรวมคุณลักษณะภาพที่มีความละเอียดสูงเข้ากับโทเค็นภาพที่มีความละเอียดต่ำ

การวิจัยล่าสุดแสดงให้เห็นว่าการออกแบบตัวเข้ารหัสภาพที่แข็งแกร่งกว่านั้นสำคัญสำหรับการลดการเห็นภาพหลอกลวงของ MLLM และปรับปรุงประสิทธิภาพในการทำงานที่ต้องใช้ความละเอียด เช่น การจดจำตัวอักษรออปติคัล (OCR) โมเดลหลายรุ่นมุ่งเน้นในการเพิ่มความสามารถของตัวเข้ารหัสภาพ โดยการเพิ่มขนาดของข้อมูลการฝึกและการฝึกหรือโดยการแบ่งภาพออกเป็นแพทช์ที่มีความละเอียดต่ำ

Eagle: วิธีการและโครงสร้าง

ไม่เหมือนกับวิธีการก่อนหน้าที่เน้นการออกแบบการผสมผสานใหม่ๆ หรือโครงสร้างระหว่างตัวเข้ารหัสภาพ Eagle มุ่งเน้นในการระบุการออกแบบที่เรียบง่ายเพื่อผสมผสานตัวเข้ารหัสภาพที่แตกต่างกัน โดยการสนับสนุนจากการลบส่วนประกอบที่ละเอียดและถูกต้อง

การปรับปรุง CLIP Encoder ที่แข็งแกร่งกว่า

Eagle เริ่มต้นด้วยการสำรวจ CLIP เนื่องจากได้กลายเป็นตัวเลือกหลักสำหรับหลายๆ MLLM โมเดล CLIP มีชื่อเสียงในการเพิ่มประสิทธิภาพในการทำงานหลายโหมด แต่ข้อจำกัดของมันก็ได้รับการบันทึกไว้อย่างดี

Eagle: การทดลองและผลลัพธ์

หลังจากพัฒนากลยุทธ์ของตนอย่างรอบคอบ Eagle ได้กำหนดหลักการสำหรับโมเดล: (1) การบูรณาการผู้เชี่ยวชาญด้านภาพหลายคนพร้อมสูตรการฝึกที่ได้รับการปรับปรุง (2) การผสมผสานผู้เชี่ยวชาญด้านภาพหลายคนโดยใช้การเชื่อมต่อช่องสัญญาณโดยตรง (3) การฝึกผู้เชี่ยวชาญด้านภาพแยกจากกันผ่านการเตรียมการล่วงหน้า

งานถามคำตอบภาพ

Eagle เปรียบเทียบชุดโมเดลของมันเองกับโมเดล MLLM ที่มีอยู่แล้วในสามงานถามคำตอบภาพ ได้แก่ GQA, VQAv2 และ VizWiz

ความคิดสุดท้าย

ในบทความนี้ เราได้พูดถึง Eagle ซึ่งเป็นการวิเคราะห์อย่างลึกซึ้งเกี่ยวกับพื้นที่การออกแบบสำหรับการบูรณาการตัวเข้ารหัสภาพเข้ากับโมเดลภาษาขนาดใหญ่หลายโหมด ไม่เหมือนกับงานวิจัยก่อนหน้าที่เน้นการออกแบบการผสมผสานใหม่ๆ Eagle พบว่าการเลือกการออกแบบอย่างเป็นระบบมีความสำคัญ และค้นพบเทคนิคที่มีประโยชน์หลายอย่าง

Kunal Kejriwal

วิศวกรโดยอาชีพ นักเขียนโดยหัวใจ คุณ Kunal เป็นนักเขียนเทคนิคที่มีความรักและเข้าใจอย่างลึกซึ้งเกี่ยวกับ AI และ ML มุ่งมั่นที่จะทำให้แนวคิดที่ซับซ้อนในด้านเหล่านี้ง่ายขึ้นผ่านเอกสารที่น่าสนใจและให้ข้อมูล