ปัญญาประดิษฐ์

MoE-LLaVA: โมเดลผสมผสานสำหรับโมเดลภาษาและวิชั่นที่มีขนาดใหญ่

Published April 1, 2024

Updated April 27, 2026

Kunal Kejriwal

MoE-LLaVA: Mixture of Experts for Large Vision-Language Models

การพัฒนาล่าสุดในโมเดลภาษาและวิชั่นที่มีขนาดใหญ่ (LVLMs) ได้แสดงให้เห็นว่าการเพิ่มขนาดของเฟรมเวิร์กเหล่านี้จะช่วยเพิ่มประสิทธิภาพในการทำงานต่างๆ ได้อย่างมีนัยสำคัญ LVLMs รวมถึง MiniGPT, LLaMA และอื่นๆ ได้แสดงให้เห็นถึงความสามารถที่น่าประทับใจโดยการรวมการฉายภาพวิชั่นและตัวเข้ารหัสภาพเข้าไปในโครงสร้างของพวกมัน โดยการนำส่วนประกอบเหล่านี้มาใช้ LVLMs จะเพิ่มความสามารถในการรับรู้วิชั่นของโมเดลภาษาขนาดใหญ่ (LLMs) ได้ ประสิทธิภาพสามารถเพิ่มขึ้นได้โดยการเพิ่มขนาดของโมเดลและจำนวนพารามิเตอร์ รวมถึงการขยายขนาดของชุดข้อมูล

โมเดลอย่าง InternVL ได้ขยายตัวเข้ารหัสภาพของพวกมันให้มากกว่า 6 พันล้านพารามิเตอร์ ในขณะที่โมเดลอื่นๆ ได้ขยายส่วนหลังของ LVLMs ให้ถึง 13 พันล้านพารามิเตอร์ โดยสามารถทำงานได้ดีเยี่ยมในหลายๆ งาน IDEFICS ได้ฝึกฝน LVLM ที่มีพารามิเตอร์มากกว่า 80 พันล้านพารามิเตอร์ วิธีการขยายขนาดเหล่านี้ได้เทียบหรือ超过ประสิทธิภาพของ LLMs ที่ได้รับการฝึกฝนมาแล้วบนพารามิเตอร์มากกว่า 34, 70 หรือแม้กระทั่ง 100 พันล้านพารามิเตอร์ อย่างไรก็ตาม การขยายขนาดมีผลเสีย: มันเพิ่มต้นทุนในการฝึกฝนและอนุมานอย่างมีนัยสำคัญ เนื่องจากต้องใช้ทุกพารามิเตอร์ในการคำนวณสำหรับทุกตัวอักษร ซึ่งนำไปสู่ความต้องการการคำนวณสูงและต้นทุนสูงตามมา

บทความนี้พูดถึง MoE-LLaVA ซึ่งเป็นสถาปัตยกรรม LVLM ที่มีโมเดลผสมผสาน (MoE) ที่ใช้กลยุทธ์การฝึกฝนที่มีประสิทธิภาพ MoE-Tuning สำหรับ LVLMs MoE-Tuning เป็นวิธีการฝึกฝนที่ช่วยลดการเสื่อมสภาพของประสิทธิภาพในการเรียนรู้ความเป็นไปได้หลายรูปแบบ ทำให้ได้โมเดลที่มีพารามิเตอร์จำนวนมากแต่มีต้นทุนในการฝึกฝนและอนุมานที่สม่ำเสมอ สถาปัตยกรรม MoE-LLaVA ได้รับการออกแบบมาเพื่อทำงานเฉพาะกับโมเดลผสมผสานชั้นนำในการสร้างภาพและวิดีโอ

เราจะสำรวจเฟรมเวิร์ก MoE-LLaVA โดยตรวจสอบกลไก วิธีการ สถาปัตยกรรม และการเปรียบเทียบกับเฟรมเวิร์กการสร้างภาพและวิดีโอที่มีประสิทธิภาพ

MoE-LLaVA: การขยายโมเดลภาษาและวิชั่นที่มีขนาดใหญ่โดยไม่สูญเสียประสิทธิภาพ

นอกจากการใช้การฉายภาพวิชั่นและตัวเข้ารหัสภาพแล้ว โมเดลภาษาและวิชั่นที่มีขนาดใหญ่ยังขยายขนาดของโมเดลโดยการเพิ่มจำนวนพารามิเตอร์เพื่อเพิ่มประสิทธิภาพของโมเดล ตัวอย่างที่น่าสนใจของโมเดลภาษาและวิชั่นที่มีขนาดใหญ่ที่ได้เพิ่มประสิทธิภาพโดยวิธีนี้คือ MiniGPT-4, InternGPT, InternVL และอื่นๆ ในการประยุกต์ใช้จริง การขยายขนาดของโมเดลภาษาขนาดใหญ่หรือโมเดลภาษาและวิชั่นที่มีขนาดใหญ่ด้วยข้อมูลฝึกฝนที่มีคุณภาพสูงมักเป็นความจำเป็นในการปรับปรุงประสิทธิภาพของโมเดล แม้ว่าการขยายขนาดของโมเดลจะช่วยเพิ่มประสิทธิภาพ แต่ก 也เพิ่มต้นทุนในการฝึกฝนและอนุมาน และเพิ่มความซับซ้อนในการใช้งานบนอุปกรณ์หลายเครื่องพร้อมกัน สาเหตุหลักที่ทำให้ต้นทุนในการฝึกฝนและอนุมานสูงขึ้นพร้อมกับความต้องการการคำนวณคือการที่ทุกตัวอักษรในเฟรมเวิร์กต้องการการคำนวณกับทุกพารามิเตอร์ในโมเดลที่เรียกว่าโมเดลที่หนาแน่น

ในทางกลับกัน โมเดลผสมผสานที่มีความหนาแน่นน้อยหรือ MoE ได้แสดงให้เห็นถึงการขยายเฟรมเวิร์กโดยการประมวลผลข้อมูลด้วยพารามิเตอร์ที่ถูกเลือก ซึ่งเป็นวิธีการที่ได้รับการยอมรับอย่างกว้างขวางในด้านการประมวลผลภาษาธรรมชาติ อย่างไรก็ตาม การใช้ MoE เพื่อฝึกโมเดลภาษาและวิชั่นที่มีขนาดใหญ่โดยตรงเป็นเรื่องที่ท้าทาย เนื่องจากการแปลง LLMs เป็น LVLMs และการทำให้โมเดลมีความหนาแน่นน้อยลงในเวลาเดียวกันจะทำให้ประสิทธิภาพลดลงอย่างมาก เพื่อนำ MoE มาใช้ในการขยาย LLMs และ LVLMs จึงจำเป็นต้องเริ่มต้นด้วยการกำหนดค่า LVLM สำหรับการทำให้โมเดลมีความหนาแน่นน้อยลง เพื่อให้บรรลุเป้าหมายนี้ เฟรมเวิร์ก MoE-LLaVA นำเสนอ MoE-Tuning ซึ่งเป็นกลยุทธ์การฝึกฝนที่มีสามขั้นตอนและเป็นไปได้ง่าย

ตามที่แสดงในภาพด้านบน กระบวนการ MoE-Tuning จะฝึก MLP หรือ Multilayer Perceptron ที่ปรับเปลี่ยนโทเคนวิชั่นให้เข้ากับโมเดลภาษาขนาดใหญ่ในขั้นตอนแรก จากนั้นเฟรมเวิร์กจะฝึกพารามิเตอร์ทั้งหมดของ LLM เพื่อให้ LVLM มีความเข้าใจที่ดีในหลายๆ ด้าน สุดท้ายในขั้นตอนที่สาม เฟรมเวิร์กจะทำซ้ำ FFN หรือ Feed Forward Network เป็นน้ำหนักการเริ่มต้นสำหรับโมเดลผสมผสาน และฝึกเฉพาะชั้น MoE เท่านั้น กระบวนการฝึกฝนนี้ช่วยให้โมเดลที่มีความหนาแน่นน้อยเปลี่ยนจาก LVLM ที่กำหนดค่ามาเป็นโมเดลผสมผสานที่มีความหนาแน่นน้อย

หลังจากที่เราได้กล่าวถึงกระบวนการฝึกฝนแล้ว มาทำความรู้จักกับ MoE-LLaVA กัน ซึ่งเป็นฐานสำหรับโมเดลภาษาและวิชั่นที่มีขนาดใหญ่ด้วยโมเดลผสมผสานที่มีรูทเตอร์ที่สามารถเรียนรู้ได้ และ MoE โมเดล MoE-LLaVA ประกอบด้วยเส้นทางที่มีความหนาแน่นน้อยหลายเส้นทาง และเฟรมเวิร์กใช้เส้นทางเหล่านี้ในการส่งโทเคนไปยังโมเดลผสมผสานที่แตกต่างกันผ่านรูทเตอร์ที่สามารถเรียนรู้ได้ โทเคนจะถูกประมวลผลร่วมกันโดยโมเดลผสมผสานที่ถูกเลือก ในขณะที่เส้นทางที่ไม่ได้ถูกเลือกจะถูกปิดเสียง

ด้วยวิธีการที่นำมาใช้โดยเฟรมเวิร์ก MoE-LLaVA ทำให้สามารถทำงานได้ดีกว่าโมเดลที่มีพารามิเตอร์ที่ถูกเลือกเท่ากัน และสามารถ超过โมเดลเหล่านั้นได้ด้วยความแตกต่างที่มากในบンチมาร์ก POPE สำหรับการสร้างวัตถุ โดยมีพารามิเตอร์ 2.2 พันล้านพารามิเตอร์ นอกจากนี้ เฟรมเวิร์ก MoE-LLaVA ที่มีพารามิเตอร์ 2.2 พันล้านพารามิเตอร์ สามารถทำงานได้เทียบเท่ากับเฟรมเวิร์ก InternVL-Chat-19B ที่มีพารามิเตอร์มากกว่า 8 เท่า

โมเดลภาษาขนาดใหญ่ที่มีความสามารถในการสร้างและปฏิบัติตามคำสั่งที่แข็งแกร่งได้รับการนำมาใช้กับโมเดลภาษาและวิชั่นที่มีขนาดใหญ่ โมเดลภาษาขนาดใหญ่ในยุคแรกๆ เช่น BLIP ได้เข้ารหัสสัญญาณวิชั่นเป็นลำดับของโทเคนวิชั่น ทำให้สามารถปรับวิชั่นให้เข้ากับโมเดลภาษาขนาดใหญ่ได้สำเร็จโดยใช้หลายๆ ชั้นการฉายภาพ ในขณะเดียวกัน งานวิจัยล่าสุดมุ่งเน้นในการปรับปรุงประสิทธิภาพของโมเดลโดยการนำวิธีการต่างๆ มาใช้ เช่น การขยายชุดข้อมูลการปรับให้เหมาะสม การเพิ่มความละเอียดของภาพ การปรับกลยุทธ์การฝึกฝน การจัดตำแหน่งการเข้า และการปรับปรุงตัวเข้ารหัสภาพ เป็นต้น วิธีการเหล่านี้ช่วยให้โมเดลภาษาและวิชั่นที่มีขนาดใหญ่มีความเข้าใจวิชั่นที่แข็งแกร่งโดยการขยายชุดข้อมูลการปรับให้เหมาะสมและขนาดของโมเดล นอกจากนี้ โมเดลภาษาและวิชั่นที่มีขนาดใหญ่บางตัวยังมีความสามารถในการเข้าใจภาพที่ละเอียด เช่น การเข้าใจภูมิภาคและหลายๆ ภูมิภาค รวมถึงความสามารถในการจัดตำแหน่งพิกเซล อย่างไรก็ตาม ต้นทุนการคำนวณที่เกี่ยวข้องกับการขยายขนาดของข้อมูลวิชั่นที่หนาแน่นและโมเดลมักจะสูงมาก ซึ่งทำให้ยากต่อการนำไปใช้ ในทางกลับกัน เฟรมเวิร์ก MoE-LLaVA มุ่งหวังที่จะทำให้การวิจัยเกี่ยวกับโมเดลภาษาและวิชั่นที่มีขนาดใหญ่นั้นเป็นเรื่องที่ทำได้ง่ายขึ้นโดยใช้ความสามารถของโมเดลผสมผสาน

MoE-LLaVA : วิธีการและสถาปัตยกรรม

เฟรมเวิร์ก MoE-LLaVA ประกอบด้วยชั้นการฉายภาพวิชั่น (Multilayer Perceptron) ตัวเข้ารหัสภาพ ชั้น MoE ชั้น LLM ที่ถูกซ้อนกันหลายชั้น และชั้นการเข้ารหัสคำ

สถาปัตยกรรม

ตารางต่อไปนี้สรุปการกำหนดค่าของเฟรมเวิร์ก MoE-LLaVA

สำหรับภาพ RGB ที่กำหนด ตัวเข้ารหัสภาพจะประมวลผลภาพเพื่อให้ได้ลำดับของโทเคนวิชั่น โดยชั้นการฉายภาพวิชั่นจะทำการแมปลำดับของโทเคนวิชั่นไปยังภาพที่เข้ามา ในขณะเดียวกัน ข้อความที่เข้ามาจะถูกประมวลผลโดยชั้นการเข้ารหัสคำ ซึ่งจะทำการแมปข้อความให้ได้ลำดับของโทเคน MoE-LLaVA จะเชื่อมโยงข้อความและโทเคนวิชั่นเข้าด้วยกัน และส่งไปยัง LLM แต่เฟรมเวิร์กจะฝึกเฉพาะชั้นการฉายภาพวิชั่นพร้อมกับ LLM ที่ประกอบด้วย FFN หรือ Feedforward Neural Networks และชั้นการให้ความสนใจแบบหลายหัว

ต่อไป เฟรมเวิร์ก MoE-LLaVA จะทำซ้ำ FFN หรือ Feedforward Neural Networks จากขั้นตอนที่สองเพื่อสร้างโมเดลผสมผสานหลายๆ โมเดลเป็นขั้นตอนการเริ่มต้น รูทเตอร์จะเป็นชั้นเชิงเส้นซึ่งทำการคาดการณ์ความน่าจะเป็นที่แต่ละโทเคนจะถูกส่งไปยังโมเดลผสมผสานแต่ละตัว แต่ละโทเคนจะถูกประมวลผลโดยโมเดลผสมผสานที่มีความน่าจะเป็นสูงสุด และคำนวณผลรวมที่ถูกชั่งน้ำหนักตามผลลัพธ์ของความน่าจะเป็น เมื่อโมเดลผสมผสานที่ดีที่สุดถูกเลือก โมเดลจะปิดโมเดลผสมผสานที่เหลือ ซึ่งเป็นวิธีการที่ให้เฟรมเวิร์ก MoE-LLaVA มีเส้นทางที่มีความหนาแน่นน้อยที่เป็นไปได้มาก ทำให้โมเดลมีความสามารถที่หลากหลาย

MoE-Tuning

MoE-Tuning เป็นกลยุทธ์การฝึกฝนที่มีสามขั้นตอนและเป็นไปได้ง่าย ซึ่งฝึก MLP หรือ Multilayer Perceptron ที่ปรับเปลี่ยนโทเคนวิชั่นให้เข้ากับโมเดลภาษาขนาดใหญ่ในขั้นตอนแรก จากนั้นเฟรมเวิร์กจะฝึกพารามิเตอร์ทั้งหมดของ LLM เพื่อให้ LVLM มีความเข้าใจที่ดีในหลายๆ ด้าน สุดท้ายในขั้นตอนที่สาม เฟรมเวิร์กจะทำซ้ำ FFN หรือ Feed Forward Network เป็นน้ำหนักการเริ่มต้นสำหรับโมเดลผสมผสาน และฝึกเฉพาะชั้น MoE เท่านั้น

ขั้นตอนที่ 1

ในขั้นตอนแรก วัตถุประสงค์หลักคือการปรับเปลี่ยนโทเคนวิชั่นให้เข้ากับโมเดลภาษาขนาดใหญ่ ซึ่งช่วยให้ LLM เข้าใจสิ่งที่อยู่ในภาพได้ เฟรมเวิร์ก MoE-LLaVA ใช้ Multilayer Perceptron เพื่อทำการแมปโทเคนวิชั่นไปยังโดเมนการเข้าของโมเดลภาษาขนาดใหญ่ และรับภาพเป็นโทเคนเทียบเท่ากับข้อความ ในขั้นตอนนี้ เฟรมเวิร์กจะฝึก LLM เพื่อพรรณนาภาพ และไม่ได้ใช้ชั้น MoE กับ LLM ในขั้นตอนนี้

ขั้นตอนที่ 2

ในขั้นตอนที่สอง เฟรมเวิร์ก MoE-LLaVA พยายามที่จะเพิ่มความสามารถและความสามารถในการควบคุมของเฟรมเวิร์กโดยการปรับโมเดลด้วยข้อมูลคำสั่งหลายรูปแบบ เฟรมเวิร์กทำได้โดยการปรับ LLM ให้กลายเป็น LVLM ที่มีความเข้าใจหลายรูปแบบ เฟรมเวิร์กใช้คำสั่งที่ซับซ้อนมากขึ้น รวมถึงการรู้จำข้อความและการให้เหตุผลเชิงตรรกะเกี่ยวกับภาพ ซึ่งต้องการให้โมเดลมีความสามารถหลายรูปแบบที่แข็งแกร่งกว่าเดิม

ขั้นตอนที่ 3

ในขั้นตอนที่สาม โมเดลจะทำซ้ำ Feedforward Neural Network หลายๆ ครั้งเพื่อสร้างโมเดลผสมผสานหลายๆ โมเดลเป็นขั้นตอนการเริ่มต้น จากนั้นจะส่งโทเคนข้อความและภาพไปยังชั้น MoE โดยที่รูทเตอร์จะคำนวณน้ำหนักการแมทช์ระหว่างโมเดลผสมผสานและโทเคนแต่ละตัว แต่ละโทเคนจะถูกประมวลผลโดยโมเดลผสมผสานที่มีความน่าจะเป็นสูงสุด โดยมีผลลัพธ์รวมที่คำนวณจากผลรวมที่ถูกชั่งน้ำหนักตามน้ำหนักของรูทเตอร์ เมื่อโมเดลผสมผสานที่ดีที่สุดถูกเลือก โมเดลจะปิดโมเดลผสมผสานที่เหลือ ซึ่งเป็นวิธีการที่ให้เฟรมเวิร์ก MoE-LLaVA มีเส้นทางที่มีความหนาแน่นน้อยที่เป็นไปได้มาก ทำให้โมเดลมีความสามารถที่หลากหลาย

MoE-LLaVA : ผลลัพธ์และการทดลอง

เฟรมเวิร์ก MoE-LLaVA ใช้ CLIP-Large เป็นตัวเข้ารหัสภาพ โดยที่ Multilayer Perceptron ประกอบด้วยสองชั้นพร้อมกับชั้น GELU ระหว่างสองชั้น โดยค่าเริ่มต้น เฟรมเวิร์กจะใช้การแทนที่ชั้น Feedforward Neural Networks ด้วยชั้น MoE โดยที่ชั้น MoE ครอบคลุม 50% ของจำนวนชั้นทั้งหมด ตารางต่อไปนี้แสดงชุดข้อมูลและขนาดตัวอย่างที่ใช้ในการฝึกฝนและประเมินเฟรมเวิร์ก MoE-LLaVA

การถามคำถามเกี่ยวกับภาพโดยไม่ต้องฝึกฝน

รูปภาพต่อไปนี้แสดงให้เห็นว่า MoE-LLaVA เป็นโมเดลที่มีความหนาแน่นน้อยพร้อมรูทเตอร์ที่อ่อน โดยเฟรมเวิร์กถูกประเมินบน 5 บンチมาร์กการถามคำถามเกี่ยวกับภาพ และตามที่เห็น MoE-LLaVA แสดงให้เห็นถึงความสามารถในการเข้าใจภาพที่น่าประทับใจ และสามารถทำงานได้เทียบเท่ากับเฟรมเวิร์ก LLaVA 1.5 ที่มีประสิทธิภาพสูงสุดใน 5 บンチมาร์ก

การประเมินการสร้างวัตถุ

ในการประเมินการสร้างวัตถุ เฟรมเวิร์ก MoE-LLaVA ใช้การประเมิน POPE ซึ่งเป็นวิธีการแบบการโพลลิ่ง และผลลัพธ์แสดงอยู่ในตารางต่อไปนี้ ตามที่เห็น เฟรมเวิร์ก MoE-LLaVA ให้ผลลัพธ์ที่แข็งแกร่งที่สุด ซึ่งบ่งชี้ถึงความสามารถในการสร้างวัตถุที่สอดคล้องกับภาพที่เข้ามา นอกจากนี้ ยังแสดงให้เห็นว่า MoE-LLaVA สามารถสร้างสมดุลระหว่างอัตราส่วน “ใช่” ได้ดี ซึ่งแสดงถึงความสามารถของโมเดลที่มีความหนาแน่นน้อยในการให้ข้อเสนอแนะที่ถูกต้องสำหรับคำถามที่กำหนด

รูปภาพต่อไปนี้แสดงการกระจายของการโหลดโมเดลผสมผสาน โดยที่เส้นขีดเส้นเป็นการกระจายที่สมดุลระหว่างโมเดลผสมผสานต่างๆ รูปภาพแรกแสดงการโหลดภายในโมเดลผสมผสาน ในขณะที่รูปภาพที่เหลือแสดงถึงประสิทธิภาพของโมเดลผสมผสานต่อโมเดลต่างๆ

นอกจากนี้ รูปภาพต่อไปนี้แสดงการกระจายของโมเดลต่างๆ ระหว่างโมเดลผสมผสานต่างๆ

ความคิดเห็นสุดท้าย

ในบทความนี้ เราได้พูดถึง MoE-LLaVA ซึ่งเป็นฐานสำหรับโมเดลภาษาและวิชั่นที่มีขนาดใหญ่ด้วยโมเดลผสมผสานที่มีรูทเตอร์ที่สามารถเรียนรู้ได้ และ MoE โมเดล MoE-LLaVA ประกอบด้วยเส้นทางที่มีความหนาแน่นน้อยหลายเส้นทาง และเฟรมเวิร์กใช้เส้นทางเหล่านี้ในการส่งโทเคนไปยังโมเดลผสมผสานที่แตกต่างกันผ่านรูทเตอร์ที่สามารถเรียนรู้ได้ โทเคนจะถูกประมวลผลร่วมกันโดยโมเดลผสมผสานที่ถูกเลือก ในขณะที่เส้นทางที่ไม่ได้ถูกเลือกจะถูกปิดเสียง เฟรมเวิร์กจะซ้อนชั้น MoE เอนคอเดอร์หลายๆ ชั้นเพื่อให้ได้เส้นทางที่มีความหนาแน่นน้อยที่นำไปสู่โมเดลภาษาและวิชั่นที่มีขนาดใหญ่และทรงพลังยิ่งขึ้น กลยุทธ์ MoE-Tuning จะช่วยลดการเสื่อมสภาพของประสิทธิภาพในการเรียนรู้ความเป็นไปได้หลายรูปแบบ โดยสร้างโมเดลที่มีพารามิเตอร์จำนวนมากแต่มีต้นทุนในการฝึกฝนและอนุมานที่สม่ำเสมอ สถาปัตยกรรมของเฟรมเวิร์ก MoE-LLaVA ได้รับการออกแบบมาเพื่อทำงานเฉพาะกับโมเดลผสมผสานชั้นนำในการสร้างภาพและวิดีโอ

Kunal Kejriwal

วิศวกรโดยอาชีพ นักเขียนโดยหัวใจ คุณ Kunal เป็นนักเขียนเทคนิคที่มีความรักและเข้าใจอย่างลึกซึ้งเกี่ยวกับ AI และ ML มุ่งมั่นที่จะทำให้แนวคิดที่ซับซ้อนในด้านเหล่านี้ง่ายขึ้นผ่านเอกสารที่น่าสนใจและให้ข้อมูล