ปัญญาประดิษฐ์
รุ่น Mixture of Experts (MoE) 8x7B ล่าสุดของ Mistral AI

ซึ่งเป็นสตาร์ทอัพโมเดลโอเพ่นซอร์สในปารีสได้ท้าทายบรรทัดฐานด้วยการเปิดตัวโมเดลภาษาขนาดใหญ่ (LLM) ล่าสุด MoE 8x7B ผ่านทางระบบง่ายๆ ลิงก์ฝนตกหนัก. สิ่งนี้ขัดแย้งกับแนวทางดั้งเดิมของ Google กับการเปิดตัว Gemini ซึ่งจุดประกายการสนทนาและความตื่นเต้นภายในชุมชน AI
แนวทางการเปิดตัวของ Mistral AI นั้นแหวกแนวมาโดยตลอด กลยุทธ์ของพวกเขามักจะละเลยเอกสาร บล็อก หรือข่าวประชาสัมพันธ์ตามปกติ ซึ่งมีประสิทธิภาพในการดึงดูดความสนใจของชุมชน AI ได้อย่างมีเอกลักษณ์
ล่าสุดบริษัทประสบความสำเร็จอย่างโดดเด่น การประเมินมูลค่า 2 พันล้านเหรียญ ตามรอบการระดมทุนที่นำโดย Andreessen Horowitz รอบการระดมทุนครั้งนี้ถือเป็นประวัติศาสตร์ โดยสร้างสถิติด้วยรอบ Seed Round มูลค่า 118 ล้านดอลลาร์ ซึ่งใหญ่ที่สุดในประวัติศาสตร์ยุโรป นอกเหนือจากความสำเร็จในการระดมทุนแล้ว Mistral AI ยังมีส่วนร่วมอย่างแข็งขันในการอภิปรายเกี่ยวกับกฎหมาย EU AI Act ซึ่งสนับสนุนการลดกฎระเบียบใน AI แบบโอเพ่นซอร์ส
เหตุใด MoE 8x7B จึงดึงดูดความสนใจ
Mixtral 4x8B ได้รับการอธิบายว่าเป็น “GPT-7 ที่ลดขนาดลง” ใช้เฟรมเวิร์ก Mixture of Experts (MoE) กับผู้เชี่ยวชาญแปดคน ผู้เชี่ยวชาญแต่ละคนมีพารามิเตอร์ 111B ควบคู่ไปกับพารามิเตอร์ความสนใจที่ใช้ร่วมกัน 55B เพื่อให้มีพารามิเตอร์ทั้งหมด 166B ต่อรุ่น ตัวเลือกการออกแบบนี้มีความสำคัญเนื่องจากช่วยให้ผู้เชี่ยวชาญเพียงสองคนเท่านั้นที่จะมีส่วนร่วมในการอนุมานโทเค็นแต่ละโทเค็น โดยเน้นไปที่การเปลี่ยนแปลงไปสู่การประมวลผล AI ที่มีประสิทธิภาพและมุ่งเน้นมากขึ้น
หนึ่งในไฮไลท์สำคัญของ Mixtral คือความสามารถในการจัดการบริบทที่กว้างขวางของโทเค็น 32,000 รายการ ซึ่งให้ขอบเขตที่เพียงพอสำหรับการจัดการงานที่ซับซ้อน ความสามารถหลายภาษาของโมเดลประกอบด้วยการรองรับภาษาอังกฤษ ฝรั่งเศส อิตาลี เยอรมัน และสเปน เพื่อรองรับชุมชนนักพัฒนาทั่วโลก
การฝึกอบรมล่วงหน้าของ Mixtral เกี่ยวข้องกับข้อมูลที่มาจากเว็บแบบเปิด พร้อมด้วยวิธีการฝึกอบรมไปพร้อมๆ กันสำหรับทั้งผู้เชี่ยวชาญและเราเตอร์ วิธีการนี้ทำให้แน่ใจได้ว่าโมเดลไม่เพียงแต่มีพื้นที่พารามิเตอร์มากมาย แต่ยังได้รับการปรับให้เข้ากับความแตกต่างของข้อมูลจำนวนมหาศาลที่ถูกเปิดเผยอย่างละเอียดอีกด้วย

มิกซ์ทรัล 8x7B ก็ได้คะแนนอันน่าประทับใจ
Mixtral 8x7B มีประสิทธิภาพเหนือกว่า LLaMA 2 70B และแข่งขันกับ GPT-3.5 โดยเฉพาะอย่างยิ่งมีความโดดเด่นในงาน MBPP ด้วยอัตราความสำเร็จ 60.7% ซึ่งสูงกว่าคู่แข่งอย่างมาก แม้แต่ใน MT-Bench ที่เข้มงวดซึ่งได้รับการปรับแต่งสำหรับรุ่นที่ปฏิบัติตามคำสั่ง Mixtral 8x7B ก็ยังได้รับคะแนนที่น่าประทับใจ เกือบจะเทียบเท่ากับ GPT-3.5
ทำความเข้าใจกรอบการผสมผสานของผู้เชี่ยวชาญ (MoE)
โมเดล Mixture of Experts (MoE) แม้จะได้รับความสนใจเมื่อเร็วๆ นี้เนื่องจากมีการรวมเข้ากับโมเดลภาษาที่ล้ำสมัย เช่น MoE 8x7B ของ Mistral AI แต่แท้จริงแล้วมีรากฐานมาจากแนวคิดพื้นฐานที่ย้อนกลับไปหลายปี เรามาทบทวนต้นกำเนิดของแนวคิดนี้ผ่านงานวิจัยเชิงลึกกัน
แนวคิดของกระทรวงศึกษาธิการ
Mixture of Experts (MoE) แสดงถึงการเปลี่ยนแปลงกระบวนทัศน์ในสถาปัตยกรรมโครงข่ายประสาทเทียม แตกต่างจากรุ่นดั้งเดิมที่ใช้เครือข่ายที่เป็นเนื้อเดียวกันเอกพจน์ในการประมวลผลข้อมูลทุกประเภท MoE ใช้วิธีการเฉพาะทางและโมดูลาร์มากกว่า ประกอบด้วยเครือข่าย 'ผู้เชี่ยวชาญ' หลายเครือข่าย ซึ่งแต่ละเครือข่ายได้รับการออกแบบมาเพื่อจัดการข้อมูลหรืองานเฉพาะประเภท ซึ่งดูแลโดย 'เครือข่ายเกตติ้ง' ที่จะนำข้อมูลอินพุตแบบไดนามิกไปยังผู้เชี่ยวชาญที่เหมาะสมที่สุด

เลเยอร์ Mixture of Experts (MoE) ที่ฝังอยู่ภายในโมเดลภาษาที่เกิดซ้ำ (แหล่ง)
รูปภาพด้านบนแสดงมุมมองระดับสูงของเลเยอร์ MoE ที่ฝังอยู่ภายในโมเดลภาษา โดยพื้นฐานแล้ว เลเยอร์ MoE ประกอบด้วยเครือข่ายย่อยฟีดฟอร์เวิร์ดหลายเครือข่าย เรียกว่า 'ผู้เชี่ยวชาญ' ซึ่งแต่ละเครือข่ายมีศักยภาพที่จะเชี่ยวชาญในการประมวลผลข้อมูลในด้านต่างๆ เครือข่ายเกตซึ่งเน้นไว้ในแผนภาพ จะกำหนดว่าผู้เชี่ยวชาญเหล่านี้กลุ่มใดมีส่วนร่วมในการป้อนข้อมูลที่กำหนด การเปิดใช้งานแบบมีเงื่อนไขนี้ช่วยให้เครือข่ายเพิ่มความจุได้อย่างมาก โดยไม่ต้องเพิ่มความต้องการในการคำนวณ
การทำงานของเลเยอร์ MoE
ในทางปฏิบัติ เครือข่ายเกตจะประเมินอินพุต (แสดงเป็น G(x)
ในแผนภาพ) และเลือกกลุ่มผู้เชี่ยวชาญจำนวนไม่มากเพื่อดำเนินการ การเลือกนี้จะถูกปรับโดยเอาท์พุตของเครือข่ายเกต ซึ่งจะกำหนด 'การโหวต' หรือการมีส่วนร่วมของผู้เชี่ยวชาญแต่ละคนในเอาท์พุตสุดท้ายได้อย่างมีประสิทธิภาพ ตัวอย่างเช่น ดังที่แสดงในแผนภาพ อาจเลือกผู้เชี่ยวชาญเพียงสองคนเท่านั้นในการคำนวณเอาต์พุตสำหรับโทเค็นอินพุตแต่ละอัน ทำให้กระบวนการมีประสิทธิภาพโดยการมุ่งเน้นทรัพยากรการคำนวณไปยังจุดที่ต้องการมากที่สุด

ตัวเข้ารหัสหม้อแปลงพร้อมเลเยอร์ MoE (แหล่ง)
ภาพประกอบที่สองด้านบนตัดกันระหว่างตัวเข้ารหัส Transformer แบบดั้งเดิมกับอีกตัวที่เสริมด้วยเลเยอร์ MoE สถาปัตยกรรม Transformer ซึ่งเป็นที่รู้จักอย่างกว้างขวางในด้านประสิทธิภาพในงานที่เกี่ยวข้องกับภาษา เดิมทีประกอบด้วยเลเยอร์การเอาใจใส่ตนเองและฟีดฟอร์เวิร์ดที่ซ้อนกันตามลำดับ การเปิดตัวเลเยอร์ MoE จะเข้ามาแทนที่เลเยอร์ฟีดฟอร์เวิร์ดบางส่วน ทำให้โมเดลสามารถปรับขนาดตามความจุได้อย่างมีประสิทธิภาพมากขึ้น
ในโมเดลเสริม เลเยอร์ MoE จะถูกแบ่งส่วนในอุปกรณ์หลายเครื่อง ซึ่งแสดงให้เห็นถึงแนวทางแบบโมเดลขนานกัน นี่เป็นสิ่งสำคัญเมื่อปรับขนาดเป็นโมเดลที่มีขนาดใหญ่มาก เนื่องจากช่วยให้สามารถกระจายโหลดการประมวลผลและข้อกำหนดหน่วยความจำไปยังคลัสเตอร์ของอุปกรณ์ เช่น GPU หรือ TPU การแบ่งส่วนนี้จำเป็นสำหรับการฝึกฝนและการปรับใช้โมเดลที่มีพารามิเตอร์นับพันล้านอย่างมีประสิทธิภาพ ดังที่เห็นได้จากการฝึกโมเดลที่มีพารามิเตอร์ตั้งแต่หลายร้อยพันล้านไปจนถึงมากกว่าล้านล้านพารามิเตอร์บนคลัสเตอร์การประมวลผลขนาดใหญ่
แนวทาง MoE แบบกระจัดกระจายพร้อมการปรับแต่งคำสั่งบน LLM
บทความเรื่อง “Sparse Mixture-of-Experts (MoE) สำหรับการสร้างแบบจำลองภาษาที่ปรับขนาดได้” กล่าวถึงแนวทางที่เป็นนวัตกรรมในการปรับปรุงโมเดลภาษาขนาดใหญ่ (LLM) โดยการบูรณาการสถาปัตยกรรม Mixture of Experts เข้ากับเทคนิคการปรับแต่งคำสั่ง
โดยเน้นถึงความท้าทายทั่วไปที่โมเดล MoE มีประสิทธิภาพต่ำกว่าเมื่อเทียบกับโมเดลหนาแน่นที่มีความสามารถในการคำนวณเท่ากัน เมื่อปรับแต่งอย่างละเอียดสำหรับงานเฉพาะเจาะจง เนื่องจากความแตกต่างระหว่างการเตรียมการฝึกอบรมทั่วไปและการปรับแต่งอย่างละเอียดเฉพาะงาน
การปรับแต่งคำสั่งเป็นวิธีการฝึกอบรมที่แบบจำลองได้รับการปรับปรุงเพื่อให้ปฏิบัติตามคำสั่งภาษาธรรมชาติได้ดีขึ้น และเพิ่มประสิทธิภาพการทำงานได้อย่างมีประสิทธิภาพ บทความนี้ชี้ให้เห็นว่าโมเดล MoE มีการปรับปรุงที่โดดเด่นเมื่อรวมกับการปรับแต่งคำสั่ง มากกว่าโมเดลที่มีความหนาแน่นสูง เทคนิคนี้จะปรับการนำเสนอที่ได้รับการฝึกล่วงหน้าของโมเดลให้ปฏิบัติตามคำแนะนำได้อย่างมีประสิทธิภาพมากขึ้น ซึ่งนำไปสู่การเพิ่มประสิทธิภาพอย่างมาก
นักวิจัยได้ทำการศึกษาในการทดลอง XNUMX แบบ โดยพบว่าแบบจำลอง MoE ในตอนแรกมีประสิทธิภาพต่ำกว่าในการปรับแต่งเฉพาะงานโดยตรง อย่างไรก็ตาม เมื่อใช้การปรับแต่งคำสั่ง โมเดล MoE จะดีเยี่ยม โดยเฉพาะอย่างยิ่งเมื่อเสริมด้วยการปรับแต่งแบบละเอียดเฉพาะงานเพิ่มเติม สิ่งนี้ชี้ให้เห็นว่าการปรับคำสั่งเป็นขั้นตอนสำคัญสำหรับโมเดล MoE เพื่อให้มีประสิทธิภาพเหนือกว่าโมเดลที่มีความหนาแน่นสูงในงานดาวน์สตรีม
นอกจากนี้ยังแนะนำ FLAN-MOE32B ซึ่งเป็นโมเดลที่แสดงให้เห็นถึงการประยุกต์ใช้แนวคิดเหล่านี้อย่างประสบความสำเร็จ โดยเฉพาะอย่างยิ่ง มันมีประสิทธิภาพเหนือกว่า FLAN-PALM62B ซึ่งเป็นโมเดลที่มีความหนาแน่นสูง ในงานการวัดประสิทธิภาพ ในขณะที่ใช้ทรัพยากรการคำนวณเพียงหนึ่งในสามเท่านั้น สิ่งนี้แสดงให้เห็นถึงศักยภาพของโมเดล MoE แบบกระจัดกระจาย รวมกับการปรับแต่งคำสั่งเพื่อสร้างมาตรฐานใหม่สำหรับประสิทธิภาพและประสิทธิภาพของ LLM
การนำผู้เชี่ยวชาญมาผสมผสานในสถานการณ์จริง
ความอเนกประสงค์ของรุ่น MoE ทำให้เหมาะสำหรับการใช้งานที่หลากหลาย:
- การประมวลผลภาษาธรรมชาติ (NLP): โมเดล MoE สามารถจัดการกับความแตกต่างและความซับซ้อนของภาษามนุษย์ได้อย่างมีประสิทธิภาพมากขึ้น ทำให้เหมาะสำหรับงาน NLP ขั้นสูง
- การประมวลผลภาพและวิดีโอ: ในงานที่ต้องการการประมวลผลที่มีความละเอียดสูง MoE สามารถจัดการด้านต่างๆ ของรูปภาพหรือเฟรมวิดีโอได้ ซึ่งช่วยเพิ่มทั้งคุณภาพและความเร็วในการประมวลผล
- โซลูชัน AI ที่ปรับแต่งได้: ธุรกิจและนักวิจัยสามารถปรับแต่งโมเดล MoE ให้เหมาะกับงานเฉพาะ นำไปสู่โซลูชัน AI ที่ตรงเป้าหมายและมีประสิทธิภาพมากขึ้น
ความท้าทายและการพิจารณา
แม้ว่าโมเดล MoE จะมอบคุณประโยชน์มากมาย แต่ก็มีความท้าทายที่ไม่เหมือนใครเช่นกัน:
- ความซับซ้อนในการฝึกอบรมและการปรับแต่ง: ลักษณะแบบกระจายของแบบจำลอง MoE อาจทำให้กระบวนการฝึกอบรมซับซ้อนขึ้น โดยต้องมีการปรับสมดุลและการปรับแต่งอย่างรอบคอบของผู้เชี่ยวชาญและเครือข่ายเกต
- การจัดการทรัพยากร: การจัดการทรัพยากรการคำนวณอย่างมีประสิทธิภาพโดยผู้เชี่ยวชาญหลายคนเป็นสิ่งสำคัญในการเพิ่มประโยชน์สูงสุดของโมเดล MoE
การรวมเลเยอร์ MoE เข้ากับโครงข่ายประสาทเทียม โดยเฉพาะอย่างยิ่งในโดเมนของโมเดลภาษา นำเสนอเส้นทางสู่การปรับขนาดโมเดลให้มีขนาดที่ก่อนหน้านี้ทำไม่ได้เนื่องจากข้อจำกัดในการคำนวณ การคำนวณแบบมีเงื่อนไขที่เปิดใช้งานโดยเลเยอร์ MoE ช่วยให้สามารถกระจายทรัพยากรการคำนวณได้อย่างมีประสิทธิภาพมากขึ้น ทำให้สามารถฝึกฝนโมเดลที่ใหญ่ขึ้นและมีความสามารถมากขึ้นได้ ในขณะที่เรายังคงต้องการมากขึ้นจากระบบ AI ของเรา สถาปัตยกรรมเช่น Transformer ที่ติดตั้ง MoE ก็มีแนวโน้มที่จะกลายเป็นมาตรฐานในการจัดการงานที่ซับซ้อนและขนาดใหญ่ในโดเมนต่างๆ