āļāļąāļāļāļēāļāļĢāļ°āļāļīāļĐāļāđ
MoRA: āļāļēāļĢāļāļąāļāđāļāļāļĢāļ°āļāļąāļāļŠāļđāļāļŠāļģāļŦāļĢāļąāļ PEFT
เนื่องจากมีประสิทธิภาพที่แข็งแกร่งและความสามารถในการใช้งานที่กว้างขวางเมื่อเทียบกับวิธีอื่น ๆ LoRA หรือ Low-Rank Adaption เป็นวิธีการ PEFT หรือ Parameter Efficient Fine-Tuning ที่ได้รับความนิยมมากที่สุดสำหรับการปรับแต่งแบบละเอียดของโมเดลภาษาขนาดใหญ่ โมเดล LoRA ใช้เมทริกซ์ระดับต่ำสองตัวเพื่อแยกและประมาณค่าน้ำหนักที่อัปเดตใน FFT หรือ Full Fine Tuning และโครงสร้าง LoRA ปรับแต่งพารามิเตอร์ที่สามารถฝึกได้ตามลำดับของเมทริกซ์ ผลประโยชน์หลักของกระบวนการนี้คือทำให้โครงสร้าง LoRA สามารถรวมเมทริกซ์เหล่านี้เข้ากับน้ำหนักพารามิเตอร์ดั้งเดิมได้โดยไม่เพิ่มความซับซ้อนในการอนุมานหลังการปรับแต่ง นอกจากนี้ แม้ว่าโมเดลภาษาขนาดใหญ่ล่าสุดมีประสิทธิภาพที่น่าประทับใจในการเรียนรู้ในบริบท แต่ก็ยังมีสถานการณ์ที่ต้องการการปรับแต่งอยู่ ซึ่งสามารถแบ่งออกเป็นสามประเภทได้ ประเภทแรก คือ การปรับแต่งคำสั่ง ซึ่งมีเป้าหมายในการจัดแนวโมเดลภาษาขนาดใหญ่ให้เหมาะสมกับงานสุดท้ายและความชอบของผู้ใช้โดยไม่เพิ่มความรู้และความสามารถของโมเดลภาษาขนาดใหญ่ วิธีการนี้ช่วยให้กระบวนการทำงานกับงานต่างๆ และคำสั่งที่ซับซ้อนได้ง่ายขึ้น ประเภทที่สองประกอบด้วยงานที่ต้องใช้เหตุผลที่ซับซ้อน เช่น การแก้ปัญหาทางคณิตศาสตร์ สุดท้ายนี้ ประเภทที่สาม คือ การฝึกแบบต่อเนื่อง ซึ่งเป็นวิธีการที่พยายามเพิ่มความสามารถเฉพาะโดเมนของโมเดลภาษาขนาดใหญ่
ในบทความนี้ เราจะพูดถึง MoRA วิธีการใหม่ที่บรรลุการอัปเดตระดับสูงโดยรักษาจำนวนพารามิเตอร์ที่สามารถฝึกได้เท่าเดิม โดยใช้เมทริกซ์แบบสี่เหลี่ยม เพื่อให้บรรลุเป้าหมายนี้ โมเดล MoRA ลดขนาดการเข้าและเพิ่มขนาดการออกสำหรับเมทริกซ์แบบสี่เหลี่ยมโดยการแนะนำตัวดำเนินการแบบไม่มีพารามิเตอร์ที่สอดคล้องกัน นอกจากนี้ ตัวดำเนินการเหล่านี้ยังรับรองว่าน้ำหนักสามารถรวมกลับเข้ากับโมเดลภาษาขนาดใหญ่ได้ ซึ่งทำให้โครงสร้าง MoRA สามารถใช้งานได้เหมือนกับ LoRA
บทความนี้มีเป้าหมายเพื่อครอบคลุมโครงสร้าง MoRA อย่างลึกซึ้ง และเราจะสำรวจกลไก วิธีการและสถาปัตยกรรมของโครงสร้างพร้อมกับการเปรียบเทียบกับโครงสร้างรัฐของศิลปะ ดังนั้น มาเริ่มกันเลย
MoRA: การอัปเดตระดับสูงสำหรับ PEFT
เมื่อขนาดและความสามารถของโมเดลภาษาเพิ่มขึ้น PEFT หรือ Parameter Efficient Fine-Tuning กำลังเกิดขึ้นเป็นวิธีการที่ได้รับความนิยมและ効率มากที่สุดในการปรับโมเดลภาษาขนาดใหญ่ให้เหมาะสมกับงานสุดท้ายที่เฉพาะเจาะจง เมื่อเปรียบเทียบกับ FFT หรือ Full Fine Tuning ที่อัปเดตพารามิเตอร์ทั้งหมด PEFT เพียงแต่อัปเดตส่วนหนึ่งของพารามิเตอร์ทั้งหมด ซึ่งสามารถบรรลุประสิทธิภาพที่คล้ายกับ FFT ได้โดยการอัปเดตพารามิเตอร์น้อยกว่า 1% ของพารามิเตอร์ทั้งหมด ทำให้ลดความต้องการหน่วยความจำสำหรับออปติมाइเซอร์อย่างมีนัยสำคัญ ในขณะเดียวกันก็ช่วยให้สามารถจัดเก็บและใช้งานโมเดลได้ง่ายขึ้น
นอกจากนี้ ในบรรดาวิธีการ PEFT ที่มีอยู่ทั้งหมด LoRA เป็นวิธีที่ได้รับความนิยมมากที่สุดในปัจจุบัน โดยเฉพาะสำหรับโมเดลภาษาขนาดใหญ่ หนึ่งในเหตุผลหลักที่วิธีการ LoRA มีประสิทธิภาพที่ดีกว่าวิธีการ PEFT เช่น Adapters หรือ Prompt Tuning คือ LoRA ใช้เมทริกซ์ระดับต่ำในการอัปเดตพารามิเตอร์ โดยมีการควบคุมในการรวมเมทริกซ์เหล่านี้เข้ากับน้ำหนักพารามิเตอร์ดั้งเดิมโดยไม่เพิ่มความซับซ้อนในการอนุมาน

ในภาพด้านบน (a) แสดงถึง LoRA และ (b) แสดงถึง MoRA W คือน้ำหนักที่ถูกแช่แข็งจากโมเดล M คือเมทริกซ์ที่สามารถฝึกได้ใน MoRA A และ B คือเมทริกซ์ระดับต่ำที่สามารถฝึกได้ใน LoRA และ r คืออันดับใน LoRA และ MoRA
MoRA: วิธีการและสถาปัตยกรรม
ผลกระทบของการอัปเดตระดับต่ำ
หลักการสำคัญของโมเดล LoRA คือการประมาณการอัปเดตระดับเต็มใน FFT โดยใช้การอัปเดตระดับต่ำ
วิธีการ
แม้ว่าโมเดลภาษาขนาดใหญ่ที่มีการเรียนรู้ในบริบทจะมีการปรับปรุงประสิทธิภาพมากกว่าวิธีการก่อนหน้า แต่ก็ยังมีสถานการณ์ที่ต้องการการปรับแต่งอยู่ ซึ่งสามารถแบ่งออกเป็นสามประเภทได้
อย่างไรก็ตาม วิธีการส่วนใหญ่ของ LoRA ใช้การปรับแต่งคำสั่งหรือการจำแนกข้อความเพื่อประเมินประสิทธิภาพของตนเองในบริบทของโมเดลภาษาขนาดใหญ่
MoRA: การทดลองและผลลัพธ์
การจำคู่ UUID
เพื่อประเมินประสิทธิภาพของ MoRA โมเดลถูกทดสอบในงานต่างๆ รวมถึงการจำคู่ UUID การปรับแต่งงาน และการฝึกแบบต่อเนื่อง
การปรับแต่งงาน
เพื่อประเมินประสิทธิภาพของ MoRA ในการปรับแต่งงาน โมเดลถูกทดสอบในสามงาน ได้แก่ การปรับแต่งคำสั่ง การให้เหตุผลทางคณิตศาสตร์ และการฝึกแบบต่อเนื่อง
การฝึกแบบต่อเนื่อง
เพื่อประเมินผลกระทบของการอัปเดตระดับสูงต่อประสิทธิภาพโดยรวม โมเดลถูกฝึกจากศูนย์ในฐานข้อมูล C4 และผลลัพธ์ถูกเปรียบเทียบกับ LoRA และ ReLoRA
ความคิดสุดท้าย
ในบทความนี้ เราได้พูดถึง MoRA วิธีการใหม่ที่บรรลุการอัปเดตระดับสูงโดยรักษาจำนวนพารามิเตอร์ที่สามารถฝึกได้เท่าเดิม โดยใช้เมทริกซ์แบบสี่เหลี่ยม เพื่อให้บรรลุเป้าหมายนี้ โมเดล MoRA ลดขนาดการเข้าและเพิ่มขนาดการออกสำหรับเมทริกซ์แบบสี่เหลี่ยมโดยการแนะนำตัวดำเนินการแบบไม่มีพารามิเตอร์ที่สอดคล้องกัน












