āļ›āļąāļāļāļēāļ›āļĢāļ°āļ”āļīāļĐāļāđŒ

MoRA: āļāļēāļĢāļ­āļąāļ›āđ€āļ”āļ•āļĢāļ°āļ”āļąāļšāļŠāļđāļ‡āļŠāļģāļŦāļĢāļąāļš PEFT

mm

เนื่องจากมีประสิทธิภาพที่แข็งแกร่งและความสามารถในการใช้งานที่กว้างขวางเมื่อเทียบกับวิธีอื่น ๆ LoRA หรือ Low-Rank Adaption เป็นวิธีการ PEFT หรือ Parameter Efficient Fine-Tuning ที่ได้รับความนิยมมากที่สุดสำหรับการปรับแต่งแบบละเอียดของโมเดลภาษาขนาดใหญ่ โมเดล LoRA ใช้เมทริกซ์ระดับต่ำสองตัวเพื่อแยกและประมาณค่าน้ำหนักที่อัปเดตใน FFT หรือ Full Fine Tuning และโครงสร้าง LoRA ปรับแต่งพารามิเตอร์ที่สามารถฝึกได้ตามลำดับของเมทริกซ์ ผลประโยชน์หลักของกระบวนการนี้คือทำให้โครงสร้าง LoRA สามารถรวมเมทริกซ์เหล่านี้เข้ากับน้ำหนักพารามิเตอร์ดั้งเดิมได้โดยไม่เพิ่มความซับซ้อนในการอนุมานหลังการปรับแต่ง นอกจากนี้ แม้ว่าโมเดลภาษาขนาดใหญ่ล่าสุดมีประสิทธิภาพที่น่าประทับใจในการเรียนรู้ในบริบท แต่ก็ยังมีสถานการณ์ที่ต้องการการปรับแต่งอยู่ ซึ่งสามารถแบ่งออกเป็นสามประเภทได้ ประเภทแรก คือ การปรับแต่งคำสั่ง ซึ่งมีเป้าหมายในการจัดแนวโมเดลภาษาขนาดใหญ่ให้เหมาะสมกับงานสุดท้ายและความชอบของผู้ใช้โดยไม่เพิ่มความรู้และความสามารถของโมเดลภาษาขนาดใหญ่ วิธีการนี้ช่วยให้กระบวนการทำงานกับงานต่างๆ และคำสั่งที่ซับซ้อนได้ง่ายขึ้น ประเภทที่สองประกอบด้วยงานที่ต้องใช้เหตุผลที่ซับซ้อน เช่น การแก้ปัญหาทางคณิตศาสตร์ สุดท้ายนี้ ประเภทที่สาม คือ การฝึกแบบต่อเนื่อง ซึ่งเป็นวิธีการที่พยายามเพิ่มความสามารถเฉพาะโดเมนของโมเดลภาษาขนาดใหญ่

ในบทความนี้ เราจะพูดถึง MoRA วิธีการใหม่ที่บรรลุการอัปเดตระดับสูงโดยรักษาจำนวนพารามิเตอร์ที่สามารถฝึกได้เท่าเดิม โดยใช้เมทริกซ์แบบสี่เหลี่ยม เพื่อให้บรรลุเป้าหมายนี้ โมเดล MoRA ลดขนาดการเข้าและเพิ่มขนาดการออกสำหรับเมทริกซ์แบบสี่เหลี่ยมโดยการแนะนำตัวดำเนินการแบบไม่มีพารามิเตอร์ที่สอดคล้องกัน นอกจากนี้ ตัวดำเนินการเหล่านี้ยังรับรองว่าน้ำหนักสามารถรวมกลับเข้ากับโมเดลภาษาขนาดใหญ่ได้ ซึ่งทำให้โครงสร้าง MoRA สามารถใช้งานได้เหมือนกับ LoRA

บทความนี้มีเป้าหมายเพื่อครอบคลุมโครงสร้าง MoRA อย่างลึกซึ้ง และเราจะสำรวจกลไก วิธีการและสถาปัตยกรรมของโครงสร้างพร้อมกับการเปรียบเทียบกับโครงสร้างรัฐของศิลปะ ดังนั้น มาเริ่มกันเลย

MoRA: การอัปเดตระดับสูงสำหรับ PEFT

เมื่อขนาดและความสามารถของโมเดลภาษาเพิ่มขึ้น PEFT หรือ Parameter Efficient Fine-Tuning กำลังเกิดขึ้นเป็นวิธีการที่ได้รับความนิยมและ効率มากที่สุดในการปรับโมเดลภาษาขนาดใหญ่ให้เหมาะสมกับงานสุดท้ายที่เฉพาะเจาะจง เมื่อเปรียบเทียบกับ FFT หรือ Full Fine Tuning ที่อัปเดตพารามิเตอร์ทั้งหมด PEFT เพียงแต่อัปเดตส่วนหนึ่งของพารามิเตอร์ทั้งหมด ซึ่งสามารถบรรลุประสิทธิภาพที่คล้ายกับ FFT ได้โดยการอัปเดตพารามิเตอร์น้อยกว่า 1% ของพารามิเตอร์ทั้งหมด ทำให้ลดความต้องการหน่วยความจำสำหรับออปติมाइเซอร์อย่างมีนัยสำคัญ ในขณะเดียวกันก็ช่วยให้สามารถจัดเก็บและใช้งานโมเดลได้ง่ายขึ้น

นอกจากนี้ ในบรรดาวิธีการ PEFT ที่มีอยู่ทั้งหมด LoRA เป็นวิธีที่ได้รับความนิยมมากที่สุดในปัจจุบัน โดยเฉพาะสำหรับโมเดลภาษาขนาดใหญ่ หนึ่งในเหตุผลหลักที่วิธีการ LoRA มีประสิทธิภาพที่ดีกว่าวิธีการ PEFT เช่น Adapters หรือ Prompt Tuning คือ LoRA ใช้เมทริกซ์ระดับต่ำในการอัปเดตพารามิเตอร์ โดยมีการควบคุมในการรวมเมทริกซ์เหล่านี้เข้ากับน้ำหนักพารามิเตอร์ดั้งเดิมโดยไม่เพิ่มความซับซ้อนในการอนุมาน

ในภาพด้านบน (a) แสดงถึง LoRA และ (b) แสดงถึง MoRA W คือน้ำหนักที่ถูกแช่แข็งจากโมเดล M คือเมทริกซ์ที่สามารถฝึกได้ใน MoRA A และ B คือเมทริกซ์ระดับต่ำที่สามารถฝึกได้ใน LoRA และ r คืออันดับใน LoRA และ MoRA

MoRA: วิธีการและสถาปัตยกรรม

ผลกระทบของการอัปเดตระดับต่ำ

หลักการสำคัญของโมเดล LoRA คือการประมาณการอัปเดตระดับเต็มใน FFT โดยใช้การอัปเดตระดับต่ำ

วิธีการ

แม้ว่าโมเดลภาษาขนาดใหญ่ที่มีการเรียนรู้ในบริบทจะมีการปรับปรุงประสิทธิภาพมากกว่าวิธีการก่อนหน้า แต่ก็ยังมีสถานการณ์ที่ต้องการการปรับแต่งอยู่ ซึ่งสามารถแบ่งออกเป็นสามประเภทได้

อย่างไรก็ตาม วิธีการส่วนใหญ่ของ LoRA ใช้การปรับแต่งคำสั่งหรือการจำแนกข้อความเพื่อประเมินประสิทธิภาพของตนเองในบริบทของโมเดลภาษาขนาดใหญ่

MoRA: การทดลองและผลลัพธ์

การจำคู่ UUID

เพื่อประเมินประสิทธิภาพของ MoRA โมเดลถูกทดสอบในงานต่างๆ รวมถึงการจำคู่ UUID การปรับแต่งงาน และการฝึกแบบต่อเนื่อง

การปรับแต่งงาน

เพื่อประเมินประสิทธิภาพของ MoRA ในการปรับแต่งงาน โมเดลถูกทดสอบในสามงาน ได้แก่ การปรับแต่งคำสั่ง การให้เหตุผลทางคณิตศาสตร์ และการฝึกแบบต่อเนื่อง

การฝึกแบบต่อเนื่อง

เพื่อประเมินผลกระทบของการอัปเดตระดับสูงต่อประสิทธิภาพโดยรวม โมเดลถูกฝึกจากศูนย์ในฐานข้อมูล C4 และผลลัพธ์ถูกเปรียบเทียบกับ LoRA และ ReLoRA

ความคิดสุดท้าย

ในบทความนี้ เราได้พูดถึง MoRA วิธีการใหม่ที่บรรลุการอัปเดตระดับสูงโดยรักษาจำนวนพารามิเตอร์ที่สามารถฝึกได้เท่าเดิม โดยใช้เมทริกซ์แบบสี่เหลี่ยม เพื่อให้บรรลุเป้าหมายนี้ โมเดล MoRA ลดขนาดการเข้าและเพิ่มขนาดการออกสำหรับเมทริกซ์แบบสี่เหลี่ยมโดยการแนะนำตัวดำเนินการแบบไม่มีพารามิเตอร์ที่สอดคล้องกัน

āļ§āļīāļĻāļ§āļāļĢāđ‚āļ”āļĒāļ­āļēāļŠāļĩāļž āļ™āļąāļāđ€āļ‚āļĩāļĒāļ™āđ‚āļ”āļĒāļŦāļąāļ§āđƒāļˆ āļ„āļļāļ“ Kunal āđ€āļ›āđ‡āļ™āļ™āļąāļāđ€āļ‚āļĩāļĒāļ™āđ€āļ—āļ„āļ™āļīāļ„āļ—āļĩāđˆāļĄāļĩāļ„āļ§āļēāļĄāļĢāļąāļāđāļĨāļ°āđ€āļ‚āđ‰āļēāđƒāļˆāļ­āļĒāđˆāļēāļ‡āļĨāļķāļāļ‹āļķāđ‰āļ‡āđ€āļāļĩāđˆāļĒāļ§āļāļąāļš AI āđāļĨāļ° ML āļĄāļļāđˆāļ‡āļĄāļąāđˆāļ™āļ—āļĩāđˆāļˆāļ°āļ—āļģāđƒāļŦāđ‰āđāļ™āļ§āļ„āļīāļ”āļ—āļĩāđˆāļ‹āļąāļšāļ‹āđ‰āļ­āļ™āđƒāļ™āļ”āđ‰āļēāļ™āđ€āļŦāļĨāđˆāļēāļ™āļĩāđ‰āļ‡āđˆāļēāļĒāļ‚āļķāđ‰āļ™āļœāđˆāļēāļ™āđ€āļ­āļāļŠāļēāļĢāļ—āļĩāđˆāļ™āđˆāļēāļŠāļ™āđƒāļˆāđāļĨāļ°āđƒāļŦāđ‰āļ‚āđ‰āļ­āļĄāļđāļĨ