ปัญญาประดิษฐ์

ภายใน Microsoft’s Phi-3 Mini: โมเดล AI ที่มีน้ำหนักเบาแต่ประสิทธิภาพสูง

Published May 1, 2024

Updated April 27, 2026

Aayush Mittal Mittal

ไมโครซอฟท์ ได้เปิดตัวโมเดลภาษาแบบเบาที่เรียกว่า Phi-3 Mini ซึ่งเป็นหนึ่งในสามของโมเดล AI ที่มีขนาดกะทัดรัดที่ได้รับการออกแบบมาเพื่อมอบประสิทธิภาพที่ดีที่สุดในระดับเดียวกับโมเดล AI ที่มีขนาดใหญ่ แต่มีขนาดเล็กเพียงพอในการทำงานได้อย่างมีประสิทธิภาพบนอุปกรณ์ที่มีทรัพยากรการประมวลผลที่จำกัด ด้วยพารามิเตอร์ 3.8 พันล้าน Phi-3 Mini จึงมีขนาดเล็กกว่าโมเดล AI ยักษ์ใหญ่เช่น GPT-4 แต่ก็สัญญาว่าจะมีประสิทธิภาพที่ใกล้เคียงกันในหลายๆ ด้าน

การพัฒนา Phi-3 Mini เป็น 里程碑 ที่สำคัญในการทำให้ความสามารถ AI ที่ทันสมัยสามารถเข้าถึงได้โดยทำให้สามารถทำงานบนฮาร์ดแวร์ที่หลากหลายมากขึ้น เนื่องจากมีขนาดเล็ก จึงสามารถติดตั้งได้บนสมาร์ทโฟน แท็บเล็ต และอุปกรณ์เอดจ์ ทำให้สามารถเอาชนะปัญหาเรื่องความล่าช้าและความเป็นส่วนตัวที่เกี่ยวข้องกับโมเดลบนคลาวด์ ซึ่งเปิดโอกาสใหม่ๆ สำหรับประสบการณ์บนอุปกรณ์ที่มีความฉลาดในหลายๆ ด้าน ตั้งแต่ผู้ช่วยเสมือนและ AI การสนทนา ไปจนถึงผู้ช่วยเขียนโค้ดและการทำความเข้าใจภาษา

: 4-bit quantized phi-3-mini running natively on iPhone

ภายใต้ฝากระโปรง: สถาปัตยกรรมและการฝึกอบรม

ในแก่นแท้ Phi-3 Mini เป็นโมเดลตัวถอดรหัสทรานส์ฟอร์เมอร์ที่สร้างขึ้นจากสถาปัตยกรรมที่คล้ายกับโมเดล Llama-2 ที่เปิดแหล่งที่มา มี 32 เลเยอร์ 3072 มิติที่ซ่อนอยู่ และ 32 หัวการดูแลความสนใจ โดยมีความยาวบริบทเริ่มต้น 4,000 โทเคน ไมโครซอฟท์ยังได้แนะนำรุ่นบริบทยาวที่เรียกว่า Phi-3 Mini-128K ซึ่งยืดความยาวบริบทไปถึง 128,000 โทเคนโดยใช้เทคนิคอย่าง LongRope

สิ่งที่ทำให้ Phi-3 Mini แตกต่างคือวิธีการฝึกอบรม มากกว่าการพึ่งพาเพียงพลังการประมวลผลและข้อมูลจำนวนมาก ไมโครซอฟท์ให้ความสำคัญกับการสร้างชุดข้อมูลฝึกอบรมที่มีคุณภาพสูงและหนาแน่นด้วยการให้เหตุผล ชุดข้อมูลนี้ประกอบด้วยข้อมูลเว็บที่ผ่านการกรองอย่างหนักและข้อมูลสังเคราะห์ที่สร้างโดยโมเดลภาษาขนาดใหญ่

กระบวนการฝึกอบรมแบ่งออกเป็นสองขั้นตอน ในขั้นตอนแรก โมเดลจะถูกสัมผัสกับแหล่งข้อมูลเว็บที่หลากหลายเพื่อสอนให้เข้าใจภาษาและความรู้ทั่วไป ในขั้นตอนที่สอง จะรวมข้อมูลเว็บที่ผ่านการกรองอย่างหนักมากขึ้นพร้อมกับข้อมูลสังเคราะห์ที่ออกแบบมาเพื่อสอนทักษะการให้เหตุผลและการทำงานในโดเมนเฉพาะ

ไมโครซอฟท์เรียกแนวทางนี้ว่า “การฝึกอบรมใน chế độที่เหมาะสมกับข้อมูล” ซึ่งเป็นการเปลี่ยนแปลงจาก “การฝึกอบรมใน chế độที่เหมาะสมกับการคำนวณ” หรือ “การฝึกอบรมมากเกินไป” ที่ใช้กันอย่างแพร่หลายในโมเดลภาษาขนาดใหญ่ เป้าหมายคือการปรับข้อมูลฝึกอบรมให้เหมาะสมกับขนาดของโมเดล โดยให้ความรู้และความสามารถในการให้เหตุผลที่เหมาะสมในขณะเดียวกันก็เหลือพื้นที่ให้เพียงพอสำหรับความสามารถอื่นๆ

: คุณภาพของโมเดล Phi-3 ใหม่ เมื่อวัดจากผลการทำงานบน MMLU

แนวทางที่เน้นข้อมูลนี้ได้ผลดี เนื่องจาก Phi-3 Mini มีผลการทำงานที่น่าประทับใจบนพื้นฐานการประเมินวิชาการหลายอย่าง ซึ่งบางครั้งสามารถเทียบเท่าหรือเหนือกว่าโมเดลที่มีขนาดใหญ่กว่ามาก เช่น มันทำคะแนนได้ 69% บน MMLU สำหรับการเรียนรู้และทำความเข้าใจหลายงาน และ 8.38 บน MT-bench สำหรับการให้เหตุผลทางคณิตศาสตร์ — ผลลัพธ์เหล่านี้อยู่ในระดับเดียวกับโมเดลอย่าง Mixtral 8x7B และ GPT-3.5

ความปลอดภัยและความทนทาน

ร่วมกับผลการทำงานที่น่าประทับใจ ไมโครซอฟท์ยังให้ความสำคัญกับความปลอดภัยและความทนทานในการพัฒนา Phi-3 Mini โมเดลได้ผ่านกระบวนการฝึกอบรมหลังการฝึกอบรมที่เข้มงวดซึ่งรวมถึงการปรับแต่งแบบมีคำแนะนำ (SFT) และการเพิ่มประสิทธิภาพความชอบโดยตรง (DPO)

ขั้นตอน SFT ใช้ข้อมูลที่คัดสรรมาอย่างดีจากหลายโดเมน รวมถึงคณิตศาสตร์ การเขียนโค้ด การให้เหตุผล การสนทนา อัตลักษณ์ของโมเดล และความปลอดภัย ซึ่งช่วยเสริมความสามารถของโมเดลใน这些ด้านในขณะเดียวกันก็ปลูกฝังอัตลักษณ์ที่เข้มแข็งและพฤติกรรมที่มีจริยธรรม

ขั้นตอน DPO มุ่งเน้นไปที่การเบี่ยงเบนโมเดลให้ห่างจากพฤติกรรมที่ไม่พึงประสงค์โดยใช้คำตอบที่ถูกปฏิเสธเป็นตัวอย่างเชิงลบ กระบวนการนี้ครอบคลุมข้อมูลรูปแบบสนทนา งานให้เหตุผล และความพยายามด้าน AI ที่มีความรับผิดชอบ (RAI) เพื่อให้แน่ใจว่า Phi-3 Mini ปฏิบัติตามหลักการ AI ที่มีจริยธรรมและเชื่อถือได้ของไมโครซอฟท์

เพื่อเพิ่มโปรไฟล์ความปลอดภัยของ Phi-3 Mini โมเดลได้ผ่านการทดสอบแบบแดงและการทดสอบอัตโนมัติอย่างกว้างขวางในหลายหมวดหมู่ RAI ทีมแดงอิสระที่ไมโครซอฟท์ตรวจสอบโมเดลอย่างต่อเนื่องเพื่อหาจุดอ่อนและแก้ไขปัญหาเหล่านั้นผ่านชุดข้อมูลที่คัดสรรมาและฝึกอบรมใหม่

แนวทางหลายทางนี้ได้ลดการเกิดคำตอบที่เป็นอันตราย ความไม่ถูกต้องของข้อเท็จจริง และความลำเอียงอย่างมีนัยสำคัญ ตามที่แสดงในมาตรฐาน RAI ภายในของไมโครซอฟท์ ตัวอย่างเช่น โมเดลแสดงอัตราการข้อบกพร่องต่ำสำหรับการดำเนินการต่อเนื่องที่เป็นอันตราย (0.75%) และการสรุป (10%) เช่นเดียวกับอัตราที่ต่ำของการไม่มีเหตุผล (0.603) ซึ่งบ่งชี้ว่าคำตอบของมันอยู่บนพื้นฐานของบริบทที่ให้มา

การประยุกต์ใช้และการใช้งาน

ด้วยผลการทำงานที่น่าประทับใจและมาตรการความปลอดภัยที่เข้มแข็ง Phi-3 Mini เหมาะสำหรับการใช้งานหลากหลาย โดยเฉพาะในสถานการณ์ที่มีการจำกัดทรัพยากรและความล่าช้า

หนึ่งในโอกาสที่น่าตื่นเต้นที่สุดคือการนำผู้ช่วยเสมือนและ AI การสนทนาไปใช้โดยตรงบนอุปกรณ์มือถือ โดยการทำงานบนอุปกรณ์ ผู้ช่วยเหล่านี้สามารถให้คำตอบทันทีโดยไม่ต้องเชื่อมต่ออินเทอร์เน็ต และยังรักษาข้อมูลที่ละเอียดอ่อนไว้บนอุปกรณ์ ซึ่งแก้ไขข้อกังวลเรื่องความเป็นส่วนตัว

ความสามารถในการให้เหตุผลที่เข้มแข็งของ Phi-3 Mini ยังทำให้มันเป็นทรัพย์สินที่มีค่าสำหรับการช่วยเขียนโค้ดและการแก้ปัญหาทางคณิตศาสตร์ ผู้พัฒนาและนักเรียนสามารถได้รับประโยชน์จากการเติมโค้ดอัตโนมัติ การตรวจจับบั๊ก และคำอธิบายบนอุปกรณ์ ซึ่งทำให้กระบวนการพัฒนและการเรียนรู้มีประสิทธิภาพมากขึ้น

นอกเหนือจากนี้ ความสามารถหลายอย่างของโมเดลนี้เปิดโอกาสให้ใช้ในด้านการทำความเข้าใจภาษา การสรุปข้อความ และการตอบคำถาม ความเล็กและประสิทธิภาพของมันทำให้เป็นตัวเลือกที่น่าสนใจสำหรับการฝังความสามารถ AI ลงในอุปกรณ์และระบบต่างๆ ตั้งแต่อุปกรณ์สมาร์ทโฮมไปจนถึงระบบอัตโนมัติทางอุตสาหกรรม

มองไปข้างหน้า: Phi-3 Small และ Phi-3 Medium

ในขณะที่ Phi-3 Mini เป็นความสำเร็จที่น่าประทับใจในตัวเอง ไมโครซอฟท์ยังมีแผนใหญ่กว่านี้สำหรับครอบครัว Phi-3 บริษัทได้แสดงตัวอย่างโมเดลที่ใหญ่กว่าสองรุ่น คือ Phi-3 Small (7 พันล้านพารามิเตอร์) และ Phi-3 Medium (14 พันล้านพารามิเตอร์) ซึ่งคาดว่าจะผลักดันขอบเขตของประสิทธิภาพสำหรับโมเดลภาษาที่มีขนาดกะทัดรัด

Phi-3 Small ใช้ตัวแบ่งคำที่ทันสมัยกว่า (tiktoken) และกลไกการดูแลความสนใจแบบกลุ่ม-คำถาม ร่วมกับชั้นการดูแลความสนใจแบบบล็อกสแปร์ เพื่อปรับขนาดการทำงานในขณะที่รักษาความสามารถในการดึงบริบทยาวไว้ นอกจากนี้ยังรวมข้อมูลหลายภาษาเพิ่มขึ้น 10% เพื่อเพิ่มความสามารถในการเข้าใจและสร้างภาษาหลายภาษา

Phi-3 Medium เป็นตัวแทนของขั้นตอนที่สำคัญในแง่ของขนาด โดยมี 40 เลเยอร์ 40 หัวการดูแลความสนใจ และมิติการฝังที่ 5,120 ในขณะที่ไมโครซอฟท์กล่าวว่าบางมาตรฐานอาจต้องการการปรับข้อมูลฝึกอบรมเพิ่มเติมเพื่อใช้ความสามารถที่เพิ่มขึ้นนี้อย่างเต็มที่ ผลลัพธ์เบื้องต้นนั้นน่าสนใจ โดยมีการปรับปรุงที่สำคัญเหนือ Phi-3 Small ในงานอย่าง MMLU, TriviaQA และ HumanEval

ข้อจำกัดและทิศทางในอนาคต

แม้จะมีความสามารถที่น่าประทับใจ Phi-3 Mini ก็ไม่หลุดพ้นจากข้อจำกัดเช่นเดียวกับโมเดลภาษาทั้งหมด หนึ่งในข้ออ่อนที่เห็นได้ชัดที่สุดคือความสามารถที่จำกัดในการจัดเก็บความรู้ทาง 事実 ซึ่งเห็นได้จากผลการทำงานที่ต่ำกว่าบนมาตรฐานอย่าง TriviaQA

อย่างไรก็ตาม ไมโครซอฟท์เชื่อว่าข้อจำกัดนี้สามารถบรรเทาได้ด้วยการเพิ่มความสามารถในการค้นหาของเครื่องมือค้นหา ทำให้สามารถค้นหาและให้เหตุผลกับข้อมูลที่เกี่ยวข้องได้ตามความต้องการ แนวทางนี้ได้แสดงใน Hugging Face Chat-UI โดยที่ Phi-3 Mini สามารถใช้การค้นหาเพื่อเพิ่มประสิทธิภาพของคำตอบ

อีกด้านหนึ่งที่ต้องการการปรับปรุงคือความสามารถหลายภาษาของโมเดล ในขณะที่ Phi-3 Small ได้เริ่มต้นด้วยการเพิ่มข้อมูลหลายภาษาเพิ่มเติม แต่ยังต้องการงานเพิ่มเติมเพื่อปลดปล่อยศักยภาพของโมเดลกะทัดรัดเหล่านี้สำหรับการใช้งานข้ามภาษา

มองไปข้างหน้า ไมโครซอฟท์ยังคงพัฒนาครอบครัวโมเดล Phi ต่อไป โดยแก้ไขข้อจำกัดและขยายความสามารถ ซึ่งอาจเกี่ยวข้องกับการปรับปรุงข้อมูลฝึกอบรมและวิธีการฝึกอบรม ตลอดจนการสำรวจสถาปัตยกรรมและเทคนิคใหม่ที่ออกแบบมาโดยเฉพาะสำหรับโมเดลภาษาที่มีขนาดกะทัดรัดและมีประสิทธิภาพสูง

สรุป

Phi-3 Mini ของไมโครซอฟท์เป็นก้าวสำคัญในการทำให้ความสามารถ AI ที่ทันสมัยสามารถเข้าถึงได้โดยการนำเสนอประสิทธิภาพระดับแนวหน้าในแพ็คเกจที่มีน้ำหนักเบาและใช้ทรัพยากรน้อย ทำให้เกิดโอกาสใหม่ๆ สำหรับประสบการณ์บนอุปกรณ์ที่มีความฉลาดในหลายๆ ด้าน

แนวทางในการฝึกอบรมที่สร้างสรรค์ของโมเดล ซึ่งเน้นข้อมูลที่มีคุณภาพและหนาแน่นด้วยการให้เหตุผลมากกว่าพลังการคำนวณที่มากเกินไป ได้พิสูจน์แล้วว่าเป็นเกมเชนเจอร์ โดยทำให้ Phi-3 Mini สามารถต่อยอดเหนือชั้นเรียนของมัน เมื่อรวมกับมาตรการความปลอดภัยที่เข้มแข็งและความพยายามในการพัฒนาที่ต่อเนื่อง ครอบครัวโมเดล Phi-3 จึงพร้อมที่จะเล่นบทบาทสำคัญในการกำหนดอนาคตของระบบอัจฉริยะ ทำให้ AI มีความเข้าถึงได้ มีประสิทธิภาพ และเชื่อถือได้มากกว่าเดิม

ในขณะที่อุตสาหกรรมเทคโนโลยียังคงผลักดันขอบเขตของสิ่งที่เป็นไปได้กับ AI การมุ่งเน้นของไมโครซอฟท์ต่อโมเดลที่มีน้ำหนักเบาและมีประสิทธิภาพสูงอย่าง Phi-3 Mini แสดงถึงการเปลี่ยนแปลงที่สดใสจากความคิดที่ว่า “ใหญ่กว่าดีกว่า” โดยการแสดงให้เห็นว่าขนาดไม่ใช่ทุกอย่าง Phi-3 Mini มีศักยภาพในการสร้างแรงบันดาลใจให้เกิดคลื่นใหม่ของนวัตกรรมที่มุ่งเน้นในการเพิ่มคุณค่าและผลกระทบของ AI ผ่านการคัดเลือกข้อมูลอย่างชาญฉลาด การออกแบบโมเดลที่รอบคอบ และแนวปฏิบัติในการพัฒนาที่มีความรับผิดชอบ

Aayush Mittal

ฉันใช้เวลา 5 ปีที่ผ่านมาในการศึกษาและเรียนรู้เกี่ยวกับโลกของ Machine Learning และ Deep Learning อย่างลึกซึ้ง ความรู้และความเชี่ยวชาญของฉันทำให้ฉันได้เข้าร่วมในโครงการพัฒนาซอฟต์แวร์มากกว่า 50 โครงการที่มีความหลากหลาย โดยมุ่งเน้นไปที่ AI/ML ความอยากรู้อยากเห็นของฉันยังดึงดูดให้ฉันสนใจไปที่ Natural Language Processing ซึ่งเป็นสาขาที่ฉันกระตือรือร้นที่จะสำรวจเพิ่มเติม

Unite.AI