ปัญญาประดิษฐ์
ภายใน Microsoft’s Phi-3 Mini: โมเดล AI ที่มีน้ำหนักเบาแต่ประสิทธิภาพสูง
การพัฒนา Phi-3 Mini เป็น 里程碑 ที่สำคัญในการทำให้ความสามารถ AI ที่ทันสมัยสามารถเข้าถึงได้โดยทำให้สามารถทำงานบนฮาร์ดแวร์ที่หลากหลายมากขึ้น เนื่องจากมีขนาดเล็ก จึงสามารถติดตั้งได้บนสมาร์ทโฟน แท็บเล็ต และอุปกรณ์เอดจ์ ทำให้สามารถเอาชนะปัญหาเรื่องความล่าช้าและความเป็นส่วนตัวที่เกี่ยวข้องกับโมเดลบนคลาวด์ ซึ่งเปิดโอกาสใหม่ๆ สำหรับประสบการณ์บนอุปกรณ์ที่มีความฉลาดในหลายๆ ด้าน ตั้งแต่ผู้ช่วยเสมือนและ AI การสนทนา ไปจนถึงผู้ช่วยเขียนโค้ดและการทำความเข้าใจภาษา

- 4-bit quantized phi-3-mini running natively on iPhone
ภายใต้ฝากระโปรง: สถาปัตยกรรมและการฝึกอบรม
ในแก่นแท้ Phi-3 Mini เป็นโมเดลตัวถอดรหัสทรานส์ฟอร์เมอร์ที่สร้างขึ้นจากสถาปัตยกรรมที่คล้ายกับโมเดล Llama-2 ที่เปิดแหล่งที่มา มี 32 เลเยอร์ 3072 มิติที่ซ่อนอยู่ และ 32 หัวการดูแลความสนใจ โดยมีความยาวบริบทเริ่มต้น 4,000 โทเคน ไมโครซอฟท์ยังได้แนะนำรุ่นบริบทยาวที่เรียกว่า Phi-3 Mini-128K ซึ่งยืดความยาวบริบทไปถึง 128,000 โทเคนโดยใช้เทคนิคอย่าง LongRope
สิ่งที่ทำให้ Phi-3 Mini แตกต่างคือวิธีการฝึกอบรม มากกว่าการพึ่งพาเพียงพลังการประมวลผลและข้อมูลจำนวนมาก ไมโครซอฟท์ให้ความสำคัญกับการสร้างชุดข้อมูลฝึกอบรมที่มีคุณภาพสูงและหนาแน่นด้วยการให้เหตุผล ชุดข้อมูลนี้ประกอบด้วยข้อมูลเว็บที่ผ่านการกรองอย่างหนักและข้อมูลสังเคราะห์ที่สร้างโดยโมเดลภาษาขนาดใหญ่
กระบวนการฝึกอบรมแบ่งออกเป็นสองขั้นตอน ในขั้นตอนแรก โมเดลจะถูกสัมผัสกับแหล่งข้อมูลเว็บที่หลากหลายเพื่อสอนให้เข้าใจภาษาและความรู้ทั่วไป ในขั้นตอนที่สอง จะรวมข้อมูลเว็บที่ผ่านการกรองอย่างหนักมากขึ้นพร้อมกับข้อมูลสังเคราะห์ที่ออกแบบมาเพื่อสอนทักษะการให้เหตุผลและการทำงานในโดเมนเฉพาะ
ไมโครซอฟท์เรียกแนวทางนี้ว่า “การฝึกอบรมใน chế độที่เหมาะสมกับข้อมูล” ซึ่งเป็นการเปลี่ยนแปลงจาก “การฝึกอบรมใน chế độที่เหมาะสมกับการคำนวณ” หรือ “การฝึกอบรมมากเกินไป” ที่ใช้กันอย่างแพร่หลายในโมเดลภาษาขนาดใหญ่ เป้าหมายคือการปรับข้อมูลฝึกอบรมให้เหมาะสมกับขนาดของโมเดล โดยให้ความรู้และความสามารถในการให้เหตุผลที่เหมาะสมในขณะเดียวกันก็เหลือพื้นที่ให้เพียงพอสำหรับความสามารถอื่นๆ

- คุณภาพของโมเดล Phi-3 ใหม่ เมื่อวัดจากผลการทำงานบน MMLU
แนวทางที่เน้นข้อมูลนี้ได้ผลดี เนื่องจาก Phi-3 Mini มีผลการทำงานที่น่าประทับใจบนพื้นฐานการประเมินวิชาการหลายอย่าง ซึ่งบางครั้งสามารถเทียบเท่าหรือเหนือกว่าโมเดลที่มีขนาดใหญ่กว่ามาก เช่น มันทำคะแนนได้ 69% บน MMLU สำหรับการเรียนรู้และทำความเข้าใจหลายงาน และ 8.38 บน MT-bench สำหรับการให้เหตุผลทางคณิตศาสตร์ — ผลลัพธ์เหล่านี้อยู่ในระดับเดียวกับโมเดลอย่าง Mixtral 8x7B และ GPT-3.5
ความปลอดภัยและความทนทาน
ร่วมกับผลการทำงานที่น่าประทับใจ ไมโครซอฟท์ยังให้ความสำคัญกับความปลอดภัยและความทนทานในการพัฒนา Phi-3 Mini โมเดลได้ผ่านกระบวนการฝึกอบรมหลังการฝึกอบรมที่เข้มงวดซึ่งรวมถึงการปรับแต่งแบบมีคำแนะนำ (SFT) และการเพิ่มประสิทธิภาพความชอบโดยตรง (DPO)
ขั้นตอน SFT ใช้ข้อมูลที่คัดสรรมาอย่างดีจากหลายโดเมน รวมถึงคณิตศาสตร์ การเขียนโค้ด การให้เหตุผล การสนทนา อัตลักษณ์ของโมเดล และความปลอดภัย ซึ่งช่วยเสริมความสามารถของโมเดลใน这些ด้านในขณะเดียวกันก็ปลูกฝังอัตลักษณ์ที่เข้มแข็งและพฤติกรรมที่มีจริยธรรม
ขั้นตอน DPO มุ่งเน้นไปที่การเบี่ยงเบนโมเดลให้ห่างจากพฤติกรรมที่ไม่พึงประสงค์โดยใช้คำตอบที่ถูกปฏิเสธเป็นตัวอย่างเชิงลบ กระบวนการนี้ครอบคลุมข้อมูลรูปแบบสนทนา งานให้เหตุผล และความพยายามด้าน AI ที่มีความรับผิดชอบ (RAI) เพื่อให้แน่ใจว่า Phi-3 Mini ปฏิบัติตามหลักการ AI ที่มีจริยธรรมและเชื่อถือได้ของไมโครซอฟท์
เพื่อเพิ่มโปรไฟล์ความปลอดภัยของ Phi-3 Mini โมเดลได้ผ่านการทดสอบแบบแดงและการทดสอบอัตโนมัติอย่างกว้างขวางในหลายหมวดหมู่ RAI ทีมแดงอิสระที่ไมโครซอฟท์ตรวจสอบโมเดลอย่างต่อเนื่องเพื่อหาจุดอ่อนและแก้ไขปัญหาเหล่านั้นผ่านชุดข้อมูลที่คัดสรรมาและฝึกอบรมใหม่
แนวทางหลายทางนี้ได้ลดการเกิดคำตอบที่เป็นอันตราย ความไม่ถูกต้องของข้อเท็จจริง และความลำเอียงอย่างมีนัยสำคัญ ตามที่แสดงในมาตรฐาน RAI ภายในของไมโครซอฟท์ ตัวอย่างเช่น โมเดลแสดงอัตราการข้อบกพร่องต่ำสำหรับการดำเนินการต่อเนื่องที่เป็นอันตราย (0.75%) และการสรุป (10%) เช่นเดียวกับอัตราที่ต่ำของการไม่มีเหตุผล (0.603) ซึ่งบ่งชี้ว่าคำตอบของมันอยู่บนพื้นฐานของบริบทที่ให้มา
การประยุกต์ใช้และการใช้งาน
ด้วยผลการทำงานที่น่าประทับใจและมาตรการความปลอดภัยที่เข้มแข็ง Phi-3 Mini เหมาะสำหรับการใช้งานหลากหลาย โดยเฉพาะในสถานการณ์ที่มีการจำกัดทรัพยากรและความล่าช้า
หนึ่งในโอกาสที่น่าตื่นเต้นที่สุดคือการนำผู้ช่วยเสมือนและ AI การสนทนาไปใช้โดยตรงบนอุปกรณ์มือถือ โดยการทำงานบนอุปกรณ์ ผู้ช่วยเหล่านี้สามารถให้คำตอบทันทีโดยไม่ต้องเชื่อมต่ออินเทอร์เน็ต และยังรักษาข้อมูลที่ละเอียดอ่อนไว้บนอุปกรณ์ ซึ่งแก้ไขข้อกังวลเรื่องความเป็นส่วนตัว
ความสามารถในการให้เหตุผลที่เข้มแข็งของ Phi-3 Mini ยังทำให้มันเป็นทรัพย์สินที่มีค่าสำหรับการช่วยเขียนโค้ดและการแก้ปัญหาทางคณิตศาสตร์ ผู้พัฒนาและนักเรียนสามารถได้รับประโยชน์จากการเติมโค้ดอัตโนมัติ การตรวจจับบั๊ก และคำอธิบายบนอุปกรณ์ ซึ่งทำให้กระบวนการพัฒนและการเรียนรู้มีประสิทธิภาพมากขึ้น
นอกเหนือจากนี้ ความสามารถหลายอย่างของโมเดลนี้เปิดโอกาสให้ใช้ในด้านการทำความเข้าใจภาษา การสรุปข้อความ และการตอบคำถาม ความเล็กและประสิทธิภาพของมันทำให้เป็นตัวเลือกที่น่าสนใจสำหรับการฝังความสามารถ AI ลงในอุปกรณ์และระบบต่างๆ ตั้งแต่อุปกรณ์สมาร์ทโฮมไปจนถึงระบบอัตโนมัติทางอุตสาหกรรม
มองไปข้างหน้า: Phi-3 Small และ Phi-3 Medium
ในขณะที่ Phi-3 Mini เป็นความสำเร็จที่น่าประทับใจในตัวเอง ไมโครซอฟท์ยังมีแผนใหญ่กว่านี้สำหรับครอบครัว Phi-3 บริษัทได้แสดงตัวอย่างโมเดลที่ใหญ่กว่าสองรุ่น คือ Phi-3 Small (7 พันล้านพารามิเตอร์) และ Phi-3 Medium (14 พันล้านพารามิเตอร์) ซึ่งคาดว่าจะผลักดันขอบเขตของประสิทธิภาพสำหรับโมเดลภาษาที่มีขนาดกะทัดรัด
Phi-3 Small ใช้ตัวแบ่งคำที่ทันสมัยกว่า (tiktoken) และกลไกการดูแลความสนใจแบบกลุ่ม-คำถาม ร่วมกับชั้นการดูแลความสนใจแบบบล็อกสแปร์ เพื่อปรับขนาดการทำงานในขณะที่รักษาความสามารถในการดึงบริบทยาวไว้ นอกจากนี้ยังรวมข้อมูลหลายภาษาเพิ่มขึ้น 10% เพื่อเพิ่มความสามารถในการเข้าใจและสร้างภาษาหลายภาษา
Phi-3 Medium เป็นตัวแทนของขั้นตอนที่สำคัญในแง่ของขนาด โดยมี 40 เลเยอร์ 40 หัวการดูแลความสนใจ และมิติการฝังที่ 5,120 ในขณะที่ไมโครซอฟท์กล่าวว่าบางมาตรฐานอาจต้องการการปรับข้อมูลฝึกอบรมเพิ่มเติมเพื่อใช้ความสามารถที่เพิ่มขึ้นนี้อย่างเต็มที่ ผลลัพธ์เบื้องต้นนั้นน่าสนใจ โดยมีการปรับปรุงที่สำคัญเหนือ Phi-3 Small ในงานอย่าง MMLU, TriviaQA และ HumanEval
ข้อจำกัดและทิศทางในอนาคต
แม้จะมีความสามารถที่น่าประทับใจ Phi-3 Mini ก็ไม่หลุดพ้นจากข้อจำกัดเช่นเดียวกับโมเดลภาษาทั้งหมด หนึ่งในข้ออ่อนที่เห็นได้ชัดที่สุดคือความสามารถที่จำกัดในการจัดเก็บความรู้ทาง 事実 ซึ่งเห็นได้จากผลการทำงานที่ต่ำกว่าบนมาตรฐานอย่าง TriviaQA
อย่างไรก็ตาม ไมโครซอฟท์เชื่อว่าข้อจำกัดนี้สามารถบรรเทาได้ด้วยการเพิ่มความสามารถในการค้นหาของเครื่องมือค้นหา ทำให้สามารถค้นหาและให้เหตุผลกับข้อมูลที่เกี่ยวข้องได้ตามความต้องการ แนวทางนี้ได้แสดงใน Hugging Face Chat-UI โดยที่ Phi-3 Mini สามารถใช้การค้นหาเพื่อเพิ่มประสิทธิภาพของคำตอบ
อีกด้านหนึ่งที่ต้องการการปรับปรุงคือความสามารถหลายภาษาของโมเดล ในขณะที่ Phi-3 Small ได้เริ่มต้นด้วยการเพิ่มข้อมูลหลายภาษาเพิ่มเติม แต่ยังต้องการงานเพิ่มเติมเพื่อปลดปล่อยศักยภาพของโมเดลกะทัดรัดเหล่านี้สำหรับการใช้งานข้ามภาษา
มองไปข้างหน้า ไมโครซอฟท์ยังคงพัฒนาครอบครัวโมเดล Phi ต่อไป โดยแก้ไขข้อจำกัดและขยายความสามารถ ซึ่งอาจเกี่ยวข้องกับการปรับปรุงข้อมูลฝึกอบรมและวิธีการฝึกอบรม ตลอดจนการสำรวจสถาปัตยกรรมและเทคนิคใหม่ที่ออกแบบมาโดยเฉพาะสำหรับโมเดลภาษาที่มีขนาดกะทัดรัดและมีประสิทธิภาพสูง
สรุป
Phi-3 Mini ของไมโครซอฟท์เป็นก้าวสำคัญในการทำให้ความสามารถ AI ที่ทันสมัยสามารถเข้าถึงได้โดยการนำเสนอประสิทธิภาพระดับแนวหน้าในแพ็คเกจที่มีน้ำหนักเบาและใช้ทรัพยากรน้อย ทำให้เกิดโอกาสใหม่ๆ สำหรับประสบการณ์บนอุปกรณ์ที่มีความฉลาดในหลายๆ ด้าน
แนวทางในการฝึกอบรมที่สร้างสรรค์ของโมเดล ซึ่งเน้นข้อมูลที่มีคุณภาพและหนาแน่นด้วยการให้เหตุผลมากกว่าพลังการคำนวณที่มากเกินไป ได้พิสูจน์แล้วว่าเป็นเกมเชนเจอร์ โดยทำให้ Phi-3 Mini สามารถต่อยอดเหนือชั้นเรียนของมัน เมื่อรวมกับมาตรการความปลอดภัยที่เข้มแข็งและความพยายามในการพัฒนาที่ต่อเนื่อง ครอบครัวโมเดล Phi-3 จึงพร้อมที่จะเล่นบทบาทสำคัญในการกำหนดอนาคตของระบบอัจฉริยะ ทำให้ AI มีความเข้าถึงได้ มีประสิทธิภาพ และเชื่อถือได้มากกว่าเดิม
ในขณะที่อุตสาหกรรมเทคโนโลยียังคงผลักดันขอบเขตของสิ่งที่เป็นไปได้กับ AI การมุ่งเน้นของไมโครซอฟท์ต่อโมเดลที่มีน้ำหนักเบาและมีประสิทธิภาพสูงอย่าง Phi-3 Mini แสดงถึงการเปลี่ยนแปลงที่สดใสจากความคิดที่ว่า “ใหญ่กว่าดีกว่า” โดยการแสดงให้เห็นว่าขนาดไม่ใช่ทุกอย่าง Phi-3 Mini มีศักยภาพในการสร้างแรงบันดาลใจให้เกิดคลื่นใหม่ของนวัตกรรมที่มุ่งเน้นในการเพิ่มคุณค่าและผลกระทบของ AI ผ่านการคัดเลือกข้อมูลอย่างชาญฉลาด การออกแบบโมเดลที่รอบคอบ และแนวปฏิบัติในการพัฒนาที่มีความรับผิดชอบ












