Connect with us

داخل Microsoft’s Phi-3 Mini: نموذج إيه آي خفيف الوزن يضرب فوق وزنه

الذكاء الاصطناعي

داخل Microsoft’s Phi-3 Mini: نموذج إيه آي خفيف الوزن يضرب فوق وزنه

mm
Phi-3 : A Highly Capable Language Model Locally on Your Phone

مايكروسوفت كشفت مؤخرًا عن أحدث نموذج لغة خفيف الوزن يسمى Phi-3 Mini، مما ي启动 ثلاثية من النماذج الإيه آي المدمجة المصممة لتوفير أداء على مستوى الدولة مع الحفاظ على صغرها بدرجة كافية للتشغيل بكفاءة على الأجهزة ذات الموارد الحاسوبية المحدودة. عند 3.8 مليار معامل، Phi-3 Mini هو جزء صغير من حجم عمالقة الإيه آي مثل GPT-4، ومع ذلك يpromises يتوافق مع قدراتهم في العديد من المجالات الرئيسية.

تطوير Phi-3 Mini يمثل حدثًا مهمًا في السعي لتحقيق الديمقراطية القدرات الإيه آي المتقدمة من خلال جعلها متاحة على مجموعة أوسع من الأجهزة. بصمة صغيرة تسمح لها بالتحرك محليًا على الهواتف الذكية والألواح والاجهزة الحرفية الأخرى، وتحقيق زمن التأخير والاهتمامات المتعلقة بالنمذجة السحابية. هذا يفتح إمكانيات جديدة لتجارب ذكية على الجهاز عبر مجالات مختلفة، من المساعدين الافتراضيين والإيه آي الحوارية إلى مساعدي البرمجة وفهم اللغة.

4-bit quantized phi-3-mini running natively on an iPhone
4-bit quantized phi-3-mini running natively on an iPhone

تحت الغطاء: الهيكل والتدريب

في جوهره، Phi-3 Mini هو نموذج فك ترميز Transformer مبني على هيكل مشابه لنموذج Llama-2 المفتوح المصدر. يضم 32 طبقة، 3072 بعدًا مخفيًا، و 32 رأسًا انتباهيًا، مع طول سياق افتراضي يبلغ 4,000 رمز. كما قدمت مايكروسوفت إصدارًا طويلًا يسمى Phi-3 Mini-128K، الذي يمتد طول السياق إلى 128,000 رمز باستخدام تقنيات مثل LongRope.

ما يميز Phi-3 Mini، ومع ذلك، هو منهجية تدريبه. بدلاً من الاعتماد فقط على قوة البيانات الضخمة والقدرة الحاسوبية، ركزت مايكروسوفت على تحضير مجموعة بيانات تدريب عالية الجودة وغنية بالاستدلال. يتكون هذا البيانات من بيانات الويب المفلترة بشدة، بالإضافة إلى بيانات اصطناعية تم توليدها بواسطة نماذج لغة أكبر.

يتابع عملية التدريب نهجًا من مرحلتين. في المرحلة الأولى، يتم تعرض النموذج إلى مجموعة متنوعة من مصادر الويب تهدف إلى تعليمه المعرفة العامة وفهم اللغة. المرحلة الثانية تجمع بين بيانات الويب المفلترة بشكل أكبر مع بيانات اصطناعية مصممة لتعليم مهارات المنطق والخبرة في المجالات المتخصصة.

تسمي مايكروسوفت هذا النهج “النظام الأمثل للبيانات”، وهو انحراف عن “النظام الأمثل للحوسبة” أو “نظام التدريب الزائد” الذي تستخدمه العديد من نماذج اللغة الكبيرة. الهدف هو ضبط بيانات التدريب لتطابق حجم النموذج، وتوفير مستوى المعرفة والقدرة على الاستدلال بينما تترك سعة كافية للقدرات الأخرى.

Quality of new Phi-3 models, as measured by performance on the Massive Multitask Language Understanding (MMLU) benchmark
Quality of new Phi-3 models, as measured by performance on the Massive Multitask Language Understanding (MMLU) benchmark

لقد أدى هذا النهج القائم على البيانات إلى نتائج ملحوظة، حيث يحقق Phi-3 Mini أداءًremarkable على مجموعة واسعة من المعايير الأكاديمية، وغالبًا ما يتجاوز أو يتجاوز نماذج أكبر بكثير. على سبيل المثال، يسجل 69٪ على معيار MMLU للتعلم المتعدد والمفاهيم، و 8.38 على معيار MT-bench للتفكير الرياضي – نتائج تتوافق مع نماذج مثل Mixtral 8x7B و GPT-3.5.

الأمان والمتانة

إلى جانب أدائه المثير للإعجاب، وضعت مايكروسوفت تركيزًا قويًا على الأمان والمتانة في تطوير Phi-3 Mini. خضع النموذج لعملية تدريب مكثفة بعد التدريب تتضمن تعديل دقيق مخطط (SFT) وتحسين التفضيل المباشر (DPO).

مرحلة SFT تستخدم بيانات مخططة عالية الجودة عبر مجالات متنوعة، بما في ذلك الرياضيات والبرمجة والمنطق والتفاعل والهوية والسلامة. هذا يساعد على تعزيز قدرات النموذج في هذه المجالات بينما يغرس حسًا قويًا من الهوية والسلوك الأخلاقي.

مرحلة DPO، من ناحية أخرى، تركز على تحويل النموذج بعيدًا عن السلوكيات غير المرغوب فيها من خلال استخدام الاستجابات المرفوضة كأمثلة سلبية. يتضمن هذا العملية بيانات تنسيق المحادثة، ومهام المنطق، وجهود الإيه آي المسؤولة (RAI)، مما يضمن أن Phi-3 Mini يلتزم بمبادئ مايكروسوفت للإيه آي الموثوقة والأخلاقية.

لتعزيز ملف تعريف الأمان، خضع Phi-3 Mini للاختبار الشامل والتجارب الآلية عبر عشرات فئات RAI للتسبب. فريق红 مستقل في مايكروسوفت فحص النموذج بشكل متكرر، وحدد مجالات للتحسين، والتي تمت معالجتها من خلال مجموعات بيانات مخططة إضافية وإعادة التدريب.

لقد أدى هذا النهج المتعدد إلى تقليل حدوث الاستجابات الضارة، والأخطاء الواقعية، والتحيزات، كما هو موضح في معايير RAI الداخلية لمايكروسوفت. على سبيل المثال، يظهر النموذج معدلات عيوب منخفضة لاستمرار المحتوى الضار (0.75٪) والتلخيص (10٪)، بالإضافة إلى معدل منخفض من عدم وجود أساس (0.603)، مما يشير إلى أن استجاباته متجذرة بشكل جيد في السياق المحدد.

التطبيقات والحالات

مع أدائه المثير للإعجاب وخطوات الأمان القوية، Phi-3 Mini مناسب جيدًا لمجموعة واسعة من التطبيقات، خاصة في البيئات المحدودة الموارد والسيناريوهات الحساسة للزمن.

واحدة من أكثر الفرص إثارة هي نشر المساعدين الافتراضيين الذكيين والإيه آي الحوارية مباشرة على أجهزة المحمول. من خلال التشغيل المحلي، يمكن لهؤلاء المساعدين تقديم استجابات فورية دون الحاجة إلى اتصال شبكة، مع ضمان أن البيانات الحساسة تبقى على الجهاز، مما يعالج مخاوف الخصوصية.

قدرات المنطق القوية ل Phi-3 Mini تجعلها أيضًا موردًا قيمًا للمساعدة في البرمجة وحل المشكلات الرياضية. يمكن لمطوري البرامج والطلاب الاستفادة من إكمال الكود المحلي، وكشف الأخطاء، والشرح، مما يسرع عملية التطوير والتعلم.

خارج هذه التطبيقات، تفتح مرونة النموذج فرصًا في مجالات مثل فهم اللغة، و تلخيص النص، وตอบ على الأسئلة. حجمه الصغير والكفاءة تجعله خيارًا جذابًا لتضمين قدرات الإيه آي في مجموعة واسعة من الأجهزة والأنظمة، من أجهزة المنزل الذكية إلى أنظمة التأتمت الصناعية.

النظر إلى الأمام: Phi-3 الصغيرة و Phi-3 المتوسطة

في حين أن Phi-3 Mini هو إنجاز رائع بذاته، لدى مايكروسوفت خطط أكبر للعائلة Phi-3. وقد قدمت الشركة بالفعل معاينة لنموذجين أكبر، Phi-3 الصغيرة (7 مليار معامل) و Phi-3 المتوسطة (14 مليار معامل)، وكلاهما من المتوقع أن يدفع حدود الأداء لنماذج اللغة المدمجة.

Phi-3 الصغيرة، على سبيل المثال، يستخدم معالجًا أكثر تقدمًا (tiktoken) وآلية انتباه المجموعة، جنبًا إلى جنب مع طبقة انتباه Blocksparse الجديدة، لتحسين بصمة الذاكرة بينما يحافظ على أداء استرجاع السياق الطويل. كما يدمج 10٪ إضافية من البيانات المتعددة اللغات، مما يعزز قدراته في فهم اللغة وتوليد اللغة عبر لغات متعددة.

Phi-3 المتوسطة، من ناحية أخرى، يمثل خطوة كبيرة في الحجم، مع 40 طبقة، و 40 رأس انتباه، وبعد التضمين 5120. بينما تشير مايكروسوفت إلى أن بعض المعايير قد تتطلب مزيدًا من تعديل مزيج بيانات التدريب للاستفادة الكاملة من هذه السعة المتزايدة، النتائج الأولية واعدة، مع تحسينات كبيرة على Phi-3 الصغيرة في مهام مثل MMLU، و TriviaQA، و HumanEval.

القيود والتوجيهات المستقبلية

على الرغم من قدراته المثيرة للإعجاب، Phi-3 Mini، مثل جميع نماذج اللغة، ليس بدون قيود. واحدة من أبرز الضعف هي سعتها المحدودة相対 لتحقيق المعرفة الواقعية، كما هو موضح في أدائه الأقل على معايير مثل TriviaQA.

然而، تعتقد مايكروسوفت أن هذه القصور يمكن تخفيفها من خلال تعزيز النموذج بقدرات محرك البحث، مما يسمح له بالبحث والاستدلال على المعلومات ذات الصلة عند الطلب. هذا النهج موضح في واجهة تشات Hugging Face، حيث يمكن لـ Phi-3 Mini استخدام البحث لتعزيز استجاباته.

مجال آخر للتحسين هو القدرات المتعددة اللغات للنموذج. بينما اتخذت Phi-3 الصغيرة خطوات أولية من خلال دمج بيانات متعددة اللغات إضافية، هناك حاجة إلى مزيد من العمل لفتح إمكانيات هذه النماذج المدمجة بالكامل للتطبيقات متعددة اللغات.

النظر إلى الأمام، تلتزم مايكروسوفت بمواصلة تحسين عائلة Phi من النماذج، ومعالجة قيودها، وتوسيع قدراتها. قد يتضمن هذا تعديلات إضافية لبيانات التدريب والمنهجية، بالإضافة إلى استكشاف هيكلات و تقنيات جديدة مخصصة لنماذج اللغة المدمجة والأداء العالي.

الاستنتاج

يمثل Phi-3 Mini من مايكروسوفت قفزة كبيرة في ديمقراطية القدرات الإيه آي المتقدمة. من خلال تقديم أداء على مستوى الدولة في حزمة خفيفة وذكية للموارد، يفتح فرصًا جديدة لتجارب ذكية على الجهاز عبر مجموعة واسعة من التطبيقات.

النهج التدريبي المبتكر للنموذج، الذي يؤكد على بيانات عالية الجودة وغنية بالاستدلال أكثر من القوة الحاسوبية، أثبت أنه مغير للعبة، مما يسمح لـ Phi-3 Mini بالضرب فوق فئته الوزنية. متوافق مع إجراءات الأمان القوية، والجهود التطويرية المستمرة، فإن عائلة Phi من النماذج على وشك لعب دور حاسم في تشكيل مستقبل الأنظمة الذكية، مما يجعل الإيه آي أكثر إمكانية الوصول، والكفاءة، والموثوقية من أي وقت مضى.

كما تواصل صناعة التكنولوجيا دفع حدود ما هو ممكن مع الإيه آي، فإن التزام مايكروسوفت بنماذج خفيفة الوزن وأداء عالٍ مثل Phi-3 Mini يمثل انحرافًا محفزًا عن الحكمة التقليدية التي تقول “الأكبر هو الأفضل”. من خلال إثبات أن الحجم ليس كل شيء، Phi-3 Mini لديه الإمكانية لإلهام موجة جديدة من الابتكار تركز على تعظيم قيمة وتأثير الإيه آي من خلال تحضير البيانات الذكي، وتصميم النموذج المعتدل، وممارسات التطوير المسؤولة.

لقد قمت بإنفاق الخمس سنوات الماضية في غمرة العالم المثير للاهتمام من تعلم الآلة والتعلم العميق. وقد أدت شغفي وخبرتي إلى المساهمة في أكثر من 50 مشروعًا للهندسة البرمجية متنوعًا، مع التركيز بشكل خاص على الذكاء الاصطناعي / تعلم الآلة. كما أدت فضولي المستمر إلى جذبي نحو معالجة اللغة الطبيعية، وهو مجال أنا حريص على استكشافه بشكل أكبر.