اتصل بنا للحصول على مزيد من المعلومات

داخل DBRX: Databricks تطلق العنان لـ LLM قوية مفتوحة المصدر

الذكاء الاصطناعي

داخل DBRX: Databricks تطلق العنان لـ LLM قوية مفتوحة المصدر

mm
DBRX: LLM مفتوحة جديدة ومتطورة

في مجال نماذج اللغات الكبيرة (LLMs) الذي يتقدم بسرعة، ظهر نموذج قوي جديد - DBRX، نموذج مفتوح المصدر تم إنشاؤه بواسطة Databricksيحقق برنامج الماجستير في القانون هذا نجاحًا كبيرًا بفضل أدائه المتطور عبر مجموعة واسعة من المعايير، حتى أنه ينافس قدرات عمالقة الصناعة مثل GPT-4 من OpenAI.

يُمثل DBRX إنجازًا هامًا في تعميم الذكاء الاصطناعي، إذ يُتيح للباحثين والمطورين والشركات وصولًا مفتوحًا إلى نموذج لغوي عالي المستوى. ولكن ما هو DBRX تحديدًا، وما الذي يجعله مميزًا؟ في هذه الدراسة التقنية المُعمّقة، سنستكشف البنية المبتكرة، وعملية التدريب، والقدرات الرئيسية التي دفعت DBRX إلى صدارة مجال برامج ماجستير القانون المفتوحة.

نشأة DBRX. انطلقت DBRX من رسالة Databricks المتمثلة في جعل ذكاء البيانات في متناول جميع المؤسسات. وبصفتها شركة رائدة في منصات تحليل البيانات، أدركت Databricks الإمكانات الهائلة لبرامج الماجستير في القانون (LLM)، وسعت جاهدةً لتطوير نموذج يُضاهي، بل ويتفوق، على أداء العروض الحصرية.

بعد أشهر من البحث والتطوير المكثف واستثمار بملايين الدولارات، حقق فريق Databricks إنجازًا كبيرًا مع DBRX. وقد رسّخ الأداء المتميز للنموذج في مجموعة واسعة من المعايير، بما في ذلك فهم اللغات والبرمجة والرياضيات، مكانته كنموذج رائد في مجال برامج ماجستير القانون المفتوحة.

العمارة المبتكرة

قوة مزيج الخبراء: يكمن جوهر الأداء الاستثنائي لـ DBRX في بنيته المبتكرة لمزيج الخبراء (MoE). يُمثل هذا التصميم المتطور انحرافًا عن النماذج التقليدية الكثيفة، إذ يعتمد نهجًا مُبسطًا يُعزز كفاءة التدريب المسبق وسرعة الاستدلال.

في إطار عمل وزارة التربية والتعليم، يتم تفعيل مجموعة مختارة فقط من المكونات، تسمى "الخبراء"، لكل مدخلات. يسمح هذا التخصص للنموذج بمعالجة مجموعة واسعة من المهام بمهارة أكبر، مع تحسين الموارد الحسابية أيضًا.

تُطوّر DBRX هذا المفهوم أكثر بفضل تصميمها الدقيق لـ MoE. فعلى عكس بعض طرازات MoE الأخرى التي تستخدم عددًا أقل من الخبراء الأكبر حجمًا، توظف DBRX 16 خبيرًا، أربعة منهم نشطون لأي مُدخلات. يوفر هذا التصميم إمكانيات مذهلة لتركيبات الخبراء تزيد 65 مرة، مما يُسهم بشكل مباشر في الأداء المُتفوق لـ DBRX.

تتميز DBRX بالعديد من الميزات المبتكرة:

  • ترميزات الموضع الدوار (RoPE): يعزز فهم مواضع الرمز المميز، وهو أمر بالغ الأهمية لإنشاء نص دقيق للسياق.
  • الوحدات الخطية المسورة (GLU): يقدم آلية بوابة تعمل على تعزيز قدرة النموذج على تعلم الأنماط المعقدة بكفاءة أكبر.
  • انتباه الاستعلام المجمع (GQA): تحسين كفاءة النموذج من خلال تحسين آلية الاهتمام.
  • الترميز المتقدم: يستخدم برنامج GPT-4 لمعالجة المدخلات بشكل أكثر فعالية.

تعتبر بنية وزارة التعليم مناسبة بشكل خاص لنماذج اللغات واسعة النطاق، لأنها تسمح بتوسيع نطاق أكثر كفاءة واستخدام أفضل للموارد الحسابية. ومن خلال توزيع عملية التعلم عبر شبكات فرعية متخصصة متعددة، يمكن لـ DBRX تخصيص البيانات والقوة الحسابية بشكل فعال لكل مهمة، مما يضمن مخرجات عالية الجودة والكفاءة المثلى.

بيانات تدريب شاملة وتحسين فعال. مع أن بنية DBRX مبهرة بلا شك، إلا أن قوتها الحقيقية تكمن في عملية التدريب الدقيقة والكم الهائل من البيانات التي تعرضت لها. تم تدريب DBRX مسبقًا على 12 تريليون رمز من النصوص وبيانات الشفرة، مُختارة بعناية لضمان الجودة العالية والتنوع.

تمت معالجة بيانات التدريب باستخدام مجموعة أدوات Databricks، بما في ذلك Apache Spark لمعالجة البيانات، وUnity Catalog لإدارة البيانات وحوكمتها، وMLflow لتتبع التجارب. أتاحت هذه المجموعة الشاملة لفريق Databricks إدارة مجموعة البيانات الضخمة واستكشافها وتحسينها بفعالية، مما أرسى الأساس لأداء DBRX الاستثنائي.

لتعزيز قدرات النموذج، استخدمت Databricks منهجًا تدريبيًا مسبقًا ديناميكيًا، مع تنويع مزيج البيانات بشكل مبتكر أثناء التدريب. أتاحت هذه الاستراتيجية معالجة كل رمز بفعالية باستخدام 36 مليار معلمة نشطة، مما أدى إلى نموذج أكثر شمولًا وقابلية للتكيف.

علاوة على ذلك، تم تحسين عملية تدريب DBRX لتحقيق الكفاءة، بالاستفادة من مجموعة أدوات ومكتبات Databricks الحصرية، بما في ذلك Composer وLLM Foundry وMegaBlocks وStreaming. ومن خلال استخدام تقنيات مثل تعلم المناهج واستراتيجيات التحسين المُحسّنة، حقق الفريق تحسنًا في كفاءة الحوسبة بنحو أربعة أضعاف مقارنةً بنماذجهم السابقة.

التدريب والهندسة المعمارية

تم تدريب DBRX باستخدام نموذج التنبؤ بالرمز المميز التالي على مجموعة بيانات ضخمة مكونة من 12 تريليون رمز مميز، مع التركيز على كل من النص والرمز. يُعتقد أن مجموعة التدريب هذه أكثر فعالية بكثير من تلك المستخدمة في النماذج السابقة، مما يضمن فهمًا غنيًا وقدرة على الاستجابة عبر المطالبات المتنوعة.

لا تُعدّ بنية DBRX دليلاً على براعة Databricks التقنية فحسب، بل تُبرز أيضاً تطبيقاتها في قطاعات متعددة. من تحسين تفاعلات روبوتات الدردشة إلى دعم مهام تحليل البيانات المعقدة، يُمكن دمج DBRX في مجالات متنوعة تتطلب فهماً لغوياً دقيقاً.

من اللافت للنظر أن DBRX Instruct ينافس حتى بعضًا من أكثر النماذج المغلقة تقدمًا في السوق. ووفقًا لقياسات Databricks، فإنه يتفوق على GPT-3.5 وينافس Gemini 1.0 Pro وMistral Medium في معايير مختلفة، بما في ذلك المعرفة العامة، والتفكير المنطقي، والبرمجة، والمنطق الرياضي.

على سبيل المثال، في معيار MMLU، الذي يقيس فهم اللغة، حقق DBRX Instruct درجة 73.7%، متفوقًا على درجة GPT-3.5 المعلنة والبالغة 70.0%. وفي معيار HellaSwag للاستدلال المنطقي، حقق DBRX Instruct درجة رائعة بلغت 89.0%، متجاوزًا نسبة 3.5% التي حققها GPT-85.5.

يتألق DBRX Instruct حقًا، حيث حقق دقة رائعة بنسبة 70.1% وفقًا لمعيار HumanEval، متفوقًا ليس فقط على GPT-3.5 (48.1%) ولكن أيضًا على نموذج CodeLLaMA-70B Instruct المتخصص (67.8%).

وتسلط هذه النتائج الاستثنائية الضوء على تنوع DBRX وقدرته على التفوق في مجموعة متنوعة من المهام، بدءًا من فهم اللغة الطبيعية إلى البرمجة المعقدة وحل المشكلات الرياضية.

كفاءة الاستدلال وقابلية التوسع: من أهم مزايا بنية MoE في DBRX كفاءتها أثناء الاستدلال. بفضل التنشيط المحدود للمعلمات، يمكن لـ DBRX تحقيق معدل استدلال أسرع بمرتين إلى ثلاث مرات من النماذج الكثيفة بنفس إجمالي عدد المعلمات.

بالمقارنة مع LLaMA2-70B، وهو برنامج LLM مشهور ومفتوح المصدر، لا يُظهر DBRX جودة أعلى فحسب، بل يتميز أيضًا بضعف سرعة الاستدلال تقريبًا، على الرغم من وجود ما يقرب من نصف عدد المعلمات النشطة. تجعل هذه الكفاءة من DBRX خيارًا جذابًا للنشر في مجموعة واسعة من التطبيقات، بدءًا من إنشاء المحتوى وحتى تحليل البيانات وما بعده.

علاوة على ذلك، قامت Databricks بتطوير حزمة تدريب قوية تسمح للمؤسسات بتدريب نماذج فئة DBRX الخاصة بها من الصفر أو مواصلة التدريب فوق نقاط التفتيش المتوفرة. تعمل هذه القدرة على تمكين الشركات من الاستفادة من الإمكانات الكاملة لـ DBRX وتخصيصها وفقًا لاحتياجاتهم المحددة، مما يزيد من ديمقراطية الوصول إلى تكنولوجيا LLM المتطورة.

يُمثل تطوير Databricks لنموذج DBRX تقدمًا ملحوظًا في مجال التعلم الآلي، لا سيما من خلال استخدامه لأدوات مبتكرة من مجتمع المصادر المفتوحة. وقد تأثرت رحلة التطوير هذه بشكل كبير بتقنيتين أساسيتين: مكتبة MegaBlocks ونظام PyTorch Fully Sharded Data Parallel (FSDP).

MegaBlocks: تعزيز كفاءة وزارة التربية والتعليم

أكثر من ميجا بلوكس تتناول المكتبة التحديات المرتبطة بالتوجيه الديناميكي في طبقات مزيج الخبراء (MoEs)، وهي عقبة شائعة في توسيع نطاق الشبكات العصبية. غالبًا ما تفرض الأطر التقليدية قيودًا إما أن تقلل من كفاءة النموذج أو تتنازل عن جودة النموذج. ومع ذلك، فإن MegaBlocks تعيد تعريف حساب وزارة التربية والتعليم من خلال عمليات الكتلة المتفرقة التي تدير ببراعة الديناميكية الجوهرية داخل وزارة التربية والتعليم، وبالتالي تجنب هذه التنازلات.

لا يحافظ هذا الأسلوب على سلامة الرمز المميز فحسب، بل يتوافق أيضًا بشكل جيد مع إمكانات وحدة معالجة الرسومات الحديثة، مما يسهل أوقات تدريب أسرع بنسبة تصل إلى 40% مقارنة بالطرق التقليدية. وتعد هذه الكفاءة أمرًا بالغ الأهمية لتدريب نماذج مثل DBRX، التي تعتمد بشكل كبير على بنيات وزارة التعليم المتقدمة لإدارة مجموعات المعلمات الشاملة الخاصة بها بكفاءة.

PyTorch FSDP: قياس النماذج الكبيرة

بيانات PyTorch المتوازية بالكامل يقدم (FSDP) حلاً قويًا لتدريب النماذج الكبيرة بشكل استثنائي من خلال تحسين تقسيم المعلمات وتوزيعها عبر أجهزة حوسبة متعددة. تم تصميم FSDP بشكل مشترك مع مكونات PyTorch الرئيسية، وهو يتكامل بسلاسة، مما يوفر تجربة مستخدم بديهية تشبه إعدادات التدريب المحلية ولكن على نطاق أوسع بكثير.

يعالج تصميم FSDP بذكاء العديد من القضايا الهامة:

  • تجربة المستخدم: إنه يبسط واجهة المستخدم، على الرغم من العمليات الخلفية المعقدة، مما يجعلها أكثر سهولة للاستخدام على نطاق أوسع.
  • عدم تجانس الأجهزة: يتكيف مع بيئات الأجهزة المتنوعة لتحسين استخدام الموارد بكفاءة.
  • استخدام الموارد وتخطيط الذاكرة: يعمل FSDP على تحسين استخدام الموارد الحسابية مع تقليل الحمل الزائد للذاكرة، وهو أمر ضروري لنماذج التدريب التي تعمل على نطاق DBRX.

لا يدعم FSDP نماذج أكبر حجمًا مما كان متاحًا سابقًا في إطار عمل البيانات الموزعة المتوازية فحسب، بل يحافظ أيضًا على قابلية توسع شبه خطية من حيث الإنتاجية والكفاءة. وقد أثبتت هذه القدرة أهميتها لـ DBRX من Databricks، حيث تسمح له بالتوسع عبر وحدات معالجة رسومية متعددة مع إدارة عدد كبير من معلماته بفعالية.

إمكانية الوصول والتكامل

تماشيًا مع مهمتها المتمثلة في تعزيز الوصول المفتوح إلى الذكاء الاصطناعي، قامت Databricks بإتاحة DBRX من خلال قنوات متعددة. تتم استضافة أوزان كل من النموذج الأساسي (DBRX Base) والنموذج الدقيق (DBRX Instruct) على منصة Hugging Face الشهيرة، مما يسمح للباحثين والمطورين بتنزيل النموذج والعمل معه بسهولة.

بالإضافة إلى ذلك، مستودع نموذج DBRX متاح على GitHub، مما يوفر الشفافية ويتيح المزيد من الاستكشاف والتخصيص لكود النموذج.

إنتاجية الاستدلال لتكوينات النماذج المختلفة على البنية التحتية للخدمة المحسنة لدينا باستخدام NVIDIA TensorRT-LLM بدقة 16 بت مع أفضل علامات التحسين التي يمكن أن نجدها.

بالنسبة لعملاء Databricks، يمكن الوصول بسهولة إلى DBRX Base وDBRX Instruct عبر واجهات برمجة التطبيقات Databricks Foundation Model، مما يتيح التكامل السلس في سير العمل والتطبيقات الحالية. ولا يؤدي ذلك إلى تبسيط عملية النشر فحسب، بل يضمن أيضًا إدارة البيانات وأمانها لحالات الاستخدام الحساسة.

علاوة على ذلك، تم دمج DBRX بالفعل في العديد من المنصات والخدمات التابعة لجهات خارجية، مثل You.com وPerplexity Labs، مما أدى إلى توسيع نطاق وصولها وتطبيقاتها المحتملة. تُظهر عمليات التكامل هذه الاهتمام المتزايد بـ DBRX وقدراته، بالإضافة إلى الاعتماد المتزايد على LLMs المفتوحة عبر مختلف الصناعات وحالات الاستخدام.

قدرات السياق الطويل والجيل المعزز للاسترجاع إحدى الميزات البارزة لـ DBRX هي قدرته على التعامل مع مدخلات السياق الطويل، مع حد أقصى لطول السياق يبلغ 32,768 رمزًا مميزًا. تتيح هذه الإمكانية للنموذج معالجة وإنشاء النص استنادًا إلى معلومات سياقية واسعة النطاق، مما يجعله مناسبًا تمامًا لمهام مثل تلخيص المستندات والإجابة على الأسئلة واسترجاع المعلومات.

في المعايير التي تقيم أداء السياق الطويل، مثل KV-Pairs وHotpotQAXL، تفوقت DBRX Instruct على GPT-3.5 Turbo عبر أطوال التسلسل المختلفة ومواضع السياق.

يتفوق DBRX على النماذج مفتوحة المصدر القائمة في فهم اللغة (MMLU)، والبرمجة (HumanEval)، والرياضيات (GSM8K).

يتفوق DBRX على النماذج مفتوحة المصدر القائمة في فهم اللغة (MMLU)، والبرمجة (HumanEval)، والرياضيات (GSM8K).

القيود والعمل المستقبلي

في حين أن DBRX يمثل إنجازًا كبيرًا في مجال LLMs المفتوحة، فمن الضروري الاعتراف بقيوده ومجالات التحسين المستقبلية. مثل أي نموذج للذكاء الاصطناعي، قد ينتج DBRX استجابات غير دقيقة أو متحيزة، اعتمادًا على جودة وتنوع بيانات التدريب الخاصة به.

بالإضافة إلى ذلك، بينما يتفوق DBRX في المهام العامة، قد تتطلب بعض التطبيقات الخاصة بمجال محدد مزيدًا من الضبط الدقيق أو تدريبًا متخصصًا لتحقيق الأداء الأمثل. على سبيل المثال، في الحالات التي تكون فيها الدقة والدقة بالغتي الأهمية، توصي Databricks باستخدام تقنيات التوليد المعزز بالاسترجاع (RAG) لتحسين مخرجات النموذج.

علاوة على ذلك، تتكون مجموعة بيانات التدريب الحالية لـ DBRX بشكل أساسي من محتوى باللغة الإنجليزية، مما قد يحد من أدائها في المهام غير الإنجليزية. قد تتضمن الإصدارات المستقبلية من النموذج توسيع نطاق بيانات التدريب لتشمل نطاقًا أكثر تنوعًا من اللغات والسياقات الثقافية.

تلتزم داتابريكس بالتحسين المستمر لقدرات DBRX ومعالجة قيوده. سيركز العمل المستقبلي على تحسين أداء النموذج وقابليته للتوسع وسهولة استخدامه عبر مختلف التطبيقات وحالات الاستخدام، بالإضافة إلى استكشاف تقنيات للحد من التحيزات المحتملة وتعزيز الاستخدام الأخلاقي للذكاء الاصطناعي.

بالإضافة إلى ذلك، تخطط الشركة لتحسين عملية التدريب بشكل أكبر، والاستفادة من التقنيات المتقدمة مثل التعلم الموحد وأساليب الحفاظ على الخصوصية لضمان خصوصية البيانات وأمنها.

الطريق إلى الأمام

يمثل DBRX خطوة مهمة إلى الأمام في إضفاء الطابع الديمقراطي على تطوير الذكاء الاصطناعي. إنها تتصور مستقبلًا تتمتع فيه كل مؤسسة بالقدرة على التحكم في بياناتها ومصيرها في العالم الناشئ للذكاء الاصطناعي التوليدي.

من خلال المصدر المفتوح لـ DBRX وتوفير الوصول إلى نفس الأدوات والبنية التحتية المستخدمة لبنائه، تعمل Databricks على تمكين الشركات والباحثين من تطوير Databricks المتطورة الخاصة بهم والمصممة خصيصًا لتلبية احتياجاتهم الخاصة.

من خلال منصة Databricks، يمكن للعملاء الاستفادة من مجموعة أدوات معالجة البيانات التي تقدمها الشركة، بما في ذلك Apache Spark وUnity Catalog وMLflow، لتنظيم بيانات التدريب وإدارتها. ثم يمكنهم استخدام مكتبات التدريب المُحسّنة من Databricks، مثل Composer وLLM Foundry وMegaBlocks وStreaming، لتدريب نماذج DBRX الخاصة بهم بكفاءة وعلى نطاق واسع.

إن إضفاء الطابع الديمقراطي على تطوير الذكاء الاصطناعي لديه القدرة على إطلاق العنان لموجة جديدة من الابتكار، حيث تكتسب المؤسسات القدرة على تسخير قوة نماذج اللغة الكبيرة لمجموعة واسعة من التطبيقات، من إنشاء المحتوى وتحليل البيانات إلى دعم القرار وما بعده.

علاوة على ذلك، من خلال تعزيز نظام بيئي مفتوح وتعاوني حول DBRX، تهدف Databricks إلى تسريع وتيرة البحث والتطوير في مجال نماذج اللغات الكبيرة. ومع مساهمة المزيد من المؤسسات والأفراد بخبراتهم ورؤاهم، ستستمر المعرفة والفهم الجماعي لأنظمة الذكاء الاصطناعي القوية هذه في النمو، مما يمهد الطريق لنماذج أكثر تقدمًا وقدرة في المستقبل.

الخاتمة

لقد غيرت DBRX قواعد اللعبة في عالم نماذج اللغات الكبيرة مفتوحة المصدر. بفضل بنيتها المبتكرة التي تجمع بين الخبراء، وبيانات التدريب المكثفة، والأداء المتطور، فقد وضعت معيارًا جديدًا لما هو ممكن مع LLMs المفتوحة.

من خلال إضفاء الطابع الديمقراطي على الوصول إلى تكنولوجيا الذكاء الاصطناعي المتطورة، تعمل DBRX على تمكين الباحثين والمطورين والمؤسسات من استكشاف حدود جديدة في معالجة اللغة الطبيعية وإنشاء المحتوى وتحليل البيانات وما هو أبعد من ذلك. مع استمرار Databricks في تحسين DBRX وتعزيزه، فإن التطبيقات والتأثيرات المحتملة لهذا النموذج القوي لا حدود لها حقًا.

لقد أمضيت السنوات الخمس الماضية منغمسًا في عالم رائع من التعلم الآلي والتعلم العميق. قادني شغفي وخبرتي إلى المساهمة في أكثر من 50 مشروعًا متنوعًا لهندسة البرمجيات ، مع التركيز بشكل خاص على الذكاء الاصطناعي / التعلم الآلي. جذبني فضولي المستمر أيضًا نحو معالجة اللغة الطبيعية ، وهو مجال أتوق لاستكشافه بشكل أكبر.