الذكاء الاصطناعي

داخل DBRX: Databricks تطلق العنان لـ LLM قوية مفتوحة المصدر

تحديث on 16 نيسان

في مجال نماذج اللغات الكبيرة (LLMs) الذي يتقدم بسرعة، ظهر نموذج قوي جديد - DBRX، نموذج مفتوح المصدر تم إنشاؤه بواسطة Databricks. تُحدث شهادة LLM هذه موجات من خلال أدائها المتطور عبر مجموعة واسعة من المعايير، حتى أنها تنافس قدرات عمالقة الصناعة مثل OpenAI's GPT-4.

يمثل DBRX علامة بارزة في إضفاء الطابع الديمقراطي على الذكاء الاصطناعي، حيث يوفر للباحثين والمطورين والشركات إمكانية الوصول المفتوح إلى نموذج لغة عالي المستوى. ولكن ما هو بالضبط DBRX، وما الذي يجعله مميزًا جدًا؟ في هذا الغوص التقني العميق، سنستكشف البنية المبتكرة وعملية التدريب والقدرات الرئيسية التي دفعت DBRX إلى طليعة مشهد LLM المفتوح.

ولادة DBRX كان إنشاء DBRX مدفوعًا بمهمة Databricks المتمثلة في جعل ذكاء البيانات في متناول جميع المؤسسات. باعتبارها شركة رائدة في منصات تحليل البيانات، أدركت Databricks الإمكانات الهائلة التي يتمتع بها حاملو شهادات LLM وشرعت في تطوير نموذج يمكن أن يضاهي أداء العروض الخاصة أو حتى يتفوق عليها.

وبعد أشهر من البحث المكثف والتطوير والاستثمار بملايين الدولارات، حقق فريق Databricks إنجازًا كبيرًا مع DBRX. إن أداء النموذج المثير للإعجاب على نطاق واسع من المعايير، بما في ذلك فهم اللغة والبرمجة والرياضيات، قد ساهم في ترسيخه باعتباره نموذجًا جديدًا من أحدث ما توصلت إليه العلوم في ماجستير إدارة الأعمال المفتوحة.

العمارة المبتكرة

قوة مزيج الخبراء يكمن جوهر أداء DBRX الاستثنائي في بنيتها المبتكرة لمزيج الخبراء (MoE). يمثل هذا التصميم المتطور خروجًا عن النماذج التقليدية الكثيفة، ويعتمد نهجًا متناثرًا يعزز كلاً من كفاءة التدريب المسبق وسرعة الاستدلال.

في إطار عمل وزارة التربية والتعليم، يتم تفعيل مجموعة مختارة فقط من المكونات، تسمى "الخبراء"، لكل مدخلات. يسمح هذا التخصص للنموذج بمعالجة مجموعة واسعة من المهام بمهارة أكبر، مع تحسين الموارد الحسابية أيضًا.

تأخذ DBRX هذا المفهوم إلى أبعد من ذلك من خلال بنية MoE الدقيقة الحبيبات. على عكس بعض نماذج وزارة التربية والتعليم الأخرى التي تستخدم عددًا أقل من الخبراء الأكبر، توظف DBRX 16 خبيرًا، مع أربعة خبراء نشطين لأي مدخلات معينة. يوفر هذا التصميم مجموعات مذهلة من الخبراء أكبر بـ 65 مرة، مما يساهم بشكل مباشر في أداء DBRX المتفوق.

تتميز DBRX بالعديد من الميزات المبتكرة:

ترميزات الموضع الدوار (RoPE): يعزز فهم مواضع الرمز المميز، وهو أمر بالغ الأهمية لإنشاء نص دقيق للسياق.
الوحدات الخطية المسورة (GLU): يقدم آلية البوابات التي تعزز قدرة النموذج على تعلم الأنماط المعقدة بشكل أكثر كفاءة.
انتباه الاستعلام المجمع (GQA): تحسين كفاءة النموذج من خلال تحسين آلية الانتباه.
الترميز المتقدم: يستخدم رمز GPT-4 لمعالجة المدخلات بشكل أكثر فعالية.

تعتبر بنية وزارة التعليم مناسبة بشكل خاص لنماذج اللغات واسعة النطاق، لأنها تسمح بتوسيع نطاق أكثر كفاءة واستخدام أفضل للموارد الحسابية. ومن خلال توزيع عملية التعلم عبر شبكات فرعية متخصصة متعددة، يمكن لـ DBRX تخصيص البيانات والقوة الحسابية بشكل فعال لكل مهمة، مما يضمن مخرجات عالية الجودة والكفاءة المثلى.

بيانات التدريب الشاملة والتحسين الفعال في حين أن بنية DBRX مثيرة للإعجاب بلا شك، فإن قوتها الحقيقية تكمن في عملية التدريب الدقيقة والكم الهائل من البيانات التي تعرضت لها. تم تدريب DBRX مسبقًا على 12 تريليون رمز مذهل من البيانات النصية والرمزية، وتم تنسيقها بعناية لضمان الجودة العالية والتنوع.

تمت معالجة بيانات التدريب باستخدام مجموعة أدوات Databricks، بما في ذلك Apache Spark لمعالجة البيانات، وUnity Catalog لإدارة البيانات وحوكمتها، وMLflow لتتبع التجارب. أتاحت مجموعة الأدوات الشاملة هذه لفريق Databricks إدارة مجموعة البيانات الضخمة واستكشافها وتحسينها بشكل فعال، مما يضع الأساس لأداء DBRX الاستثنائي.

ولزيادة تعزيز قدرات النموذج، استخدمت Databricks منهجًا ديناميكيًا للتدريب المسبق، مما أدى إلى تنويع مزيج البيانات بشكل مبتكر أثناء التدريب. سمحت هذه الإستراتيجية بمعالجة كل رمز مميز بشكل فعال باستخدام 36 مليار معلمة نشطة، مما أدى إلى نموذج أكثر شمولاً وقابلية للتكيف.

علاوة على ذلك، تم تحسين عملية التدريب في DBRX لتحقيق الكفاءة، والاستفادة من مجموعة أدوات ومكتبات Databricks الخاصة، بما في ذلك Composer وLLM Foundry وMegaBlocks وStreaming. ومن خلال استخدام تقنيات مثل تعلم المناهج واستراتيجيات التحسين المحسنة، حقق الفريق تحسنًا بمقدار أربعة أضعاف تقريبًا في كفاءة الحوسبة مقارنة بنماذجهم السابقة.

التدريب والهندسة المعمارية

تم تدريب DBRX باستخدام نموذج التنبؤ بالرمز المميز التالي على مجموعة بيانات ضخمة مكونة من 12 تريليون رمز مميز، مع التركيز على كل من النص والرمز. يُعتقد أن مجموعة التدريب هذه أكثر فعالية بكثير من تلك المستخدمة في النماذج السابقة، مما يضمن فهمًا غنيًا وقدرة على الاستجابة عبر المطالبات المتنوعة.

إن بنية DBRX ليست مجرد شهادة على براعة Databricks التقنية ولكنها تسلط الضوء أيضًا على تطبيقها عبر قطاعات متعددة. من تعزيز تفاعلات chatbot إلى تشغيل مهام تحليل البيانات المعقدة، يمكن دمج DBRX في مجالات متنوعة تتطلب فهمًا دقيقًا للغة.

ومن اللافت للنظر أن DBRX Instruct ينافس بعض النماذج المغلقة الأكثر تقدمًا في السوق. وفقًا لقياسات Databricks، فهي تتفوق على GPT-3.5 وتتنافس مع Gemini 1.0 Pro وMistral Medium عبر معايير مختلفة، بما في ذلك المعرفة العامة والتفكير المنطقي والبرمجة والتفكير الرياضي.

على سبيل المثال، في معيار MMLU، الذي يقيس فهم اللغة، حقق DBRX Instruct درجة 73.7%، متفوقًا على نتيجة GPT-3.5 التي تبلغ 70.0%. في معيار المنطق المنطقي HellaSwag، سجلت DBRX Instruct نسبة مذهلة بلغت 89.0%، متجاوزة نسبة GPT-3.5 البالغة 85.5%.

يتألق DBRX Instruct حقًا، حيث حقق دقة رائعة بنسبة 70.1% وفقًا لمعيار HumanEval، متفوقًا ليس فقط على GPT-3.5 (48.1%) ولكن أيضًا على نموذج CodeLLaMA-70B Instruct المتخصص (67.8%).

تسلط هذه النتائج الاستثنائية الضوء على تنوع DBRX وقدرته على التفوق عبر مجموعة متنوعة من المهام، بدءًا من فهم اللغة الطبيعية وحتى البرمجة المعقدة وحل المشكلات الرياضية.

الاستدلال الفعال وقابلية التوسع إحدى المزايا الرئيسية لبنية MoE الخاصة بـ DBRX هي كفاءتها أثناء الاستدلال. بفضل التنشيط المتناثر للمعلمات، يمكن لـ DBRX تحقيق إنتاجية استدلالية أسرع بما يصل إلى مرتين إلى ثلاث مرات من النماذج الكثيفة التي لها نفس إجمالي عدد المعلمات.

بالمقارنة مع LLaMA2-70B، وهو برنامج LLM مشهور ومفتوح المصدر، لا يُظهر DBRX جودة أعلى فحسب، بل يتميز أيضًا بضعف سرعة الاستدلال تقريبًا، على الرغم من وجود ما يقرب من نصف عدد المعلمات النشطة. تجعل هذه الكفاءة من DBRX خيارًا جذابًا للنشر في مجموعة واسعة من التطبيقات، بدءًا من إنشاء المحتوى وحتى تحليل البيانات وما بعده.

علاوة على ذلك، قامت Databricks بتطوير حزمة تدريب قوية تسمح للمؤسسات بتدريب نماذج فئة DBRX الخاصة بها من الصفر أو مواصلة التدريب فوق نقاط التفتيش المتوفرة. تعمل هذه القدرة على تمكين الشركات من الاستفادة من الإمكانات الكاملة لـ DBRX وتخصيصها وفقًا لاحتياجاتهم المحددة، مما يزيد من ديمقراطية الوصول إلى تكنولوجيا LLM المتطورة.

يمثل تطوير Databricks لنموذج DBRX تقدمًا كبيرًا في مجال التعلم الآلي، لا سيما من خلال استخدامها للأدوات المبتكرة من مجتمع المصادر المفتوحة. تتأثر رحلة التطوير هذه بشكل كبير بتقنيتين محوريتين: مكتبة MegaBlocks ونظام PyTorch's Fully Sharded Data Parallel (FSDP).

MegaBlocks: تعزيز كفاءة وزارة التربية والتعليم

• ميجا بلوكس تتناول المكتبة التحديات المرتبطة بالتوجيه الديناميكي في طبقات مزيج الخبراء (MoEs)، وهي عقبة شائعة في توسيع نطاق الشبكات العصبية. غالبًا ما تفرض الأطر التقليدية قيودًا إما أن تقلل من كفاءة النموذج أو تتنازل عن جودة النموذج. ومع ذلك، فإن MegaBlocks تعيد تعريف حساب وزارة التربية والتعليم من خلال عمليات الكتلة المتفرقة التي تدير ببراعة الديناميكية الجوهرية داخل وزارة التربية والتعليم، وبالتالي تجنب هذه التنازلات.

لا يحافظ هذا الأسلوب على سلامة الرمز المميز فحسب، بل يتوافق أيضًا بشكل جيد مع إمكانات وحدة معالجة الرسومات الحديثة، مما يسهل أوقات تدريب أسرع بنسبة تصل إلى 40% مقارنة بالطرق التقليدية. وتعد هذه الكفاءة أمرًا بالغ الأهمية لتدريب نماذج مثل DBRX، التي تعتمد بشكل كبير على بنيات وزارة التعليم المتقدمة لإدارة مجموعات المعلمات الشاملة الخاصة بها بكفاءة.

PyTorch FSDP: قياس النماذج الكبيرة

بيانات PyTorch المتوازية بالكامل يقدم (FSDP) حلاً قويًا لتدريب النماذج الكبيرة بشكل استثنائي من خلال تحسين تقسيم المعلمات وتوزيعها عبر أجهزة حوسبة متعددة. تم تصميم FSDP بشكل مشترك مع مكونات PyTorch الرئيسية، وهو يتكامل بسلاسة، مما يوفر تجربة مستخدم بديهية تشبه إعدادات التدريب المحلية ولكن على نطاق أوسع بكثير.

يعالج تصميم FSDP بذكاء العديد من القضايا الهامة:

تجربة المستخدم: إنه يبسط واجهة المستخدم، على الرغم من العمليات الخلفية المعقدة، مما يجعلها أكثر سهولة للاستخدام على نطاق أوسع.
عدم تجانس الأجهزة: يتكيف مع بيئات الأجهزة المتنوعة لتحسين استخدام الموارد بكفاءة.
استخدام الموارد وتخطيط الذاكرة: يعمل FSDP على تحسين استخدام الموارد الحسابية مع تقليل الحمل الزائد للذاكرة، وهو أمر ضروري لنماذج التدريب التي تعمل على نطاق DBRX.

لا يدعم FSDP نماذج أكبر مما كان ممكنًا في السابق ضمن إطار عمل البيانات الموزعة فحسب، بل يحافظ أيضًا على قابلية التوسع شبه الخطية من حيث الإنتاجية والكفاءة. لقد أثبتت هذه الإمكانية أهميتها بالنسبة لـ DBRX الخاص بـ Databricks، مما يسمح لها بالتوسع عبر وحدات معالجة الرسومات المتعددة مع إدارة عدد كبير من المعلمات بشكل فعال.

إمكانية الوصول والتكامل

تماشيًا مع مهمتها المتمثلة في تعزيز الوصول المفتوح إلى الذكاء الاصطناعي، قامت Databricks بإتاحة DBRX من خلال قنوات متعددة. تتم استضافة أوزان كل من النموذج الأساسي (DBRX Base) والنموذج الدقيق (DBRX Instruct) على منصة Hugging Face الشهيرة، مما يسمح للباحثين والمطورين بتنزيل النموذج والعمل معه بسهولة.

بالإضافة إلى ذلك، مستودع نموذج DBRX متاح على GitHub، مما يوفر الشفافية ويتيح المزيد من الاستكشاف والتخصيص لرمز النموذج.

بالنسبة لعملاء Databricks، يمكن الوصول بسهولة إلى DBRX Base وDBRX Instruct عبر واجهات برمجة التطبيقات Databricks Foundation Model، مما يتيح التكامل السلس في سير العمل والتطبيقات الحالية. ولا يؤدي ذلك إلى تبسيط عملية النشر فحسب، بل يضمن أيضًا إدارة البيانات وأمانها لحالات الاستخدام الحساسة.

علاوة على ذلك، تم دمج DBRX بالفعل في العديد من المنصات والخدمات التابعة لجهات خارجية، مثل You.com وPerplexity Labs، مما أدى إلى توسيع نطاق وصولها وتطبيقاتها المحتملة. تُظهر عمليات التكامل هذه الاهتمام المتزايد بـ DBRX وقدراته، بالإضافة إلى الاعتماد المتزايد على LLMs المفتوحة عبر مختلف الصناعات وحالات الاستخدام.

قدرات السياق الطويل والجيل المعزز للاسترجاع إحدى الميزات البارزة لـ DBRX هي قدرته على التعامل مع مدخلات السياق الطويل، مع حد أقصى لطول السياق يبلغ 32,768 رمزًا مميزًا. تتيح هذه الإمكانية للنموذج معالجة وإنشاء النص استنادًا إلى معلومات سياقية واسعة النطاق، مما يجعله مناسبًا تمامًا لمهام مثل تلخيص المستندات والإجابة على الأسئلة واسترجاع المعلومات.

في المعايير التي تقيم أداء السياق الطويل، مثل KV-Pairs وHotpotQAXL، تفوقت DBRX Instruct على GPT-3.5 Turbo عبر أطوال التسلسل المختلفة ومواضع السياق.

يتفوق DBRX على النماذج مفتوحة المصدر القائمة في فهم اللغة (MMLU)، والبرمجة (HumanEval)، والرياضيات (GSM8K).

القيود والعمل المستقبلي

في حين أن DBRX يمثل إنجازًا كبيرًا في مجال LLMs المفتوحة، فمن الضروري الاعتراف بقيوده ومجالات التحسين المستقبلية. مثل أي نموذج للذكاء الاصطناعي، قد ينتج DBRX استجابات غير دقيقة أو متحيزة، اعتمادًا على جودة وتنوع بيانات التدريب الخاصة به.

بالإضافة إلى ذلك، بينما يتفوق DBRX في المهام ذات الأغراض العامة، قد تتطلب بعض التطبيقات الخاصة بالمجال مزيدًا من الضبط الدقيق أو التدريب المتخصص لتحقيق الأداء الأمثل. على سبيل المثال، في السيناريوهات التي تكون فيها الدقة والإخلاص في غاية الأهمية، توصي Databricks باستخدام تقنيات الاسترجاع المعزز (RAG) لتحسين مخرجات النموذج.

علاوة على ذلك، تتكون مجموعة بيانات التدريب الحالية الخاصة بـ DBRX بشكل أساسي من محتوى اللغة الإنجليزية، مما قد يحد من أدائها في المهام غير الإنجليزية. قد تتضمن التكرارات المستقبلية للنموذج توسيع بيانات التدريب لتشمل مجموعة أكثر تنوعًا من اللغات والسياقات الثقافية.

تلتزم Databricks بتعزيز قدرات DBRX بشكل مستمر ومعالجة حدودها. وسيركز العمل المستقبلي على تحسين أداء النموذج وقابلية التوسع وسهولة الاستخدام عبر مختلف التطبيقات وحالات الاستخدام، بالإضافة إلى استكشاف التقنيات للتخفيف من التحيزات المحتملة وتعزيز الاستخدام الأخلاقي للذكاء الاصطناعي.

بالإضافة إلى ذلك، تخطط الشركة لتحسين عملية التدريب بشكل أكبر، والاستفادة من التقنيات المتقدمة مثل التعلم الموحد وأساليب الحفاظ على الخصوصية لضمان خصوصية البيانات وأمنها.

الطريق إلى الأمام

يمثل DBRX خطوة مهمة إلى الأمام في إضفاء الطابع الديمقراطي على تطوير الذكاء الاصطناعي. إنها تتصور مستقبلًا تتمتع فيه كل مؤسسة بالقدرة على التحكم في بياناتها ومصيرها في العالم الناشئ للذكاء الاصطناعي التوليدي.

من خلال المصدر المفتوح لـ DBRX وتوفير الوصول إلى نفس الأدوات والبنية التحتية المستخدمة لبنائه، تعمل Databricks على تمكين الشركات والباحثين من تطوير Databricks المتطورة الخاصة بهم والمصممة خصيصًا لتلبية احتياجاتهم الخاصة.

من خلال منصة Databricks، يمكن للعملاء الاستفادة من مجموعة أدوات معالجة البيانات الخاصة بالشركة، بما في ذلك Apache Spark وUnity Catalog وMLflow، لتنظيم وإدارة بيانات التدريب الخاصة بهم. ويمكنهم بعد ذلك استخدام مكتبات التدريب المحسنة الخاصة بـ Databricks، مثل Composer وLLM Foundry وMegaBlocks وStreaming، لتدريب نماذج فئة DBRX الخاصة بهم بكفاءة وعلى نطاق واسع.

إن إضفاء الطابع الديمقراطي على تطوير الذكاء الاصطناعي لديه القدرة على إطلاق العنان لموجة جديدة من الابتكار، حيث تكتسب المؤسسات القدرة على تسخير قوة نماذج اللغة الكبيرة لمجموعة واسعة من التطبيقات، من إنشاء المحتوى وتحليل البيانات إلى دعم القرار وما بعده.

علاوة على ذلك، من خلال تعزيز نظام بيئي مفتوح وتعاوني حول DBRX، تهدف Databricks إلى تسريع وتيرة البحث والتطوير في مجال نماذج اللغات الكبيرة. ومع مساهمة المزيد من المؤسسات والأفراد بخبراتهم ورؤاهم، ستستمر المعرفة والفهم الجماعي لأنظمة الذكاء الاصطناعي القوية هذه في النمو، مما يمهد الطريق لنماذج أكثر تقدمًا وقدرة في المستقبل.

وفي الختام

لقد غيرت DBRX قواعد اللعبة في عالم نماذج اللغات الكبيرة مفتوحة المصدر. بفضل بنيتها المبتكرة التي تجمع بين الخبراء، وبيانات التدريب المكثفة، والأداء المتطور، فقد وضعت معيارًا جديدًا لما هو ممكن مع LLMs المفتوحة.

من خلال إضفاء الطابع الديمقراطي على الوصول إلى تكنولوجيا الذكاء الاصطناعي المتطورة، تعمل DBRX على تمكين الباحثين والمطورين والمؤسسات من استكشاف حدود جديدة في معالجة اللغة الطبيعية وإنشاء المحتوى وتحليل البيانات وما هو أبعد من ذلك. مع استمرار Databricks في تحسين DBRX وتعزيزه، فإن التطبيقات والتأثيرات المحتملة لهذا النموذج القوي لا حدود لها حقًا.

أرلينغتون، فيرجينيا: الظهور كقوة جديدة في مجال ابتكار الذكاء الاصطناعي

لا تفوت

يقوم Adobe بمعاينة أدوات الذكاء الاصطناعي العامة الجديدة لسير عمل الفيديو

عيوش ميتال

لقد أمضيت السنوات الخمس الماضية منغمسًا في عالم رائع من التعلم الآلي والتعلم العميق. قادني شغفي وخبرتي إلى المساهمة في أكثر من 50 مشروعًا متنوعًا لهندسة البرمجيات ، مع التركيز بشكل خاص على الذكاء الاصطناعي / التعلم الآلي. جذبني فضولي المستمر أيضًا نحو معالجة اللغة الطبيعية ، وهو مجال أتوق لاستكشافه بشكل أكبر.