الذكاء الاصطناعي
باحثون يكتشفون شبكات فرعية كفءة للغاية داخل شبكات التعلم العميق العصبية

غالبًا ما تكون شبكات التعلم العميق العصبية ضخمة وتتطلب كميات هائلة من الطاقة الحاسوبية، ولكن اكتشاف جديد يظهر كيف يمكن تقليص هذه الشبكات لتنفيذ المهام بكفاءة أكبر. وقد قام جوناثان فرانكل وفريقه من معهد ماساتشوستس للتكنولوجيا بتقديم فرضية “تذكرة اليانصيب”، والتي تظهر كيف توجد شبكات فرعية أقل كثافة داخل الشبكات العصبية الأكبر. يمكن لهذه الشبكات الفرعية أن تنجز المهمة المطلوبة بكفاءة أكبر مع تقليل الحاجة إلى الطاقة الحاسوبية، وواحدة من أكبر التحديات هي العثور على هذه الشبكات الفرعية، أو تذاكر اليانصيب كما يسميها الفريق.
اكتشف الفريق هذه الشبكات الفرعية داخل BERT، وهي تقنية التعلم الآلي الرائدة لمعالجة اللغة الطبيعية (NLP). NLP، وهي مجال فرعي من الذكاء الاصطناعي (AI)، مسؤولة عن فك الشفرة وتحليل اللغة البشرية، وتستخدم للتطبيقات مثل توليد النص التنبؤي وبرامج الدردشة.
然而، BERT كبيرة وتتطلب قوة حاسوبية فائقة، والتي لا تتوفر لمعظم المستخدمين. مع اكتشاف هذه الشبكات الفرعية الجديدة، يمكن أن تفتح هذه الفرصة الوصول إلى المزيد من المستخدمين لاستخدام التكنولوجيا لتطوير أدوات NLP.
“نحن نصل إلى نقطة حيث سنضطر إلى جعل هذه النماذج أكثر رشاقة وكفاءة”، يقول فرانكل.
وفقًا له، يمكن أن يؤدي هذا التطور إلى “تقليل حواجز الدخول” إلى NLP.
BERT – “مكلفة بشكل فاضح”
BERT أساسية للأشياء مثل محرك بحث جوجل وقد تلقت الكثير من الاهتمام منذ إطلاقها من قبل جوجل في عام 2018. إنه طريقة لإنشاء شبكات عصبية ويتدرب من خلال محاولة ملء الفقرات الشاغرة في القطع الكتابية. واحدة من أكثر الميزات الإpressive في BERT هي مجموعة بيانات التدريب الأولية الضخمة.
يمكن بعد ذلك ضبطها من قبل المستخدمين لمهام محددة، مثل برامج الدردشة للخدمة العملاء، ولكن مرة أخرى، تتطلب كميات هائلة من الطاقة الحاسوبية، مع إمكانية الوصول إلى معلمات تصل إلى مليار.
“نموذج BERT القياسي هذه الأيام – النوع الشائع – يحتوي على 340 مليون معلمة”، يقول فرانكل. “هذا مكلف بشكل فاضح. هذا يتجاوز قدرة الحوسبة الخاصة بك أو بي.”
وفقًا للمؤلف الرئيسي تيانلونغ تشين من جامعة تكساس في أوستن، تعاني نماذج مثل BERT “من حجم شبكة هائل”، ولكن بفضل البحث الجديد، “يبدو أن فرضية تذكرة اليانصيب هي حل”.
شبكات فرعية كفءة
بحث تشين والفريق عن نموذج أصغر داخل BERT، وقارنوا أداء الشبكات الفرعية المكتشفة مع نموذج BERT الأصلي. تم اختبار هذا على مجموعة متنوعة من مهام NLP المختلفة، بما في ذلك الإجابة على الأسئلة وملء الكلمات الفارغة في الجملة.
اكتشف الفريق شبكات فرعية ناجحة كانت أقل بنسبة 40 إلى 90٪ من نموذج BERT الأصلي، مع أن النسبة الفعلية تعتمد على المهمة. بالإضافة إلى ذلك، يمكنهم تحديد هذه الشبكات قبل ضبط المهام المحددة، مما يؤدي إلى تقليل التكاليف الحاسوبية بشكل أكبر. كان أحد المزايا الأخرى هو أن بعض الشبكات الفرعية المحددة لمهمة معينة يمكن إعادة استخدامها لمهمة أخرى.
“كنت نوعًا ما مندهشًا من أن هذا الأمر قد نجح”، يقول فرانكل. “ليس هناك شيء أعتد به. كنت أتوقع نتائج أكثر فوضى مما حصلنا عليه”.
وفقًا لعالم فيسبوك أري موركوس، هذا الاكتشاف “مقنع”، و “هذه النماذج تصبح أكثر انتشارًا. لذلك من المهم فهم ما إذا كانت فرضية تذكرة اليانصيب صحيحة”.
يقول موركوس أيضًا إذا كانت هذه الشبكات الفرعية يمكن أن تعمل باستخدام طاقة حاسوبية أقل بشكل كبير، فإن هذا سيكون “مؤثرًا بشكل كبير نظرًا لأن هذه النماذج الكبيرة جدًا حاليًا مكلفة جدًا للتشغيل”.
“لا أعرف كيف يمكننا أن نذهب إلى أكبر حجم باستخدام هذه الحسابات من نمط الحواسيب الفائقة”، يضيف فرانكل. “سنضطر إلى تقليل حواجز الدخول”.
“الآمال هي أن هذا سوف يقلل من التكلفة، وأن هذا سوف يجعلها أكثر سهولة للجميع…للأشخاص الصغار الذين لديهم فقط جهاز لابتوب”، يختم.
من المقرر أن يتم تقديم البحث في مؤتمر معالجة المعلومات العصبية.












