رطم الحد من احتياجات الطاقة المتزايدة للتعلم الآلي - اتحدوا
اتصل بنا للحصول على مزيد من المعلومات

الذكاء الاصطناعي

الحد من احتياجات الطاقة المتزايدة للتعلم الآلي

mm
تحديث on

في ضوء القلق المتزايد بشأن متطلبات الطاقة لنماذج التعلم الآلي الكبيرة، بحثت دراسة حديثة أجراها مختبر لينكولن بمعهد ماساتشوستس للتكنولوجيا وجامعة نورث إيسترن في التوفير الذي يمكن تحقيقه بواسطة وحدات معالجة الرسوميات ذات الحد الأقصى للطاقة المستخدمة في تدريب النماذج والاستدلال، بالإضافة إلى العديد من الوحدات الأخرى تقنيات وأساليب خفض استخدام طاقة الذكاء الاصطناعي.

يدعو العمل الجديد أيضًا إلى اختتام أوراق الذكاء الاصطناعي الجديدة بـ "بيان الطاقة" (على غرار الاتجاه الأخير لبيانات "التضمين الأخلاقي" في الأوراق البحثية من قطاع أبحاث التعلم الآلي).

يتمثل الاقتراح الرئيسي من العمل في أن تقييد الطاقة (الذي يحد من الطاقة المتاحة لوحدة معالجة الرسومات التي تقوم بتدريب النموذج) يوفر مزايا جديرة بالاهتمام لتوفير الطاقة ، خاصةً لنمذجة اللغة المقنعة (MLM) ، وأطر عمل مثل BERT ومشتقاتها.

ثلاث شبكات لنمذجة اللغات تعمل بنسبة مئوية من الإعدادات الافتراضية 250 واط (الخط الأسود) ، من حيث استخدام الطاقة. لا يؤدي تقييد استهلاك الطاقة إلى تقييد كفاءة التدريب أو دقته على أساس 1-1 ، ويوفر توفيرًا في الطاقة ملحوظًا على نطاق واسع. المصدر: https://arxiv.org/pdf/2205.09646.pdf

ثلاث شبكات لنمذجة اللغات تعمل بنسبة مئوية من الإعدادات الافتراضية 250 واط (الخط الأسود) ، من حيث استخدام الطاقة. لا يؤدي تقييد استهلاك الطاقة إلى تقييد كفاءة التدريب أو دقته على أساس 1-1 ، ويوفر توفيرًا في الطاقة ملحوظًا على نطاق واسع. المصدر: https://arxiv.org/pdf/2205.09646.pdf

بالنسبة للنماذج الأكبر حجمًا ، والتي جذبت الانتباه في السنوات الأخيرة بسبب مجموعات البيانات الفائقة والنماذج الجديدة بمليارات أو تريليونات من المعلمات ، يمكن الحصول على وفورات مماثلة كمقايضة بين وقت التدريب واستخدام الطاقة.

تدريب المزيد من نماذج البرمجة اللغوية العصبية الهائلة على نطاق واسع في ظل قيود الطاقة. يظهر متوسط ​​الوقت النسبي تحت غطاء 150 واط باللون الأزرق ، ومتوسط ​​استهلاك الطاقة النسبي لـ 150 واط باللون البرتقالي.

تدريب المزيد من نماذج البرمجة اللغوية العصبية الهائلة على نطاق واسع في ظل قيود الطاقة. يظهر متوسط ​​الوقت النسبي تحت غطاء 150 واط باللون الأزرق ، ومتوسط ​​استهلاك الطاقة النسبي لـ 150 واط باللون البرتقالي.

بالنسبة لعمليات النشر واسعة النطاق هذه ، وجد الباحثون أن 150 واط مقيد باستخدام الطاقة حصل على متوسط ​​13.7٪ انخفاضًا في استخدام الطاقة مقارنةً بالحد الأقصى الافتراضي 250 واط ، بالإضافة إلى زيادة صغيرة نسبيًا بنسبة 6.8٪ في وقت التدريب.

بالإضافة إلى ذلك ، لاحظ الباحثون أنه على الرغم من العناوين أن تكلفة التدريب على النموذج قد تم تحصيله على مدى السنوات القليلة الماضية ، فإن تكاليف الطاقة لاستخدام النماذج المدربة بالفعل هي بعيدا أعلى*.

بالنسبة لنمذجة اللغة باستخدام BERT ، تكون مكاسب الطاقة من خلال تقييد الطاقة أكبر بشكل ملحوظ عند إجراء الاستدلال مقارنة بالتدريب. إذا كان هذا متوافقًا مع تطبيقات الذكاء الاصطناعي الأخرى ، فقد يكون لذلك تداعيات كبيرة من حيث استهلاك الطاقة لمنصات الحوسبة السحابية أو واسعة النطاق التي تخدم تطبيقات الاستدلال للبحث والصناعة.

علاوة على ذلك ، وربما الأكثر إثارة للجدل ، تشير الورقة البحثية إلى أن التدريب الرئيسي لنماذج التعلم الآلي يتم إلغاؤه في الأشهر الباردة من العام ، وإلى الليل ، لتوفير تكاليف التبريد.

أعلاه ، إحصائيات PUE لكل يوم من عام 2020 في مركز بيانات المؤلفين ، مع ارتفاع / هضبة ملحوظة ومستمرة في أشهر الصيف. أدناه ، متوسط ​​التباين لكل ساعة في PUE لنفس الموقع على مدار الأسبوع ، مع ارتفاع استهلاك الطاقة في منتصف اليوم ، حيث يكافح كل من أجهزة تبريد GPU الداخلية وتبريد مركز البيانات المحيط للحفاظ على درجة حرارة قابلة للتطبيق.

أعلاه ، إحصائيات PUE لكل يوم من عام 2020 في مركز بيانات المؤلفين ، مع ارتفاع / هضبة ملحوظة ومستمرة في أشهر الصيف. أدناه ، متوسط ​​التباين لكل ساعة في PUE لنفس الموقع على مدار الأسبوع ، مع ارتفاع استهلاك الطاقة في منتصف اليوم ، حيث يكافح كل من أجهزة تبريد GPU الداخلية وتبريد مركز البيانات المحيط للحفاظ على درجة حرارة قابلة للتطبيق.

يذكر المؤلفون:

من الواضح أن أعباء العمل الثقيلة في البرمجة اللغوية العصبية عادة ما تكون أقل كفاءة في الصيف من تلك التي يتم تنفيذها خلال فصل الشتاء. نظرًا للاختلاف الموسمي الكبير ، إذا كان هناك ، تجارب باهظة الثمن من الناحية الحسابية يمكن توقيتها لأشهر أكثر برودة ، يمكن لهذا التوقيت أن يقلل بشكل كبير من البصمة الكربونية.

تقر الورقة أيضًا بإمكانيات توفير الطاقة الناشئة الممكنة من خلال تقليم وتحسين بنية النموذج وسير العمل - على الرغم من أن المؤلفين يتركون مزيدًا من التطوير لهذا الطريق لمبادرات أخرى.

أخيرًا ، يقترح المؤلفون تشجيع الأوراق العلمية الجديدة من قطاع التعلم الآلي ، أو ربما تقييدها ، لتختتم ببيان يعلن استخدام الطاقة في العمل الذي تم إجراؤه في البحث ، والآثار المحتملة للطاقة المترتبة على تبني المبادرات المقترحة في العمل. .

تشرح الورقة ، التي تقود بالقدوة ، الآثار المترتبة على أبحاثها في مجال الطاقة.

تشرح الورقة ، التي تقود بالقدوة ، الآثار المترتبة على أبحاثها في مجال الطاقة.

ورقة بعنوان قوة عظمى ، مسؤولية كبيرة: توصيات لتقليل الطاقة لتدريب النماذج اللغوية، ويأتي من ستة باحثين عبر معهد ماساتشوستس للتكنولوجيا لينكولن ونورث إيسترن.

انتزاع الطاقة الذي يلوح في الأفق في التعلم الآلي

حيث أن المتطلبات الحسابية لنماذج التعلم الآلي لديها زيادة بالتوازي مع فائدة النتائج ، فإن ثقافة ML الحالية تساوي بين إنفاق الطاقة والأداء المحسن - على الرغم من بعض النشطاء البارزين ، مثل Andrew Ng، مما يشير إلى أن تنظيم البيانات قد يكون ملف عامل أكثر أهمية.

في واحد مفتاح تعاون معهد ماساتشوستس للتكنولوجيامن عام 2020 ، تشير التقديرات إلى أن التحسن بمقدار عشرة أضعاف في أداء النموذج يستلزم زيادة قدرها 10,000 ضعف في المتطلبات الحسابية ، جنبًا إلى جنب مع كمية الطاقة المقابلة.

وبالتالي ، ازداد البحث في تدريب ML الفعال الأقل كثافة في استخدام الطاقة خلال السنوات القليلة الماضية. يدعي المؤلفون أن الورقة الجديدة هي الأولى التي تلقي نظرة عميقة على تأثير أغطية الطاقة على تدريب التعلم الآلي والاستدلال ، مع التركيز على أطر البرمجة اللغوية العصبية (مثل سلسلة GPT).

نظرًا لأن جودة الاستدلال هي مصدر قلق بالغ ، ذكر المؤلفون النتائج التي توصلوا إليها في البداية:

[هذه] الطريقة لا تؤثر على تنبؤات النماذج المدربة أو بالتالي دقة أدائها في المهام. وهذا يعني أنه إذا تم تدريب شبكتين لهما نفس الهيكل والقيم الأولية والبيانات المجمعة على نفس العدد من الدُفعات تحت أغطية طاقة مختلفة ، فإن معلماتهما الناتجة ستكون متطابقة وقد تختلف الطاقة المطلوبة لإنتاجها فقط.

قطع الطاقة عن البرمجة اللغوية العصبية

لتقييم تأثير قبعات القوة على التدريب والاستدلال ، استخدم المؤلفون نفيديا-الاستخبارات العسكرية السورية (واجهة إدارة النظام) الأداة المساعدة لسطر الأوامر ، جنبًا إلى جنب مع ملف مكتبة الامتيازات والرهون البحريةy من HuggingFace.

قام المؤلفون بتدريب نماذج معالجة اللغات الطبيعية بيرت, ديستيلبيرت و الطيور الكبيرة على الامتيازات والرهون البحرية ، ورصد استهلاكهم للطاقة في التدريب والنشر.

تم تدريب النماذج ضد DeepAI ويكي النص-103 مجموعة بيانات لـ 4 فترات على دفعات من ثمانية ، على 16 وحدة معالجة رسومات V100 ، مع أربعة أغطية طاقة مختلفة: 100 واط ، و 150 واط ، و 200 واط ، و 250 واط (الافتراضي أو الأساسي لوحدة معالجة الرسومات NVIDIA V100). تضمنت النماذج معلمات مدربة على الخدش وقيم بدء عشوائية ، لضمان تقييمات تدريب قابلة للمقارنة.

كما هو موضح في الصورة الأولى أعلاه ، تظهر النتائج توفيرًا جيدًا للطاقة في زيادات غير خطية ومواتية في وقت التدريب. يذكر المؤلفون:

تشير تجاربنا إلى أن استخدام أغطية الطاقة يمكن أن يقلل بشكل كبير من استخدام الطاقة على حساب وقت التدريب.

التخسيس "Big NLP"

بعد ذلك ، طبق المؤلفون نفس الطريقة على سيناريو أكثر تطلبًا: تدريب BERT مع الامتيازات والرهون البحرية على التكوينات الموزعة عبر وحدات معالجة الرسومات المتعددة - حالة استخدام نموذجية لنماذج FAANG NLP جيدة التمويل وذات الإعلان الجيد.

كان الاختلاف الرئيسي في هذه التجربة هو أن النموذج قد يستخدم في أي مكان بين 2-400 وحدة معالجة رسومات لكل مثيل تدريب. تم تطبيق نفس قيود استخدام الطاقة ، واستخدمت نفس المهمة (WikiText-103). انظر الصورة الثانية أعلاه للحصول على الرسوم البيانية للنتائج.

تقول الورقة:

عند حساب المتوسط ​​في كل اختيار من التهيئة ، أدى استخدام الطاقة بمقدار 150 وات إلى انخفاض متوسط ​​بنسبة 13.7٪ في استخدام الطاقة وزيادة بنسبة 6.8٪ في وقت التدريب مقارنةً بالحد الأقصى الافتراضي. [] إعداد 100W له أوقات تدريب أطول (31.4٪ أطول في المتوسط). يتوافق حد 200 واط مع نفس وقت التدريب تقريبًا مثل حد 250 واط ولكن توفير طاقة متواضع أكثر من حد 150 واط.

يقترح المؤلفون أن هذه النتائج تدعم الحد الأقصى للطاقة عند 150 واط لبنى GPU والتطبيقات التي تعمل عليها. كما لاحظوا أن وفورات الطاقة التي تم الحصول عليها تترجم عبر الأنظمة الأساسية للأجهزة ، وأجروا الاختبارات مرة أخرى لمقارنة نتائج وحدات معالجة الرسومات NVIDIA K80 و T4 و A100.

تم الحصول على التوفير عبر ثلاث وحدات معالجة رسومات NVIDIA مختلفة.

تم الحصول على التوفير عبر ثلاث وحدات معالجة رسومات NVIDIA مختلفة.

الاستدلال ، وليس التدريب ، يأكل القوة

تستشهد الورقة بالعديد من الدراسات السابقة التي توضح أنه على الرغم من العناوين الرئيسية ، فإن الاستدلال (استخدام نموذج مكتمل ، مثل نموذج البرمجة اللغوية العصبية) وليس التدريب هو الذي يستقطب أكبر قدر من القوة ، مما يشير إلى أنه نظرًا لأن النماذج الشعبية يتم تسويقها وإدخالها في السائد ، يمكن أن يصبح استخدام الطاقة مشكلة أكبر مما هو عليه حاليًا في هذه المرحلة الوليدة من تطوير البرمجة اللغوية العصبية.

وهكذا قام الباحثون بقياس تأثير الاستدلال على استخدام الطاقة ، ووجدوا أن فرض أغطية الطاقة له تأثير ملحوظ على زمن انتقال الاستدلال:

'مقارنة بـ 250 واط ، يتطلب إعداد 100 واط مضاعفة وقت الاستدلال (زيادة بنسبة 114٪) واستهلاك طاقة أقل بنسبة 11.0٪ ، وتطلب 150 واط وقتًا إضافيًا بنسبة 22.7٪ وتوفير 24.2٪ من الطاقة ، وتطلب 200 واط وقتًا إضافيًا بنسبة 8.2٪ مع 12.0٪ أقل طاقة.'

التدريب الشتوي

تقترح الورقة أنه يمكن جدولة التدريب (إن لم يكن الاستدلال ، لأسباب واضحة) في الأوقات التي يكون فيها مركز البيانات في ذروة فعالية استخدام الطاقة (PUE) - بشكل فعال ، هذا في الشتاء وفي الليل.

يمكن تحقيق وفورات كبيرة في الطاقة إذا كان من الممكن جدولة أعباء العمل في الأوقات التي يُتوقع فيها انخفاض استهلاك الطاقة. على سبيل المثال ، قد يؤدي نقل وظيفة قصيرة المدى من النهار إلى الليل إلى انخفاض بنسبة 10٪ تقريبًا ، وقد يؤدي نقل وظيفة أطول ومكلفة (على سبيل المثال نموذج لغوي يستغرق أسابيع حتى يكتمل) من الصيف إلى الشتاء إلى انخفاض بنسبة 33٪.

"في حين أنه من الصعب التنبؤ بالتوفير الذي قد يحققه الباحث الفردي ، فإن المعلومات المقدمة هنا تسلط الضوء على أهمية العوامل البيئية التي تؤثر على الطاقة الإجمالية التي يستهلكها أعباء العمل."

يبقيه غائما

أخيرًا ، تلاحظ الورقة أنه من غير المحتمل أن تكون موارد المعالجة المحلية قد نفذت نفس تدابير الكفاءة مثل مراكز البيانات الرئيسية ولاعبي الحوسبة السحابية عالية المستوى ، وأنه يمكن اكتساب الفوائد البيئية من خلال نقل أعباء العمل إلى المواقع التي استثمرت بكثافة في PUE الجيد.

في حين أن هناك راحة في الحصول على موارد الحوسبة الخاصة التي يمكن الوصول إليها ، فإن هذه الراحة تأتي بتكلفة. بشكل عام ، يمكن الحصول على وفورات الطاقة وتأثيرها بسهولة أكبر على نطاقات أكبر. تقوم مراكز البيانات ومقدمو الحوسبة السحابية باستثمارات كبيرة في كفاءة مرافقهم.

 

* الروابط ذات الصلة التي قدمتها الورقة.