الذكاء الاصطناعي

إعادة النظر في قوانين التوسع في تطوير الذكاء الاصطناعي

تم النشر 17 تشرين الثاني، 2024

أليكس مكفارلاند

مع دفع المطورين والباحثين لحدود أداء LLM، تثار أسئلة حول الكفاءة تلوح في الأفقحتى وقت قريب، كان التركيز منصبًّا على زيادة حجم النماذج وحجم بيانات التدريب، مع إيلاء القليل من الاهتمام للدقة الرقمية - عدد البتات المستخدمة لتمثيل الأرقام أثناء العمليات الحسابية.

A دراسة حديثة لقد قلبت أبحاث أجراها باحثون في هارفارد وستانفورد ومؤسسات أخرى هذا المنظور التقليدي رأساً على عقب. وتشير نتائجهم إلى أن الدقة تلعب دوراً أكثر أهمية في تحسين أداء النماذج مما كان معترفاً به من قبل. وهذا الاكتشاف له آثار عميقة على مستقبل الذكاء الاصطناعي، حيث يقدم بعداً جديداً لقوانين التوسع التي توجه تطوير النماذج.

الدقة في التركيز

تشير الدقة الرقمية في الذكاء الاصطناعي إلى مستوى التفاصيل المستخدمة لتمثيل الأرقام أثناء العمليات الحسابية، والتي يتم قياسها عادةً بالبتات. على سبيل المثال، تمثل الدقة التي تبلغ 16 بتًا أرقامًا ذات حبيبات أكثر من الدقة التي تبلغ 8 بتات ولكنها تتطلب قوة حسابية أكبر. وبينما قد يبدو هذا وكأنه فارق بسيط تقني، فإن الدقة تؤثر بشكل مباشر على كفاءة وأداء نماذج الذكاء الاصطناعي.

الدراسة بعنوان قوانين القياس للدقةيتناول هذا البحث العلاقة التي غالبًا ما يتم تجاهلها بين الدقة وأداء النموذج. ومن خلال إجراء سلسلة مكثفة من أكثر من 465 عملية تدريب، اختبر الباحثون نماذج بدقة متفاوتة، تتراوح من 3 بتات إلى 16 بتًا. وتم تدريب النماذج، التي تحتوي على ما يصل إلى 1.7 مليار معلمة، على ما يصل إلى 26 مليار رمز.

كشفت النتائج عن اتجاه واضح: الدقة ليست مجرد متغير ثانوي؛ بل إنها تُشكل جوهريًا مدى فعالية أداء النماذج. والجدير بالذكر أن النماذج المُدربة بشكل مفرط - أي تلك المُدربة على بيانات أكثر بكثير من النسبة المثلى لحجمها - كانت حساسة بشكل خاص لانخفاض الأداء عند تعرضها لـ توضيح، وهي عملية تقلل من الدقة بعد التدريب. وقد سلطت هذه الحساسية الضوء على التوازن الحرج المطلوب عند تصميم النماذج للتطبيقات في العالم الحقيقي.

قوانين التوسع الناشئة

من أهم مساهمات الدراسة طرح قوانين جديدة للقياس تُدمج الدقة مع المتغيرات التقليدية، مثل عدد المعاملات وبيانات التدريب. تُوفر هذه القوانين خارطة طريق لتحديد أنجع طريقة لتخصيص الموارد الحاسوبية أثناء تدريب النموذج.

وقد توصل الباحثون إلى أن نطاق الدقة الذي يتراوح بين 7 و8 بتات هو الأمثل بشكل عام للنماذج واسعة النطاق. وهذا يحقق التوازن بين الكفاءة الحسابية والأداء، ويتحدى الممارسة الشائعة المتمثلة في التخلف عن استخدام دقة 16 بت، والتي غالبًا ما تهدر الموارد. وعلى العكس من ذلك، فإن استخدام عدد قليل جدًا من البتات - مثل دقة 4 بتات - يتطلب زيادات غير متناسبة في حجم النموذج للحفاظ على أداء قابل للمقارنة.

وتؤكد الدراسة أيضًا على الاستراتيجيات المعتمدة على السياق. ففي حين أن 7-8 بتات مناسبة للنماذج الكبيرة والمرنة، فإن النماذج ذات الحجم الثابت، مثل LLaMA 3.1، تستفيد من مستويات الدقة الأعلى، وخاصة عندما يتم تمديد قدرتها لاستيعاب مجموعات بيانات واسعة النطاق. وتشكل هذه النتائج خطوة مهمة إلى الأمام، حيث تقدم فهمًا أكثر دقة للتنازلات التي تنطوي عليها عملية التوسع الدقيق.

التحديات والتداعيات العملية

بينما تُقدم الدراسة أدلة دامغة على أهمية الدقة في توسيع نطاق الذكاء الاصطناعي، إلا أن تطبيقها يواجه عقبات عملية. ومن أهم هذه العقبات توافق الأجهزة. فالتوفير المُحتمل من التدريب منخفض الدقة يعتمد فقط على قدرة الأجهزة على دعمه. وحدات معالجة الرسومات (GPUs) ووحدات معالجة الرسومات (TPUs) الحديثة مُحسّنة لدقة 16 بت، مع دعم محدود لنطاق 7-8 بت الأكثر كفاءة في الحوسبة. وإلى أن تلحق الأجهزة بالركب، قد تظل فوائد هذه النتائج بعيدة المنال بالنسبة للعديد من المطورين.

ويكمن تحدٍ آخر في المخاطر المرتبطة بالإفراط في التدريب والتكميم. وكما تكشف الدراسة، فإن النماذج التي خضعت لتدريب مفرط معرضة بشكل خاص لتدهور الأداء عند تكميمها. وهذا يطرح معضلة أمام الباحثين: ففي حين أن بيانات التدريب المكثفة تشكل نعمة بشكل عام، فإنها قد تؤدي عن غير قصد إلى تفاقم الأخطاء في النماذج منخفضة الدقة. وسوف يتطلب تحقيق التوازن الصحيح معايرة دقيقة لحجم البيانات وحجم المعلمات والدقة.

وعلى الرغم من هذه التحديات، فإن النتائج تقدم فرصة واضحة لتحسين ممارسات تطوير الذكاء الاصطناعي. ومن خلال دمج الدقة كاعتبار أساسي، يمكن للباحثين تحسين ميزانيات الحوسبة وتجنب الإفراط في استخدام الموارد، مما يمهد الطريق لأنظمة ذكاء اصطناعي أكثر استدامة وكفاءة.

مستقبل توسع الذكاء الاصطناعي

تشير نتائج الدراسة أيضًا إلى تحول أوسع في مسار أبحاث الذكاء الاصطناعي. لسنوات، هيمنت على هذا المجال عقلية "الأكبر هو الأفضل"، مع التركيز على نماذج ومجموعات بيانات متزايدة الحجم. ولكن مع اقتراب مكاسب الكفاءة من أساليب منخفضة الدقة، مثل التدريب ذي 8 بت، من حدودها القصوى، قد يكون عصر التوسع غير المحدود هذا على وشك الانتهاء.

يرى تيم ديتمرز، باحث الذكاء الاصطناعي من جامعة كارنيجي ميلون، أن هذه الدراسة تُمثل نقطة تحول. ويوضح قائلاً: "تُظهر النتائج بوضوح أننا وصلنا إلى الحدود العملية للتكميم". ويتوقع ديتمرز تحولاً من التوسع للأغراض العامة نحو مناهج أكثر استهدافاً، مثل النماذج المتخصصة المصممة لمهام محددة، والتطبيقات التي تُركز على الإنسان وتُعطي الأولوية لسهولته وإمكانية الوصول إليه على حساب قوة الحوسبة الغاشمة.

ويتماشى هذا المحور مع الاتجاهات الأوسع في مجال الذكاء الاصطناعي، حيث تؤثر الاعتبارات الأخلاقية والقيود المفروضة على الموارد بشكل متزايد على أولويات التطوير. ومع نضج المجال، قد يتحول التركيز نحو إنشاء نماذج لا تحقق أداءً جيدًا فحسب، بل تتكامل أيضًا بسلاسة مع سير العمل البشري وتلبي احتياجات العالم الحقيقي بشكل فعال.

الخط السفلي

يشكل دمج الدقة في قوانين القياس فصلاً جديدًا في أبحاث الذكاء الاصطناعي. ومن خلال تسليط الضوء على دور الدقة الرقمية، تتحدى الدراسة الافتراضات القديمة وتفتح الباب أمام ممارسات تطوير أكثر كفاءة ووعيًا بالموارد.

ورغم أن القيود العملية مثل القيود المفروضة على الأجهزة لا تزال قائمة، فإن النتائج تقدم رؤى قيمة لتحسين تدريب النماذج. ومع اتضاح حدود التكميم منخفض الدقة، أصبح هذا المجال على استعداد لتحول جذري ــ من السعي الدؤوب إلى تحقيق الحجم إلى نهج أكثر توازناً يؤكد على التطبيقات المتخصصة التي تركز على الإنسان.

تعتبر هذه الدراسة بمثابة دليل وتحدي للمجتمع: للابتكار ليس فقط من أجل الأداء ولكن أيضًا من أجل الكفاءة والعملية والتأثير.

مواضيع ذات صلة:الذكاء الاصطناعي LLM بحث

أليكس مكفارلاند

أليكس ماكفارلاند صحفي وكاتب في مجال الذكاء الاصطناعي يستكشف أحدث التطورات في مجال الذكاء الاصطناعي. لقد تعاون مع العديد من الشركات الناشئة والمنشورات في مجال الذكاء الاصطناعي في جميع أنحاء العالم.