الذكاء الاصطناعي
لماذا يُعد استدلال الذكاء الاصطناعي، وليس التدريب، التحدي الهندسي التالي

خلال العقد الماضي، كانت الأضواء مركزة على التدريب في مجال الذكاء الاصطناعي. وقد جاءت الإنجازات بشكل رئيسي من مجموعات الحوسبة الضخمة، ونماذج تحتوي على تريليونات المعلمات، والمليارات من الدولارات التي أنفقت على تعليم الأنظمة “التفكير”. لقد عاملنا تطوير الذكاء الاصطناعي إلى حد كبير كمشروع بناء: بناء ناطحة سحاب للذكاء. لكن الآن بعد أن تم بناء هذا الناطحة سحاب، التحدي الحقيقي هو معرفة كيفية تسهيل عمل الملايين الذين يحتاجون إلى العيش والعمل بداخله في نفس الوقت. هذا يغير تركيز باحثي الذكاء الاصطناعي والمهندسين من التدريب (عملية إنشاء الذكاء) إلى الاستدلال (عملية استخدام الذكاء). بينما التدريب هو إنفاق رأس المال الكبير مرة واحدة (CapEx)، الاستدلال هو إنفاق تشغيلي مستمر (OpEx) يستمر إلى الأبد. عندما تقوم الشركات بتجهيز وكلاء يخدمون ملايين المستخدمين على مدار الساعة، يكتشفون حقيقة قاسية: الاستدلال ليس مجرد “تدريب معكوس”. إنه تحد هندسي مختلف بشكل أساسي، وربما أكثر صعوبة.
لماذا تهم تكاليف الاستدلال أكثر من أي وقت مضى
للفهم التحدي الهندسي، يجب أولاً فهم الضرورة الاقتصادية الأساسية. في مرحلة التدريب، يمكن تحمل عدم الكفاءة. إذا استغرق تشغيل التدريب أربعة أسابيع بدلاً من ثلاثة، فهذا مزعج.然而، في الاستدلال، يمكن أن يكون عدم الكفاءة مدمراً للأعمال. على سبيل المثال، قد يكلف تدريب نموذج متقدم 100 مليون دولار. لكن نشر هذا النموذج للاستجابة لمدة 10 ملايين استفسار في اليوم يمكن أن يتجاوز هذا التكلفة في غضون أشهر إذا لم يتم تحسينه. هذا هو السبب في أننا نشهد تحولاً في السوق، حيث من المتوقع أن تتجاوز استثمارات الاستدلال استثمارات التدريب.
جدار الذاكرة: العائق الحقيقي
الحقيقة غير المعروفة عن استدلال نموذج اللغة الكبير (LLM) هي أنه نادراً ما يتم تحديده بواسطة الحوسبة؛ بل يتم تحديده بواسطة الذاكرة. خلال التدريب، نقوم بمعالجة البيانات في مجموعات كبيرة، مما يحافظ على وحدات الحوسبة في وحدة معالجة الرسومات (GPU) مستخدمة بالكامل. في الاستدلال، خاصة في التطبيقات الوقت الحقيقي مثل الدردشات أو الوكلاء، تأتي الطلبات بشكل متتالي. كل رمز يتم إنشاؤه يتطلب من النموذج تحميل مليارات معلماته من ذاكرة النطاق الترددي العالي (HBM) إلى نوى الحوسبة. هذا هو “جدار الذاكرة“. إنه مثل وجود محرك فيراري (نواة معالجة الرسومات) عالق في زحمة مرور (النطاق الترددي المحدود للذاكرة).
الجبهة الجديدة لэффективية الذكاء الاصطناعي
نظرًا لأننا لا نستطيع دائمًا تغيير الأجهزة، فإن الجبهة القادمة للهندسة تقع في تحسين البرمجيات. هنا تحدث بعض من أكثر الإنجازات المبتكرة. نشهدها في نهضة تقنيات تعيد تعريف كيفية تنفيذ الحواسيب للشبكات العصبية.
- الترسيب المستمر: الترسيب التقليدي ينتظر حتى يتم ملء “الحافلة” قبل الانطلاق، مما ي introduces التأخير. الترسيب المستمر (الذي أبتكره إطارات مثل vLLM) يعمل مثل نظام مترو الأنفاق، يسمح بالطلبات الجديدة بالانضمام أو الخروج من قطار معالجة وحدة معالجة الرسومات في كل تكرار. إنه يزيد من الإنتاجية دون التضحية بالاتساق، وحل مشكلة جدولة معقدة تتطلب خبرة sâu في نظام التشغيل.
- فك التشفير التكهناتي: هذه التقنية تستخدم نموذجًا صغيرًا وسريعًا ورخيصًا لصياغة استجابة، بينما يتم التحقق من نموذج أكبر وأبطأ وأكثر قدرة في نفس الوقت. إنه يعتمد على حقيقة أن التحقق من النص أقل تكلفة حسابية من إنشائه.
- إدارة ذاكرة المفتاح-القيمة: في المحادثات الطويلة، “التاريخ” (ذاكرة المفتاح-القيمة) ينمو بسرعة، ويستهلك كميات كبيرة من ذاكرة وحدة معالجة الرسومات.现在، المهندسون يطبقون “pagedattention“، تقنية مستوحاة من نظام الذاكرة الافتراضية في أنظمة التشغيل. هذه التقنية تقسم الذاكرة إلى شظايا وتديرها بشكل غير متواصل.
ال复杂ية الوكيلية
إذا كان الاستدلال القياسي صعبًا، فإن الذكاء الاصطناعي الوكيلي يجعل الأمور أكثر صعوبة بشكل كبير. الدردشة العادية هي بدون حالة: المستخدم يسأل، والذكاء الاصطناعي يجيب، والعمل ينتهي.然而، وكيل الذكاء الاصطناعي لديه حلقة. إنه يخطط وينفذ أدوات ويلاحظ النتائج ويتكرر. من وجهة نظر هندسية، هذا هو كابوس. هذا التحول في البنية يطرح عدة تحديات أساسية:
- إدارة الحالة: يجب على محرك الاستدلال الحفاظ على “حالة” عملية تفكير الوكيل عبر خطوات متعددة، غالبًا ما تستغرق دقائق.
- الحلقات غير المنتهية: على عكس التمرير الأمامي المتوقع، يمكن لوكيل أن يتعثر في حلقة التفكير. إنشاء “مراقبين” و”مفصلي دوار” للرمز الاحتمالي هو مجال جديد كليًا.
- الحوسبة المتغيرة: قد يثير استفسار المستخدم واحد استدعاء استدلال، بينما قد يثير استفسار آخر خمسين استدعاء. إدارة الحمل وتحسين البنية التحتية عندما تحمل كل طلب تباينًا كبيرًا يتطلب منطقًا جديدًا تمامًا.
نحن ننتقل بشكل أساسي من “خدمة النماذج” إلى “تنسيق البنى الإدراكية”.
جلب الذكاء الاصطناعي إلى الأجهزة اليومية
أخيرًا، سيجبرنا حدود الطاقة والاتساق على نقل الاستدلال إلى الحواف. لا يمكننا توقع أن كل مصباح ذكي أو مركبة ذاتية أو روبوت مصنع يوجه طلباته من خلال مركز بيانات. التحدي الهندسي هنا هو الانضغاط. كيف يمكنك وضع نموذج تعلم من الإنترنت بالكامل على شريحة أصغر من إصبع، تعمل على بطارية؟
تقنيات مثل الكمية (تقليل الدقة من 16 بت إلى 4 بت أو حتى 1 بت) والتنقيح (تعليم نموذج صغير يقلد نموذج معلم كبير) أصبحت ممارسة قياسية. لكن التحدي الحقيقي هو نشر هذه النماذج على نظام بيئي من ملايين الأجهزة مثل أندرويد وآي أو إس و لينكس المضمنة، كل منها له قيود أجهزة خاصة به. إنه “كابوس التجزئة” لتطوير الهواتف المحمولة، مضروبًا بتعقيد الشبكات العصبية.
النتيجة
نحن ندخل عصر “اليوم 2” من الذكاء الاصطناعي التوليدي. اليوم 1 كان حول إثبات أن الذكاء الاصطناعي يمكن أن يكتب الشعر. اليوم 2 هو حول الهندسة، جعل هذه القدرة أكثر موثوقية ومتاحة وبأسعار معقولة. المهندسون الذين سيحددون العقد القادم ليسوا بالضرورة أولئك الذين يخترعون بنى نموذجية جديدة. هم مهندسو الأنظمة ومبرمجي النواة ومهندسو البنية التحتية الذين يمكنهم معرفة كيفية خدمة مليار رمز في الثانية دون إحراق شبكة الكهرباء أو إفلاس الشركة. استدلال الذكاء الاصطناعي لم يعد مجرد تفاصيل تشغيلية. إنه المنتج. وتحسينه هو التحدي الهندسي التالي.












