الذكاء الاصطناعي
جدار الجرافيك المتحطم: الثورة غير المرئية في معمارية ما بعد الترانسفورمر

منذ خمس سنوات، كانت صناعة الذكاء الاصطناعي مترادفة بشكل فعال مع كلمة واحدة: الترانسفورمر. منذ إصدار ورقة “الانتباه هو كل ما تحتاجه” في عام 2017، تم حجز هذا المعمارية للحقل. من GPT إلى كلود، يعتمد كل نموذج يلفت الانتباه تقريباً على نفس الآلية الأساسية للانتباه الذاتي. لقد افترضنا بشكل كبير أن طريقاً لتحسين الذكاء الاصطناعي هو ببساطة مسألة الحجم. في الممارسة، يعني هذا تدريب ترانسفورمات أكبر مع المزيد من البيانات على مجموعات أكبر من وحدات معالجة الرسومات.
على الرغم من أن هذا الاعتقاد قد دفع العديد من الابتكارات، إلا أنه يصل الآن إلى حدوده. نحن نضرب “جدار الجرافيك”، وهو حاجز ليس فقط من القدرة الحاسوبية الخام، ولكن من عرض النطاق الترددي للذاكرة والاستدامة الاقتصادية. بينما يركز العالم على سباق النماذج ذات المعاملات التريليونية، تحدث تحول جذري في معاملات البحث. تظهر موجة جديدة من “معماريات ما بعد الترانسفورمر” لتكسير قيود النموذج الحالي. يعد هذا التحول وعداً بجعل الذكاء الاصطناعي أكثر كفاءة ويمكن الوصول إليه وقادراً على التفكير في سياقات لا نهاية لها.
سقف السيليكون: لماذا يضرب الترانسفورمات بالجدар
للفهم لماذا نحتاج إلى تحول، نحتاج أولاً إلى فهم انسداد النظام الحالي. الترانسفورمات قوية بشكل لا يصدق، ولكنها غير فعالة بشكل ملحوظ في طرق معينة. يعتمد核心 قدرتهم على “آلية الانتباه”، والتي تسمح للنموذج بالنظر إلى كل رمز في تسلسل وحساب علاقته بكل رمز آخر. هذا ما يعطيهم القدرة على فهم السياق بشكل ملحوظ.
然而، تأتي هذه القدرة مع عيب قاتل من النمو التربيعي. إذا ضاعفت طول الوثيقة، تريد الذكاء الاصطناعي قراءتها، فإن العمل الحاسوبي المطلوب لا يزداد فقط، بل يربعه. عندما نسعى لإنشاء نماذج “سياق لا نهاية لها” يمكنها قراءة مكتبات أو قواعد بيانات كاملة، تصبح المتطلبات الحاسوبية非常 عالية.
لكن المشكلة الأكثر إلحاحاً هي الذاكرة، وخاصة “KV Cache” (مخزن المفاتيح والقيم). لإنشاء نص سلس بشكل متدفق، يجب على الترانسفورمر الاحتفاظ بسجل تشغيل لكل ما قاله مؤخراً في ذاكرة وحدات معالجة الرسومات عالية السرعة (VRAM).随着 نمو المحادثة، ينتفخ هذا المخزن، ويستهلك كميات هائلة من الذاكرة فقط لتذكر ما حدث قبل ثلاثة فقرات.
هذا يخلق “جدار الجرافيك”. نحن لا ننفد فقط من الرقائق؛ نحن ننفد من عرض النطاق الترددي للذاكرة لإطعامها. لقد بنينا محركات تصبح أكبر وأكبر، ولكنها تصبح غير قابلة للتغذية. لفترة طويلة، كانت حلول الصناعة ببساطة شراء المزيد من NVIDIA H100s. لكن هذا القوة الغاشمة يصل إلى نقطة الrendez. نحن لا نحتاج إلى محرك يستهلك الوقود بشكل تربيعي، بل إلى معمارية جديدة.
الثورة غير المرئية
في حين كانت الأبحاث الرئيسية محصورة على LLMs، كان هناك مجموعة من الباحثين يعادة النظر في فكرة قديمة: الشبكات العصبية المتكررة (RNNs). قبل الترانسفورمات، كانت RNNs المعيار للغة. لقد معالجت النص بشكل متسلسل، كلمة بكلمة، محدثة حالة داخلية مخفية أثناء التنقل. كانت هذه الشبكات فعالة بشكل لا يصدق لأنها لم تكن بحاجة إلى النظر إلى التاريخ الكامل، بل كانت تحمل “الجوهر” منه في ذاكرتها.
أخفقت RNNs لأنها لم تكن قادرة على التعامل مع التبعيات الطويلة؛ كانت “تنسى” بداية الجملة بحلول الوقت الذي تصل إليه النهاية. كانت هذه الشبكات بطيئة في التدريب لأنها لم تكن قابلة للتوازي. هذا يعني أنك يجب أن تعالج كلمة A قبل أن تتمكن من معالجة كلمة B. حل الترانسفورمات هذا من خلال معالجة كل شيء في نفس الوقت (التوازي) والاحتفاظ بكل شيء في الذاكرة (الانتباه).
الآن، نشهد ظهور موجة جديدة من المعماريات التي تجمع بين أفضل ما في كلا العالمين. هذه المعماريات تعرف باسم نماذج الفضاء الحالة (SSMs). تقدم هذه المعماريات سرعة التدريب للترانسفورمات (قابلة للتوازي) ولكن كفاءة الاستدلال لل RNNs (التمييز الخطي).
من بين المعماريات البارزة في هذه الموجة الجديدة هو Mamba. تم إطلاق Mamba في أواخر عام 2023 وتنقيحه طوال عام 2024، ويعتبر تحولاً جذرياً في كيفية تعامل النماذج مع المعلومات. على عكس الترانسفورمر، الذي يحتفظ بنسخة أصلية من كل كلمة قرأها في حافظته، يستخدم Mamba “فضاء حالة انتقائي”.
يمكننا فهم الفرق بين الترانسفورمر و Mamba من خلال تخيل الترانسفورمر كعالم يحتفظ بكل كتاب قرأه على مكتب ضخم، يفحص بشكل مستمر إلى الوراء للعثور على الاتصالات. Mamba، من ناحية أخرى، هو عالم يقرأ الكتاب مرة واحدة ويعصر الأفكار الرئيسية إلى دفتر ذكريات فعالة للغاية.
يغير هذا الفرق الاقتصاديات الخاصة bằng نشر الذكاء الاصطناعي. مع Mamba وعممارية مماثلة مثل RWKV (مفتاح قيمة مُوزّع)، لا ينفجر تكلفة إنشاء النص مع طول التسلسل. يمكنك نظرياً إطعام هذه النماذج مليون كلمة من السياق، وتبقى التكلفة الحاسوبية لإنشاء الرمز التالي هي نفسها كما لو كنت قد أطعتها بعشر كلمات.
عودة التكرار
الانطلاقة الفنية وراء Mamba هي “الانتقائية”. فشلت المحاولات السابقة لتحديث RNNs لأنها كانت صارمة للغاية. لقد ضغطت المعلومات بشكل متساوٍ، بغض النظر عما إذا كانت مهمة أو ضوضاء. يقدم Mamba آلية تسمح للنموذج بتحديد ما يريد تذكره وما يريد نسيانه بشكل ديناميكي أثناء بث البيانات.
إذا حصل النموذج على قطعة مهمة من المعلومات، مثل تعريف متغير في كتلة من الشفرة، “يفتح البوابة” ويكتبها بقوة في حالته. إذا واجه كلمات ملء أو ضوضاء غير ذات صلة، يغلق البوابة، يحافظ على سعة الذاكرة المحدودة لما يهم.
ت解决 هذه الانتقائية بشكل فعال مشكلة “النسيان” التي تحديت RNNs القديمة. في العديد من الاختبارات، تتوافق نماذج Mamba مع أداء الترانسفورمات من نفس الحجم ولكنها تعمل بسرعة تصل إلى خمس مرات أثناء الاستدلال. أكثر من ذلك، بصمات الذاكرة الخاصة بهم أصغر بكثير. هذا يفتح الباب أمام نماذج LLMs عالية الأداء لتشغيلها على أجهزة كانت تعتبر غير قادرة على التعامل معها، مثل الحواسيب المحمولة أو شبكات الحوسبة الحدية أو حتى الهواتف الذكية، دون إعادة توجيهها إلى السحابة.
نحن نشهد أيضاً ظهور Hyena، وهي معمارية أخرى دون تربيعية تستخدم التمويجات الطويلة لمعالجة البيانات. مثل Mamba، تهدف Hyena إلى إزالة طبقات الانتباه الثقيلة من الترانسفورمر واستبدالها bằng عمليات رياضية أرخص للتطبيق على الأجهزة. هذه النماذج بدأت بالفعل في تحدي النماذج الترانسفورمر الحالية في القوائم الرئيسية.
صعود الهجينة
然而، قد لا تكون الثورة استبدالًا كاملاً للترانسفورمر، ولكن تطورًا إلى أشكال هجينة. نحن نشهد بالفعل ظهور نماذج مثل Jamba (من AI21 Labs)، التي تجمع بين طبقات الترانسفورمر وطبقات Mamba.
يقدم هذا النهج الهجين طريقة عملية للتعامل مع قيود الترانسفورمر. الترانسفورمات لا تزال قوية بشكل استثنائي في بعض المهام، خاصة عند نسخ التفاصيل الدقيقة من السياق. من خلال مزج طبقات Mamba (التي تعامل مع معالجة البيانات والذاكرة الطويلة الأمد) مع بعض طبقات الانتباه الترانسفورمر (التي تعامل مع التفكير الحاد والفوري)، نحصل على نموذج يجمع بين أفضل ما في كلا العالمين.
يخلق نموذج هجين نافذة سياق ضخمة يمكن استخدامها بالفعل. حالياً، تدعي العديد من نماذج “السياق الطويل” الترانسفورمر أنها يمكن التعامل مع 100,000 رمز، ولكن أدائها يتناقص بسرعة مع امتلاء السياق. هذا يعرف باسم “迷失在中间“. تحتفظ المعمارية الهجينة بتماسكها بشكل أفضل على مسافات طويلة لأن طبقات SSM مصممة خصيصاً لضغط الحالة وتنقلها مع مرور الوقت.
هذه التطورات تنتقل تركيز الصناعة من “حوسبة التدريب” (ما حجم المجموعة التي أحتاج إلى بنائها لإنشاء النموذج؟) إلى “اقتصاديات الاستدلال” (كيف يمكنني خدمة هذا النموذج لمليار مستخدم بثمن رخيص؟). إذا كان نموذج هجين يمكنه خدمة مستخدم لمدة 10% من تكلفة الترانسفورمر، يتغير حالة عمل التطبيقات الذكية بين ليلة وضح.
مستقبل نشر الذكاء الاصطناعي
الآثار المترتبة على هذه الثورة ما بعد الترانسفورمر ليست مقتصرة على مركز البيانات. لقد عمل “جدار الجرافيك” تاريخياً كحارس، مما يضمن أن فقط أكبر الشركات التكنولوجية ذات مليارات الدولارات في الأجهزة يمكنها بناء وتشغيل نماذج متقدمة. المعماريات الفعالة مثل Mamba و RWKV تديم هذه القوة. إذا كنت تستطيع تشغيل نموذج GPT-4 على بطاقة مستهلك لأنك لا تحتاج إلى تيرابايت من VRAM لمخزن المفاتيح والقيم، يبدأ التحكم المركزي للذكاء الاصطناعي في التخفيف.
علاوة على ذلك، هذه الكفاءة هي مفتاح فتح “نظام الذكاء الاصطناعي العامل” الذي يعمل في الخلفية لساعات أو أيام لاستكمال مهام معقدة. الترانسفورمات الحالية باهظة الثمن وبطيئة للغاية لتشغيلها في حلقات مستمرة لمدة طويلة. يمكن لمعمارية فعالة وخطية الزمن “التفكير” ومعالجة الحلقات بشكل مستمر دون إفلاس المستخدم أو تسخين الأجهزة.
الخلاصة
الترانسفورمر قد سادت عناوين الذكاء الاصطناعي، ولكن خلف الكواليس، ثورة هادئة جارية. “جدار الجرافيك” يدفع الباحثين إلى إعادة التفكير في كيفية تعامل النماذج مع الذاكرة والحوسبة. المعماريات ما بعد الترانسفورمر مثل Mamba ونموذج الهجين تثبت أن الكفاءة، وليس فقط الحجم، ستحدد الحقبة القادمة. هذه الابتكارات تجعل نوافذ السياق الضخمة عملية وتجعل الاستدلال أرخص وتجعل الذكاء الاصطناعي المتقدم يمكن الوصول إليه ما وراء مراكز البيانات. مستقبل الذكاء الاصطناعي لا يكمن في نماذج أكبر، ولكن في نماذج أكثر ذكاءً تذكر وتعقل وتتوسع بكفاءة.












