الذكاء الاصطناعي
كيف قامت DeepSeek بتحطيم حاجز التكلفة مع 5.6 مليون دولار

يعتقد الحكمة التقليدية في مجال الذكاء الاصطناعي أن بناء نماذج اللغة الكبيرة (LLMs) يتطلب جيوبًا عميقة – عادةً بملايين الدولارات من الاستثمار. لكن DeepSeek ، وهي شركة ناشئة في مجال الذكاء الاصطناعي الصينية ، قامت بتحطيم هذا المفهوم بمنجزها الأخير: تطوير نموذج ذكاء اصطناعي من الدرجة العالمية مقابل 5.6 مليون دولار فقط.
يمكن لنموذج DeepSeek V3 المنافسة مع عمالقة الصناعة مثل جيميني من جوجل و أحدث عروض OpenAI ، كل ذلك باستخدام جزء صغير من الموارد الحاسوبية التقليدية. لفت هذا الإنجاز انتباه العديد من قادة الصناعة ، وما يجعل هذا أمرًا ملحوظًا بشكل خاص هو أن الشركة حققت ذلك على الرغم من مواجهة قيود التصدير الأمريكية التي محدودة الوصول إلى أحدث شريحة Nvidia.
اقتصاديات الذكاء الاصطناعي الفعال
تells قصتها الأرقام بشكل مقنع حول الكفاءة. في حين أن معظم نماذج الذكاء الاصطناعي المتقدمة تتطلب بين 16,000 و 100,000 وحدة معالجة رسومات (GPUs) للتدريب ، تمكنت DeepSeek من ذلك باستخدام 2,048 وحدة معالجة رسومات فقط تعمل لمدة 57 يومًا. استهلك تدريب النموذج 2.78 مليون ساعة وحدة معالجة رسومات على شريحة Nvidia H800 – وهذا رقم متواضع بشكل ملحوظ لنموذج يحتوي على 671 مليار معامل.
للوصول إلى هذا السياق ، احتاجت Meta إلى ما يقرب من 30.8 مليون ساعة وحدة معالجة رسومات – أي ما يعادل 11 مرة من القوة الحاسوبية – لتدريب نموذج Llama 3 ، والذي يحتوي في الواقع على معاملات أقل ، حيث يصل إلى 405 مليار. يبدو подход DeepSeek وكأنه دروس في التحسين تحت القيود. بالعمل مع وحدات معالجة رسومات H800 – شريحة مصممة خصيصًا لالسوق الصينية مع قدرات مخفضة – قامت الشركة بتحويل القيود المحتملة إلى ابتكارات. بدلاً من استخدام حلول جاهزة لمعالجة المعالج ، قاموا بتطوير حلول مخصصة أقصى حد للكفاءة.
في حين يستمر المنافسون في العمل تحت افتراض أن الاستثمارات الضخمة ضرورية ، تظهر DeepSeek أن الابتكار والاستخدام الفعال للموارد يمكن أن يقلل من الفجوة.

صورة: Artificial Analysis
هندسة المستحيل
يتمثل إنجاز DeepSeek في نهجها الفني المبتكر ، مما يظهر أن الانجازات الأكثر تأثيرًا أحيانًا تأتي من العمل داخل القيود بدلاً من رمي الموارد غير المحدودة في مشكلة.
في قلب هذه الابتكارات توجد استراتيجية تسمى “توازن التحميل الخالي من الفاقد التكميلي”. افكر فيها مثل تنسيق نظام معالجة موازية ضخم حيث تحتاج عادةً إلى قواعد و عقوبات معقدة لضمان تشغيل كل شيء بسلاسة. قامت DeepSeek بقلب هذه الحكمة التقليدية رأسًا على عقب ، من خلال تطوير نظام ي維ن التوازن بشكل طبيعي دون الحاجة إلى العواقب التقليدية.
أبتكر الفريق أيضًا ما يسمونه “توقع متعدد الرموز” (MTP) – تقنية تسمح للنموذج بالتفكير في المستقبل من خلال توقع رموز متعددة في نفس الوقت. في الممارسة ، يترجم هذا إلى معدل قبول مثير للإعجاب يصل إلى 85-90٪ لهذه التنبؤات عبر مواضيع مختلفة ، مما يوفر سرعات معالجة أسرع 1.8 مرة من النهج السابقة.
الهندسة المعمارية نفسها هي تحفة من الكفاءة. يemploys نموذج DeepSeek V3 نهج خليط من الخبراء مع 671 مليار معامل إجمالي ، ولكن هنا تأتي الحيلة – يتم تنشيط فقط 37 مليار معامل لكل رمز. يعني هذا التنشيط الانتقائي أنهم يحصلون على فوائد نموذج ضخم مع الحفاظ على الكفاءة العملية.
اختيارهم لإطار تدريب الدقة المختلطة FP8 هو قفزة أخرى إلى الأمام. بدلاً من قبول القيود التقليدية للدقة المخفضة ، قاموا بتطوير حلول مخصصة تحتفظ بالدقة مع تقليل متطلبات الذاكرة والحوسبة بشكل كبير.
آثار الموجة في نظام الذكاء الاصطناعي
تتجاوز تأثير إنجاز DeepSeek بعيدًا عن مجرد نموذج ناجح.
لتنمية الذكاء الاصطناعي الأوروبية ، هذا الإنجاز ذو أهمية خاصة. لا تصل العديد من النماذج المتقدمة إلى الاتحاد الأوروبي لأن الشركات مثل Meta و OpenAI إما لا يمكنها أو لا ترغب في التكيف مع قانون الاتحاد الأوروبي للذكاء الاصطناعي. يظهر نهج DeepSeek أن بناء الذكاء الاصطناعي المتقدم لا يتطلب دائمًا مجموعات كبيرة من وحدات معالجة الرسومات – إنه أكثر حول استخدام الموارد المتاحة بكفاءة.
يظهر هذا التطور أيضًا كيف يمكن للقيود على التصدير أن تدفع الابتكار. قامت DeepSeek بتفكير مختلف بسبب وصولها المحدود إلى الأجهزة عالية الجودة ، مما أدى إلى تحسينات برمجية قد لا تظهر في بيئة غنية بالموارد. يمكن أن يعيد هذا المبدأ تشكيل كيفية 접نا لتنمية الذكاء الاصطناعي على مستوى العالم.
الآثار الديمقراطية هي sâu. في حين يستمر عمالقة الصناعة في حرق مليارات ، قامت DeepSeek بإنشاء مخطط لتنمية الذكاء الاصطناعي الفعالة من حيث التكلفة. يمكن أن يفتح هذا الأبواب للشركات الصغيرة ومؤسسات البحث التي لم تكن قادرة على المنافسة بسبب قيود الموارد.
然而 ، هذا لا يعني أن البنية التحتية الحاسوبية الكبيرة تصبح عديمة الفائدة. تتحرك الصناعة نحو التركيز على توسيع وقت الاستدلال – مقدار الوقت الذي يستغرقه النموذج لإنشاء إجابات. مع استمرار هذا الاتجاه ، قد تكون الموارد الحاسوبية الكبيرة لا تزال ضرورية ، وربما أكثر من ذلك مع مرور الوقت.
لكن DeepSeek غيرت بشكل أساسي المحادثة. التأثيرات طويلة المدى واضحة: نحن ندخل عصرًا حيث قد يهم التفكير الابتكاري والاستخدام الفعال للموارد أكثر من القوة الحاسوبية الخارقة.对于 مجتمع الذكاء الاصطناعي ، هذا يعني التركيز ليس فقط على الموارد التي لدينا ، ولكن على كيفية استخدامها بشكل إبداعي وفعال.












