قادة الفكر
وهم الذكاء الاصطناعي الصيني: كيف يخفي “مصدر مفتوح” ما يهم أكثر

مع محاولة لاعبين التكنولوجيا الكبيرة مثل جوجل ومايكروسوفت وميتا الحصول على السوق السائد في سوق الذكاء الاصطناعي، قام صانعو الطائرات الصينية، بaidu، مونشوت، وألبابا، بإطلاق نماذج لغة كبيرة مثل ديب سيك، إرني 4.5، كيمي كي 2، وقوين 3 على التوالي، كمنشور مفتوح. هذا التحول من إطلاق نماذج جين إيه آي المحمية والمملوكة، تم استقباله كدليل على أن صناعة الذكاء الاصطناعي الصينية تتبنى قوة المصدر المفتوح لتحقيق الديمقراطية في تطوير الذكاء الاصطناعي وتحفيز الابتكار.
مثل العديد من اللاعبين الذين يعلنون عن عروضهم كمصدر مفتوح، ويضعون ذلك حتى في أسماء شركاتهم، ومع ذلك، لم تشارك هاي فلاير، بaidu، ومونشوت قطعًا حاسمة مثل مجموعات البيانات في قلب نماذجهم. نظرًا لأن هذه النماذج الكبيرة تسعى إلى أن تصبح سلعًا يعتمد عليها المطورون، فإن شفافية المصدر المفتوح الحقيقي الذي يمكن اختباره والتحقيق فيه والتحديث عليه هو أمر بالغ الأهمية لإنشاء تكنولوجيا غير متحيزة واخلاقية ومفيدة يمكننا جميعًا الثقة بها. جميع هذه النماذج “مفتوحة المصدر” هي في الواقع “مفتوحة الوزن”، مما يعني أنها يمكن تحميلها واستخدامها، ولكن لا يمكن فحصها بأي طريقة ذات معنى بدون البيانات.
كما يبدو أن اللاعبين الأمريكيين مثل أوبن آي وميتا يتراجعون عن المصدر المفتوح، يمكن لدعوة بaidu المفتوحة للاستفادة من مجموعة إرني 4.5 المتاحة مجانًا حث الابتكار والتعاون مع المطورين الذين يبحثون عن إنشاء تطبيقات صغيرة وقوية. في نفس الوقت، أعطت الشركة نفسها ميزة تنافسية من خلال تشجيع الاستخدام وتثبيت نماذجها في نظام البيئة الاصطناعية الناشئة.
يمكن القول الشيء نفسه عن ديب سيك، كيمي كي 2 منخفضة التكلفة، وتحديث قوين 3 – الذي يفتخر بمقاييس تتحدي النماذج المغلقة مثل كلود أوبس 4 و جي بي تي -4و-0327.
لقد وضعت هذه اللاعبين أنفسهم جيدًا في السباق لتصبح نموذج السلعة المختار، وكان آخر تحديث مبتكر لقوين 3 حتى مستوحى من ملاحظات مجتمع المصدر المفتوح.
مثل العديد من الذين يعلنون عن نموذج الذكاء الاصطناعي الكبير كمصدر مفتوح، ومع ذلك، فإن مجتمع الذكاء الاصطناعي الصيني لا يشارك في الواقع البيانات أو القطع الحاسمة الأخرى لأنظمتهم. بدلاً من ذلك، يطلبون من المطورين العالميين وضع ثقتهم العمياء في نماذج لا يمكنهم فهمها أو التحقيق فيها حقًا.
وضع اليد على المستقبل مع نماذج الذكاء الاصطناعي المفتوحة المصدر
عندما ظهر هاتف آي فون في السوق في عام 2007، افترض بعضهم أن ماك سيتحكم في لعبة الهاتف الذكي مع آي أو إس، ولكن المشاركة المفتوحة المصدر هي جزء أساسي للشركات الناشئة، كما أنها تحفز النمو الاقتصادي والريادي في جميع أنحاء العالم – وأندرويد، وهي شركة ناشئة تم الاستحواذ عليها من قبل جوجل في عام 2005، اتبعت هذا المسار إلى النصر.
من خلال إصدار برنامج مفتوح المصدر يمكن رؤيته وتنقيحه واعتماده ومشاركته، دعا أندرويد الأكاديميين والمطورين و حتى المنافسين للتعاون على البرنامج. هذا أCELERated عملية الابتكار، ودمجت ساحة اللعب، وأخيراً، خفضت الأسعار. أندرويد Reached السوق بعد عام من إطلاق آي فون وبحلول بداية هذا العام، فخورًا بنسبة 71.88 في المائة من السوق العالمية مقارنة بنسبة 27.65 في المائة لآي أو إس.
في ثورة تكنولوجية بدت وكأنها حدثت ليلة وضحاها، أصبحت الهواتف الذكية شائعة وحتى مع استمرار تحسين البرامج والأجهزة وواجهة المستخدم، نمت الصناعة إلى ما هو أبعد من محاولة ثورة كيفية عمل الهواتف الذكية. مع تحول الهواتف إلى سلع، يعتبر الابتكار الحالي في التطبيقات التي تعمل عليها، ويجب على مزودي الهواتف الذكية الحفاظ على نظام يرحب بالمطورين.
ليس بعد ثلاث سنوات من إطلاق تشات جي بي تي، تجد صناعة الذكاء الاصطناعي نفسها على حافة مشابهة. كل لاعب في صناعة الذكاء الاصطناعي العالمي يتنافس لجعل نماذجهم تصبح النEXT أندرويد أو حتى آي أو إس، ومن خلال الانتقال إلى المصدر المفتوح مع نماذج ديب سيك، إرني 4.5، وكيمي كي 2، يبحث المبتكرون الصينيون عن وضع يدهم على نظام ناشئ.
في حين أن هذا قد يعمل لصالحهم، ومع ذلك، لا يؤدي ذلك إلى شفافية المصدر المفتوح الحقيقي التي كانت ضرورية لا فقط لتربية الابتكار، ولكن لتربية الابتكار الذي يمكننا الثقة به.
البيانات هي القطعة المفقودة في معظم الذكاء الاصطناعي المفتوح المصدر
مع أن نماذج الذكاء الاصطناعي أكثر تعقيدًا من البرمجيات التقليدية، فإن النداء لبرامج الذكاء الاصطناعي مفتوحة المصدر完全 ليس أمرًا بسيطًا. بدلاً من مجرد رمز مصدر بسيط، تتكون أنظمة الذكاء الاصطناعي من سبعة مكونات – بما في ذلك رمز المصدر، معاملات النموذج، مجموعة البيانات، معاملات 超参数، رمز المصدر للتدريب، توليد الأرقام العشوائية، وأطر البرمجيات.
يجب أن تعمل كل قطعة في وئام لتنفيذ النموذج النتائج المرغوبة، مما يعني أن المطورين بحاجة إلى رؤية كاملة لمشاركة وتنقيح واعتماد النظام وفهم ما يحدث. مع أن قابلية الإعادة إنتاج هي أساس المنهج العلمي، ومع ذلك، فإن صناعة الذكاء الاصطناعي لديها عادة استخدام مصطلح المصدر المفتوح للإشارة إلى الإصدارات المجانية أو منخفضة التكلفة التي يتم إتاحتها مع وصول إلى بضع قطع من اللغز.
على سبيل المثال، قام بaidu بتوفير عشرة نماذج إرني 4.5 مجانًا. إلى جانب مشاركة النموذج والمعاملات، قام الشركة أيضًا بنشر إرني كيت و FastDeploy أدوات التوزيع مفتوحة المصدر. هذه الأدوات تمكن المطورين من بناء تطبيقات ذكاء اصطناعي قوية من خلال توفير قدرات صناعية، تدفقات تدريب و استدلال كفاءة الموارد، ومتوافق مع عدة أجهزة.
بمعنى آخر، قدم بaidu للمطورين أدوات مثيرة للاهتمام تمكنهم من إطلاق الابتكار بشكل أسرع، والتي يأملون أن تشجعهم على اختيار إرني 4.5 على المنافسة.
المطورون الذين يستفيدون من إرني 4.5، ومع ذلك، يطلب منهم وضع ثقتهم العمياء في النموذج، لأن بaidu احتفظ بالكثير مخفيًا، بما في ذلك مجموعات البيانات التي تخبر وتعلم نماذجها.
قوة نماذج الذكاء الاصطناعي المفتوحة المصدر الشفافة
في حين أن كل قطعة من قطع لغز الذكاء الاصطناعي حاسمة لجعل النموذج يعمل، 80 في المائة من مشاريع الذكاء الاصطناعي تفشل، ومجموعة البيانات في قلب المشكلة. مجموعات البيانات غير دقيقة و غير مكتملة و متحيزة تؤدي إلى نماذج لا تتصرف بشكل متوقع أو كما هو مرغوب.
على سبيل المثال، الفيديو الأخير للمشهد المميت لتحطم تيسلا فул سيلف درايفينغ في عام 2023، كشف عن أسوأ سيناريو ممكن لما يمكن أن يحدث عندما تفشل مجموعة بيانات ونموذج. عندما كان تيسلا موديل واي يسير بسرعة إلى الشمس المشرقة، لم تكن النظام شبه آلي قادرًا على فهم أو الاستجابة بشكل مناسب لما كانت الكاميرات ترى – أو لا ترى. في حين أن السيارات التي ي駕ها بشر تباطأت وسحبت إلى الجانب، أدى到 ارتباك نظام فسد إلى وفاة امرأة.
هذا الفشل المدمر يعكس بيانات بصرية غير مكتملة، بالإضافة إلى عدم وجود آلية أمان تأخذ في الاعتبار مثل هذه النقاط العمياء. عندما لا يتمكن المطورون من رؤية بياناتهم، لا يستطيعون رؤية كيفية تفاعلها مع النموذج، مما يعني أنهم لا يستطيعون كشف الأخطاء وتكرارها من أجل أداء قوي.
أمر أكثر قلقًا، بدون بيانات التي تغذي النموذج، يُجبرون على وضع ثقتهم العمياء فيه.
عندما تكون مجموعات البيانات مفتوحة المصدر، ومع ذلك، أثبتت مجتمع الذكاء الاصطناعي أنه سيكشف عن القضايا المقلقة، كما فعل عندما كشف عن أكثر من 1000 عنوان Url تحتوي على مواد إساءة للأطفال في لاين 5ب. مع أن مجموعة البيانات المستخدمة لنمذجة الذكاء الاصطناعي من النص إلى الصورة هي أساسية في إنشاء تطبيقات مثل ستейبل ديفيشن وميدجورني، سيكون من المدمر لصناعة الذكاء الاصطناعي إذا بدأ المستخدمون في إنتاج صور غير قانونية. بدلاً من ذلك، سمحت الطبيعة المفتوحة لمجموعة البيانات للمجتمع أن يكشف عن المحتوى الخطير ويشجع على حل.
بالإضافة إلى ذلك، استندت معظم هذه المجموعة الأولى من البيانات إلى التخليص من الويب الذي قامت به كومون كرول، والتي تم استخدامها أيضًا لنمذجة تشات جي بي تي و LLAMA. حتى مع استمرار رفع مخاوف حول حقوق النشر و الخصوصية و التسميات المتحيزة و العنصرية، ومع ذلك، يعمل المطورون في مجتمع الذكاء الاصطناعي على طرق لتنظيف قطع من مجموعة البيانات مفتوحة المصدر لكومون كرول للاستخدام الآمن.
كما يهدف المطورون إلى بناء الذكاء الاصطناعي القوي، ولكن أيضًا الذكاء الاصطناعي الذي يمكننا الثقة به، يتم حماية المستخدمين وصناعة الذكاء الاصطناعي على حد سواء من خلال الشفافية والتعاون في المصدر المفتوح الحقيقي.
التماسك مع مسار المصدر المفتوح
مع استمرار شكوك العديد من الناس حول هذه التكنولوجيا الناشئة، يتنافس السباق لتصبح نماذج السلعة الكبيرة المفتوحة المصدر جاريًا – و مع أن مجتمع الذكاء الاصطناعي العالمي يبني حرفيًا ما سيكون معيارًا للمستقبل، وأن أنظمة الذكاء الاصطناعي تقود بالفعل السيارات وتقدم تقييمات طبية، أصبح إنشاء الثقة من خلال إنشاء ذكاء اصطناعي غير متحيز وآمن وموثوق أكثر أهمية من أي وقت مضى.
مع محاولة مجتمع الذكاء الاصطناعي الصيني وضع نفسه كأبطال الابتكار المفتوح، يوجد طريق الآمن فقط في شفافية المصدر المفتوح الحقيقي التي أثبتت من خلال عقود من الابتكار البرمجي. وضع مصطلح المصدر المفتوح على أنظمة لا تشارك قطعًا حاسمة مثل البيانات لا يسمح للمطورين بالتحقيق و التكرار و التحديث. في حين أن جاذبية النماذج الجاهزة مثل ديب سيك، إرني 4.5، كيمي كي 2، وقوين 3 لا يمكن إنكارها، يتنازل المطورون الذين يستفيدون منها عن الشفافية التي تعزز التعاون والابتكار من أجل الراحة.
يجب على مجتمع الذكاء الاصطناعي أن يختار: التمسك بالشفافية الراديكالية من خلال المصدر المفتوح الحقيقي، أو المخاطرة ببناء أنظمة حاسوبية حرجة على صناديق سوداء اليوم.












