الذكاء الاصطناعي

صعود الذكاء الاصطناعي المتعدد الوسائط: هل هذه النماذج ذكية حقًا؟

تم النشر 11 يوليو، 2025

د. تحسين ضياء

بعد نجاح برامج الماجستير في القانون، يتطور قطاع الذكاء الاصطناعي الآن مع أنظمة متعددة الوسائط. في عام ٢٠٢٣، سيشهد سوق الذكاء الاصطناعي متعدد الوسائط التي تم الوصول إليها 1.2 مليار دولار، مع توقعات تشير إلى نمو سريع يتجاوز 30% سنويًا حتى عام 2032. بخلاف برامج الماجستير في القانون التقليدية، التي تعالج النصوص فقط، يمكن للذكاء الاصطناعي متعدد الوسائط معالجة النصوص والصور والصوت والفيديو في آنٍ واحد. على سبيل المثال، عند تحميل مستند يحتوي على نص ورسوم بيانية، يمكن للذكاء الاصطناعي متعدد الوسائط تجميع المعلومات من كلا المصدرين لإنشاء تحليلات أكثر شمولاً. هذه القدرة على دمج الوسائط المتعددة أقرب إلى الإدراك البشري من أنظمة الذكاء الاصطناعي السابقة. في حين أظهر الذكاء الاصطناعي متعدد الوسائط إمكانات ملحوظة في قطاعات مثل الرعاية الصحية والتعليم والمجالات الإبداعية، إلا أنه يطرح سؤالًا جوهريًا يتحدى فهمنا لهذا التطور: هل هذه النماذج متعددة الوسائط تستوعب العالم حقًا، أم أنها مجرد إعادة دمج وسائط متعددة؟

تحدي مطابقة الأنماط

أثارت التطورات الحديثة في الذكاء الاصطناعي متعدد الوسائط جدلاً حاداً في أوساط الذكاء الاصطناعي. ويجادل النقاد بأنه على الرغم من هذه التطورات، لا يزال الذكاء الاصطناعي متعدد الوسائط في جوهره نظاماً للتعرف على الأنماط. فهو قادر على معالجة مجموعات بيانات تدريب ضخمة لتحديد العلاقات الإحصائية بين مختلف أنواع المدخلات والمخرجات، ولكنه قد لا يمتلك فهماً حقيقياً للعلاقات بين مختلف الوسائط. فعندما يصف الذكاء الاصطناعي متعدد الوسائط صورةً ما، قد يُطابق الأنماط المرئية مع الأوصاف النصية التي شاهدها آلاف المرات من قبل، بدلاً من فهم ما يراه فهماً حقيقياً. ويشير منظور مطابقة الأنماط هذا إلى أن النماذج متعددة الوسائط قادرة على الاستيفاء داخل بيانات التدريب، ولكنها تواجه صعوبة في الاستقراء أو الاستدلال المنطقي.

تدعم هذا الرأي أمثلة عديدة لفشل أنظمة الذكاء الاصطناعي بطرق تكشف عن حدودها. قد تُحدد هذه الأنظمة الأشياء بدقة في عدد لا يُحصى من الصور، لكنها تعجز عن فهم العلاقات الفيزيائية الأساسية أو التفكير المنطقي الذي قد يكون بديهيًا للطفل. قد تُنتج هذه الأنظمة نصوصًا سلسة حول مواضيع معقدة، لكنها قد تفتقر إلى فهم حقيقي للمفاهيم الأساسية.

الهندسة المعمارية وراء الذكاء الاصطناعي المتعدد الوسائط

لتقييم ما إذا كان الذكاء الاصطناعي متعدد الوسائط يفهم المعلومات حقًا، يجب علينا دراسة كيفية عمل هذه الأنظمة. تعتمد معظم نماذج الذكاء الاصطناعي متعدد الوسائط على دمج عدة مكونات أحادية النمط متخصصة. يكشف هذا الهيكل عن رؤى مهمة حول طبيعة الفهم متعدد الوسائط. لا تعالج هذه الأنظمة المعلومات كما يفعل البشر، من خلال تجارب حسية متكاملة تبني فهمًا تراكميًا بمرور الوقت. بدلاً من ذلك، تجمع هذه الأنظمة تدفقات معالجة منفصلة تم تدريبها على أنواع مختلفة من البيانات وتنسيقها من خلال تقنيات متنوعة.

عملية المحاذاة بالغة الأهمية، لكنها ليست مثالية. فعندما يُعالج الذكاء الاصطناعي متعدد الوسائط صورةً ونصًا في آنٍ واحد، يجب عليه إيجاد طرق لربط السمات البصرية بالمفاهيم اللغوية. وتنشأ هذه العلاقة من خلال التعرض لملايين الأمثلة، وليس من خلال الفهم الحقيقي لكيفية ارتباط الرؤية واللغة ارتباطًا ذا معنى.

يثير هذا سؤالاً جوهرياً: هل يمكن لهذا النهج المعماري أن يؤدي إلى فهم حقيقي، أم سيبقى دائماً شكلاً متطوراً من مطابقة الأنماط؟ يجادل بعض الباحثين بأن الفهم ينبع من التعقيد، وأن مطابقة الأنماط المتقدمة بما يكفي تصبح غير قابلة للتمييز عن الفهم. ويرى آخرون أن الفهم الحقيقي يتطلب شيئاً مختلفاً جذرياً عن هياكل الذكاء الاصطناعي الحالية.

فرضية الريمكس

لعلّ أدقّ طريقة لوصف قدرات الذكاء الاصطناعي متعدد الوسائط هي من خلال منظور إعادة المزج. تعمل هذه الأنظمة من خلال دمج العناصر الموجودة بطرق مبتكرة، فتُنشئ روابط بين أنواع المحتوى التي ربما لم تكن مرتبطة بوضوح من قبل. هذه القدرة قوية وقيّمة، لكنها قد لا تُشكّل فهمًا حقيقيًا.

عندما يُنشئ الذكاء الاصطناعي متعدد الوسائط عملاً فنياً بناءً على وصف نصي، فإنه يُعيد مزج الأنماط البصرية من بيانات التدريب استجابةً للإشارات اللغوية. قد تكون النتيجة إبداعية ومفاجئة، لكنها تنبع من إعادة تركيب مُعقدة، لا من فكر أو فهم أصلي.

تُفسّر هذه القدرة على إعادة المزج نقاط قوة ونقاط ضعف الذكاء الاصطناعي متعدد الوسائط الحالي. تستطيع هذه الأنظمة إنتاج محتوى يبدو مبتكرًا لأنها تجمع عناصر من مجالات مختلفة تمامًا بطرق ربما لم يخطر ببال البشر. ومع ذلك، لا يمكنها الابتكار حقًا بما يتجاوز الأنماط الموجودة في بيانات تدريبها.

تفسر فرضية إعادة المزج أيضًا سبب فشل هذه الأنظمة أحيانًا. إذ يمكنها توليد نصوص تبدو موثوقة حول مواضيع لم تفهمها قط فهمًا حقيقيًا، أو إنشاء صور تنتهك القوانين الفيزيائية الأساسية، لأنها تجمع أنماطًا بصرية دون فهم حقيقي للواقع الكامن.

اختبار حدود فهم الذكاء الاصطناعي

الأخيرة بحث حاول الباحثون استكشاف حدود فهم الذكاء الاصطناعي من خلال مناهج تجريبية متنوعة. ومن المثير للاهتمام أنه عند مواجهة مهام بسيطة، غالبًا ما تتفوق نماذج اللغة القياسية على النماذج الأكثر تعقيدًا التي تركز على التفكير المنطقي. ومع ازدياد التعقيد، تكتسب نماذج التفكير المنطقي المتخصصة أفضلية من خلال توليد عمليات تفكير مفصلة قبل الإجابة.

تشير هذه النتائج إلى أن العلاقة بين التعقيد والفهم في الذكاء الاصطناعي ليست مباشرة. قد تُجدي مطابقة الأنماط نفعًا في المهام البسيطة، بينما تتطلب التحديات الأكثر تعقيدًا أسلوبًا أقرب إلى التفكير المنطقي. ومع ذلك، حتى النماذج التي تُركز على التفكير المنطقي قد تُطبّق مطابقة أنماط معقدة بدلًا من الفهم الحقيقي.

يواجه اختبار فهم الذكاء الاصطناعي متعدد الوسائط تحديات فريدة. فعلى عكس الأنظمة النصية، يجب أن تُظهر النماذج متعددة الوسائط فهمًا لأنواع مختلفة من المدخلات في آنٍ واحد. وهذا يُتيح فرصًا لاختبارات أكثر تطورًا، ولكنه يُدخل أيضًا تعقيدات تقييمية جديدة.

يتضمن أحد الأساليب اختبار التفكير متعدد الوسائط، حيث يتعين على الذكاء الاصطناعي استخدام معلومات من نمط واحد للإجابة على أسئلة حول نمط آخر. ويتضمن أسلوب آخر اختبار اتساق الاستجابة عبر عروض مختلفة لنفس المعلومات الأساسية. غالبًا ما تكشف هذه الاختبارات عن فجوات في الفهم لا تظهر في تقييمات النمط الواحد.

التداعيات الفلسفية

إن مسألة فهم الذكاء الاصطناعي متعدد الوسائط ترتبط أيضًا بقضايا فلسفية جوهرية تتعلق بطبيعة الفهم نفسه. ما معنى فهم شيء ما؟ هل الفهم وظيفي بحت، أم أنه يتطلب خبرة ووعيًا ذاتيين؟

من منظور وظيفي، إذا كان نظام الذكاء الاصطناعي قادرًا على معالجة المعلومات، وتقديم استجابات مناسبة، والتصرف بطرق تُظهر فهمًا، فيمكن القول إنه يفهم فهمًا ذا معنى. الآليات الداخلية أقل أهمية من القدرات الخارجية.

مع ذلك، يُجادل النقاد بأن الفهم يتطلب أكثر من مجرد القدرة الوظيفية. فهم يجادلون بأن الفهم الحقيقي يتضمن المعنى والقصدية والتجذر في التجربة، وهي أمور تفتقر إليها أنظمة الذكاء الاصطناعي الحالية. قد تتلاعب هذه الأنظمة بالرموز بفعالية دون أن تفهم تمامًا ما تمثله تلك الرموز.

إن مسألة ما إذا كان الذكاء الاصطناعي متعدد الوسائط يفهم البيانات حقًا أم أنه يُعيد خلطها فحسب ليست مجرد نقاش أكاديمي؛ بل تحمل في طياتها تداعيات عملية بالغة الأهمية على تطوير الذكاء الاصطناعي ونشره. وتؤثر إجابة هذا السؤال على كيفية استخدامنا لأنظمة الذكاء الاصطناعي متعدد الوسائط، وما الذي يجب أن نتوقعه منها، وكيف نستعد لتطويرها المستقبلي.

الواقع العملي

بينما يستمر الجدل الفلسفي حول فهم الذكاء الاصطناعي، فإن الواقع العملي يُظهر أن أنظمة الذكاء الاصطناعي متعددة الوسائط تُحدث بالفعل تحولاً في كيفية عملنا وإنشائنا وتفاعلنا مع المعلومات. وقد يكون فهم هذه الأنظمة الحقيقي من منظور فلسفي أقل أهمية من قدراتها العملية وحدودها.

مفتاح النجاح للمستخدمين والمطورين هو فهم ما تستطيع هذه الأنظمة فعله وما لا تستطيع فعله في وضعها الحالي. فهي تتفوق في التعرف على الأنماط، وتوليد المحتوى، والترجمة بين الوسائط. لكنها تواجه صعوبة في التفكير الإبداعي، والفهم السليم، والحفاظ على الاتساق عبر التفاعلات المعقدة.

ينبغي أن يُرشدنا هذا الفهم إلى كيفية دمج الذكاء الاصطناعي متعدد الوسائط في سير عملنا وعمليات صنع القرار. تُعدّ هذه الأنظمة أدوات فعّالة تُعزّز القدرات البشرية، ولكنها قد لا تكون مناسبة للمهام التي تتطلب فهمًا وتفكيرًا حقيقيين.

الخط السفلي

رغم قدرتها المذهلة على معالجة وتوليف أنواع متعددة من البيانات، قد لا تفهم أنظمة الذكاء الاصطناعي متعدد الوسائط المعلومات التي تتعامل معها فهمًا دقيقًا. تتفوق هذه الأنظمة في التعرف على الأنماط وتعديل المحتوى، لكنها تعجز عن التفكير المنطقي والفهم السليم. هذا التمييز مهم لكيفية تطويرنا لهذه الأنظمة ونشرها والتفاعل معها. إن فهم حدودها يساعدنا على استخدامها بفعالية أكبر مع تجنب الاعتماد المفرط على قدرات لا تمتلكها.

د. تحسين ضياء

الدكتور تحسين ضياء هو أستاذ مشارك دائم في جامعة كومساتس إسلام أباد، ويحمل درجة الدكتوراه في الذكاء الاصطناعي من جامعة فيينا للتكنولوجيا، النمسا. متخصص في الذكاء الاصطناعي، والتعلم الآلي، وعلوم البيانات، ورؤية الكمبيوتر، وقد قدم مساهمات كبيرة من خلال منشورات في المجلات العلمية ذات السمعة الطيبة. كما قاد الدكتور تحسين العديد من المشاريع الصناعية كمحقق رئيسي وعمل كمستشار في الذكاء الاصطناعي.