الذكاء الاصطناعي

استكشاف الجوزاء الجديد لـ Google DeepMind: ما هو كل هذا الضجيج؟

تم النشر 21 كانون الأول، 2023

د. تحسين ضياء

في عالم الذكاء الاصطناعي (AI)، تم إنشاء Google DeepMind مؤخرًا، الجوزاء، يولد ضجة. ويهدف هذا التطور المبتكر إلى مواجهة التحدي المعقد المتمثل في تكرار الإدراك البشري، وخاصة قدرته على دمج المدخلات الحسية المختلفة. يستخدم الإدراك البشري، وهو متعدد الوسائط بطبيعته، قنوات متعددة في وقت واحد لفهم البيئة. الذكاء الاصطناعي متعدد الوسائط, مستوحاة من هذا التعقيد، تسعى جاهدة لدمج المعلومات من مصادر متنوعة وفهمها واستدلالها، مما يعكس قدرات الإدراك الشبيهة بالإنسان.

تعقيد الذكاء الاصطناعي متعدد الوسائط

في حين أن الذكاء الاصطناعي قد قطع خطوات كبيرة في التعامل مع الأوضاع الحسية الفردية، إلا أن تحقيق الذكاء الاصطناعي متعدد الوسائط الحقيقي يظل تحديًا هائلاً. تتضمن الأساليب الحالية تدريب مكونات منفصلة لطرائق مختلفة وربطها معًا، لكنها غالبًا ما تفشل في المهام التي تتطلب تفكيرًا معقدًا ومفاهيميًا.

ظهور برج الجوزاء

في سعيها لمحاكاة الإدراك البشري متعدد الوسائط، برزت منصة جوجل جيميني كتطور واعد. تُقدم هذه المنصة منظورًا فريدًا لقدرة الذكاء الاصطناعي على فك رموز الإدراك البشري. تتبع جيميني نهجًا مميزًا، كونها متعددة الوسائط بطبيعتها، وتخضع لتدريب مسبق على مختلف الوسائط. ومن خلال المزيد من الضبط الدقيق باستخدام بيانات متعددة الوسائط إضافية، تُحسّن جيميني فعاليتها، مما يُظهر إمكانات واعدة في فهم وتفسير مختلف المدخلات.

ما هو الجوزاء؟

جوجل الجوزاءجيميني 6، الذي طُرح في 2023 ديسمبر 1.0، هو عائلة من نماذج الذكاء الاصطناعي متعددة الوسائط، طورتها وحدة جوجل ديب مايند التابعة لشركة ألفابت بالتعاون مع جوجل للأبحاث. صُمم جيميني XNUMX لفهم وإنشاء محتوى عبر مجموعة متنوعة من أنواع البيانات، بما في ذلك النصوص والصوت والصور والفيديو.

الميزة البارزة في Gemini هي تعدد الوسائط الأصلي، مما يميزها عن نماذج الذكاء الاصطناعي التقليدية متعددة الوسائط. تتيح هذه القدرة الفريدة لـ Gemini المعالجة والتفكير بسلاسة عبر أنواع البيانات المتنوعة مثل الصوت والصور والنص. ومن الجدير بالذكر أن برج الجوزاء يمتلك تفكيرًا متعدد الوسائط، مما يسمح له بتفسير الملاحظات المكتوبة بخط اليد والرسوم البيانية والرسوم البيانية لمعالجة المشكلات المعقدة. تدعم بنيته الاستيعاب المباشر للنص والصور والأشكال الموجية الصوتية وإطارات الفيديو كتسلسلات متداخلة.

عائلة الجوزاء

تفتخر Gemini بمجموعة من النماذج المصممة لحالات استخدام وسيناريوهات نشر محددة. ومن المتوقع أن يكون النموذج Ultra، المصمم للمهام المعقدة للغاية، متاحًا في أوائل عام 2024. ويعطي النموذج Pro الأولوية للأداء وقابلية التوسع، وهو مناسب للأنظمة الأساسية القوية مثل Google Bard. في المقابل، تم تحسين نموذج Nano للاستخدام على الجهاز ويأتي في نسختين — Nano-1 مع 1.8 مليار معلمة وNano-2 مع 3.25 مليار معلمة. تندمج طرازات Nano هذه بسلاسة في الأجهزة، بما في ذلك الهاتف الذكي Google Pixel 8 Pro.

الجوزاء مقابل ChatGPT

وفقًا لمصادر الشركة، قام الباحثون بمقارنة برنامج Gemini على نطاق واسع مع متغيرات ChatGPT حيث تفوق على ChatGPT 3.5 في الاختبارات واسعة النطاق. تتفوق Gemini Ultra في 30 من 32 معيارًا مستخدمًا على نطاق واسع في أبحاث نماذج اللغات الكبيرة. حصل Gemini Ultra على 90.0% في MMLU (فهم اللغة متعدد المهام الهائل)، وهو يتفوق على الخبراء البشريين، ويعرض براعته في فهم اللغة متعدد المهام الهائل. يتكون MMLU من مجموعة من 57 موضوعًا مثل الرياضيات والفيزياء والتاريخ والقانون والطب والأخلاق لاختبار المعرفة العالمية وقدرات حل المشكلات. تم تدريب Gemini ليكون متعدد الوسائط، ويمكنه معالجة أنواع مختلفة من الوسائط، مما يجعله متميزًا في المشهد التنافسي للذكاء الاصطناعي.

استخدم حالات

أدى ظهور برج الجوزاء إلى ظهور مجموعة من حالات الاستخدام، بعضها على النحو التالي:

الاستدلال المتقدم متعدد الوسائط: يتفوق برج الجوزاء في الاستدلال المتقدم متعدد الوسائط، حيث يتعرف ويستوعب في نفس الوقت النصوص والصور والصوت والمزيد. يعزز هذا النهج الشامل قدرته على فهم المعلومات الدقيقة والتفوق في التفسير والاستدلال، خاصة في المواضيع المعقدة مثل الرياضيات والفيزياء.
برمجة الكمبيوتر: يتفوق الجوزاء في فهم وإنشاء برامج كمبيوتر عالية الجودة عبر اللغات المستخدمة على نطاق واسع. ويمكن استخدامه أيضًا كمحرك لأنظمة ترميز أكثر تقدمًا، كما هو موضح في حل مشكلات البرمجة التنافسية.
التحول في التشخيص الطبي: يمكن أن تشكل قدرات معالجة البيانات المتعددة الوسائط التي توفرها شركة جيميني تحولاً في التشخيص الطبي، مما قد يعزز عمليات صنع القرار من خلال توفير الوصول إلى مصادر بيانات متنوعة.
تحويل التنبؤ المالي: يعيد Gemini تشكيل التنبؤ المالي من خلال تفسير البيانات المتنوعة في التقارير المالية واتجاهات السوق، مما يوفر رؤى سريعة لاتخاذ قرارات مستنيرة.

التحديات

على الرغم من أن جوجل جيميني قد أحرزت تقدمًا ملحوظًا في تطوير الذكاء الاصطناعي متعدد الوسائط، إلا أنها تواجه بعض التحديات التي تتطلب دراسة متأنية. نظرًا لتدريبها المكثف على البيانات، من الضروري التعامل معها بحذر لضمان الاستخدام المسؤول لبيانات المستخدم، مع مراعاة مخاوف الخصوصية وحقوق النشر. كما تُثير التحيزات المحتملة في بيانات التدريب تساؤلات حول العدالة، مما يستلزم إجراء اختبارات أخلاقية قبل أي إصدار عام للحد من هذه التحيزات. كما توجد مخاوف بشأن احتمال إساءة استخدام نماذج الذكاء الاصطناعي القوية، مثل جيميني، في هجمات إلكترونية، مما يُبرز أهمية النشر المسؤول والرقابة المستمرة في ظل بيئة الذكاء الاصطناعي الديناميكية.

التطور المستقبلي لبرج الجوزاء

أكدت شركة Google التزامها بتعزيز برنامج Gemini وتمكينه للإصدارات المستقبلية مع التقدم في التخطيط والذاكرة. بالإضافة إلى ذلك، تهدف الشركة إلى توسيع نافذة السياق، مما يمكّن جيميني من معالجة المزيد من المعلومات وتقديم استجابات أكثر دقة. وبينما نتطلع إلى تحقيق اختراقات محتملة، فإن القدرات المميزة التي يتمتع بها برج الجوزاء توفر آفاقًا واعدة لمستقبل الذكاء الاصطناعي.

الخط السفلي

يُمثل نظام جيميني من جوجل ديب مايند نقلة نوعية في تكامل الذكاء الاصطناعي، متجاوزًا النماذج التقليدية. بفضل تعدد الوسائط الأصلي والتفكير متعدد الوسائط، يتفوق جيميني في المهام المعقدة. ورغم التحديات، تُبرز تطبيقاته في التفكير المتقدم والبرمجة والتشخيصات وتحويل التوقعات المالية إمكاناته. ومع التزام جوجل بتطويرها المستقبلي، يُحدث تأثير جيميني العميق تغييرًا جذريًا في مشهد الذكاء الاصطناعي، مُبشرًا ببداية حقبة جديدة في القدرات متعددة الوسائط.

مواضيع ذات صلة:الجوزاء متعدد الوسائط AI