Connect with us

استكشاف جيميني الجديد من جوجل ديب مايند: ما الذي يثير كل هذه الضجة؟

الذكاء الاصطناعي العام

استكشاف جيميني الجديد من جوجل ديب مايند: ما الذي يثير كل هذه الضجة؟

mm

في عالم الذكاء الاصطناعي (AI)، فإن الإنشاء الأخير لجوجل ديب مايند، جيميني، يولد ضجة. هذا التطوير المبتكر يهدف إلى مواجهة التحدي المعقد لتمثيل الإدراك البشري، وخاصة قدرته على دمج مدخلات حسية متعددة. الإدراك البشري، المتعدد الحس طبيعيًا، يستخدم قنوات متعددة بشكل متزامن لفهم البيئة. التعلم المتعدد الحس، مستوحى من هذه التعقيد، يسعى إلى دمج وفهم والاستدلال عن المعلومات من مصادر متنوعة، مما يعكس قدرات الإدراك البشري.

تعقيد التعلم المتعدد الحس

في حين أن الذكاء الاصطناعي قد قطع شوطًا في التعامل مع أنماط حسية فردية، فإن تحقيق التعلم المتعدد الحس الحقيقي يبقى تحديًا هائلاً. الطرق الحالية تتضمن تدريب مكونات منفصلة لأنماط حسية مختلفة وخياطتها معًا، لكنها غالبًا ما تفشل في المهام التي تتطلب استدلالًا دقيقًا ومفهومیًا.

ظهور جيميني

في سعي لتمثيل الإدراك البشري المتعدد الحس، ظهر جوجل جيميني كتطوير واعد. هذا الإنشاء يقدم منظورًا فريدًا إلى إمكانات الذكاء الاصطناعي في فك شفرة تعقيدات الإدراك البشري. جيميني يتبنى نهجًا مميزًا، وهو متعدد الحس بشكل أصيل ويتعلم مسبقًا على أنماط حسية متعددة. من خلال تعديل دقيق إضافي مع بيانات حسية متعددة إضافية، يُحسن جيميني من فاعليته، مما يظهر وعدًا في فهم والاستدلال عن مدخلات متنوعة.

ما هو جيميني؟

جوجل جيميني، الذي تم تقديمه في 6 ديسمبر 2023، هو عائلة من نماذج الذكاء الاصطناعي المتعدد الحس التي طورتها وحدة جوجل ديب مايند التابعة لشركة ألفابيت بالتعاون مع جوجل ريسيرش. جيميني 1.0 مصمم لفهم وتوليد المحتوى عبر طيف من أنواع البيانات، بما في ذلك النص والصوت والصور والفيديو.
ميزة بارزة لجيميني هي ثنائية الحس الأصيلة، مما يُميّزها عن نماذج الذكاء الاصطناعي المتعدد الحس التقليدية. هذه القدرة الفريدة تمكن جيميني من معالجة والاستدلال بشكل متزامن عبر أنواع بيانات متنوعة مثل الصوت والصور والنص. بشكل ملحوظ، جيميني يمتلك استدلالًا متعددي الحس، مما يسمح له بتفسير الملاحظات المكتوبة والرسومات والرسوم البيانية لمواجهة مشكلات معقدة. هيكله يدعم استهلاك النص والصور وموجات الصوت وإطارات الفيديو بشكل مباشر كتسلسلات متداخلة.

عائلة جيميني

جيميني يفتخر بنطاق من النماذج المصممة لأنماط استخدام وسيناريوهات توزيع محددة. نموذج ألترا، المصمم لمهام معقدة للغاية، من المتوقع إطلاقه في أوائل عام 2024. نموذج برو يُفضل الأداء والتماسك، مناسبًا لمنصات قوية مثل جوجل بارد. في المقابل، نموذج نانو مُحسّن للاستخدام على الجهاز ويأتي في نسختين – نانو-1 مع 1.8 مليار معامل ونانو-2 مع 3.25 مليار معامل. هذه النماذج النانو تُدمج بشكل متجانس في الأجهزة، بما في ذلك هاتف جوجل بيكسل 8 برو.

جيميني مقابل شات جي بي تي

وفقًا لمصادر الشركة، قام الباحثون بمقارنة جيميني على نطاق واسع مع متغيرات شات جي بي تي حيث تفوق عليه. نموذج جيميني ألترا يتفوق في 30 من 32 معيارًا شائعًا في أبحاث نموذج اللغة الكبيرة. بنتيجة 90.0% على MMLU (فهم اللغة المتعددة المهام بشكل كبير)، يتفوق نموذج جيميني ألترا على الخبراء البشر، مما يُظهر قدراته في فهم اللغة المتعددة المهام بشكل كبير. يتكون MMLU من مزيج من 57 مادة مثل الرياضيات والفيزياء والتاريخ والقانون والطب والأخلاق لاختبار معرفة العالم وقدرات حل المشكلات. تم تدريبه ليكون متعدد الحس، يمكن لجيميني معالجة أنواع وسائط متعددة، مما يجعله يبرز في المناظر الاصطناعية التنافسية.

حالات الاستخدام

ظهور جيميني أدى إلى ولادة مجموعة من حالات الاستخدام، بعضها كالتالي:

  • الاستدلال المتعدد الحس المتقدم: جيميني يتفوق في الاستدلال المتعدد الحس المتقدم، مع التعرف والفهم المتزامن للنص والصور والصوت والمزيد. هذا النهج الشامل يعزز قدرته على فهم المعلومات الدقيقة ويتفوق في الشرح والاستدلال، خاصة في المواد المعقدة مثل الرياضيات والفيزياء.
  • برمجة الكمبيوتر: جيميني يتفوق في فهم وإنشاء برامج كمبيوتر عالية الجودة عبر لغات شائعة الاستخدام. يمكن استخدامه أيضًا كمحرك لأنظمة برمجة أكثر تقدمًا، كما هو موضح في حل مشكلات البرمجة التنافسية.
  • تحويل التشخيص الطبي: يمكن أن يُشير إلى تحول في التشخيص الطبي، حيث يمكن أن يعزز عمليات اتخاذ القرار من خلال توفير وصول إلى مصادر بيانات متنوعة.
  • تحويل التنبؤ المالي: يُغير جيميني التنبؤ المالي من خلال تفسير البيانات المتنوعة في التقارير المالية وتrends السوق، مما يوفر رؤى سريعة لاتخاذ القرارات المستنيرة.

التحديات

في حين أن جوجل جيميني قد قطع شوطًا كبيرًا في تقدم الذكاء الاصطناعي المتعدد الحس، فإنه يواجه بعض التحديات التي تتطلب التفكير بعناية. بسبب تدريبه الشامل على البيانات، من الضروري التعامل معه بحذر لضمان استخدام بيانات المستخدم بشكل مسؤول، معالجة مخاوف الخصوصية وحقوق النشر. كما تطرح الانحيازات المحتملة في بيانات التدريب قضايا منصفة، مما يُ đòi اختبارًا أخلاقيًا قبل أي إصدار عام لتحديد هذه الانحيازات. كما توجد مخاوف حول إمكانية إساءة استخدام نماذج الذكاء الاصطناعي القوية مثل جيميني لهجمات إلكترونية، مما يُبرز أهمية النشر المسؤول والمراقبة المستمرة في مناظر الذكاء الاصطناعي الديناميكية.

تطوير جيميني في المستقبل

أكدت جوجل على التزامها بتحسين جيميني، تمكينه من الإصدارات المستقبلية مع تقدم في التخطيط والذاكرة. بالإضافة إلى ذلك، تهدف الشركة إلى توسيع نافذة السياق، مما يسمح لجيميني بمعالجة المزيد من المعلومات وتقديم استجابات أكثر دقة. مع النظر إلى اختراقات محتملة، تقدم القدرات الفريدة لجيميني فرصًا واعدة لمستقبل الذكاء الاصطناعي.

النقطة الأساسية

يُشير جوجل ديب مايند جيميني إلى تحول في دمج الذكاء الاصطناعي، متجاوزًا النماذج التقليدية. مع ثنائية الحس الأصيلة والاستدلال المتعددي الحس، يتفوق جيميني في المهام المعقدة. على الرغم من التحديات، تُظهر تطبيقاته في الاستدلال المتقدم وبرمجة والتشخيص والتنبؤ المالي تحولًا في المناظر الاصطناعية، مما يُشير إلى بداية عصر جديد في القدرات المتعددة الحس.

الدكتور تيهسين زيا هو أستاذ مساعد دائم في جامعة كومساتس إسلام آباد، وحاصل على دكتوراه في الذكاء الاصطناعي من جامعة التكنولوجيا في فيينا، النمسا. يتخصص في الذكاء الاصطناعي وتعلم الآلة وعلوم البيانات ورؤية الكمبيوتر، وقدم مساهمات كبيرة من خلال منشورات في مجلات علمية مشهورة. كما قاد الدكتور تيهسين مشاريع صناعية مختلفة كمستслед رئيسي وقدم خدماته كمستشار في الذكاء الاصطناعي.