الذكاء الاصطناعي

نموذج الذكاء الاصطناعي المتعدد الوسائط من جوجل – غيميني: غوص sâu تقني

mm
Google's First Multimodal Model: Gemini

قدم ساندر بيتشاي، الرئيس التنفيذي لجوجل، إلى جانب ديميس هاسابيس من جوجل ديب مايند، غيميني في ديسمبر 2023. هذا النموذج الجديد للغة الكبيرة متكامل عبر منتجات جوجل الواسعة، ويعرض تحسينات تنتشر عبر الخدمات والأدوات التي يستخدمها الملايين.

غيميني، نموذج الذكاء الاصطناعي المتعدد الوسائط المتقدم من جوجل، هو ناتج عن الجهود التعاونية للمختبرات الموحدة ديب مايند وبرين آي. غيميني يقف على عاتق سلافه، ويتعهد بتوفير مجموعة تطبيقات أكثر اتصالاً وذكاء.

إعلان جوجل عن غيميني، الذي يأتي بعد ظهور بارد وديت آي وبالم 2 إل إل إم، يُظهر نية واضحة من جوجل لتحقيق ليس فقط المنافسة ولكن القيادة في ثورة الذكاء الاصطناعي.

على عكس أي مفاهيم عن شتاء الذكاء الاصطناعي، يشير إطلاق غيميني إلى ربيع الذكاء الاصطناعي المزدهر، الذي يغمر بالفرص والنمو. عندما ننظر إلى عام منذ ظهور تشات جي بي تي، الذي كان لحظة رائدة للذكاء الاصطناعي، يشير تحرك جوجل إلى أن توسع الصناعة بعيد عن الانتهاء؛ في الواقع، قد يكون فقط يكتسب زخما.

ما هو غيميني؟

نموذج غيميني من جوجل قادر على معالجة أنواع بيانات متنوعة مثل النصوص والصور والصوت والفيديو. يأتي في ثلاثة إصدارات – ألتيرا و برو و نانو – كل منها مخصص لتطبيقات محددة، من المهام المعقدة إلى الاستخدام على الجهاز. ألتيرا يمتاز في المهام المتعددة الجوانب وسيكون متاحًا على بارد أدفانسد، في حين يقدم برو توازنًا بين الأداء والكفاءة في الموارد، و已经 تم دمجه في بارد للتحفيزات النصية. نانو، الذي تم تحسينه للاستخدام على الجهاز، يأتي بحجمين ويتميز بتحسينات الأجهزة مثل الكمومة 4 بت للاستخدام دون اتصال في أجهزة مثل بيكسل 8 برو.

الهيكل المعماري لغيميني فريد في قدرته على الإخراج المتعدد الوسائط، باستخدام رموز الصور المنفصلة لتوليد الصور ودمج الميزات الصوتية من نموذج الكلام العالمي لفهم دقيق للصوت. قدرته على معالجة بيانات الفيديو كصور متسلسلة، متشابكة مع مدخلات النص أو الصوت، تظهر قوته المتعددة الوسائط.

دعم غيميني لتسلسلات النصوص والصور والصوت والفيديو كمدخلات

الوصول إلى غيميني

يتم طرح غيميني 1.0 عبر نظام جوجل، بما في ذلك بارد، الذي يستفيد الآن من القدرات المحددة لغيميني برو. كما قامت جوجل بدمج غيميني في خدمات البحث والإعلانات وديت، مما يعزز تجربة المستخدم بresponses أسرع وأكثر دقة.

للمستخدمين الذين يرغبون في استغلال قدرات غيميني، يوفر جوجل آي ستوديو وجوجل كلاود فيرتكس الوصول إلى غيميني برو، مع تقديم الأخير ميزات تخصيص وأمان أكبر.

للمستخدمين الذين يرغبون في تجربة القدرات المحسنة لبارد بدعم من غيميني برو، يمكن اتباع الخطوات التالية:

  1. التنقل إلى بارد: افتح متصفحك المفضل وانتقل إلى موقع بارد.
  2. تسجيل الدخول الآمن: الوصول إلى الخدمة عن طريق تسجيل الدخول بحساب جوجل الخاص بك، مما يضمن تجربة سلسة وأمنة.
  3. المحادثة التفاعلية: يمكنك الآن استخدام بارد، حيث يمكنك اختيار الميزات المتقدمة لغيميني برو.

قوة التعدديات

في جوهره، يستخدم غيميني هيكلاً قائمًا على المحول، مشابهًا لتلك المستخدمة في نماذج النيلب الناجحة مثل جي بي تي-3. ومع ذلك، يكمن فرق غيميني في قدرته على معالجة وتكامل المعلومات من وسائط متعددة، بما في ذلك النصوص والصور والرمز البرمجي. يتم تحقيق ذلك من خلال تقنية جديدة تسمى الانتباه المتعدد الوسائط، والتي تمكن النموذج من تعلم العلاقات والاعتماديات بين أنواع البيانات المختلفة.

هنا يأتي تفصيل المكونات الرئيسية لغيميني:

  • معالج متعدد الوسائط: يتم معالجة بيانات المدخلات من كل وسيط (مثل النصوص والصور) بشكل مستقل، مع استخراج الميزات ذات الصلة وتوليد تمثيلات فردية.
  • شبكة الانتباه المتعدد الوسائط: هذه الشبكة هي قلب غيميني. تسمح للنموذج بتعلم العلاقات والاعتماديات بين التمثيلات، مما يتيح لها “التحدث” مع بعضها البعض وتعزيز فهمها.
  • معالج متعدد الوسائط: يستخدم هذا المعالج التمثيلات المعززة التي تم توليدها بواسطة شبكة الانتباه المتعدد الوسائط لتنفيذ مهام مختلفة، مثل توليد الصور والنصوص والرمز البرمجي.

نموذج غيميني ليس فقط حول فهم النصوص أو الصور – بل حول دمج أنواع مختلفة من المعلومات بطريقة أقرب إلى كيفية تصورنا للعالم. على سبيل المثال، يمكن لغيميني النظر إلى تسلسل من الصور وتحديد الترتيب المنطقي أو المكاني للأشياء داخلها. كما يمكنه تحليل ميزات التصميم للأشياء لاتخاذ أحكام، مثل تحديد أي من سيارتين له شكل أكثر انسيابية.

لكن مهارات غيميني تتجاوز فهم الصور فقط. يمكنه تحويل مجموعة من الإرشادات إلى رمز برمجي، مما يخلق أدوات عملية مثل مؤقت العد التنازلي الذي لا يعمل فقط كما هو موضح ولكن يحتوي أيضًا على عناصر إبداعية مثل الرموز التعبيرية لتعزيز تفاعل المستخدم. هذا يشير إلى قدرته على التعامل مع المهام التي تتطلب مزيجًا من الإبداع والوظيفية – مهارات غالبًا ما تعتبر فريدة من نوعها للإنسان.

دعم غيميني للاستدلال المكاني

دعم غيميني لتنفيذ المهام البرمجية

تصميم غيميني المتقدم يعتمد على تاريخ غني من البحث في الشبكات العصبية ويتوفر على تقنية تي بي يو المتقدمة من جوجل لتدريب النماذج. غيميني ألتيرا، على وجه الخصوص، قد حدد معايير جديدة في مختلف مجالات الذكاء الاصطناعي، مما يظهر أداءً ملحوظًا في مهام التفكير المتعدد الوسائط.

بقدرته على تحليل وفهم البيانات المعقدة، يقدم غيميني حلولًا للتطبيقات الواقعية، خاصة في التعليم. يمكنه تحليل تصحيحات الحلول للمشكلات، مثل في الفيزياء، عن طريق فهم الملاحظات المكتوبة وتقديم تسجيل رياضي دقيق. هذه القدرات تشير إلى مستقبل حيث يساعد الذكاء الاصطناعي في الإعدادات التعليمية، مما يوفر للمتعلمين والمعلمين أدوات متقدمة للتعلم وحل المشكلات.

تم استخدام غيميني لإنشاء وكلاء مثل ألفا كود 2، الذي يمتاز في مشاكل البرمجة التنافسية. هذا يظهر إمكانات غيميني ليعمل كذكاء اصطناعي عام، قادر على التعامل مع مشاكل معقدة متعددة الخطوات.

غيميني نانو يأتي بقوة الذكاء الاصطناعي إلى الأجهزة اليومية، مع الحفاظ على قدرات مثيرة في مهام مثل تلخيص النصوص وفهم القراءة، بالإضافة إلى التحديات البرمجية والعلوم والتقنيات والهندسة والرياضيات. هذه النماذج الصغيرة يتم تحسينها لتقديم وظائف ذكاء اصطناعي عالية الجودة على أجهزة منخفضة الذاكرة، مما يجعل الذكاء الاصطناعي المتقدم أكثر سهولة الوصول من أي وقت مضى.

تطوير غيميني شمل تحسينات في خوارزميات التدريب والبنية التحتية، باستخدام أحدث تي بي يو من جوجل. هذا سمح بالتسلسل الكفء والتدريب القوي، مما يضمن أن حتى أصغر النماذج تقدم أداءً استثنائيًا.

مجموعة بيانات التدريب لغيميني متنوعة مثل قدراته، وتشمل وثائق الويب والكتب والرمز البرمجي والصور والصوت والفيديو. هذه المجموعة البيانات المتعددة الوسائط والمتعددة اللغات تضمن أن نماذج غيميني يمكنها فهم ومعالجة أنواع مختلفة من المحتوى بفعالية.

غيميني و جي بي تي-4

على الرغم من ظهور نماذج أخرى، السؤال على لسان الجميع هو كيف يقف نموذج غيميني من جوجل مقابل جي بي تي-4 من أوبين آي، المعيار الصناعي للنماذج الجديدة للغة. تشير بيانات جوجل إلى أن غيميني ألتيرا يمتلك اليد العليا في几乎 كل المجالات.

الجدول التالي يُظهر الأداء المثير لغيميني في مجموعة متنوعة من المهام. بشكل ملحوظ، حقق غيميني ألتيرا نتائج رائعة في اختبار إم إم إل يو بنسبة دقة 90.04٪، مما يشير إلى فهمه الأفضل في الأسئلة متعددة الخيارات عبر 57 مادة.

في اختبار جي إس إم 8 كي، الذي يُقيّم أسئلة الرياضيات في المراحل الابتدائية، يسجل غيميني ألتيرا 94.4٪، مما يُظهر مهاراته المتقدمة في معالجة الحساب. في اختبارات البرمجة، يحقق غيميني ألتيرا نسبة 74.4٪ في اختبار هومان إيفال لجينيريت كود بايثون، مما يُظهر فهمه القوي للغة البرمجة.

اختبار دروب، الذي يُقيّم فهم القراءة، يرى غيميني ألتيرا يتقدم مرة أخرى بنسبة 82.4٪. في اختبار العقل السليم، يُظهر غيميني ألتيرا أداءً جيدًا، على الرغم من أنه لا يتجاوز المعيار العالي الذي حددته جي بي تي-4.

الخلاصة

هيكل غيميني الفريد، مدعوم بتكنولوجيا جوجل المتقدمة، يجعله لاعبًا قويًا في ساحة الذكاء الاصطناعي، ويتحدى المعايير الحالية التي حددتها نماذج مثل جي بي تي-4. إصداراته – ألتيرا وبرو ونانو – كلها تخدم احتياجات محددة، من المهام المعقدة إلى التطبيقات الفعالة على الأجهزة، مما يُظهر التزام جوجل بجعل الذكاء الاصطناعي المتقدم متاحًا عبر منصات وأجهزة مختلفة.

دمج غيميني في نظام جوجل، من بارد إلى جوجل كلاود فيرتكس، يُظهر إمكاناته لتعزيز تجارب المستخدمين عبر طيف من الخدمات. إنه ليس فقط لتحسين التطبيقات الحالية ولكن أيضًا لفتح طرقًا جديدة للحلول التي تعتمد على الذكاء الاصطناعي، سواء في المساعدة الشخصية أو الأعمال الإبداعية أو التحليلات التجارية.

نظرًا إلى التقدّم المستمر في نماذج الذكاء الاصطناعي مثل غيميني، يُظهر أهمية البحث والتنمية المستمرين. تحديات تدريب نماذج متقدمة مثل هذه وتحقيق استخدامها الأخلاقي والمسؤول يبقون في صدارة النقاش.

لقد قمت بإنفاق الخمس سنوات الماضية في غمرة العالم المثير للاهتمام من التعلم الآلي والتعلم العميق. وقد أدت شغفي وخبرتي إلى المساهمة في أكثر من 50 مشروعًا متنوعًا في هندسة البرمجيات، مع التركيز بشكل خاص على الذكاء الاصطناعي والتعلم الآلي. كما أدت فضولي المستمر إلى جذبي نحو معالجة اللغة الطبيعية، وهو مجال أنا متحمس لاستكشافه بشكل أكبر.