الذكاء الاصطناعي
جيميني متعدد الوسائط من جوجل – غوص تقني عميق

قام سوندار بيتشاي، الرئيس التنفيذي لجوجل، إلى جانب ديميس هاسابيس من جوجل ديب مايند، بتقديم جيميني في ديسمبر 2023. هذا النموذج اللغوي الكبير المتكامل عبر مجموعة واسعة من منتجات جوجل، يقدم تحسينات تنتشر عبر الخدمات والأدوات التي يستخدمها الملايين.
جيميني، الذكاء الاصطناعي المتعدد الوسائط المتقدم من جوجل، هو نتيجة الجهود التعاونية للمعاملين الموحدين ديب مايند وبرين آي. جيميني يقف على عاتق سلافه، ويتعهد بتوفير مجموعة تطبيقات أكثر اتصالاً وذكاءً.
الإعلان عن جيميني من جوجل، المتجاور بشكل وثيق بعد ظهور بارد، دويت آي، وپالم 2 إل إل إم، يُظهر نية واضحة من جوجل لتحقيق ليس فقط المنافسة ولكن القيادة في ثورة الذكاء الاصطناعي.
على عكس أي مفاهيم عن شتاء الذكاء الاصطناعي، يُظهر إطلاق جيميني ربيعًا مزدهرًا للذكاء الاصطناعي، يغمر بالفرص والنمو. بينما نستعيد الذاكرة بعد سنة من ظهور تشات جي بي تي، الذي كان لحظة رائدة للذكاء الاصطناعي، يشير تحرك جوجل إلى أن توسع الصناعة بعيدًا عن النهاية؛ في الواقع، قد يكون مجرد بداية.
ما هو جيميني؟
يتمتع نموذج جيميني بقدرة على معالجة أنواع بيانات متنوعة مثل النصوص، والصور، والصوت، والفيديو. يأتي في ثلاثة إصدارات – ألتيرا، برو، ونانو – كل منها مصمم لتحقيق تطبيقات محددة، من التفكير المعقد إلى استخدام الأجهزة. ألتيرا تُبرز في المهام المتعددة الأوجه وستكون متاحة على بارد أدفانسد، بينما يُقدم برو توازنًا بين الأداء والكفاءة في الموارد، وقد تم دمجه بالفعل في بارد من أجل تحفيزات النص. نانو، الذي تم تحسينه لتنفيذ الأجهزة، يأتي بحجمين ويتميز بالتحسينات الأجهزة مثل الكمومة 4-بت للاستخدام دون اتصال في الأجهزة مثل بيكسل 8 برو.
العمارة الفريدة لجيميني تتمثل في قدرته على الإخراج المتعدد الوسائط بشكل أصلي، باستخدام رموز الصور المنفصلة لتوليد الصور ودمج الميزات الصوتية من نموذج الكلام العالمي من أجل فهم دقيق للصوت. قدرته على التعامل مع بيانات الفيديو كصور متسلسلة، متشابكة مع مدخلات النص أو الصوت، تُظهر قوته المتعددة الوسائط.
وصول إلى جيميني
جيميني 1.0 يتم طرحه عبر نظام جوجل، بما في ذلك بارد، الذي يستفيد الآن من القدرات المحددة لجيميني برو. لقد دمج جوجل جيميني في بحثه، وإعلاناته، وخدمات دويت، مما يعزز تجربة المستخدم مع استجابات أسرع وأكثر دقة.
لأولئك الذين يرغبون في استغلال قدرات جيميني، يوفر جوجل آي ستوديو وجوجل كلاود فيرتكس الوصول إلى جيميني برو، مع تقديم الأخير ميزات تخصيص وأمان أكبر.
لمعرفة القدرات المحسنة لبارد التي تعمل بالطاقة جيميني برو، يمكن للمستخدمين اتباع الخطوات البسيطة التالية:
- التنقل إلى بارد: افتح متصفحك المفضل وانتقل إلى موقع بارد.
- تسجيل الدخول الآمن: الوصول إلى الخدمة عن طريق تسجيل الدخول بحساب جوجل الخاص بك، مما يضمن تجربة سلسة وأمنة.
- محادثة تفاعلية: يمكنك الآن استخدام بارد، حيث يمكن اختيار الميزات المتقدمة لجيميني برو.
قوة التعددية الوسائط:
في جوهره، يستخدم جيميني هيكلة قائم على المُحول، مشابهة لتلك المستخدمة في نماذج النيلب الناجحة مثل جي بي تي-3. ومع ذلك، تكمن فريدة جيميني في قدرته على معالجة وتكامل المعلومات من وسائط متعددة، بما في ذلك النصوص والصور والرموز. يتم تحقيق ذلك من خلال تقنية جديدة تسمى الانتباه عبر الوسائط، والتي تمكن النموذج من تعلم العلاقات والاعتماديات بين أنواع البيانات المختلفة.
هنا يأتي تفصيل المكونات الرئيسية لجيميني:
- مُشفر متعدد الوسائط: يعالج هذا الوحدة بيانات الإدخال من كل وسيط (مثل النص، الصورة) بشكل مستقل، مستخلص الميزات ذات الصلة وتوليد تمثيلات فردية.
- شبكة الانتباه عبر الوسائط: هذه الشبكة هي قلب جيميني. وهي تمكن النموذج من تعلم العلاقات والاعتماديات بين التمثيلات، مما يسمح لهم “بالتحدث” إلى بعضهم البعض وتعزيز فهمهم.
- مُفسر متعدد الوسائط: يستخدم هذا الوحدة التمثيلات المتعززة التي تم توليدها بواسطة شبكة الانتباه عبر الوسائط لأداء مهام مختلفة، مثل توليد الصور والنص، وتوليد الرمز.
نموذج جيميني ليس فقط حول فهم النص أو الصور – بل حول دمج أنواع مختلفة من المعلومات بطريقة أقرب إلى كيف ندرك العالم نحن البشر. على سبيل المثال، يمكن لجيميني النظر إلى تسلسل من الصور وتحديد الترتيب المنطقي أو المكاني للأجسام داخلها. كما يمكنه تحليل ميزات التصميم للأجسام لاتخاذ الأحكام، مثل أي من سيارتين له شكل أكثر هوائية.
ولكن مهارات جيميني تتجاوز فهمًا بصريًا فقط. يمكنه تحويل مجموعة من الإرشادات إلى رمز، مما يخلق أدوات عملية مثل مؤقت العد التنازلي الذي لا يعمل فقط كما هو موضح ولكن يحتوي أيضًا على عناصر إبداعية، مثل الرموز التعبيرية التحفيزية، لتعزيز تفاعل المستخدم. هذا يشير إلى القدرة على التعامل مع المهام التي تتطلب خليطًا من الإبداع والوظيفية – مهارات غالبًا ما تعتبر فريدة من نوعها للإنسان.

قدرات جيميني : العقلية المكانية (المصدر)

توسيع قدرات جيميني لتنفيذ مهام البرمجة(المصدر)
تصميم جيميني المتقدم يعتمد على تاريخ غني من بحوث الشبكات العصبية ويتخذ من تقنية تي بي يو المتقدمة من جوجل لتدريبها. جيميني ألتيرا، على وجه الخصوص، قد حدد معايير جديدة في مختلف المجالات الذكاء الاصطناعي، مما يُظهر تحسينات ملحوظة في مهام التفكير المتعدد الوسائط.
بقدرته على تحليل وفهم البيانات المعقدة، يقدم جيميني حلولًا للتطبيقات الواقعية، خاصة في التعليم. يمكنه تحليل تصحيحات الحلول للمشكلات، مثل في الفيزياء، من خلال فهم الملاحظات المكتوبة يدوياً وتقديم تسجيل رياضي دقيق. هذه القدرات تشير إلى مستقبل حيث يساعد الذكاء الاصطناعي في الإعدادات التعليمية، يقدم أدوات متقدمة للطلاب والمعلمين للتعلم وحل المشكلات.
جيميني تم استغلاله لإنشاء وكلاء مثل ألفا كود 2، الذي يمتاز في مشاكل البرمجة التنافسية. هذا يُظهر إمكانية جيميني ليعمل كذكاء اصطناعي عام، قادر على التعامل مع مشاكل متعددة الخطوات المعقدة.
جيميني نانو يجلب قوة الذكاء الاصطناعي إلى الأجهزة اليومية، يحافظ على قدرات مثيرة في مهام مثل تلخيص النصوص وفهم القراءة، بالإضافة إلى البرمجة والتحديات المتعلقة بالعلوم والتقنية والهندسة والرياضيات. هذه النماذج الصغيرة يتم تحسينها لتقديم وظائف ذكاء اصطناعي عالية الجودة على أجهزة ذاكرة منخفضة، مما يجعل الذكاء الاصطناعي المتقدم أكثر سهولة الوصول إليه من أي وقت مضى.
تطوير جيميني涉ك تحسينات في خوارزميات التدريب والبنية التحتية، باستخدام أحدث تي بي يو من جوجل. هذا سمح بالتسجيل الفعال والعمليات التدريبية القوية، مما يضمن أن حتى أصغر النماذج تقدم أداءً استثنائيًا.
مجموعة بيانات التدريب لجيميني هي متنوعة مثل قدراته، تشمل وثائق الويب، والكتب، والرموز، والصور، والصوت، والفيديو. هذه المجموعة البيانات المتعددة الوسائط والمتعددة اللغات تضمن أن نماذج جيميني يمكنها فهم ومعالجة أنواع مختلفة من المحتوى بشكل فعال.
جيميني وجي بي تي-4
على الرغم من ظهور نماذج أخرى، السؤال على كل لسان هو كيف يقف جيميني من جوجل مقابل جي بي تي-4 من أوبن آي آي، المعيار الصناعي للنماذج اللغوية الكبيرة الجديدة. تشير بيانات جوجل إلى أن جي بي تي-4 قد تتفوق في مهام التفكير السليم، لكن جيميني ألتيرا لديها اليد العليا في كل منطقة أخرى تقريبًا.
الجدول أعلاه يُظهر الأداء المثير لجيميني من جوجل عبر مجموعة متنوعة من المهام. على وجه الخصوص، حقق جيميني ألتيرا نتائج ملحوظة في اختبار إم إم إل يو بنسبة دقة 90.04٪، مما يشير إلى فهمه الأفضل في الأسئلة متعددة الخيارات عبر 57 مادة.
في جي إس إم 8 كي، الذي يُقيّم أسئلة الرياضيات في المرحلة الابتدائية، يسجل جيميني ألتيرا 94.4٪، مما يُظهر مهاراته الحسابية المتقدمة. في اختبارات البرمجة، يحقق جيميني ألتيرا نسبة 74.4٪ في هومان إيفال لتنفيذ رمز بايثون، مما يدل على فهمه القوي للغة البرمجة.
اختبار DROP، الذي يُختبر فهم القراءة، يرى جيميني ألتيرا مرة أخرى في الصدارة بنسبة 82.4٪. في اختبار العقل السليم، هيللا سواغ، يؤدي جيميني ألتيرا أداءً جيدًا، على الرغم من أنه لا يتجاوز المعيار العالي الذي حددته جي بي تي-4.
الخلاصة
العمارة الفريدة لجيميني، مدعومة بتكنولوجيا جوجل المتقدمة، تضعها كلاعب قوي في ساحة الذكاء الاصطناعي، وتحدي المعايير الحالية التي وضعتها نماذج مثل جي بي تي-4. إصداراته – ألتيرا، برو، ونانو – كل منها يلبي احتياجات محددة، من مهام التفكير المعقد إلى التطبيقات الفعالة للأجهزة، مما يُظهر التزام جوجل بجعل الذكاء الاصطناعي المتقدم متاحًا عبر منصات وأجهزة مختلفة.
دمج جيميني في نظام جوجل، من بارد إلى جوجل كلاود فيرتكس، يُبرز إمكاناته لتعزيز تجارب المستخدمين عبر طيف من الخدمات. إنه لا يعدل فقط التطبيقات الحالية بل يفتح أيضًا طرقًا جديدة للحلول التي تعتمد على الذكاء الاصطناعي، سواء في المساعدة الشخصية، أو الأعمال الإبداعية، أو التحليلات التجارية.
بينما ننظر إلى الأمام، تُظهر التطورات المستمرة في نماذج الذكاء الاصطناعي مثل جيميني أهمية البحث والتطوير المستمر. تحديات تدريب نماذج متقدمة مثل هذه وتضمن استخدامها Responsibly blijft في طليعة المناقشة.














