الذكاء الاصطناعي
الجوزاء للذكاء الاصطناعي متعدد الوسائط من Google – نظرة فنية عميقة

قام بذلك ساندر بيتشاي، الرئيس التنفيذي لشركة Google، إلى جانب ديميس هاسابيس من شركة Google DeepMind قدم برج الجوزاء في ديسمبر 2023. تم دمج نموذج اللغة الكبير الجديد هذا عبر مجموعة واسعة من منتجات Google، مما يوفر تحسينات تسري عبر الخدمات والأدوات التي يستخدمها الملايين.
Gemini، الذكاء الاصطناعي المتقدم متعدد الوسائط من Google، نشأ من الجهود التعاونية لمختبري DeepMind وBrain AI الموحدين. يقف Gemini على أكتاف أسلافه، ويعد بتقديم مجموعة أكثر ترابطًا وذكاءً من التطبيقات.
يمثل الإعلان عن Google Gemini، الذي تم الإعلان عنه قريبًا بعد ظهور Bard وDuet AI وPaLM 2 LLM، نية واضحة من Google ليس فقط للمنافسة ولكن أيضًا للريادة في ثورة الذكاء الاصطناعي.
على عكس أي مفاهيم حول شتاء الذكاء الاصطناعي، فإن إطلاق برج الجوزاء يشير إلى ربيع مزدهر للذكاء الاصطناعي، مليئ بالإمكانات والنمو. وبينما نتأمل مرور عام منذ ظهور ChatGPT، والذي كان بحد ذاته لحظة رائدة في مجال الذكاء الاصطناعي، تشير خطوة جوجل إلى أن توسع الصناعة لم ينته بعد؛ في الواقع، قد يكون الأمر مجرد تسارع.
ما هو الجوزاء؟
نموذج Gemini من Google قادر على معالجة أنواع مختلفة من البيانات مثل النصوص والصور والصوت والفيديو. ويأتي في ثلاثة إصدارات -الترا, بروو نانو- تم تصميم كل منها لتطبيقات محددة، بدءًا من التفكير المعقد وحتى الاستخدام على الجهاز. يتفوق Ultra في المهام متعددة الأوجه وسيكون متاحًا في Bard Advanced، بينما يوفر Pro توازنًا بين الأداء وكفاءة الموارد، وهو مدمج بالفعل في Bard للمطالبات النصية. يأتي Nano، المُحسّن للنشر على الجهاز، بحجمين ويتميز بتحسينات للأجهزة مثل تكميم 4 بت للاستخدام دون اتصال بالإنترنت في أجهزة مثل Pixel 8 Pro.
تعد بنية Gemini فريدة من نوعها من حيث قدرتها الأصلية على إخراج الوسائط المتعددة، وذلك باستخدام رموز الصور المنفصلة لإنشاء الصور ودمج ميزات الصوت من نموذج الكلام العالمي لفهم الصوت الدقيق. إن قدرته على التعامل مع بيانات الفيديو كصور متتابعة، متشابكة مع النص أو المدخلات الصوتية، تجسد براعته المتعددة الوسائط.
الوصول إلى برج الجوزاء
يتم طرح Gemini 1.0 عبر نظام Google البيئي، بما في ذلك Bard، الذي يستفيد الآن من الإمكانات المحسنة لـ Gemini Pro. قامت Google أيضًا بدمج Gemini في خدمات البحث والإعلانات وDuet، مما أدى إلى تحسين تجربة المستخدم من خلال استجابات أسرع وأكثر دقة.
بالنسبة لأولئك الذين يحرصون على تسخير قدرات Gemini، يوفر Google AI Studio وGoogle Cloud Vertex إمكانية الوصول إلى Gemini Pro، حيث يوفر الأخير ميزات تخصيص وأمان أكبر.
لتجربة القدرات المحسنة لـ Bard المدعوم من Gemini Pro، يمكن للمستخدمين اتخاذ الخطوات المباشرة التالية:
- انتقل إلى بارد: افتح متصفح الويب المفضل لديك وانتقل إلى موقع Bard الإلكتروني.
- دخول آمن: قم بالوصول إلى الخدمة عن طريق تسجيل الدخول باستخدام حساب Google الخاص بك، مما يضمن تجربة سلسة وآمنة.
- محادثة تفاعلية: يمكنك الآن استخدام Bard، حيث يمكن اختيار ميزات Gemini Pro المتقدمة.
قوة تعدد الوسائط:
يستخدم Gemini في جوهره بنية قائمة على المحولات، مماثلة لتلك المستخدمة في نماذج البرمجة اللغوية العصبية الناجحة مثل GPT-3. ومع ذلك، فإن تفرد جيميني يكمن في قدرته على معالجة ودمج المعلومات من طرق متعددة، بما في ذلك النصوص والصور والتعليمات البرمجية. ويتم تحقيق ذلك من خلال تقنية جديدة تسمى الاهتمام عبر الوسائط، والذي يسمح للنموذج بمعرفة العلاقات والتبعيات بين أنواع البيانات المختلفة.
فيما يلي تفصيل للمكونات الرئيسية لبرج الجوزاء:
- التشفير المتعدد الوسائط: تقوم هذه الوحدة بمعالجة بيانات الإدخال من كل طريقة (على سبيل المثال، النص والصورة) بشكل مستقل، واستخراج الميزات ذات الصلة وإنشاء تمثيلات فردية.
- شبكة الاهتمام عبر الوسائط: هذه الشبكة هي قلب الجوزاء. فهو يسمح للنموذج بتعلم العلاقات والتبعيات بين التمثيلات المختلفة، مما يمكنهم من "التحدث" مع بعضهم البعض وإثراء فهمهم.
- فك التشفير المتعدد الوسائط: تستخدم هذه الوحدة التمثيلات الغنية التي تم إنشاؤها بواسطة شبكة الاهتمام عبر الوسائط لأداء مهام مختلفة، مثل التعليق على الصور، وإنشاء نص إلى صورة، وإنشاء التعليمات البرمجية.
لا يقتصر نموذج الجوزاء على فهم النصوص أو الصور فحسب، بل يتعلق بدمج أنواع مختلفة من المعلومات بطريقة أقرب بكثير إلى الطريقة التي ننظر بها كبشر إلى العالم. على سبيل المثال، يستطيع برج الجوزاء النظر إلى سلسلة من الصور وتحديد الترتيب المنطقي أو المكاني للأشياء الموجودة بداخلها. ويمكنه أيضًا تحليل ميزات تصميم الأشياء لإصدار الأحكام، مثل أي من السيارتين تتمتع بشكل أكثر ديناميكية هوائية.
لكن مواهب الجوزاء تتجاوز مجرد الفهم البصري. ويمكنه تحويل مجموعة من التعليمات إلى تعليمات برمجية، وإنشاء أدوات عملية مثل مؤقت العد التنازلي الذي لا يعمل حسب التوجيهات فحسب، بل يتضمن أيضًا عناصر إبداعية، مثل الرموز التعبيرية التحفيزية، لتعزيز تفاعل المستخدم. يشير هذا إلى القدرة على التعامل مع المهام التي تتطلب مزيجًا من الإبداع والأداء الوظيفي، وهي المهارات التي غالبًا ما تعتبر بشرية بشكل واضح.

قدرات برج الجوزاء : التفكير المكاني (مصدر)

تمتد قدرات الجوزاء إلى تنفيذ مهام البرمجة(مصدر)
يعتمد تصميم Gemini المتطور على تاريخ غني من أبحاث الشبكات العصبية ويستفيد من تقنية TPU المتطورة من Google للتدريب. وقد وضعت Gemini Ultra، على وجه الخصوص، معايير جديدة في مختلف مجالات الذكاء الاصطناعي، حيث عرضت تحسينات ملحوظة في الأداء في مهام الاستدلال متعدد الوسائط.
وبفضل قدرته على تحليل البيانات المعقدة وفهمها، يقدم برنامج Gemini حلولاً لتطبيقات العالم الحقيقي، وخاصة في مجال التعليم. يمكنه تحليل وتصحيح الحلول للمشاكل، كما هو الحال في الفيزياء، من خلال فهم الملاحظات المكتوبة بخط اليد وتوفير تنضيد رياضي دقيق. تشير مثل هذه القدرات إلى مستقبل يساعد فيه الذكاء الاصطناعي في البيئات التعليمية، ويقدم للطلاب والمعلمين أدوات متقدمة للتعلم وحل المشكلات.
تم الاستفادة من Gemini's في إنشاء وكلاء مثل AlphaCode 2، الذي يتفوق في حل مشكلات البرمجة التنافسية. يُظهر هذا قدرة الجوزاء على العمل كذكاء اصطناعي عام، قادر على التعامل مع المشكلات المعقدة والمتعددة الخطوات.
يجلب Gemini Nano قوة الذكاء الاصطناعي إلى الأجهزة اليومية، ويحافظ على قدرات رائعة في مهام مثل التلخيص وفهم القراءة، بالإضافة إلى التحديات المتعلقة بالبرمجة والعلوم والتكنولوجيا والهندسة والرياضيات. تم ضبط هذه النماذج الأصغر حجمًا لتوفير وظائف الذكاء الاصطناعي عالية الجودة على الأجهزة ذات الذاكرة المنخفضة، مما يجعل الوصول إلى الذكاء الاصطناعي المتقدم أكثر سهولة من أي وقت مضى.
شمل تطوير Gemini ابتكارات في خوارزميات التدريب والبنية التحتية، باستخدام أحدث وحدات TPU من Google. وقد سمح ذلك بالتوسيع الفعال وعمليات التدريب القوية، مما يضمن أن حتى أصغر النماذج تقدم أداءً استثنائيًا.
تتنوع مجموعة بيانات التدريب الخاصة بـ Gemini بقدر تنوع إمكانياتها، بما في ذلك مستندات الويب والكتب والأكواد والصور والصوت ومقاطع الفيديو. تضمن مجموعة البيانات المتعددة الوسائط واللغات هذه أن نماذج Gemini يمكنها فهم ومعالجة مجموعة واسعة من أنواع المحتوى بفعالية.
الجوزاء وGPT-4
وعلى الرغم من ظهور نماذج أخرى، فإن السؤال الذي يدور في أذهان الجميع هو كيف يمكن لنموذج Gemini من Google أن يتنافس مع GPT-4 من OpenAI، وهو معيار الصناعة لحاملي شهادة الماجستير في القانون الجدد. تشير بيانات Google إلى أنه على الرغم من أن GPT-4 قد يتفوق في مهام التفكير المنطقي، إلا أن Gemini Ultra له اليد العليا في كل المجالات الأخرى تقريبًا.
يوضح جدول القياس أعلاه الأداء المذهل لـ Gemini AI من Google عبر مجموعة متنوعة من المهام. والجدير بالذكر أن Gemini Ultra قد حققت نتائج رائعة في معيار MMLU بدقة تبلغ 90.04%، مما يشير إلى فهمها الفائق في أسئلة الاختيار من متعدد عبر 57 موضوعًا.
في نظام GSM8K، الذي يقيم أسئلة الرياضيات في المدرسة الابتدائية، حصل برنامج Gemini Ultra على 94.4%، مما يعرض مهارات المعالجة الحسابية المتقدمة لديه. في معايير البرمجة، حصلت Gemini Ultra على درجة 74.4% في اختبار HumanEval لتوليد الأكواد البرمجية لـ Python، مما يشير إلى فهمها القوي للغة البرمجة.
يرى معيار DROP، الذي يختبر فهم القراءة، أن Gemini Ultra يتقدم مرة أخرى بنتيجة 82.4%. وفي الوقت نفسه، في اختبار المنطق السليم، HellaSwag، يؤدي Gemini Ultra أداءً رائعًا، على الرغم من أنه لا يتجاوز المعيار العالي للغاية الذي حددته GPT-4.
الخاتمة
إن بنية Gemini الفريدة، المدعومة بتكنولوجيا Google المتطورة، تضعها كلاعب هائل في ساحة الذكاء الاصطناعي، مما يتحدى المعايير الحالية التي وضعتها نماذج مثل GPT-4. تلبي إصداراتها - Ultra وPro وNano - احتياجات محددة، بدءًا من مهام التفكير المعقدة وحتى التطبيقات الفعالة على الجهاز، مما يوضح التزام Google بإتاحة الوصول إلى الذكاء الاصطناعي المتقدم عبر مختلف الأنظمة الأساسية والأجهزة.
إن دمج Gemini في النظام البيئي لشركة Google، بدءًا من Bard وحتى Google Cloud Vertex، يسلط الضوء على قدرتها على تحسين تجارب المستخدم عبر مجموعة واسعة من الخدمات. إنها لا تعد بتحسين التطبيقات الحالية فحسب، بل تفتح أيضًا آفاقًا جديدة للحلول المعتمدة على الذكاء الاصطناعي، سواء في المساعدة الشخصية أو المساعي الإبداعية أو تحليلات الأعمال.
وبينما نتطلع إلى المستقبل، تؤكد التطورات المستمرة في نماذج الذكاء الاصطناعي مثل جيميني على أهمية البحث والتطوير المستمر. وتظل تحديات تدريب مثل هذه النماذج المتطورة وضمان استخدامها الأخلاقي والمسؤول في مقدمة المناقشات.