الذكاء الاصطناعي
استكشاف الجوزاء 1.5: كيف يعمل أحدث نموذج للذكاء الاصطناعي متعدد الوسائط من Google على الارتقاء بمشهد الذكاء الاصطناعي إلى ما هو أبعد من سابقته

في مشهد الذكاء الاصطناعي سريع التطور، تواصل Google الريادة في تطوراتها الرائدة في مجال الذكاء الاصطناعي متعدد الوسائط AI التقنيات. بعد وقت قصير من ظهور Gemini 1.0، أحدث إصدار لهم نموذج لغة كبير متعدد الوسائط، كشفت جوجل الآن الجوزاء 1.5. هذا التكرار لا يعزز فقط القدرة التي أنشأها الجوزاء 1.0 بل يُحدث أيضًا تحسينات كبيرة في منهجية جوجل لمعالجة ودمج البيانات متعددة الوسائط. تُقدم هذه المقالة استكشافًا لإصدار جيميني 1.5، مُسلِّطةً الضوء على نهجه المُبتكر وميزاته المُميزة.
الجوزاء 1.0: وضع الأساس
تم إطلاق Gemini 6 بواسطة Google DeepMind وGoogle Research في 2023 ديسمبر 1.0، حيث قدم سلالة جديدة من نماذج الذكاء الاصطناعي متعددة الوسائط القادرة على فهم وإنشاء المحتوى بتنسيقات مختلفة، مثل النص والصوت والصور والفيديو. كان هذا بمثابة خطوة مهمة في الذكاء الاصطناعي، مما أدى إلى توسيع نطاق إدارة أنواع المعلومات المتنوعة.
الميزة البارزة في برج الجوزاء هي قدرتها على مزج أنواع البيانات المتعددة بسلاسة. على عكس نماذج الذكاء الاصطناعي التقليدية التي قد تتخصص في تنسيق بيانات واحد، يدمج Gemini النص والمرئيات والصوت. يمكّنه هذا التكامل من أداء مهام مثل تحليل الملاحظات المكتوبة بخط اليد أو فك رموز المخططات المعقدة، وبالتالي حل مجموعة واسعة من التحديات المعقدة.
تقدم عائلة Gemini نماذج لتطبيقات متنوعة: النموذج Ultra للمهام المعقدة، والنموذج Pro للسرعة وقابلية التوسع على منصات رئيسية مثل Google Bard، ونماذج Nano (Nano-1 وNano-2) مع 1.8 مليار و3.25 مليار معلمة ، على التوالي، مصمم للتكامل في أجهزة مثل الهاتف الذكي Google Pixel 8 Pro.
القفزة إلى الجوزاء 1.5
يُحسّن أحدث إصدار من جوجل، جيميني 1.5، وظائف وكفاءة تشغيل سابقه جيميني 1.0. يعتمد هذا الإصدار على نظام تشغيل جديد خليط من الخبراء تعد بنية وزارة التربية والتعليم خروجًا عن النهج النموذجي الموحد والكبير الذي شوهد في سابقتها. تتضمن هذه البنية مجموعة من المباني الأصغر حجمًا والمتخصصة نماذج المحولاتكل منهم ماهر في إدارة شرائح معينة من البيانات أو المهام المميزة. يتيح هذا الإعداد لـ Gemini 1.5 إشراك الخبير الأكثر ملاءمة ديناميكيًا استنادًا إلى البيانات الواردة، مما يؤدي إلى تبسيط قدرة النموذج على تعلم المعلومات ومعالجتها.
يُحسّن هذا النهج المُبتكر كفاءة تدريب النموذج ونشره بشكل ملحوظ من خلال تفعيل الخبراء اللازمين فقط للمهام. ونتيجةً لذلك، يُصبح Gemini 1.5 قادرًا على إتقان المهام المُعقدة بسرعة وتقديم نتائج عالية الجودة بكفاءة أعلى من النماذج التقليدية. تُمكّن هذه التطورات فرق البحث في جوجل من تسريع تطوير نموذج Gemini وتحسينه، مما يُوسّع آفاق إمكانيات الذكاء الاصطناعي.
توسيع القدرات
من التطورات الملحوظة في إصدار جيميني 1.5 قدرته الموسعة على معالجة المعلومات. تمتد نافذة سياق النموذج، وهي كمية بيانات المستخدم التي يُمكن تحليلها لتوليد الاستجابات، إلى ما يصل إلى مليون رمز - وهي زيادة كبيرة مقارنةً بـ 1 رمز في جيميني 32,000. يعني هذا التحسين أن جيميني 1.0 برو قادر على معالجة كميات هائلة من البيانات في آنٍ واحد، مثل ساعة من محتوى الفيديو، وإحدى عشرة ساعة من الصوت، أو قواعد بيانات ضخمة ومستندات نصية. كما تم اختباره بنجاح مع ما يصل إلى 1.5 ملايين رمز، مما يُظهر قدرته الاستثنائية على فهم وتفسير مجموعات البيانات الضخمة.
لمحة عن قدرات جيميني 1.5
تُمكّن التحسينات المعمارية لـ Gemini 1.5 ونافذة السياق المُوسّعة من إجراء تحليلات مُتطورة لمجموعات معلومات ضخمة. سواءً كان الأمر يتعلق بالتعمق في التفاصيل الدقيقة لمهمة أبولو 11 النصوص أو تفسير فيلم صامت، يُظهر Gemini 1.5 قدرات لا مثيل لها في حل المشكلات، خاصة مع كتل التعليمات البرمجية الطويلة.
تم تطوير Gemini 4 Pro باستخدام مُسرّعات TPUv1.5 المتقدمة من Google، وتم تدريبه على مجموعة بيانات متنوعة، تشمل مجالات متنوعة، وتتضمن محتوى متعدد الوسائط واللغات. تضمن هذه القاعدة التدريبية الواسعة، إلى جانب الضبط الدقيق القائم على بيانات التفضيلات البشرية، توافق مخرجات Gemini 1.5 Pro مع التصورات البشرية.
عبر اختبار مرجعي صارم في مواجهة عدد كبير من المهام، لا يتفوق Gemini 1.5 Pro على سابقه في الغالبية العظمى من التقييمات فحسب، بل يقف أيضًا على قدم المساواة مع طراز Gemini 1.0 Ultra الأكبر حجمًا. يُظهر Gemini 1.5 Pro قدرات قوية في "التعلم في السياق"، ويكتسب بشكل فعال معرفة جديدة من المطالبات التفصيلية دون الحاجة إلى مزيد من التعديلات. وكان هذا واضحا بشكل خاص في أدائها على الترجمة الآلية من كتاب واحد (MTOB)، حيث تمت ترجمته من الإنجليزية إلى لغة كالامانج - وهي لغة يتحدث بها عدد قليل من الأشخاص - بكفاءة مماثلة لتلك التي يتمتع بها التعلم البشري، مما يؤكد قدرته على التكيف وكفاءة التعلم.
وصول محدود للمعاينة
يتوفر Gemini 1.5 Pro الآن في معاينة محدودة للمطورين وعملاء المؤسسات من خلال ستوديو AI و فيرتكس الذكاء الاصطناعي، مع خطط لإصدار أوسع وخيارات قابلة للتخصيص في الأفق. توفر مرحلة المعاينة هذه فرصة فريدة لاستكشاف نافذة السياق الموسعة الخاصة بها، مع توقع تحسينات في سرعة المعالجة. يمكن للمطورين وعملاء المؤسسات المهتمين بـ Gemini 1.5 Pro التسجيل من خلال AI Studio أو الاتصال بفرق حساب Vertex AI الخاصة بهم للحصول على مزيد من المعلومات.
الخط السفلي
يُمثل إصدار جيميني 1.5 خطوةً بارزةً في تطوير الذكاء الاصطناعي متعدد الوسائط. بناءً على الأسس التي أرساها جيميني 1.0، يُقدم هذا الإصدار الجديد أساليب مُحسّنة لمعالجة ودمج أنواع مُختلفة من البيانات. يُبرز طرحه لمنهجية معمارية مُبتكرة وقدرات مُوسّعة لمعالجة البيانات جهود جوجل المُستمرة لتطوير تقنية الذكاء الاصطناعي. بفضل إمكاناته في معالجة المهام بكفاءة أكبر والتعلم المُتقدم، يُبرز جيميني 1.5 التطور المُستمر للذكاء الاصطناعي. وهو مُتاح حاليًا لمجموعة مُختارة من المُطورين وعملاء المؤسسات، ويُبشر بإمكانيات واعدة لمستقبل الذكاء الاصطناعي، مع توافر أوسع وتطورات مُستقبلية.