مصنوعی ذہانت
گوگل کا ملٹی موڈل AI جیمنی - ایک تکنیکی گہری غوطہ

گوگل کے سی ای او سندر پچائی نے گوگل ڈیپ مائنڈ کے ڈیمس ہاسابیس کے ساتھ دسمبر 2023 میں Gemini متعارف کرایا. زبان کا یہ نیا بڑا ماڈل گوگل کے پروڈکٹس کی وسیع صفوں میں ضم کیا گیا ہے، جو لاکھوں کی جانب سے استعمال ہونے والی خدمات اور ٹولز کے ذریعے بہتری کی پیشکش کرتا ہے۔
جیمنی، گوگل کا جدید ملٹی موڈل AI، متحد ڈیپ مائنڈ اور برین AI لیبز کی مشترکہ کوششوں سے پیدا ہوا ہے۔ جیمنی اپنے پیشروؤں کے کندھوں پر کھڑا ہے، ایپلی کیشنز کا ایک زیادہ مربوط اور ذہین سوٹ فراہم کرنے کا وعدہ کرتا ہے۔
گوگل جیمنی کا اعلان، بارڈ، ڈوئٹ AI، اور PaLM 2 LLM کے ڈیبیو کے بعد قریب سے گھرا ہوا، گوگل کی جانب سے نہ صرف مقابلہ کرنے بلکہ AI انقلاب میں قیادت کرنے کے واضح ارادے کی نشاندہی کرتا ہے۔
AI موسم سرما کے کسی بھی تصور کے برعکس، Gemini کا آغاز ایک فروغ پزیر AI موسم بہار کی تجویز کرتا ہے، جو ممکنہ اور ترقی سے بھرپور ہے۔ جیسا کہ ہم ChatGPT کے ظہور کے بعد سے ایک سال پر غور کرتے ہیں، جو خود AI کے لیے ایک اہم لمحہ تھا، گوگل کا یہ اقدام اس بات کی نشاندہی کرتا ہے کہ صنعت کی توسیع ابھی ختم نہیں ہوئی ہے۔ اصل میں، یہ صرف رفتار اٹھا رہا ہو سکتا ہے.
جیمنی کیا ہے؟
گوگل کا جیمنی ماڈل متن، تصاویر، آڈیو اور ویڈیو جیسے متنوع ڈیٹا کی اقسام پر کارروائی کرنے کی صلاحیت رکھتا ہے۔ یہ تین ورژن میں آتا ہے-الٹرا, فی، اور نینو-ہر ایک مخصوص ایپلی کیشنز کے لیے موزوں ہے، پیچیدہ استدلال سے لے کر ڈیوائس پر استعمال تک۔ کثیر جہتی کاموں میں الٹرا بہترین ہے اور یہ Bard Advanced پر دستیاب ہوگا، جبکہ Pro کارکردگی اور وسائل کی کارکردگی کا توازن پیش کرتا ہے، جو پہلے سے متن کے اشارے کے لیے Bard میں ضم ہے۔ نینو، ڈیوائس پر تعیناتی کے لیے موزوں ہے، دو سائزوں میں آتا ہے اور اس میں پکسل 4 پرو جیسے آلات میں آف لائن استعمال کے لیے 8 بٹ کوانٹائزیشن جیسے ہارڈ ویئر کی اصلاح شامل ہے۔
جیمنی کا فن تعمیر اپنی مقامی ملٹی موڈل آؤٹ پٹ صلاحیت میں منفرد ہے، جس میں تصویر بنانے کے لیے مجرد امیج ٹوکنز کا استعمال کیا جاتا ہے اور یونیورسل اسپیچ ماڈل سے آڈیو فیچرز کو مربوط کیا جاتا ہے۔ ویڈیو ڈیٹا کو ترتیب وار تصاویر کے طور پر ہینڈل کرنے کی اس کی قابلیت، متن یا آڈیو ان پٹس کے ساتھ جڑی ہوئی، اس کے ملٹی موڈل صلاحیت کی مثال دیتی ہے۔
جیمنی تک رسائی
جیمنی 1.0 گوگل کے ایکو سسٹم میں شامل ہو رہا ہے، بشمول Bard، جو اب Gemini Pro کی بہتر صلاحیتوں سے فائدہ اٹھا رہا ہے۔ گوگل نے جیمنی کو اپنی تلاش، اشتہارات اور ڈوئٹ سروسز میں بھی ضم کر دیا ہے، جس سے صارف کے تجربے کو تیز، زیادہ درست جوابات کے ساتھ بڑھایا جا رہا ہے۔
جیمنی کی صلاحیتوں کو بروئے کار لانے کے خواہشمندوں کے لیے، گوگل اے آئی اسٹوڈیو اور گوگل کلاؤڈ ورٹیکس جیمنی پرو تک رسائی کی پیشکش کرتے ہیں، بعد میں زیادہ حسب ضرورت اور حفاظتی خصوصیات فراہم کرتے ہیں۔
Gemini Pro کے ذریعے طاقت یافتہ Bard کی بہتر صلاحیتوں کا تجربہ کرنے کے لیے، صارفین درج ذیل سیدھے سادے اقدامات کر سکتے ہیں:
- بارڈ پر جائیں۔: اپنا پسندیدہ ویب براؤزر کھولیں اور بارڈ ویب سائٹ پر جائیں۔
- محفوظ لاگ ان: اپنے Google اکاؤنٹ کے ساتھ سائن ان کر کے سروس تک رسائی حاصل کریں، ایک ہموار اور محفوظ تجربہ کو یقینی بنائیں۔
- انٹرایکٹو چیٹ: اب آپ Bard استعمال کر سکتے ہیں، جہاں Gemini Pro کی جدید خصوصیات کا انتخاب کیا جا سکتا ہے۔
کثیر الجہتی طاقت:
اس کے مرکز میں، Gemini ایک ٹرانسفارمر پر مبنی فن تعمیر کا استعمال کرتا ہے، جیسا کہ GPT-3 جیسے کامیاب NLP ماڈلز میں ملازم ہیں۔ تاہم، جیمنی کی انفرادیت متن، تصاویر، اور کوڈ سمیت متعدد طریقوں سے معلومات پر کارروائی اور انضمام کرنے کی صلاحیت میں مضمر ہے۔ یہ ایک نئی تکنیک کے ذریعے حاصل کیا جاتا ہے جسے کہا جاتا ہے۔ کراس موڈل توجہ، جو ماڈل کو ڈیٹا کی مختلف اقسام کے درمیان تعلقات اور انحصار سیکھنے کی اجازت دیتا ہے۔
جیمنی کے کلیدی اجزا کی خرابی یہ ہے:
- ملٹی موڈل انکوڈر: یہ ماڈیول ہر موڈیلٹی (مثلاً، متن، تصویر) سے ان پٹ ڈیٹا کو آزادانہ طور پر پروسیس کرتا ہے، متعلقہ خصوصیات کو نکال کر اور انفرادی نمائندگی پیدا کرتا ہے۔
- کراس موڈل توجہ کا نیٹ ورک: یہ نیٹ ورک جیمنی کا دل ہے۔ یہ ماڈل کو مختلف نمائندگیوں کے درمیان تعلقات اور انحصار کو سیکھنے کی اجازت دیتا ہے، انہیں ایک دوسرے سے "بات" کرنے اور ان کی سمجھ کو بہتر بنانے کے قابل بناتا ہے۔
- ملٹی موڈل ڈیکوڈر: یہ ماڈیول مختلف کاموں کو انجام دینے کے لیے کراس موڈل توجہ کے نیٹ ورک کے ذریعے تیار کردہ افزودہ نمائندگیوں کا استعمال کرتا ہے، جیسے کہ تصویر کیپشننگ، ٹیکسٹ ٹو امیج جنریشن، اور کوڈ جنریشن۔
جیمنی ماڈل صرف متن یا تصاویر کو سمجھنے کے بارے میں نہیں ہے - یہ مختلف قسم کی معلومات کو اس طریقے سے مربوط کرنے کے بارے میں ہے جو اس سے بہت قریب ہے کہ ہم بحیثیت انسان، دنیا کو کیسے دیکھتے ہیں۔ مثال کے طور پر، جیمنی تصاویر کی ترتیب کو دیکھ سکتا ہے اور ان کے اندر موجود اشیاء کی منطقی یا مقامی ترتیب کا تعین کر سکتا ہے۔ یہ فیصلہ کرنے کے لیے اشیاء کے ڈیزائن کی خصوصیات کا بھی تجزیہ کر سکتا ہے، جیسے کہ دو کاروں میں سے کون سی زیادہ ایروڈینامک شکل رکھتی ہے۔
لیکن جیمنی کی صلاحیتیں صرف بصری سمجھ سے بالاتر ہیں۔ یہ ہدایات کے ایک سیٹ کو کوڈ میں تبدیل کر سکتا ہے، ایک کاؤنٹ ڈاؤن ٹائمر جیسے عملی ٹولز بنا سکتا ہے جو نہ صرف ہدایت کے مطابق کام کرتا ہے بلکہ اس میں تخلیقی عناصر بھی شامل ہوتے ہیں، جیسے کہ حوصلہ افزا ایموجیز، صارف کی بات چیت کو بڑھانے کے لیے۔ یہ ایسے کاموں کو سنبھالنے کی صلاحیت کی نشاندہی کرتا ہے جن کے لیے تخلیقی صلاحیتوں اور فعالیت کے امتزاج کی ضرورت ہوتی ہے — ایسی مہارتیں جنہیں اکثر واضح طور پر انسان سمجھا جاتا ہے۔

جیمنی کی صلاحیتیں: مقامی استدلال (ماخذ)

جیمنی کی صلاحیتیں پروگرامنگ کے کاموں کو انجام دینے تک پھیلی ہوئی ہیں(ماخذ)
جیمنی کا جدید ترین ڈیزائن نیورل نیٹ ورک کی تحقیق کی بھرپور تاریخ پر مبنی ہے اور تربیت کے لیے گوگل کی جدید ترین TPU ٹیکنالوجی کا فائدہ اٹھاتا ہے۔ جیمنی الٹرا نے، خاص طور پر، مختلف AI ڈومینز میں نئے معیارات قائم کیے ہیں، جو ملٹی موڈل استدلال کے کاموں میں قابل ذکر کارکردگی کو ظاہر کرتے ہیں۔
پیچیدہ ڈیٹا کو پارس کرنے اور سمجھنے کی صلاحیت کے ساتھ، Gemini حقیقی دنیا کی ایپلی کیشنز کے لیے حل پیش کرتا ہے، خاص طور پر تعلیم میں۔ یہ ہاتھ سے لکھے ہوئے نوٹوں کو سمجھ کر اور ریاضی کی درست ٹائپ سیٹنگ فراہم کر کے مسائل کا تجزیہ اور حل کر سکتا ہے، جیسے کہ طبیعیات میں۔ اس طرح کی صلاحیتیں ایسے مستقبل کی تجویز کرتی ہیں جہاں AI تعلیمی ترتیبات میں مدد کرتا ہے، طلباء اور اساتذہ کو سیکھنے اور مسائل کے حل کے لیے جدید ٹولز پیش کرتا ہے۔
AlphaCode 2 جیسے ایجنٹس بنانے کے لیے Gemini's کا فائدہ اٹھایا گیا ہے، جو مسابقتی پروگرامنگ کے مسائل پر سبقت لے جاتا ہے۔ یہ جیمنی کی ایک جرنلسٹ AI کے طور پر کام کرنے کی صلاحیت کو ظاہر کرتا ہے، جو پیچیدہ، کثیر الجہتی مسائل سے نمٹنے کی صلاحیت رکھتا ہے۔
جیمنی نینو روزمرہ کے آلات میں AI کی طاقت لاتا ہے، خلاصہ اور پڑھنے کی سمجھ کے ساتھ ساتھ کوڈنگ اور STEM سے متعلقہ چیلنجز جیسے کاموں میں متاثر کن صلاحیتوں کو برقرار رکھتا ہے۔ یہ چھوٹے ماڈل کم میموری والے آلات پر اعلیٰ معیار کی AI فنکشنلٹیز پیش کرنے کے لیے ٹھیک بنائے گئے ہیں، جس سے ایڈوانسڈ AI پہلے سے کہیں زیادہ قابل رسائی ہے۔
Gemini کی ترقی میں Google کے تازہ ترین TPUs کا استعمال کرتے ہوئے تربیتی الگورتھم اور انفراسٹرکچر میں اختراعات شامل ہیں۔ اس نے موثر پیمانے اور مضبوط تربیتی عمل کی اجازت دی، اس بات کو یقینی بناتے ہوئے کہ چھوٹے ماڈلز بھی غیر معمولی کارکردگی پیش کرتے ہیں۔
جیمنی کے لیے تربیتی ڈیٹا سیٹ اس کی صلاحیتوں کی طرح متنوع ہے، بشمول ویب دستاویزات، کتابیں، کوڈ، تصاویر، آڈیو اور ویڈیوز۔ یہ ملٹی موڈل اور کثیر لسانی ڈیٹاسیٹ اس بات کو یقینی بناتا ہے کہ جیمنی ماڈل مختلف قسم کے مواد کی اقسام کو مؤثر طریقے سے سمجھ سکتے ہیں اور اس پر کارروائی کر سکتے ہیں۔
Gemini اور GPT-4
دوسرے ماڈلز کے ابھرنے کے باوجود، ہر کسی کے ذہن میں یہ سوال ہے کہ گوگل کا جیمنی اوپن اے آئی کے جی پی ٹی-4 کے خلاف کیسے کھڑا ہے، جو نئے ایل ایل ایم کے لیے صنعت کا معیار ہے۔ گوگل کے اعداد و شمار سے پتہ چلتا ہے کہ اگرچہ GPT-4 کامن سینس استدلال کے کاموں میں سبقت لے سکتا ہے، جیمنی الٹرا تقریباً ہر دوسرے شعبے میں بالا دست ہے۔
مندرجہ بالا بینچ مارکنگ ٹیبل مختلف کاموں میں گوگل کے جیمنی AI کی متاثر کن کارکردگی کو ظاہر کرتا ہے۔ قابل ذکر بات یہ ہے کہ جیمنی الٹرا نے MMLU بینچ مارک میں 90.04% درستگی کے ساتھ نمایاں نتائج حاصل کیے ہیں، جو کہ 57 مضامین میں متعدد انتخابی سوالات میں اس کی اعلیٰ تفہیم کی نشاندہی کرتا ہے۔
GSM8K میں، جو کہ گریڈ-اسکول کے ریاضی کے سوالات کا جائزہ لیتا ہے، Gemini Ultra نے 94.4% اسکور حاصل کیے، جو اپنی جدید ریاضی کی پروسیسنگ کی مہارت کو ظاہر کرتا ہے۔ کوڈنگ بینچ مارکس میں، Gemini Ultra نے Python کوڈ جنریشن کے لیے HumanEval میں 74.4% کا اسکور حاصل کیا، جو اس کی پروگرامنگ زبان کی مضبوط فہم کی نشاندہی کرتا ہے۔
DROP بینچ مارک، جو پڑھنے کی سمجھ کی جانچ کرتا ہے، جیمنی الٹرا کو ایک بار پھر 82.4% سکور کے ساتھ سرفہرست دیکھتا ہے۔ دریں اثنا، ایک عام فہم استدلال کے امتحان میں، HellaSwag، Gemini Ultra قابل ستائش کارکردگی کا مظاہرہ کرتا ہے، حالانکہ یہ GPT-4 کے مقرر کردہ انتہائی اعلیٰ بینچ مارک سے آگے نہیں نکلتا۔
نتیجہ
جیمنی کا منفرد فن تعمیر، جو گوگل کی جدید ٹیکنالوجی سے تقویت یافتہ ہے، اسے AI میدان میں ایک مضبوط کھلاڑی کے طور پر رکھتا ہے، جو کہ GPT-4 جیسے ماڈلز کے ذریعہ قائم کردہ موجودہ معیارات کو چیلنج کرتا ہے۔ اس کے ورژن—الٹرا، پرو، اور نینو—ہر ایک مخصوص ضروریات کو پورا کرتے ہیں، پیچیدہ استدلال کے کاموں سے لے کر ڈیوائس پر موثر ایپلی کیشنز تک، مختلف پلیٹ فارمز اور آلات پر جدید AI کو قابل رسائی بنانے کے لیے Google کے عزم کو ظاہر کرتے ہیں۔
بارڈ سے گوگل کلاؤڈ ورٹیکس تک گوگل کے ماحولیاتی نظام میں جیمنی کا انضمام، خدمات کے مختلف شعبوں میں صارف کے تجربات کو بڑھانے کی صلاحیت کو اجاگر کرتا ہے۔ یہ نہ صرف موجودہ ایپلی کیشنز کو بہتر کرنے کا وعدہ کرتا ہے بلکہ AI سے چلنے والے حل کے لیے نئی راہیں کھولنے کا بھی وعدہ کرتا ہے، چاہے وہ ذاتی مدد، تخلیقی کوششوں، یا کاروباری تجزیات میں ہو۔
جیسا کہ ہم آگے دیکھتے ہیں، جیمنی جیسے AI ماڈلز میں مسلسل ترقی جاری تحقیق اور ترقی کی اہمیت کو واضح کرتی ہے۔ ایسے نفیس ماڈلز کی تربیت اور ان کے اخلاقی اور ذمہ دارانہ استعمال کو یقینی بنانے کے چیلنجز بحث میں سب سے آگے ہیں۔