ہمارے ساتھ رابطہ

چھوٹی لیکن غالب: چھوٹی زبان کے ماڈلز غالب بڑی زبان کے ماڈلز کے دور میں کامیابیاں

مصنوعی ذہانت

چھوٹی لیکن غالب: چھوٹی زبان کے ماڈلز غالب بڑی زبان کے ماڈلز کے دور میں کامیابیاں

mm

کے ہمیشہ تیار ہوتے ڈومین میں مصنوعی ذہانت (AI) جہاں ماڈل پسند کرتے ہیں۔ GPT-3 ایک طویل عرصے سے غالب رہے ہیں، ایک خاموش لیکن زمینی تبدیلی ہو رہی ہے۔ سمال لینگوئج ماڈلز (SLM) ابھر رہے ہیں اور اپنے بڑے ہم منصبوں کے مروجہ بیانیے کو چیلنج کر رہے ہیں۔ GPT 3 اور اسی طرح بڑی زبان کے ماڈلز (LLM)، جیسے برٹ, اپنی دو طرفہ سیاق و سباق کی تفہیم کے لیے مشہور، T-5 اس کے متن سے متن کے نقطہ نظر کے ساتھ، اور ایکس ایل نیٹ، جو خود بخود اور آٹو انکوڈنگ ماڈلز کو یکجا کرتا ہے، سبھی نے تبدیلی میں اہم کردار ادا کیا ہے۔ قدرتی زبان پروسیسنگ (این ایل پی) نمونہ. ان کی بہترین زبان کی صلاحیتوں کے باوجود یہ ماڈل زیادہ توانائی کی کھپت، کافی میموری کی ضروریات کے ساتھ ساتھ بھاری کمپیوٹیشنل اخراجات کی وجہ سے مہنگے ہیں۔

حال ہی میں، SLMs کے عروج کے ساتھ ایک مثالی تبدیلی واقع ہو رہی ہے۔ یہ ماڈلز، ان کے ہلکے وزن کے اعصابی نیٹ ورکس، کم پیرامیٹرز، اور ہموار تربیتی ڈیٹا کی خصوصیت، روایتی بیانیہ پر سوال اٹھا رہے ہیں۔

اپنے بڑے ہم منصبوں کے برعکس، SLM کم کمپیوٹیشنل طاقت کا مطالبہ کرتے ہیں، جو انہیں آن پریمیسس اور ڈیوائس پر تعیناتی کے لیے موزوں بناتے ہیں۔. ان ماڈلز کو کارکردگی کے لیے چھوٹا کیا گیا ہے، جس سے یہ ظاہر ہوتا ہے کہ جب بات لینگویج پروسیسنگ کی ہو تو چھوٹے ماڈل واقعی طاقتور ہو سکتے ہیں۔

چھوٹی زبان کے ماڈلز کا ارتقاء اور صلاحیتیں۔

LLMs کی صلاحیتوں اور اطلاق کا جائزہ، جیسے GPT-3، ظاہر کرتا ہے کہ ان میں سیاق و سباق کو سمجھنے اور مربوط متن تیار کرنے کی منفرد صلاحیت ہے۔ مواد کی تخلیق، کوڈ جنریشن، اور زبان کے ترجمے کے لیے ان ٹولز کی افادیت پیچیدہ مسائل کے حل کے لیے انھیں ضروری اجزاء بناتی ہے۔

اس بیانیے کی ایک نئی جہت حال ہی میں GPT 4 کے انکشاف کے ساتھ سامنے آئی ہے۔ GPT-4 آٹھ ماڈلز میں ناقابل یقین 1.76 ٹریلین پیرامیٹرز کے ساتھ زبان AI کی حدود کو آگے بڑھاتا ہے اور اپنے پیشرو GPT 3 سے ایک اہم رخصتی کی نمائندگی کرتا ہے۔ لینگویج پروسیسنگ کے ایک نئے دور کا مرحلہ، جہاں بڑے اور زیادہ طاقتور ماڈلز کا تعاقب جاری رہے گا۔

LLMs کی صلاحیتوں کو تسلیم کرتے ہوئے، یہ بہت ضروری ہے کہ وہ ان کے لیے کافی کمپیوٹیشنل وسائل اور توانائی کے مطالبات کو تسلیم کریں۔ یہ ماڈل، اپنے پیچیدہ فن تعمیر اور وسیع پیرامیٹرز کے ساتھ، اہم پروسیسنگ پاور کی ضرورت ہے، جو توانائی کے زیادہ استعمال کی وجہ سے ماحولیاتی خدشات میں حصہ ڈالتے ہیں۔

دوسری طرف، کمپیوٹیشنل کارکردگی کے تصور کو SLMs نے وسائل سے بھرپور LLMs کے برخلاف نئے سرے سے بیان کیا ہے۔ وہ اپنی تاثیر کو ثابت کرتے ہوئے کافی کم لاگت پر کام کر رہے ہیں۔ ایسے حالات میں جہاں کمپیوٹیشنل وسائل محدود ہیں اور مختلف ماحول میں تعیناتی کے مواقع پیش کرتے ہیں، یہ کارکردگی خاص طور پر اہم ہے۔

لاگت کی تاثیر کے علاوہ، SLMs تیزی سے اندازہ لگانے کی صلاحیتوں میں بہترین ہیں۔ ان کے ہموار فن تعمیر تیز رفتار پروسیسنگ کو قابل بناتے ہیں، جو انہیں حقیقی وقت کی ایپلی کیشنز کے لیے انتہائی موزوں بناتے ہیں جن کے لیے فوری فیصلہ سازی کی ضرورت ہوتی ہے۔ یہ ردعمل انہیں ایسے ماحول میں مضبوط حریف کے طور پر کھڑا کرتا ہے جہاں چستی انتہائی اہمیت کی حامل ہے۔

ایس ایل ایم کی کامیابی کی کہانیاں ان کے اثرات کو مزید مضبوط کرتی ہیں۔ مثال کے طور پر، ڈسٹل برٹBERT کا ایک آست شدہ ورژن، کارکردگی کو برقرار رکھتے ہوئے علم کو کم کرنے کی صلاحیت کو ظاہر کرتا ہے۔ دریں اثنا، مائیکروسافٹ کے DeBERTa اور TinyBERT ثابت کرتے ہیں کہ SLMs ریاضیاتی استدلال سے لے کر زبان کی تفہیم تک مختلف ایپلی کیشنز میں سبقت لے سکتے ہیں۔ اورکا 2، جو حال ہی میں میٹا کے لاما 2 کے فائن ٹیوننگ کے ذریعے تیار کیا گیا ہے، SLM فیملی میں ایک اور منفرد اضافہ ہے۔ اسی طرح، اوپن اے آئی سکیلڈ-ڈاؤن ورژن، GPT-Neo اور GPT-J، اس بات پر زور دیتے ہیں کہ زبان کی تخلیق کی صلاحیتیں چھوٹے پیمانے پر آگے بڑھ سکتی ہیں، پائیدار اور قابل رسائی حل فراہم کرتی ہیں۔

جیسا کہ ہم SLMs کی ترقی کا مشاہدہ کرتے ہیں، یہ واضح ہو جاتا ہے کہ وہ صرف کم کمپیوٹیشنل اخراجات اور تیز تر تخمینے کے اوقات سے زیادہ پیش کرتے ہیں۔ درحقیقت، وہ پیراڈائم شفٹ کی نمائندگی کرتے ہیں، یہ ظاہر کرتے ہیں کہ درستگی اور کارکردگی کومپیکٹ شکلوں میں پنپ سکتی ہے۔ ان چھوٹے لیکن طاقتور ماڈلز کا ظہور AI میں ایک نئے دور کی نشاندہی کرتا ہے، جہاں SLM کی صلاحیتیں بیانیہ کو تشکیل دیتی ہیں۔

درخواستیں اور BSLMs کے دوبارہ کام

رسمی طور پر بیان کیا گیا ہے، SLMs ہلکے ہیں۔ پیداواری AI۔ ایسے ماڈل جن کو LLMs کے مقابلے میں کم کمپیوٹیشنل پاور اور میموری کی ضرورت ہوتی ہے۔ انہیں نسبتاً چھوٹے ڈیٹاسیٹس کے ساتھ تربیت دی جا سکتی ہے، اس میں آسان فن تعمیرات شامل ہیں جو زیادہ قابل فہم ہیں، اور ان کا چھوٹا سائز موبائل آلات پر تعیناتی کی اجازت دیتا ہے۔

حالیہ تحقیق سے پتہ چلتا ہے کہ SLMs کو LLMs کے مقابلے میں مخصوص کاموں میں مسابقتی یا اس سے بھی بہتر کارکردگی حاصل کرنے کے لیے ٹھیک بنایا جا سکتا ہے۔ خاص طور پر، اصلاح کی تکنیک، علم کشید، اور تعمیراتی اختراعات SLMs کے کامیاب استعمال میں تعاون کیا ہے۔

SLMs کے پاس مختلف شعبوں میں ایپلی کیشنز ہیں، جیسے کہ چیٹ بوٹس، سوال جواب دینے کا نظام، اور زبان کا ترجمہ۔ SLMs ایج کمپیوٹنگ کے لیے بھی موزوں ہیں، جس میں کلاؤڈ کے بجائے ڈیوائسز پر ڈیٹا کی پروسیسنگ شامل ہے۔ اس کی وجہ یہ ہے کہ SLMs کو LLMs کے مقابلے میں کم کمپیوٹیشنل پاور اور میموری کی ضرورت ہوتی ہے، جس سے وہ موبائل ڈیوائسز اور دیگر وسائل سے محدود ماحول پر تعیناتی کے لیے زیادہ موزوں ہوتے ہیں۔

اسی طرح، کارکردگی اور کارکردگی کو بڑھانے کے لیے مختلف صنعتوں اور منصوبوں میں SLMs کا استعمال کیا گیا ہے۔ مثال کے طور پر، صحت کی دیکھ بھال کے شعبے میں، طبی تشخیص اور علاج کی سفارشات کی درستگی کو بڑھانے کے لیے SLMs کا نفاذ کیا گیا ہے۔

مزید برآں، مالیاتی صنعت میں، SLMs کا اطلاق دھوکہ دہی کی سرگرمیوں کا پتہ لگانے اور رسک مینجمنٹ کو بہتر بنانے کے لیے کیا گیا ہے۔ مزید برآں، نقل و حمل کا شعبہ ٹریفک کے بہاؤ کو بہتر بنانے اور بھیڑ کو کم کرنے کے لیے ان کا استعمال کرتا ہے۔ یہ محض چند مثالیں ہیں جو یہ بتاتی ہیں کہ کس طرح SLMs مختلف صنعتوں اور منصوبوں میں کارکردگی اور کارکردگی کو بڑھا رہے ہیں۔

چیلنجز اور آگے بڑھنے کی کوشش

SLMs کچھ ممکنہ چیلنجوں کے ساتھ آتے ہیں، بشمول محدود سیاق و سباق کی سمجھ اور پیرامیٹرز کی کم تعداد۔ ان حدود کے نتیجے میں بڑے ماڈلز کے مقابلے میں ممکنہ طور پر کم درست اور باریک ردعمل ہو سکتا ہے۔ تاہم، ان چیلنجوں سے نمٹنے کے لیے جاری تحقیق کی جا رہی ہے۔ مثال کے طور پر، محققین مزید متنوع ڈیٹاسیٹس کا استعمال کرتے ہوئے اور ماڈلز میں مزید سیاق و سباق کو شامل کرکے SLM ٹریننگ کو بڑھانے کے لیے تکنیکوں کی تلاش کر رہے ہیں۔

دوسرے طریقوں میں پہلے سے موجود علم کو استعمال کرنے کے لیے ٹرانسفر لرننگ کا فائدہ اٹھانا اور مخصوص کاموں کے لیے فائن ٹیوننگ ماڈل شامل ہیں۔ مزید برآں، آرکیٹیکچرل ایجادات جیسے ٹرانسفارمر نیٹ ورکس اور توجہ کے طریقہ کار نے SLMs میں بہتر کارکردگی کا مظاہرہ کیا ہے۔

اس کے علاوہ، چھوٹے ماڈلز کی تاثیر کو بڑھانے کے لیے فی الحال AI کمیونٹی کے اندر باہمی تعاون کی کوششیں کی جا رہی ہیں۔ مثال کے طور پر، Hugging Face کی ٹیم نے Transformers کے نام سے ایک پلیٹ فارم تیار کیا ہے، جو ان ماڈلز کو ٹھیک کرنے اور ان کی تعیناتی کے لیے پہلے سے تربیت یافتہ SLMs اور ٹولز کی ایک قسم پیش کرتا ہے۔

اسی طرح، Google نے TensorFlow کے نام سے ایک پلیٹ فارم بنایا ہے، جو SLMs کی ترقی اور تعیناتی کے لیے وسائل اور ٹولز کی ایک رینج فراہم کرتا ہے۔ یہ پلیٹ فارمز محققین اور ڈویلپرز کے درمیان تعاون اور علم کے اشتراک کی سہولت فراہم کرتے ہیں، SLMs کی ترقی اور نفاذ کو تیز کرتے ہیں۔

نیچے کی لکیر

آخر میں، SLMs AI کے میدان میں ایک اہم پیشرفت کی نمائندگی کرتے ہیں۔ وہ LLMs کے غلبہ کو چیلنج کرتے ہوئے کارکردگی اور استعداد پیش کرتے ہیں۔ یہ ماڈل کمپیوٹیشنل اصولوں کو اپنی کم لاگت اور ہموار فن تعمیر کے ساتھ نئے سرے سے متعین کرتے ہیں، یہ ثابت کرتے ہیں کہ سائز ہی مہارت کا واحد عامل نہیں ہے۔ اگرچہ چیلنجز برقرار ہیں، جیسے محدود سیاق و سباق کی تفہیم، جاری تحقیق اور باہمی تعاون کی کوششیں SLMs کی کارکردگی کو مسلسل بڑھا رہی ہیں۔

ڈاکٹر اسد عباس، اے مدت ملازمت یافتہ ایسوسی ایٹ پروفیسر کامسیٹس یونیورسٹی اسلام آباد، پاکستان میں، پی ایچ ڈی کی ڈگری حاصل کی۔ نارتھ ڈکوٹا اسٹیٹ یونیورسٹی، USA سے۔ اس کی تحقیق جدید ٹیکنالوجیز پر مرکوز ہے، بشمول کلاؤڈ، فوگ، اور ایج کمپیوٹنگ، بگ ڈیٹا اینالیٹکس، اور اے آئی۔ ڈاکٹر عباس نے معروف سائنسی جرائد اور کانفرنسوں میں اشاعتوں کے ساتھ خاطر خواہ تعاون کیا ہے۔