مصنوعی ذہانت
ارادے سے عمل درآمد تک: کس طرح مائیکروسافٹ بڑے زبان کے ماڈلز کو ایکشن اورینٹڈ AI میں تبدیل کر رہا ہے۔

بڑے زبان کے ماڈلز (LLMs) ہیں۔ تبدیل کر دیا گیا ہم قدرتی زبان کی پروسیسنگ کو کس طرح سنبھالتے ہیں۔ وہ سوالات کے جواب دے سکتے ہیں، کوڈ لکھ سکتے ہیں، اور بات چیت کر سکتے ہیں۔ پھر بھی، جب حقیقی دنیا کے کاموں کی بات آتی ہے تو وہ کم پڑ جاتے ہیں۔ مثال کے طور پر، ایک LLM جیکٹ خریدنے میں آپ کی رہنمائی کر سکتا ہے لیکن آپ کے لیے آرڈر نہیں دے سکتا۔ سوچ اور عمل کے درمیان یہ فرق ایک بڑی حد ہے۔ لوگوں کو صرف معلومات کی ضرورت نہیں ہے۔ وہ نتائج چاہتے ہیں.
اس خلا کو پر کرنے کے لیے مائیکروسافٹ ہے۔ رخ ایکشن پر مبنی AI ایجنٹوں میں LLMs۔ انہیں منصوبہ بندی کرنے، کاموں کو تحلیل کرنے، اور حقیقی دنیا کے تعاملات میں مشغول کرنے کے قابل بنا کر، وہ LLMs کو عملی کاموں کو مؤثر طریقے سے منظم کرنے کے لیے بااختیار بناتے ہیں۔ اس شفٹ میں یہ صلاحیت ہے کہ ایل ایل ایم کیا کر سکتے ہیں، ان کو ٹولز میں تبدیل کر سکتے ہیں جو پیچیدہ ورک فلو کو خودکار کرتے ہیں اور روزمرہ کے کاموں کو آسان بناتے ہیں۔ آئیے دیکھتے ہیں کہ ایسا کرنے کے لیے کیا ضرورت ہے اور مائیکروسافٹ اس مسئلے کو کیسے حل کر رہا ہے۔
LLMs کو کیا کام کرنے کی ضرورت ہے۔
LLMs کو حقیقی دنیا میں کام انجام دینے کے لیے، انہیں متن کو سمجھنے سے آگے جانے کی ضرورت ہے۔ بدلتے ہوئے حالات کو اپناتے ہوئے انہیں ڈیجیٹل اور جسمانی ماحول کے ساتھ تعامل کرنا چاہیے۔ یہاں کچھ صلاحیتیں ہیں جن کی انہیں ضرورت ہے:
-
صارف کے ارادے کو سمجھنا
مؤثر طریقے سے کام کرنے کے لیے، LLMs کو صارف کی درخواستوں کو سمجھنے کی ضرورت ہے۔ متن یا صوتی کمانڈ جیسے ان پٹ اکثر مبہم یا نامکمل ہوتے ہیں۔ سسٹم کو اپنے علم اور درخواست کے سیاق و سباق کا استعمال کرتے ہوئے خلا کو پُر کرنا چاہیے۔ متعدد قدمی گفتگو ان ارادوں کو بہتر بنانے میں مدد کر سکتی ہے، اس بات کو یقینی بناتے ہوئے کہ کارروائی کرنے سے پہلے AI سمجھتا ہے۔
-
نیتوں کو اعمال میں بدلنا
کسی کام کو سمجھنے کے بعد، LLMs کو اسے قابل عمل اقدامات میں تبدیل کرنا چاہیے۔ اس میں بٹن پر کلک کرنا، APIs کو کال کرنا، یا جسمانی آلات کو کنٹرول کرنا شامل ہو سکتا ہے۔ LLMs کو اپنے کاموں کو مخصوص کام کے لیے تبدیل کرنے، ماحول کے مطابق ڈھالنے اور چیلنجوں کو حل کرنے کی ضرورت ہے۔
-
تبدیلیوں کو اپنانا
حقیقی دنیا کے کام ہمیشہ منصوبہ بندی کے مطابق نہیں ہوتے۔ LLMs کو مسائل کا اندازہ لگانے، اقدامات کو ایڈجسٹ کرنے اور مسائل پیدا ہونے پر متبادل تلاش کرنے کی ضرورت ہوتی ہے۔ مثال کے طور پر، اگر کوئی ضروری وسیلہ دستیاب نہیں ہے، تو سسٹم کو کام کو مکمل کرنے کا دوسرا راستہ تلاش کرنا چاہیے۔ یہ لچک اس بات کو یقینی بناتی ہے کہ چیزیں تبدیل ہونے پر عمل رک نہیں جاتا۔
-
مخصوص کاموں میں مہارت
اگرچہ LLMs کو عام استعمال کے لیے ڈیزائن کیا گیا ہے، لیکن تخصص انھیں زیادہ موثر بناتا ہے۔ مخصوص کاموں پر توجہ مرکوز کرکے، یہ نظام کم وسائل کے ساتھ بہتر نتائج فراہم کر سکتے ہیں۔ یہ خاص طور پر محدود کمپیوٹنگ پاور والے آلات کے لیے اہم ہے، جیسے اسمارٹ فونز یا ایمبیڈڈ سسٹم۔
ان مہارتوں کو تیار کرنے سے، LLMs صرف معلومات پر کارروائی کرنے سے آگے بڑھ سکتے ہیں۔ وہ بامعنی اقدامات کر سکتے ہیں، AI کے لیے روزمرہ کے کام کے بہاؤ میں بغیر کسی رکاوٹ کے ضم ہونے کی راہ ہموار کرتے ہیں۔
مائیکروسافٹ ایل ایل ایم کو کس طرح تبدیل کر رہا ہے۔
ایکشن پر مبنی AI بنانے کے لیے مائیکروسافٹ کا نقطہ نظر ایک منظم عمل کی پیروی کرتا ہے۔ کلیدی مقصد LLMs کو کمانڈز کو سمجھنے، مؤثر طریقے سے منصوبہ بندی کرنے اور کارروائی کرنے کے قابل بنانا ہے۔ یہاں یہ ہے کہ وہ یہ کیسے کر رہے ہیں:
مرحلہ 1: ڈیٹا اکٹھا کرنا اور تیار کرنا
پہلے جملے میں، انہوں نے اپنے مخصوص استعمال کے معاملات سے متعلق ڈیٹا اکٹھا کیا: UFO ایجنٹ (ذیل میں بیان کیا گیا ہے)۔ ڈیٹا میں صارف کے استفسارات، ماحولیاتی تفصیلات، اور کام سے متعلق مخصوص کارروائیاں شامل ہیں۔ اس مرحلے میں دو مختلف قسم کے ڈیٹا اکٹھے کیے جاتے ہیں: سب سے پہلے، انھوں نے ٹاسک پلان ڈیٹا اکٹھا کیا جس سے LLMs کو کسی کام کو مکمل کرنے کے لیے درکار اعلیٰ سطحی اقدامات کا خاکہ بنانے میں مدد ملتی ہے۔ مثال کے طور پر، "ورڈ میں فونٹ کا سائز تبدیل کریں" میں متن کا انتخاب اور ٹول بار کی ترتیبات کو ایڈجسٹ کرنے جیسے اقدامات شامل ہو سکتے ہیں۔ دوم، انہوں نے ٹاسک ایکشن ڈیٹا اکٹھا کیا، LLMs کو ان اقدامات کو درست ہدایات میں ترجمہ کرنے کے قابل بنایا، جیسے کہ مخصوص بٹنوں پر کلک کرنا یا کی بورڈ شارٹ کٹ استعمال کرنا۔
یہ مجموعہ ماڈل کو بڑی تصویر اور تفصیلی ہدایات دیتا ہے جو اسے کاموں کو مؤثر طریقے سے انجام دینے کے لیے درکار ہے۔
مرحلہ 2: ماڈل کی تربیت
ڈیٹا اکٹھا کرنے کے بعد، LLMs کو متعدد ٹریننگ سیشنز کے ذریعے بہتر کیا جاتا ہے۔ پہلے مرحلے میں، LLMs کو ٹاسک پلاننگ کے لیے تربیت دی جاتی ہے اور انہیں یہ سکھایا جاتا ہے کہ صارف کی درخواستوں کو قابل عمل مراحل میں کیسے توڑا جائے۔ پھر ماہر کے لیبل والے ڈیٹا کا استعمال انہیں سکھانے کے لیے کیا جاتا ہے کہ ان منصوبوں کو مخصوص کارروائیوں میں کیسے ترجمہ کیا جائے۔ اپنی مسئلہ حل کرنے کی صلاحیتوں کو مزید بڑھانے کے لیے، LLMs نے خود کو فروغ دینے والے ایکسپلوریشن کے عمل میں مشغول کیا ہے جو انہیں غیر حل شدہ کاموں سے نمٹنے اور مسلسل سیکھنے کے لیے نئی مثالیں پیدا کرنے کی طاقت دیتا ہے۔ آخر میں، کمک سیکھنے کا اطلاق ہوتا ہے، کامیابیوں اور ناکامیوں کے تاثرات کا استعمال کرتے ہوئے ان کی فیصلہ سازی کو مزید بہتر بنایا جاتا ہے۔
مرحلہ 3: آف لائن ٹیسٹنگ
تربیت کے بعد، ماڈل کو کنٹرول شدہ ماحول میں جانچا جاتا ہے تاکہ وشوسنییتا کو یقینی بنایا جا سکے۔ میٹرکس جیسے کام کی کامیابی کی شرح (TSR) اور مرحلہ وار کامیابی کی شرح (SSR) کا استعمال کارکردگی کی پیمائش کے لیے کیا جاتا ہے۔ مثال کے طور پر، کیلنڈر مینجمنٹ ایجنٹ کی جانچ میں میٹنگوں کو شیڈول کرنے اور بغیر غلطیوں کے دعوت نامے بھیجنے کی اس کی اہلیت کی تصدیق کرنا شامل ہو سکتا ہے۔
مرحلہ 4: حقیقی نظاموں میں انضمام
ایک بار توثیق ہوجانے کے بعد، ماڈل ایک ایجنٹ فریم ورک میں ضم ہوجاتا ہے۔ اس نے اسے حقیقی دنیا کے ماحول کے ساتھ تعامل کرنے کی اجازت دی، جیسے بٹن پر کلک کرنا یا مینوز کو نیویگیٹ کرنا۔ UI آٹومیشن APIs جیسے ٹولز نے سسٹم کو صارف انٹرفیس عناصر کو متحرک طور پر شناخت کرنے اور ان میں ہیرا پھیری کرنے میں مدد کی۔
مثال کے طور پر، اگر ورڈ میں متن کو نمایاں کرنے کا کام سونپا جاتا ہے، تو ایجنٹ ہائی لائٹ بٹن کی شناخت کرتا ہے، متن کو منتخب کرتا ہے، اور فارمیٹنگ کا اطلاق کرتا ہے۔ میموری کا ایک جزو ایل ایل ایم کو ماضی کے اعمال پر نظر رکھنے میں مدد دے سکتا ہے، اسے نئے منظرناموں کے مطابق ڈھالنے کے قابل بناتا ہے۔
مرحلہ 5: حقیقی دنیا کی جانچ
آخری مرحلہ آن لائن تشخیص ہے۔ یہاں، نظام کو حقیقی دنیا کے منظرناموں میں جانچا جاتا ہے تاکہ یہ یقینی بنایا جا سکے کہ یہ غیر متوقع تبدیلیوں اور غلطیوں کو سنبھال سکتا ہے۔ مثال کے طور پر، کسٹمر سپورٹ بوٹ غلط ان پٹس یا گمشدہ معلومات کو اپناتے ہوئے پاس ورڈ کو دوبارہ ترتیب دینے کے ذریعے صارفین کی رہنمائی کر سکتا ہے۔ یہ جانچ یقینی بناتی ہے کہ AI مضبوط ہے اور روزمرہ کے استعمال کے لیے تیار ہے۔
ایک عملی مثال: UFO ایجنٹ
یہ دکھانے کے لیے کہ ایکشن پر مبنی AI کیسے کام کرتا ہے، Microsoft نے تیار کیا۔ UFO ایجنٹ. یہ سسٹم ونڈوز کے ماحول میں حقیقی دنیا کے کاموں کو انجام دینے کے لیے ڈیزائن کیا گیا ہے، صارف کی درخواستوں کو مکمل کارروائیوں میں بدل دیتا ہے۔
اس کے مرکز میں، UFO ایجنٹ درخواستوں کی تشریح اور کارروائیوں کی منصوبہ بندی کے لیے LLM کا استعمال کرتا ہے۔ مثال کے طور پر، اگر کوئی صارف کہتا ہے، "اس دستاویز میں لفظ 'اہم' کو نمایاں کریں، تو ایجنٹ کام کو مکمل کرنے کے لیے Word کے ساتھ بات چیت کرتا ہے۔ یہ سیاق و سباق کی معلومات اکٹھا کرتا ہے، جیسے UI کنٹرولز کی پوزیشنیں، اور اس کا استعمال کارروائیوں کی منصوبہ بندی اور ان پر عمل درآمد کرنے کے لیے کرتی ہے۔
UFO ایجنٹ جیسے ٹولز پر انحصار کرتا ہے۔ ونڈوز UI آٹومیشن (UIA) API۔ یہ API کنٹرول عناصر، جیسے بٹن یا مینو کے لیے ایپلی کیشنز کو اسکین کرتا ہے۔ "دستاویز کو پی ڈی ایف کے طور پر محفوظ کریں" جیسے کام کے لیے، ایجنٹ "فائل" بٹن کی شناخت کرنے، "محفوظ کریں" کے اختیار کو تلاش کرنے، اور ضروری اقدامات کو انجام دینے کے لیے UIA کا استعمال کرتا ہے۔ ڈیٹا کو مستقل طور پر ڈھانچہ بنا کر، نظام تربیت سے لے کر حقیقی دنیا کے اطلاق تک ہموار آپریشن کو یقینی بناتا ہے۔
چیلنجوں پر قابو پانے
اگرچہ یہ ایک دلچسپ پیشرفت ہے، ایکشن پر مبنی AI بنانا چیلنجوں کے ساتھ آتا ہے۔ اسکیل ایبلٹی ایک بڑا مسئلہ ہے۔ مختلف کاموں میں ان ماڈلز کی تربیت اور تعیناتی کے لیے اہم وسائل کی ضرورت ہوتی ہے۔ حفاظت اور وشوسنییتا کو یقینی بنانا بھی اتنا ہی اہم ہے۔ ماڈلز کو غیر ارادی نتائج کے بغیر کام انجام دینا چاہیے، خاص طور پر حساس ماحول میں۔ اور چونکہ یہ نظام نجی ڈیٹا کے ساتھ تعامل کرتے ہیں، رازداری اور سلامتی کے ارد گرد اخلاقی معیارات کو برقرار رکھنا بھی بہت ضروری ہے۔
مائیکروسافٹ کا روڈ میپ کارکردگی کو بہتر بنانے، استعمال کے معاملات کو بڑھانے، اور اخلاقی معیارات کو برقرار رکھنے پر مرکوز ہے۔ ان ترقیوں کے ساتھ، LLMs اس بات کی دوبارہ وضاحت کر سکتے ہیں کہ AI دنیا کے ساتھ کس طرح تعامل کرتا ہے، انہیں زیادہ عملی، موافقت پذیر، اور عمل پر مبنی بناتا ہے۔
AI کا مستقبل
ایل ایل ایم کو ایکشن پر مبنی ایجنٹوں میں تبدیل کرنا گیم چینجر ہو سکتا ہے۔ یہ سسٹم کاموں کو خودکار کر سکتے ہیں، ورک فلو کو آسان بنا سکتے ہیں، اور ٹیکنالوجی کو مزید قابل رسائی بنا سکتے ہیں۔ مائیکروسافٹ کا ایکشن پر مبنی AI اور ٹولز جیسے UFO ایجنٹ پر کام صرف آغاز ہے۔ جیسا کہ AI کا ارتقاء جاری ہے، ہم ایسے ہوشیار، زیادہ قابل نظاموں کی توقع کر سکتے ہیں جو صرف ہمارے ساتھ تعامل ہی نہیں کرتے — وہ کام کر لیتے ہیں۔