مصنوعی ذہانت
این ایل پی (نیچرل لینگویج پروسیسنگ) کیا ہے؟

قدرتی زبان پروسیسنگ (این ایل پی) تکنیکوں اور اوزاروں کا مطالعہ اور اطلاق ہے جو کمپیوٹر کو انسانی زبان کے بارے میں پروسیسنگ، تجزیہ، تشریح اور استدلال کے قابل بناتا ہے۔ NLP ایک بین الضابطہ میدان ہے اور یہ لسانیات اور کمپیوٹر سائنس جیسے شعبوں میں قائم کی گئی تکنیکوں کو یکجا کرتا ہے۔ یہ تکنیکیں AI کے ساتھ کنسرٹ میں چیٹ بوٹس اور گوگل اسسٹنٹ اور Amazon کے Alexa جیسے ڈیجیٹل اسسٹنٹ بنانے کے لیے استعمال کی جاتی ہیں۔
آئیے نیچرل لینگویج پروسیسنگ، این ایل پی میں استعمال ہونے والی کچھ تکنیکوں، اور این ایل پی کے لیے کچھ عام استعمال کے کیسز کے پیچھے کی وجہ دریافت کرنے کے لیے کچھ وقت نکالیں۔
نیچرل لینگویج پروسیسنگ (NLP) کیوں اہمیت رکھتی ہے۔
کمپیوٹرز کو انسانی زبان کی ترجمانی کرنے کے لیے، انہیں ایک ایسی شکل میں تبدیل کیا جانا چاہیے جس میں کمپیوٹر ہیرا پھیری کر سکے۔ تاہم، یہ اتنا آسان نہیں ہے جتنا کہ ٹیکسٹ ڈیٹا کو نمبروں میں تبدیل کرنا۔ انسانی زبان سے معنی اخذ کرنے کے لیے، نمونوں کو سینکڑوں یا ہزاروں الفاظ سے نکالنا پڑتا ہے جو ایک متن کی دستاویز بناتے ہیں۔ یہ کوئی آسان کام نہیں ہے۔ کچھ سخت اور تیز قواعد ہیں جن کا اطلاق انسانی زبان کی تشریح پر کیا جا سکتا ہے۔ مثال کے طور پر، سیاق و سباق کے لحاظ سے الفاظ کے بالکل ایک ہی سیٹ کا مطلب مختلف چیزیں ہو سکتی ہیں۔ انسانی زبان ایک پیچیدہ اور اکثر مبہم چیز ہے، اور ایک بیان کو خلوص یا طنز کے ساتھ کہا جا سکتا ہے۔
اس کے باوجود، کچھ عمومی رہنما خطوط ہیں جو الفاظ اور حروف کی تشریح کرتے وقت استعمال کیے جا سکتے ہیں، جیسے کہ "s" کا استعمال یہ ظاہر کرنے کے لیے کیا جا رہا ہے کہ کوئی شے جمع ہے۔ ان عمومی رہنما خطوط کو متن سے معنی نکالنے کے لیے ایک دوسرے کے ساتھ مل کر استعمال کیا جانا چاہیے، تاکہ ایسی خصوصیات پیدا کی جا سکیں جن کی ایک مشین لرننگ الگورتھم تشریح کر سکے۔
نیچرل لینگویج پروسیسنگ میں مختلف الگورتھم کا اطلاق شامل ہے جو غیر ساختہ ڈیٹا لینے اور اسے سٹرکچرڈ ڈیٹا میں تبدیل کرنے کے قابل ہے۔ اگر یہ الگورتھم غلط طریقے سے لاگو ہوتے ہیں، تو کمپیوٹر اکثر متن سے صحیح معنی اخذ کرنے میں ناکام رہے گا۔ یہ اکثر زبانوں کے درمیان متن کے ترجمہ میں دیکھا جا سکتا ہے، جہاں جملے کا صحیح معنی اکثر کھو جاتا ہے۔ اگرچہ پچھلے کچھ سالوں میں مشینی ترجمہ میں کافی بہتری آئی ہے، لیکن مشینی ترجمے کی غلطیاں اب بھی اکثر ہوتی رہتی ہیں۔
نیچرل لینگویج پروسیسنگ (NLP) تکنیک

تصویر: تیمور بذریعہ وکی میڈیا کامنز، پبلک ڈومین (https://commons.wikimedia.org/wiki/File:ParseTree.svg)
قدرتی زبان کی پروسیسنگ میں استعمال ہونے والی بہت سی تکنیکوں کو دو زمروں میں سے ایک میں رکھا جا سکتا ہے: نحو یا سیمنٹکس۔ نحو کی تکنیکیں وہ ہیں جو الفاظ کی ترتیب سے نمٹتی ہیں، جبکہ معنوی تکنیک وہ تکنیک ہیں جن میں الفاظ کے معنی شامل ہوتے ہیں۔
نحو NLP تکنیک
نحو کی مثالوں میں شامل ہیں:
- لیمٹائزیشن
- مورفولوجیکل سیگمنٹیشن
- پارٹ آف اسپیچ ٹیگنگ
- پارس کرنا
- جملے کا توڑ
- اسٹیمنگ
- الفاظ کی تقسیم
لیمیٹائزیشن سے مراد کسی لفظ کے مختلف انفلیکشنز کو ایک ہی شکل میں ڈسٹل کرنا ہے۔ لیمیٹائزیشن ٹینس اور جمع جیسی چیزوں کو لیتی ہے اور انہیں آسان بناتی ہے، مثال کے طور پر، "پاؤں" "پاؤں" بن سکتے ہیں اور "سٹرائپس" "سٹرائپ" بن سکتے ہیں۔ یہ آسان الفاظ کی شکل الگورتھم کے لیے دستاویز میں الفاظ کی تشریح کرنا آسان بناتی ہے۔
مورفولوجیکل سیگمنٹیشن الفاظ کو مورفیمز یا کسی لفظ کی بنیادی اکائیوں میں تقسیم کرنے کا عمل ہے۔ یہ یونٹ مفت جیسی چیزیں ہیں۔ مورفیمس (جو الفاظ کے طور پر اکیلے کھڑے ہوسکتے ہیں) اور سابقہ یا لاحقہ۔
پارٹ آف اسپیچ ٹیگنگ صرف یہ شناخت کرنے کا عمل ہے کہ ان پٹ دستاویز میں ہر لفظ تقریر کا کون سا حصہ ہے۔
پارس کرنا ایک جملے میں تمام الفاظ کا تجزیہ کرنا اور ان کو ان کے رسمی گرامر لیبل کے ساتھ جوڑنا یا تمام الفاظ کے لیے گرامر کا تجزیہ کرنا۔
جملے کا توڑ، یا جملے کی حد بندی، یہ فیصلہ کرنے سے مراد ہے کہ جملہ کہاں سے شروع ہوتا ہے اور کہاں ختم ہوتا ہے۔
اسٹیمنگ الفاظ کو لفظ کی بنیادی شکل تک کم کرنے کا عمل ہے۔ مثال کے طور پر، منسلک، کنکشن، اور کنکشن سب کو "کنیکٹ" کرنے کے لیے بنایا جائے گا۔
الفاظ کی تقسیم متن کے بڑے ٹکڑوں کو چھوٹی اکائیوں میں تقسیم کرنے کا عمل ہے، جو کہ الفاظ یا اسٹیمڈ/لیمیٹائزڈ اکائیاں ہو سکتے ہیں۔
سیمنٹک NLP تکنیک
سیمنٹک NLP تکنیکوں میں شامل ہیں جیسے:
- نام کی ہستی کی پہچان
- قدرتی زبان کی نسل
- لفظی احساس کو ابہام کرنا
نام شدہ ہستی کی شناخت میں کچھ متنی حصوں کو ٹیگ کرنا شامل ہوتا ہے جنہیں متعدد مختلف پیش سیٹ گروپوں میں سے ایک میں رکھا جا سکتا ہے۔ پہلے سے طے شدہ زمروں میں تاریخیں، شہر، مقامات، کمپنیاں اور افراد شامل ہیں۔
قدرتی زبان کی نسل ساختی ڈیٹا کو قدرتی زبان میں تبدیل کرنے کے لیے ڈیٹا بیس کو استعمال کرنے کا عمل ہے۔ مثال کے طور پر، موسم کے بارے میں اعدادوشمار، جیسے درجہ حرارت اور ہوا کی رفتار کو قدرتی زبان کے ساتھ خلاصہ کیا جا سکتا ہے۔
لفظی احساس کو واضح کرنا ایک متن کے اندر الفاظ کو معنی دینے کا عمل ہے جس کی بنیاد پر الفاظ ظاہر ہوتے ہیں۔
NLP کے لیے ڈیپ لرننگ ماڈلز
باقاعدہ ملٹی لیئر پرسیپٹرون ترتیب وار ڈیٹا کی تشریح کو سنبھالنے سے قاصر ہیں، جہاں معلومات کی ترتیب اہم ہے۔ ترتیب وار اعداد و شمار میں ترتیب کی اہمیت سے نمٹنے کے لیے، ایک قسم کا نیورل نیٹ ورک استعمال کیا جاتا ہے جو تربیت میں سابقہ اوقات سے متعلق معلومات کو محفوظ رکھتا ہے۔
ریکرنٹ نیورل نیٹ ورکس عصبی نیٹ ورکس کی وہ اقسام ہیں۔ پچھلے ٹائم سٹیپس سے ڈیٹا کو لوپ کریں۔موجودہ ٹائم سٹیپ کے وزن کا حساب لگاتے وقت ان کو مدنظر رکھنا۔ بنیادی طور پر، RNN کے تین پیرامیٹرز ہیں جو فارورڈ ٹریننگ پاس کے دوران استعمال کیے جاتے ہیں: ایک میٹرکس جو پچھلی پوشیدہ حالت پر مبنی ہے، ایک میٹرکس جو موجودہ ان پٹ پر مبنی ہے، اور ایک میٹرکس جو پوشیدہ حالت اور آؤٹ پٹ کے درمیان ہے۔ چونکہ RNNs سابقہ اوقات سے متعلق معلومات کو مدنظر رکھ سکتے ہیں، اس لیے وہ کسی لفظ کے معنی کی تشریح کرتے وقت جملے میں پہلے کے الفاظ کو مدنظر رکھ کر متن کے ڈیٹا سے متعلقہ نمونے نکال سکتے ہیں۔
ٹیکسٹ ڈیٹا پر کارروائی کرنے کے لیے استعمال ہونے والی گہری سیکھنے کے فن تعمیر کی ایک اور قسم ہے۔ ایک طویل مختصر مدتی میموری (LSTM) نیٹ ورک. LSTM نیٹ ورک ساخت میں RNNs سے ملتے جلتے ہیں، لیکن ان کے فن تعمیر میں کچھ فرق کی وجہ سے وہ RNNs سے بہتر کارکردگی کا مظاہرہ کرتے ہیں۔ وہ ایک مخصوص مسئلہ سے بچتے ہیں جو اکثر اس وقت ہوتا ہے جب RNNs کا استعمال کرتے ہوئے کہا جاتا ہے۔ پھٹنے والا تدریجی مسئلہ۔
یہ گہرے عصبی نیٹ ورک یا تو یک طرفہ یا دو جہتی ہوسکتے ہیں۔ دو جہتی نیٹ ورک نہ صرف موجودہ لفظ سے پہلے آنے والے الفاظ بلکہ اس کے بعد آنے والے الفاظ کو بھی مدنظر رکھنے کی صلاحیت رکھتے ہیں۔ اگرچہ یہ اعلی درستگی کی طرف جاتا ہے، یہ کمپیوٹیشنل طور پر زیادہ مہنگا ہے۔
نیچرل لینگویج پروسیسنگ (NLP) کے لیے کیسز کا استعمال کریں

تصویر: محمد_حسن بذریعہ Pixabay، Pixabay لائسنس (https://pixabay.com/illustrations/chatbot-chat-application-artificial-3589528/)
چونکہ نیچرل لینگویج پروسیسنگ میں انسانی زبانوں کا تجزیہ اور ہیرا پھیری شامل ہے، اس لیے اس میں ایپلی کیشنز کی ایک ناقابل یقین حد تک وسیع رینج ہے۔ NLP کے لیے ممکنہ درخواستوں میں چیٹ بوٹس، ڈیجیٹل معاونین، جذبات کا تجزیہ، دستاویز کی تنظیم، ٹیلنٹ کی بھرتی، اور صحت کی دیکھ بھال شامل ہیں۔
چیٹ بوٹس اور ڈیجیٹل اسسٹنٹس جیسے ایمیزون کے الیکسا اور گوگل اسسٹنٹ آواز کی شناخت اور ترکیب کے پلیٹ فارمز کی مثالیں ہیں جو آواز کے احکامات کی تشریح اور جواب دینے کے لیے NLP کا استعمال کرتے ہیں۔ یہ ڈیجیٹل اسسٹنٹس لوگوں کی مختلف قسم کے کاموں میں مدد کرتے ہیں، انہیں اپنے کچھ علمی کاموں کو دوسرے آلے پر آف لوڈ کرنے دیتے ہیں اور ان کی دماغی طاقت کو دوسری، زیادہ اہم چیزوں کے لیے خالی کرتے ہیں۔ مصروف صبح کو بینک جانے کا بہترین راستہ تلاش کرنے کے بجائے، ہم اپنے ڈیجیٹل اسسٹنٹ سے یہ کام کروا سکتے ہیں۔
جذباتی تجزیہ NLP تکنیکوں کا استعمال ہے تاکہ کسی رجحان پر لوگوں کے ردعمل اور احساسات کا مطالعہ کیا جا سکے، جیسا کہ ان کی زبان کے استعمال سے بات کی جاتی ہے۔ کسی بیان کے جذبات کو پکڑنا، جیسے یہ تشریح کرنا کہ آیا کسی پروڈکٹ کا جائزہ اچھا ہے یا برا، کمپنیوں کو اس بارے میں کافی معلومات فراہم کر سکتا ہے کہ ان کی پروڈکٹ کیسے موصول ہو رہی ہے۔
ٹیکسٹ دستاویزات کو خود بخود ترتیب دینا NLP کی ایک اور درخواست ہے۔ گوگل اور یاہو جیسی کمپنیاں ای میل دستاویزات کی درجہ بندی کرنے کے لیے این ایل پی الگورتھم کا استعمال کرتی ہیں، انہیں "سماجی" یا "پروموشنز" جیسے مناسب ڈبے میں ڈالتی ہیں۔ وہ سپام کی شناخت اور اسے آپ کے ان باکس تک پہنچنے سے روکنے کے لیے بھی ان تکنیکوں کا استعمال کرتے ہیں۔
گروپوں نے NLP تکنیکیں بھی تیار کی ہیں جو ممکنہ ملازمتوں کی شناخت کے لیے استعمال کی جا رہی ہیں، متعلقہ مہارتوں کی بنیاد پر انھیں تلاش کرنا۔ خدمات حاصل کرنے والے مینیجر درخواست دہندگان کی فہرستوں کو ترتیب دینے میں ان کی مدد کے لیے NLP تکنیک بھی استعمال کر رہے ہیں۔
صحت کی دیکھ بھال کو بڑھانے کے لیے NLP تکنیکوں کا بھی استعمال کیا جا رہا ہے۔ این ایل پی کو بیماریوں کا پتہ لگانے کو بہتر بنانے کے لیے استعمال کیا جا سکتا ہے۔ صحت کے ریکارڈوں کا تجزیہ کیا جا سکتا ہے اور NLP الگورتھم کے ذریعے علامات کو نکالا جا سکتا ہے، جس کے بعد ممکنہ تشخیص تجویز کرنے کے لیے استعمال کیا جا سکتا ہے۔ اس کی ایک مثال ایمیزون کا کمپریہنڈ میڈیکل پلیٹ فارم ہے، جو صحت کے ریکارڈ کا تجزیہ کرتا ہے اور بیماریوں اور علاج کو نکالتا ہے۔ NLP کی صحت کی دیکھ بھال کی درخواستیں دماغی صحت تک بھی پھیلی ہوئی ہیں۔ ایپس ہیں۔ جیسے WoeBot، جو علمی سلوک کی تھیراپی پر مبنی بے چینی کے انتظام کی متعدد تکنیکوں کے ذریعے صارفین سے بات کرتی ہے۔