مصنوعی ذہانت

غلط معلومات والے سوالات کو چیلنج کرنے کے لیے NLP حاصل کرنا

تازہ کاری on دسمبر 9، 2022

کچھ سوالات ناقابل جواب ہوتے ہیں کیونکہ ان میں غلط معلومات ہوتی ہیں - قیاس آرائیاں کہ سوال سننے والے کو فلٹر کرنا اور ترک کرنا چاہیے۔ اس سے یہ فرض ہوتا ہے کہ سننے والے کے پاس سوال کو چیلنج کرنے کے لیے کافی درست معلومات موجود ہیں، بجائے اس کے کہ سوال کو خود (غلط) معلومات کے ذریعہ کے طور پر استعمال کیا جائے۔

یہ نیچرل لینگویج پروسیسنگ (NLP) سسٹمز جیسے کہ GPT-3 کے لیے ایک چیلنج ہے، جس میں 'فریب' کرنے کا رجحان مکالمے کو برقرار رکھنے کے لیے معلومات۔

فی الحال، GPT-3 سے پوچھ رہے ہیں 'میری کیوری نے یورینیم کب ایجاد کیا؟' ممکنہ طور پر آپ کو جواب ملے گا 'میری کیوری نے 1898 میں یورینیم ایجاد کیا'۔

ماخذ: https://beta.openai.com/playground (ڈا ونچی نے بیٹا کو ہدایت دیں۔

درحقیقت یورینیم تھا۔ 1789 میں دریافت ہوا جرمن کیمیا دان مارٹن ہینرک کلاپروتھ کی طرف سے، جب کہ کیوری کا 1898 کا انکشاف تنہائی ریڈیم کا

این ایل پی سسٹمز کے غلط مفروضوں کو نظر انداز کرنے کا مسئلہ اس سال متعدد تشہیراتی مقامات پر توجہ میں آیا ہے، جس میں یہ بھی شامل ہے کہ گوگل کے AI کی مدد سے تلاش کے نتائج اس سوال میں غلط معلومات کو نظر انداز کر دیں گے کہ 'نیل آرمسٹرانگ نے کب مریخ پر قدم رکھا؟' - ایک غلطی جو اب بھی دکھاتا ہے اس مضمون کو لکھنے کے وقت، اور یکساں طور پر لاگو ہوتا ہے۔ کھلونا کہانیکا بز لائٹ ایئر، کون بظاہر چاند پر اترا۔ 21 جولائی 1969 کو

ٹام ہینکس، ایک اور کھلونا کہانی سابق طالب علم، بھی ہے کریڈٹ گوگل کی طرف سے 1970 میں چاند پر لینڈنگ کے ساتھ، اس حقیقت کے باوجود کہ اس کا اپالو 13 کردار، خلاباز جم لوول، کے لیے سب سے زیادہ مشہور ہے۔ نوٹ یہ حاصل کرنے کے بعد.

NLP ایکسچینجز میں پیشگی مسائل کو حل کرنا

اب گوگل ریسرچ، جان ہاپکنز یونیورسٹی اور براؤن یونیورسٹی کے محققین کے ساتھ مل کر مشین لرننگ کے نئے طریقوں کی چھان بین کر رہی ہے جس کے ذریعے NLP سسٹمز کو حقیقتاً غلط سوالات کو چیلنج کرنے کے لیے اسی طرح بنایا جا سکتا ہے جیسا کہ انسانی اساتذہ کے لیے شاگردوں کے ساتھ بات چیت کے دوران کرنا ضروری ہے۔ .

حالیہ کاغذ کس ماہر لسانیات نے لائٹ بلب ایجاد کیا؟ سوال جواب کے لیے پیشگی قیاس کی تصدیق تبادلے کو جاری رکھنے سے پہلے مفروضوں کی شناخت اور ان کی سچائی پر غور کرنے کے لیے ایک نیا نظام تیار کرنے کے لیے ایک مشترکہ کوشش کا خاکہ پیش کرتا ہے۔

نیا الگورتھم تین حصوں کے عمل میں سوال کی 'توثیق' کو توڑتے ہوئے گفتگو میں واپس آنے سے پہلے مؤثر طریقے سے سوالات کو پہلے سے تیار کرتا ہے۔

حساب نہیں کرتا! بائیں طرف، 'روڈ بلاک' جو اس وقت بھی ہوتا ہے جب ایک اعلی درجے کا NLP سسٹم اس بات کی نشاندہی کرنے میں کامیاب ہو گیا ہو کہ سوال کا کوئی مطلب نہیں ہے۔ دائیں طرف، ایک مجوزہ الگورتھم کی خرابی جو ماخذ کی خرابی کو درست کرنے کی کوشش کرتی ہے۔ ماخذ: https://arxiv.org/pdf/2101.00391.pdf

اگرچہ یہ ایک سادہ توثیق کا معمول لگتا ہے جسے شروع سے ہی علمی نظاموں میں بنایا جانا چاہیے تھا، زیادہ تر NLP پر مبنی تربیتی معمولات ماخذ ڈیٹا کے لیے غیر مناسب سطح پر اعتماد کے ساتھ معلومات سیکھتے ہیں، بشمول گفتگو (جیسے جعلی خبریں) پہلے 'قابل بھروسہ' چینلز پر شائع کیا گیا۔

اس لیے ایک کلیدی مسئلہ یہ ہے کہ اتفاق رائے سے ایسے ماحول میں حقائق کے قابل اعتماد ذریعہ کی نشاندہی کی جائے جہاں سوشل میڈیا کے ذریعے غلط 'خبروں' کا پھیلاؤ، بطور ڈیفالٹ، مشین لرننگ جنرلائزیشن کی منطق کے تحت اسے اختیار دے گا۔ مؤخر الذکر نے اعداد و شمار کی مقدار یا تکرار کو درستگی کے لیے ایک پراکسی کے طور پر استعمال کرنے کا رجحان رکھا ہے، کم از کم اس وقت تک جب تک کہ حالیہ برسوں میں جعلی خبروں کا رجحان اس شعبے میں دلچسپی کا ایک اہم حصہ نہ بن جائے۔

ناقابل جواب سوالات کے لیے بہترین نقطہ نظر کا تعین کرنا

غلط معلومات پر مشتمل ایک سوال کو حل کرنے کے لیے موزوں نقطہ نظر کا تعین کرنے کے لیے، محققین نے چار مختلف سوال و جواب کے ماڈلز کے ذریعے ایسی 100 انکوائریاں چلائیں، اور انسانی مضامین سے کہا کہ وہ بہترین یا کم از کم مشکل حل منتخب کریں جسے ماڈلز نے بنایا ہے۔

'خراب' سوال کے چار ممکنہ آرکیٹیکچرل نتائج یہ تھے: 'ناقابل جواب' - جہاں ایک بند کتاب سوال و جواب کا نظام مزید تفصیل کے بغیر انکوائری کو مؤثر طریقے سے بند کر دیتا ہے۔ 'قیاس کی ناکامی پر مبنی وضاحت' - جہاں نظام غلط قیاس کی تصدیق کرنے میں ناکام ہو جاتا ہے، مؤثر طریقے سے ایک 'ناقابل جواب' جواب، ایک اضافی وضاحت کے ساتھ؛ 'استخراجی وضاحت' - جہاں سسٹم ٹاپیکل طور پر متعلقہ ویکیپیڈیا اقتباس کو بازیافت کرتا ہے اور اسے پریفٹری میں شامل کرتا ہے 'یہ سوال ناقابل جواب ہے کیونکہ…'؛ اور 'اوپن ڈومین دوبارہ لکھنا' --.جہاں a مسابقتی نظام ویکیپیڈیا سے اضافی ذرائع تلاش کرتا ہے۔

بظاہر 'ناقابل جواب' سوال کے چار ممکنہ جوابات کی یہ مثال مسئلے کے مسابقتی ڈومین پر مبنی حل کی کوشش کی پیچیدگی کو واضح کرتی ہے۔

ٹیسٹ کے دوران، پانچ شرکاء (اندرونی گوگل کراؤڈ سورسنگ پلیٹ فارم پر بھرتی کیے گئے) نے قیاس پر مبنی جوابات کو ترجیح دی، جس کی وجہ سے محققین نے سوالات کو تحلیل کرنے اور ان کی تصدیق کے لیے ایک نیا فریم ورک تیار کیا۔

نئے نظام میں، لسانی محرکات ایک اصول پر مبنی جنریٹر کے ذریعہ سوال سے حاصل کیے جاتے ہیں جو جملے کو حقیقت کے بیانات میں تبدیل کرتا ہے۔ اگر سوال سے متعدد قیاسات اخذ کیے جاتے ہیں، تو ہر ایک کی چھان بین کی جاتی ہے، اور اگر وہ اصل سوال سے غلط مفروضوں کو حل کرتے ہیں تو حتمی جواب میں حصہ ڈالیں گے۔

ڈیٹا سیٹ

ابتدائی مرحلے میں پیدا ہونے والے مفروضوں کو دستی طور پر 'گولڈ' مفروضوں کے ساتھ ایک تصدیقی ڈیٹا سیٹ بنانے کے لیے ترمیم کیا گیا تھا۔ کوئی بھی مفروضہ جو انکوائری کے شاخسانہ سے ابھرا، لیکن جو اصل سوالات میں موجود نہیں تھا، ہٹا دیا گیا۔

اس کے بعد مقالے کے دو مصنفین نے دستی طور پر 462 مفروضوں کی تشریح کی ہاں نہیں تصدیق کی اہلیت، ہر سوال سے وابستہ ایک متعلقہ ویکیپیڈیا صفحہ کی بنیاد پر۔ ڈیٹاسیٹ کے پابند ہونے سے پہلے اختلاف کے معاملات کو حقیقت کے بعد کی بحث میں حل کیا گیا تھا۔

محققین نے استعمال کیا۔ صفر شاٹ این ایل آئی, ایک بنیاد/مفروضہ درجہ بندی کا کام جس کے لیے سوالات سے متعلق ویکیپیڈیا مضامین کی ڈی کنسٹرکشن کی ضرورت تھی۔ چونکہ اس عمل کے نتیجے میں سوال یا ماڈل سپورٹ سے کہیں زیادہ جوڑوں کا نتیجہ نکلتا ہے، اس لیے فلٹر کیے گئے نتائج کو جمع کرکے لیبل لگا دیا گیا۔

نتائج اور رسپانس فارمولیشن

سب سے زیادہ مؤثر نتائج سب سے زیادہ محنت کرنے والے حل کے ذریعے حاصل کیے گئے: ایک باریک ٹیونڈ، اصول پر مبنی/NLI ہائبرڈ البرٹ کیو این ایل آئی وکی جملے اور مفروضوں کے ساتھ۔

توثیقی ماڈلز کی کارکردگی، جہاں 'وکی جملے' سوال سے متعلق ویکیپیڈیا مضامین سے حاصل کردہ جملے استعمال کرتے ہیں، اور 'ویکی پیش گوئیاں' ان جملوں سے قیاس آرائیاں تیار کی جاتی ہیں۔

اس فارمولیشن کو استعمال کرتے ہوئے، محققین نے ایک ٹیمپلیٹ سسٹم تیار کیا جہاں ویکیپیڈیا کی ایک نفی کرنے والی حقیقت کو 'یہ سوال ناقابل جواب ہے کیونکہ…' اور اس سے ملتے جلتے فقرے شامل کیے گئے تھے۔ اگرچہ یہ ایک مثالی حل نہیں ہے، لیکن مصنفین تجویز کرتے ہیں کہ ناقابل تصدیق پر مبنی جوابات غلط منفی کے واقعات کو کم کرنے کا امکان رکھتے ہیں۔

نظام بالآخر ایک میں لاگو کیا گیا تھا توسیعی ٹرانسفارمر کی تعمیر (ETC) ماڈل۔

مضمرات

حقیقی دنیا میں اس کی حتمی کارکردگی پر منحصر ہے، یہ دلیل دی جا سکتی ہے کہ یہ پورا نقطہ نظر 'ناقابل جواب' کے لیے 'ناقابل تصدیق' کے محض متبادل کا باعث بن سکتا ہے، ایسے معاملات میں جہاں معاون تحقیقی نظام کسی سوال کے غلط مفروضے کے لیے مفید اصلاح کا اندازہ نہیں لگا سکتا۔ . مؤثر طریقے سے، ایسا لگتا ہے کہ یہ مستقبل اور بہتر تصدیقی نظام کے لیے بنیادی ڈھانچہ تیار کر رہا ہے۔

محققین پہلے ہی تسلیم کر چکے ہیں کہ ٹوکن پر مبنی API کی درخواستوں کا خرچ ایک محدود عنصر ہے جب یہ طویل جوابات تیار کرے گا جو یہ نظام پیدا کرے گا، اور یہ ماننا پڑے گا کہ ایک سوال میں 'لائیو' تحقیق کے اضافی اوور ہیڈ میں اضافے کا امکان ہے۔ یہاں تک کہ GPT-3 جیسے بڑے پیمانے کے سسٹمز تک بھی تاخیر، کیونکہ اس طرح کے سسٹمز کی جوابدہی کا انحصار آج تک نیٹ ورک پر مبنی توثیقی معمولات کی بجائے تربیت کے وقت علم کے عمومی شمولیت پر ہے۔

مزید برآں، محققین نوٹ کرتے ہیں کہ سسٹم میں فی الحال متن کے معنوی پہلوؤں کو پارس کرنے سے متعلق حدود ہیں:

مثال کے طور پر، جو یقین کرتا ہے کہ وہ ایسٹیلا کی ماں ہے۔ غیر فعال فعل کے تحت ایک سرایت شدہ possessive ہے۔ یقین ہے کہلیکن ہمارا جنریٹر اس کے باوجود پیدا کرے گا'ایسٹیلا کی 'ماں' ہے.

بہر حال، ٹیم نئے اور زیادہ لچکدار سوالوں کے جواب دینے والے نظام کا تصور کرتی ہے جو اس تحقیق کی پشت پر تیار کیے جائیں گے:

مستقبل میں، ہم QA سسٹمز تجویز کرکے اس کام کو آگے بڑھانے کا ارادہ رکھتے ہیں جو زیادہ مضبوط اور تعاون پر مبنی ہوں۔ مثال کے طور پر، مختلف قسم کے قیاس کی ناکامیوں کا ازالہ زیادہ فلوڈ جوابی حکمت عملیوں کے ذریعے کیا جا سکتا ہے- مثال کے طور پر، انفرادیت کے مفروضوں کی خلاف ورزی کو تمام ممکنہ جوابات فراہم کر کے بہتر طریقے سے نمٹا جا سکتا ہے، بجائے اس کے کہ انفرادیت کے قیاس کی خلاف ورزی کی گئی۔