ہمارے ساتھ رابطہ

بینچ مارکس سے آگے: اے آئی کی تشخیص کو حقیقت کی جانچ کی ضرورت کیوں ہے۔

مصنوعی ذہانت

بینچ مارکس سے آگے: اے آئی کی تشخیص کو حقیقت کی جانچ کی ضرورت کیوں ہے۔

mm

اگر آپ ان دنوں AI کی پیروی کر رہے ہیں، تو آپ نے ممکنہ طور پر بینچ مارک ریکارڈز حاصل کرنے والے AI ماڈلز کی کامیابیوں کی خبر دینے والی سرخیاں دیکھی ہوں گی۔ امیج نیٹ امیج ریکگنیشن کے کاموں سے لے کر ترجمے اور طبی تصویر کی تشخیص میں مافوق الفطرت اسکور حاصل کرنے تک، بینچ مارکس طویل عرصے سے AI کارکردگی کی پیمائش کے لیے سنہری معیار رہے ہیں۔ تاہم، یہ اعداد جتنے بھی متاثر کن ہوں، وہ ہمیشہ حقیقی دنیا کی ایپلی کیشنز کی پیچیدگی کو حاصل نہیں کرتے ہیں۔ ایک ماڈل جو کسی معیار پر بے عیب کارکردگی کا مظاہرہ کرتا ہے جب حقیقی دنیا کے ماحول میں ٹیسٹ کیا جائے تو پھر بھی کم پڑ سکتا ہے۔ اس آرٹیکل میں، ہم اس بات کا جائزہ لیں گے کہ روایتی معیارات AI کی حقیقی قدر کو حاصل کرنے میں کیوں کم پڑ جاتے ہیں، اور تشخیص کے متبادل طریقے تلاش کریں گے جو حقیقی دنیا میں AI کو تعینات کرنے کے متحرک، اخلاقی، اور عملی چیلنجوں کی بہتر عکاسی کرتے ہیں۔

بینچ مارکس کی اپیل

برسوں سے، بینچ مارکس AI تشخیص کی بنیاد رہے ہیں۔ وہ جامد ڈیٹا سیٹس پیش کرتے ہیں جو مخصوص کاموں جیسے آبجیکٹ کی شناخت یا مشین ٹرانسلیشن کی پیمائش کے لیے بنائے گئے ہیں۔ تصویری نیٹمثال کے طور پر، آبجیکٹ کی درجہ بندی کی جانچ کے لیے ایک وسیع پیمانے پر استعمال شدہ بینچ مارک ہے، جبکہ بلو اور RED مشین سے تیار کردہ متن کے معیار کو انسانی تحریری حوالہ جات سے موازنہ کر کے اسکور کریں۔ یہ معیاری ٹیسٹ محققین کو ترقی کا موازنہ کرنے اور میدان میں صحت مند مقابلہ پیدا کرنے کی اجازت دیتے ہیں۔ بینچ مارکس نے میدان میں بڑی پیش رفت کو آگے بڑھانے میں کلیدی کردار ادا کیا ہے۔ امیج نیٹ مقابلہ، مثال کے طور پر، کھیلا درستگی میں نمایاں بہتری دکھا کر گہری سیکھنے کے انقلاب میں ایک اہم کردار۔

تاہم، بینچ مارکس اکثر حقیقت کو آسان بنا دیتے ہیں۔ چونکہ AI ماڈلز کو عام طور پر مقررہ حالات میں ایک اچھی طرح سے طے شدہ کام کو بہتر بنانے کے لیے تربیت دی جاتی ہے، اس لیے یہ حد سے زیادہ اصلاح کا باعث بن سکتا ہے۔ اعلی اسکور حاصل کرنے کے لیے، ماڈل ڈیٹا سیٹ کے پیٹرن پر انحصار کر سکتے ہیں جو بینچ مارک سے آگے نہیں ہوتے۔ ایک مشہور مثال کے طور پر ایک وژن ماڈل ہے جو بھیڑیوں کو بھوسی سے ممتاز کرنے کے لیے تربیت یافتہ ہے۔ جانوروں کی امتیازی خصوصیات سیکھنے کے بجائے، ماڈل نے تربیتی ڈیٹا میں عام طور پر بھیڑیوں سے وابستہ برفانی پس منظر کی موجودگی پر انحصار کیا۔ نتیجے کے طور پر، جب ماڈل کو برف میں ہسکی کے ساتھ پیش کیا گیا، تو اس نے اعتماد کے ساتھ اسے بھیڑیے کے طور پر غلط لیبل لگا دیا۔ اس سے ظاہر ہوتا ہے کہ کس طرح کسی بینچ مارک کے لیے اوور فٹنگ ناقص ماڈلز کا باعث بن سکتی ہے۔ جیسا کہ گڈ ہارٹ کا قانون بیان کرتا ہے، "جب کوئی پیمانہ ہدف بن جاتا ہے، تو یہ ایک اچھا پیمانہ بننا چھوڑ دیتا ہے۔" اس طرح، جب بینچ مارک اسکورز ہدف بن جاتے ہیں، تو AI ماڈل گڈ ہارٹ کے قانون کی مثال دیتے ہیں: وہ لیڈر بورڈز پر متاثر کن اسکور تیار کرتے ہیں لیکن حقیقی دنیا کے چیلنجوں سے نمٹنے میں جدوجہد کرتے ہیں۔

انسانی توقعات بمقابلہ میٹرک اسکورز

بینچ مارکس کی سب سے بڑی حدوں میں سے ایک یہ ہے کہ وہ اکثر اس چیز کو پکڑنے میں ناکام رہتے ہیں جو انسانوں کے لیے واقعی اہم ہے۔ مشینی ترجمہ پر غور کریں۔ ایک ماڈل BLEU میٹرک پر اچھا اسکور کر سکتا ہے، جو مشین سے تیار کردہ ترجمہ اور حوالہ جات کے ترجمے کے درمیان اوورلیپ کی پیمائش کرتا ہے۔ اگرچہ میٹرک اس بات کا اندازہ لگا سکتا ہے کہ لفظ کی سطح کے اوورلیپ کے لحاظ سے ترجمہ کتنا قابل فہم ہے، لیکن اس میں روانی یا معنی کی کوئی اہمیت نہیں ہے۔ ایک ترجمہ زیادہ قدرتی یا اس سے بھی زیادہ درست ہونے کے باوجود خراب اسکور کر سکتا ہے، صرف اس وجہ سے کہ اس میں حوالہ سے مختلف الفاظ استعمال کیے گئے ہیں۔ تاہم، انسانی استعمال کنندگان ترجمے کے معنی اور روانی کا خیال رکھتے ہیں، نہ کہ صرف ایک حوالہ کے ساتھ قطعی مماثلت کا۔ متن کے خلاصے پر بھی یہی مسئلہ لاگو ہوتا ہے: ایک اعلی ROUGE سکور اس بات کی ضمانت نہیں دیتا کہ خلاصہ مربوط ہے یا ان اہم نکات کو حاصل کرتا ہے جن کی ایک انسانی قاری توقع کرے گا۔

تخلیقی AI ماڈلز کے لیے، مسئلہ اور بھی مشکل ہو جاتا ہے۔ مثال کے طور پر، بڑے لینگوئج ماڈلز (LLMs) کا عام طور پر ایک بینچ مارک پر جائزہ لیا جاتا ہے۔ ایم ایم ایل یو متعدد ڈومینز میں سوالات کے جواب دینے کی ان کی صلاحیت کو جانچنے کے لیے۔ اگرچہ بینچ مارک سوالات کے جوابات کے لیے LLMs کی کارکردگی کو جانچنے میں مدد کر سکتا ہے، لیکن یہ قابل اعتمادی کی ضمانت نہیں دیتا۔ یہ ماڈل اب بھی کر سکتے ہیں "فریب دینا"جھوٹے لیکن قابل فہم حقائق پیش کرنا۔ اس فرق کو ایسے معیارات کے ذریعہ آسانی سے معلوم نہیں کیا جاتا ہے جو سچائی، سیاق و سباق یا ہم آہنگی کا اندازہ کیے بغیر درست جوابات پر توجہ مرکوز کرتے ہیں۔ کیس، ایک AI اسسٹنٹ مکمل طور پر جعلی عدالتی مقدمات کا حوالہ دیتے ہوئے قانونی بریف کا مسودہ تیار کرتا تھا۔ AI کاغذ پر قائل نظر آ سکتا ہے لیکن سچائی کے لیے بنیادی انسانی توقعات میں ناکام رہا۔

متحرک سیاق و سباق میں جامد بینچ مارکس کے چیلنجز

  • بدلتے ہوئے ماحول کو اپنانا

جامد بینچ مارکس کنٹرول شدہ حالات میں AI کی کارکردگی کا جائزہ لیتے ہیں، لیکن حقیقی دنیا کے منظرنامے غیر متوقع ہیں۔ مثال کے طور پر، ایک مکالماتی AI بینچ مارک میں اسکرپٹڈ، سنگل ٹرن سوالات پر سبقت لے سکتا ہے، لیکن ملٹی سٹیپ ڈائیلاگ میں جدوجہد کرتا ہے جس میں فالو اپس، سلیگ یا ٹائپوز شامل ہیں۔ اسی طرح، خود ڈرائیونگ کاریں اکثر مثالی حالات میں آبجیکٹ کا پتہ لگانے کے ٹیسٹ میں اچھی کارکردگی کا مظاہرہ کرتی ہیں۔ ناکام غیر معمولی حالات میں، جیسے ناقص روشنی، خراب موسم، یا غیر متوقع رکاوٹیں۔ مثال کے طور پر، اسٹیکرز کین کے ساتھ تبدیل شدہ ایک سٹاپ سائن الجھن کار کا وژن سسٹم، غلط تشریح کا باعث بنتا ہے۔ یہ مثالیں اس بات پر روشنی ڈالتی ہیں کہ جامد بینچ مارکس حقیقی دنیا کی پیچیدگیوں کی قابل اعتماد پیمائش نہیں کرتے ہیں۔

  • اخلاقی اور سماجی تحفظات

روایتی معیارات اکثر AI کی اخلاقی کارکردگی کا جائزہ لینے میں ناکام رہتے ہیں۔ تصویر کی شناخت کا ماڈل اعلی درستگی حاصل کرسکتا ہے لیکن غلط شناخت کرنا متعصب تربیتی ڈیٹا کی وجہ سے بعض نسلی گروہوں کے افراد۔ اسی طرح، زبان کے ماڈل متعصب یا نقصان دہ مواد تیار کرتے ہوئے گرامر اور روانی پر اچھا اسکور کر سکتے ہیں۔ یہ مسائل، جو بینچ مارک میٹرکس میں ظاہر نہیں ہوتے ہیں، حقیقی دنیا کی ایپلی کیشنز میں اہم نتائج رکھتے ہیں۔

  • اہم پہلوؤں پر قبضہ کرنے میں ناکامی۔

بینچ مارکس سطحی سطح کی مہارتوں کو جانچنے میں بہت اچھے ہیں، جیسے کہ آیا کوئی ماڈل گرائمری طور پر درست متن یا حقیقت پسندانہ تصویر بنا سکتا ہے۔ لیکن وہ اکثر گہری خصوصیات کے ساتھ جدوجہد کرتے ہیں، جیسے عام فہم استدلال یا سیاق و سباق کی مناسبت۔ مثال کے طور پر، ایک ماڈل ایک کامل جملہ بنا کر کسی معیار پر سبقت لے سکتا ہے، لیکن اگر وہ جملہ حقیقتاً غلط ہے، تو یہ بیکار ہے۔ AI کو سمجھنے کی ضرورت ہے۔ جب اور کس طرح کچھ کہنا، نہ صرف کیا کہنا بینچ مارکس ذہانت کی اس سطح کو شاذ و نادر ہی جانچتے ہیں، جو کہ چیٹ بوٹس یا مواد کی تخلیق جیسی ایپلی کیشنز کے لیے اہم ہے۔

  • سیاق و سباق کی موافقت

AI ماڈلز اکثر نئے سیاق و سباق کے مطابق ڈھالنے کے لیے جدوجہد کرتے ہیں، خاص طور پر جب ان کے تربیتی سیٹ سے باہر ڈیٹا کا سامنا کرنا پڑتا ہے۔ بینچ مارکس کو عام طور پر ڈیٹا کے ساتھ ڈیزائن کیا جاتا ہے جیسا کہ ماڈل کو تربیت دی گئی تھی۔ اس کا مطلب ہے کہ وہ پوری طرح سے جانچ نہیں کرتے ہیں کہ ایک ماڈل ناول یا غیر متوقع ان پٹ کو کتنی اچھی طرح سے سنبھال سکتا ہے - حقیقی دنیا کی ایپلی کیشنز میں ایک اہم ضرورت۔ مثال کے طور پر، ایک چیٹ بوٹ بینچ مارک والے سوالات پر بہتر کارکردگی کا مظاہرہ کر سکتا ہے لیکن جب صارفین غیر متعلقہ چیزیں، جیسے کہ سلیگ یا مخصوص عنوانات پوچھتے ہیں تو اسے مشکل پیش آتی ہے۔

  • استدلال اور استدلال

اگرچہ بینچ مارک پیٹرن کی شناخت یا مواد کی تخلیق کی پیمائش کر سکتے ہیں، لیکن وہ اکثر اعلیٰ سطحی استدلال اور تخمینہ میں کمی کرتے ہیں۔ AI کو نمونوں کی نقل کرنے سے زیادہ کرنے کی ضرورت ہے۔ اسے مضمرات کو سمجھنا چاہیے، منطقی روابط بنانا چاہیے، اور نئی معلومات کا اندازہ لگانا چاہیے۔ مثال کے طور پر، ایک ماڈل حقیقت میں درست ردعمل پیدا کر سکتا ہے لیکن اسے منطقی طور پر وسیع تر گفتگو سے مربوط کرنے میں ناکام رہتا ہے۔ ہو سکتا ہے موجودہ معیارات ان جدید علمی مہارتوں کو مکمل طور پر حاصل نہ کر سکیں، جس سے ہمیں AI صلاحیتوں کا نامکمل نظریہ ملتا ہے۔

بینچ مارکس سے آگے: AI تشخیص کے لیے ایک نیا نقطہ نظر

بینچ مارک کی کارکردگی اور حقیقی دنیا کی کامیابی کے درمیان فرق کو ختم کرنے کے لیے، AI تشخیص کے لیے ایک نیا طریقہ ابھر رہا ہے۔ کرشن حاصل کرنے کی کچھ حکمت عملی یہ ہیں:

  • ہیومن ان دی لوپ فیڈ بیک: مکمل طور پر خودکار میٹرکس پر انحصار کرنے کے بجائے، اس عمل میں انسانی تشخیص کاروں کو شامل کریں۔ اس کا مطلب یہ ہو سکتا ہے کہ ماہرین یا اختتامی صارفین AI کے معیار، افادیت اور مناسبیت کے لیے نتائج کا جائزہ لیں۔ بینچ مارکس کے مقابلے میں انسان لہجے، مطابقت اور اخلاقی غور و فکر جیسے پہلوؤں کا بہتر اندازہ لگا سکتا ہے۔
  • حقیقی دنیا کی تعیناتی کی جانچ: AI سسٹمز کو ممکنہ حد تک حقیقی دنیا کے حالات کے قریب ماحول میں ٹیسٹ کیا جانا چاہیے۔ مثال کے طور پر، خود سے چلنے والی کاریں غیر متوقع ٹریفک منظرناموں کے ساتھ نقلی سڑکوں پر ٹرائلز سے گزر سکتی ہیں، جبکہ چیٹ بوٹس کو متنوع گفتگو کو سنبھالنے کے لیے لائیو ماحول میں تعینات کیا جا سکتا ہے۔ یہ یقینی بناتا ہے کہ ماڈلز کا ان حالات میں جائزہ لیا جاتا ہے جن کا انہیں درحقیقت سامنا کرنا پڑے گا۔
  • مضبوطی اور تناؤ کی جانچ: غیر معمولی یا مخالف حالات میں AI سسٹم کی جانچ کرنا بہت ضروری ہے۔ اس میں مسخ شدہ یا شور والی تصویروں کے ساتھ تصویری شناخت کے ماڈل کی جانچ کرنا یا طویل، پیچیدہ مکالموں کے ساتھ زبان کے ماڈل کا جائزہ لینا شامل ہو سکتا ہے۔ یہ سمجھ کر کہ تناؤ میں AI کس طرح برتاؤ کرتا ہے، ہم اسے حقیقی دنیا کے چیلنجوں کے لیے بہتر طریقے سے تیار کر سکتے ہیں۔
  • کثیر جہتی تشخیصی میٹرکس: ایک بینچ مارک سکور پر انحصار کرنے کے بجائے، درستگی، انصاف پسندی، مضبوطی، اور اخلاقی تحفظات سمیت متعدد میٹرکس میں AI کا جائزہ لیں۔ یہ جامع نقطہ نظر AI ماڈل کی طاقتوں اور کمزوریوں کے بارے میں زیادہ جامع تفہیم فراہم کرتا ہے۔
  • ڈومین کے لیے مخصوص ٹیسٹ: تشخیص کو مخصوص ڈومین کے مطابق بنایا جانا چاہیے جس میں AI کو تعینات کیا جائے گا۔ میڈیکل AI، مثال کے طور پر، طبی پیشہ ور افراد کے ڈیزائن کردہ کیس اسٹڈیز پر ٹیسٹ کیا جانا چاہیے، جبکہ مالیاتی منڈیوں کے لیے AI کا معاشی اتار چڑھاو کے دوران اس کے استحکام کے لیے جائزہ لیا جانا چاہیے۔

نیچے کی لکیر

جب کہ بینچ مارکس نے AI تحقیق کو بڑھا دیا ہے، وہ حقیقی دنیا کی کارکردگی کو حاصل کرنے میں کم ہیں۔ جیسا کہ AI لیبز سے عملی ایپلی کیشنز میں منتقل ہوتا ہے، AI کی تشخیص انسانی مرکز اور جامع ہونا چاہیے۔ حقیقی دنیا کے حالات میں جانچ، انسانی آراء کو شامل کرنا، اور منصفانہ اور مضبوطی کو ترجیح دینا اہم ہے۔ مقصد سرفہرست لیڈر بورڈز نہیں ہے بلکہ AI کو تیار کرنا ہے جو متحرک، پیچیدہ دنیا میں قابل اعتماد، موافقت پذیر اور قیمتی ہو۔

ڈاکٹر تحسین ضیاء COMSATS یونیورسٹی اسلام آباد میں ایک مدت کار ایسوسی ایٹ پروفیسر ہیں، جنہوں نے ویانا یونیورسٹی آف ٹیکنالوجی، آسٹریا سے AI میں پی ایچ ڈی کی ڈگری حاصل کی ہے۔ مصنوعی ذہانت، مشین لرننگ، ڈیٹا سائنس، اور کمپیوٹر ویژن میں مہارت رکھتے ہوئے، انہوں نے معروف سائنسی جرائد میں اشاعتوں کے ساتھ اہم شراکت کی ہے۔ ڈاکٹر تحسین نے پرنسپل انویسٹی گیٹر کے طور پر مختلف صنعتی منصوبوں کی قیادت بھی کی ہے اور اے آئی کنسلٹنٹ کے طور پر بھی خدمات انجام دی ہیں۔