مصنوعی ذہانت
مشین لرننگ ماڈل بنانا آپ کے بارے میں بھول جاتے ہیں۔

ڈیٹا کے کسی خاص ٹکڑے کو ہٹانا جس نے مشین لرننگ ماڈل میں حصہ ڈالا ہے، ایسا ہی ہے جیسے ایک کپ کافی سے چینی کا دوسرا چمچ نکالنے کی کوشش کرنا۔ اعداد و شمار، اس وقت تک، پہلے سے ہی ماڈل کے اندر بہت سے دوسرے نیوران سے منسلک ہو چکے ہیں. اگر کوئی ڈیٹا پوائنٹ 'ڈیفائننگ' ڈیٹا کی نمائندگی کرتا ہے جو تربیت کے ابتدائی، اعلیٰ جہتی حصے میں شامل تھا، تو اسے ہٹانے سے ماڈل کے کام کرنے کے طریقہ کار کی یکسر نئی وضاحت ہو سکتی ہے، یا یہاں تک کہ اس کی ضرورت ہوتی ہے کہ اسے وقت کے کچھ خرچ پر دوبارہ تربیت دی جائے۔ پیسہ
بہر حال، یورپ میں کم از کم، جنرل ڈیٹا پروٹیکشن ریگولیشن ایکٹ (GDPR) کا آرٹیکل 17 کی ضرورت ہے کہ کمپنیاں درخواست پر ایسے صارف کا ڈیٹا ہٹا دیتی ہیں۔ چونکہ یہ ایکٹ اس سمجھ پر مرتب کیا گیا تھا کہ یہ مٹانا ایک ڈیٹا بیس 'ڈراپ' استفسار سے زیادہ نہیں ہوگا، اس لیے قانون سازی کا مسودہ EU سے نکلنا ہے۔ مصنوعی ذہانت کا ایکٹ مؤثر طریقے سے کرے گا کاپی اور پیسٹ قوانین میں GDPR کی روح جو ٹیبلر ڈیٹا کے بجائے تربیت یافتہ AI سسٹمز پر لاگو ہوتی ہے۔
دنیا بھر میں مزید قانون سازی پر غور کیا جا رہا ہے جو افراد کو مشین لرننگ سسٹم سے اپنے ڈیٹا کو حذف کرنے کی درخواست کرنے کا حق دے گا، جبکہ کیلیفورنیا کنزیومر پرائیویسی ایکٹ (CCPA) 2018 پہلے ہی یہ حق فراہم کرتا ہے۔ ریاست کے باشندوں کو.
یہ کیوں اہمیت رکھتا ہے۔
جب ایک ڈیٹاسیٹ کو قابل عمل مشین لرننگ ماڈل میں تربیت دی جاتی ہے، تو اس ڈیٹا کی خصوصیات عام اور خلاصہ ہوجاتی ہیں، کیونکہ ماڈل کو اصولوں کا اندازہ لگانے کے لیے ڈیزائن کیا گیا ہے اور وسیع رجحانات ڈیٹا سے، آخر کار ایک الگورتھم تیار کرتا ہے جو مخصوص اور غیر عام ڈیٹا کا تجزیہ کرنے میں کارآمد ہوگا۔
تاہم، تکنیک جیسے ماڈل الٹا تعاون کرنے والے ڈیٹا کی دوبارہ شناخت کے امکان کو ظاہر کیا ہے جو حتمی، تجریدی الگورتھم کے تحت ہے، جبکہ رکنیت کا اندازہ لگانے والے حملے ماخذ ڈیٹا کو بھی ظاہر کرنے کی اہلیت رکھتے ہیں، بشمول حساس ڈیٹا جسے صرف نام ظاہر نہ کرنے کی سمجھ پر ڈیٹا سیٹ میں شامل کرنے کی اجازت دی گئی ہو گی۔
اس تعاقب میں دلچسپی بڑھانے کے لیے بنیادی رازداری کی سرگرمی پر انحصار کرنے کی ضرورت نہیں ہے: چونکہ مشین لرننگ کا شعبہ اگلے دس سالوں میں تجارتی شکل اختیار کر رہا ہے، اور قوموں پر موجودہ دور کو ختم کرنے کے لیے دباؤ آتا ہے۔ لیسیز فیئر کلچر ڈیٹا سیٹ جنریشن کے لیے اسکرین سکریپنگ کے استعمال پر، آئی پی نافذ کرنے والی تنظیموں (اور آئی پی ٹرولز) کے لیے ایک بڑھتی ہوئی تجارتی ترغیب ہو گی تاکہ ڈیٹا کو ڈی کوڈ اور اس کا جائزہ لیا جا سکے جس نے ملکیتی اور زیادہ کمائی کی درجہ بندی، تخمینہ اور تخلیقی AI فریم ورک میں تعاون کیا ہے۔
مشین لرننگ ماڈلز میں بھولنے کی بیماری پیدا کرنا
لہذا ہمارے پاس کافی سے چینی نکالنے کا چیلنج باقی ہے۔ یہ ایک مسئلہ ہے جو رہا ہے۔ پریشان کن حالیہ برسوں میں محققین: 2021 میں EU کی حمایت یافتہ کاغذ چہرے کی شناخت کی لائبریریوں کے رازداری کے خطرات پر ایک تقابلی مطالعہ پتہ چلا کہ چہرے کی شناخت کے کئی مشہور الگورتھم دوبارہ شناخت کے حملوں میں جنس یا نسل کی بنیاد پر امتیاز کو فعال کرنے کے قابل تھے۔ 2015 میں کولمبیا یونیورسٹی کی تحقیق مجوزہ ایک 'مشین ان لرننگ' طریقہ جو ڈیٹا کے اندر متعدد سمیشنز کو اپ ڈیٹ کرنے پر مبنی ہے۔ اور 2019 میں اسٹینفورڈ کے محققین کی پیشکش کی K- یعنی کلسٹرنگ کے نفاذ کے لیے ناول ڈیلیٹ کرنے والے الگورتھم۔
اب چین اور امریکہ کے ایک ریسرچ کنسورشیم نے نیا کام شائع کیا ہے جس میں ڈیٹا ڈیلیٹ کرنے کے طریقوں کی کامیابی کا اندازہ لگانے کے لیے ایک یکساں میٹرک متعارف کرایا گیا ہے، ساتھ میں فارسیکن نامی ایک نیا 'غیر سیکھنے' طریقہ ہے، جس کے بارے میں محققین کا دعویٰ ہے کہ وہ 90 سے زیادہ حاصل کرنے کے قابل ہے۔ % بھولنے کی شرح، ماڈل کی مجموعی کارکردگی میں صرف 5% درستگی کے نقصان کے ساتھ۔
۔ کاغذ کہا جاتا ہے بھولنا سیکھیں: نیوران مسکن کے ذریعے مشین ان لرننگجی، اور چین اور برکلے کے محققین کی خصوصیات ہیں۔
نیوران ماسکنگ، فارسکن کے پیچھے اصول، استعمال کرتا ہے a ماسک میلان ماڈل سے مخصوص ڈیٹا کو ہٹانے کے لیے ایک فلٹر کے طور پر جنریٹر، اسے شروع سے یا اسنیپ شاٹ سے دوبارہ تربیت دینے پر مجبور کرنے کے بجائے مؤثر طریقے سے اپ ڈیٹ کرتا ہے جو کہ ڈیٹا کو شامل کرنے سے پہلے ہوا تھا (اسٹریمنگ پر مبنی ماڈلز کی صورت میں مسلسل اپ ڈیٹ ہوتے ہیں)۔

ماسک گریڈینٹ جنریٹر کا فن تعمیر۔ ماخذ: https://arxiv.org/pdf/2003.10933.pdf
حیاتیاتی ماخذ
محققین کا کہنا ہے کہ یہ نقطہ نظر کی طرف سے حوصلہ افزائی کی گئی تھی حیاتیاتی عمل 'فعال بھولنے' کا، جہاں صارف ایک خاص قسم کے ڈوپامائن کی ہیرا پھیری کے ذریعے کسی خاص میموری کے لیے تمام اینگرام سیلز کو مٹانے کے لیے سخت کارروائی کرتا ہے۔
Forsaken مسلسل ایک ماسک گریڈینٹ کو جنم دیتا ہے جو اس عمل کو نقل کرتا ہے، اس عمل کو سست کرنے یا روکنے کے لیے حفاظتی اقدامات کے ساتھ تاکہ غیر ہدف والے ڈیٹا کو تباہ کن بھول جانے سے بچا جا سکے۔
سسٹم کے فائدے یہ ہیں کہ یہ کئی طرح کے موجودہ نیورل نیٹ ورکس پر لاگو ہوتا ہے، جبکہ حالیہ اسی طرح کے کام نے بڑی حد تک کمپیوٹر ویژن نیٹ ورکس میں کامیابی حاصل کی ہے۔ اور یہ کہ یہ ماڈل ٹریننگ کے طریقہ کار میں مداخلت نہیں کرتا ہے، بلکہ ایک ملحق کے طور پر کام کرتا ہے، بغیر اس کے کہ بنیادی فن تعمیر کو تبدیل کیا جائے یا ڈیٹا کو دوبارہ تربیت دی جائے۔
اثر کو محدود کرنا
تعاون کردہ ڈیٹا کو حذف کرنے سے مشین لرننگ الگورتھم کی فعالیت پر ممکنہ طور پر نقصان دہ اثر پڑ سکتا ہے۔ اس سے بچنے کے لیے محققین نے استفادہ کیا ہے۔ معمول کی باقاعدگی، عام اعصابی نیٹ ورک کی تربیت کی ایک خصوصیت جو عام طور پر اوور ٹریننگ سے بچنے کے لیے استعمال ہوتی ہے۔ منتخب کردہ خاص عمل کو اس بات کو یقینی بنانے کے لیے ڈیزائن کیا گیا ہے کہ Forsaken تربیت میں اکٹھا ہونے میں ناکام نہ ہو۔
ڈیٹا کی قابل استعمال بازی قائم کرنے کے لیے، محققین نے تقسیم سے باہر (OOD) ڈیٹا کا استعمال کیا (یعنی، ڈیٹا کو اصل ڈیٹاسیٹ میں شامل نہیں کیا گیا، اصل ڈیٹاسیٹ میں 'حساس' ڈیٹا کی نقل کرتے ہوئے) اس طریقے سے کیلیبریٹ کرنے کے لیے کہ الگورتھم کو برتاؤ کرنا چاہیے۔ .
ڈیٹاسیٹس پر ٹیسٹنگ
اس طریقہ کار کو آٹھ معیاری ڈیٹا سیٹس پر آزمایا گیا اور عام طور پر مکمل ری ٹریننگ کے مقابلے میں بھولنے کے قریب یا زیادہ شرح حاصل کی گئی، جس کا ماڈل کی درستگی پر بہت کم اثر ہوا۔
یہ ناممکن لگتا ہے کہ ترمیم شدہ ڈیٹاسیٹ پر مکمل دوبارہ تربیت درحقیقت کسی بھی دوسرے طریقہ سے بدتر ہو سکتی ہے، کیونکہ ہدف کا ڈیٹا مکمل طور پر غائب ہے۔ تاہم، ماڈل نے اس وقت تک حذف شدہ ڈیٹا کی مختلف خصوصیات کو 'ہولوگرافک' انداز میں اس طرح خلاصہ کیا ہے کہ (مشابہ کے لحاظ سے) کہ سیاہی کا ایک قطرہ پانی کے گلاس کی افادیت کو نئے سرے سے متعین کرتا ہے۔
درحقیقت، ماڈل کا وزن پہلے ہی ایکسائزڈ ڈیٹا سے متاثر ہو چکا ہے، اور اس کے اثر کو مکمل طور پر ختم کرنے کا واحد طریقہ یہ ہے کہ ماڈل کو مکمل صفر سے دوبارہ تربیت دی جائے، بجائے اس کے کہ کسی ترمیم شدہ ڈیٹاسیٹ پر وزنی ماڈل کو دوبارہ تربیت دینے کے تیز رفتار طریقے سے۔ .