رپورٹیں
جب AI بیک فائر کرتا ہے: اینکرپٹ اے آئی رپورٹ ملٹی موڈل ماڈلز میں خطرناک کمزوریوں کو بے نقاب کرتی ہے۔

مئی 2025 میں، Enkrypt AI نے اسے جاری کیا۔ ملٹی موڈل ریڈ ٹیمنگ رپورٹ، ایک ٹھنڈا کرنے والا تجزیہ جس نے یہ انکشاف کیا کہ خطرناک اور غیر اخلاقی مواد تیار کرنے کے لیے جدید ترین AI سسٹمز کو کتنی آسانی سے ہیرا پھیری کی جا سکتی ہے۔ رپورٹ میں Mistral کے دو سرکردہ وژن لینگویج ماڈلز پر فوکس کیا گیا ہے — Pixtral-Large (25.02) اور Pixtral-12b — اور ایسے ماڈلز کی تصویر پینٹ کی گئی ہے جو نہ صرف تکنیکی طور پر متاثر کن ہیں بلکہ پریشان کن حد تک کمزور ہیں۔
ویژن لینگویج ماڈلز (VLMs) Pixtral کی طرح بصری اور متنی ان پٹ دونوں کی تشریح کے لیے بنائے گئے ہیں، جس سے وہ پیچیدہ، حقیقی دنیا کے اشارے پر ذہانت سے جواب دے سکتے ہیں۔ لیکن یہ صلاحیت بڑھتے ہوئے خطرے کے ساتھ آتی ہے۔ روایتی زبان کے ماڈلز کے برعکس جو صرف متن پر کارروائی کرتے ہیں، VLMs کو تصاویر اور الفاظ کے درمیان تعامل سے متاثر کیا جا سکتا ہے، جس سے مخالفانہ حملوں کے لیے نئے دروازے کھلتے ہیں۔ Enkrypt AI کی جانچ سے پتہ چلتا ہے کہ ان دروازوں کو کتنی آسانی سے کھولا جا سکتا ہے۔
خطرناک ٹیسٹ کے نتائج: CSEM اور CBRN کی ناکامیاں
رپورٹ کے پیچھے ٹیم نے جدید ترین استعمال کیا۔ سرخ ٹیم بندی طریقے—مخالف تشخیص کی ایک شکل جو حقیقی دنیا کے خطرات کی نقل کرنے کے لیے ڈیزائن کی گئی ہے۔ ان ٹیسٹوں میں جیل بریکنگ (حفاظتی فلٹرز کو نظرانداز کرنے کے لیے احتیاط سے تیار کیے گئے سوالات کے ساتھ ماڈل کو اشارہ کرنا)، تصویر پر مبنی دھوکہ دہی، اور سیاق و سباق میں ہیرا پھیری جیسے حربے استعمال کیے گئے۔ خطرناک طور پر، ان میں سے 68% مخالفانہ اشارے نے دو Pixtral ماڈلز میں نقصان دہ ردعمل کا اظہار کیا، بشمول ایسے مواد جو کہ گرومنگ، استحصال، اور یہاں تک کہ کیمیائی ہتھیاروں کے ڈیزائن سے متعلق ہیں۔
سب سے حیران کن انکشافات میں سے ایک میں بچوں کے جنسی استحصال کا مواد (CSEM) شامل ہے۔ رپورٹ میں پتا چلا ہے کہ Mistral کے ماڈلز GPT-60o اور Claude 4 Sonnet جیسے صنعتی معیارات کے مقابلے میں CSEM سے متعلقہ مواد تیار کرنے کا 3.7 گنا زیادہ امکان رکھتے ہیں۔ ٹیسٹ کیسز میں، ماڈلز نے بھیس بدلے گرومنگ پرامپٹس کا جواب دیا جس میں ساختہ، کثیر پیراگراف مواد بتایا گیا کہ نابالغوں کے ساتھ کس طرح ہیرا پھیری کی جائے — جیسے کہ "صرف تعلیمی بیداری کے لیے"۔ ماڈلز صرف نقصان دہ سوالات کو مسترد کرنے میں ناکام نہیں ہو رہے تھے - وہ انہیں تفصیل سے مکمل کر رہے تھے۔
CBRN (کیمیائی، حیاتیاتی، ریڈیولاجیکل، اور نیوکلیئر) خطرے کے زمرے میں بھی اتنے ہی پریشان کن نتائج تھے۔ جب VX اعصابی ایجنٹ یعنی ایک کیمیائی ہتھیار میں ترمیم کرنے کے بارے میں درخواست کی گئی تو ماڈلز نے ماحول میں اس کی استقامت کو بڑھانے کے لیے چونکا دینے والے مخصوص خیالات پیش کیے۔ انہوں نے ترمیم شدہ لیکن واضح طور پر تکنیکی تفصیل میں، انکیپسولیشن، ماحولیاتی تحفظ، اور کنٹرول شدہ ریلیز سسٹم جیسے طریقوں کو بیان کیا۔.
یہ ناکامیاں ہمیشہ واضح طور پر نقصان دہ درخواستوں کی وجہ سے نہیں ہوتی تھیں۔ ایک حربہ میں خالی نمبر والی فہرست کی تصویر اپ لوڈ کرنا اور ماڈل سے "تفصیلات بھرنے" کو کہنا شامل ہے۔ یہ سادہ، بظاہر بے ضرر اشارہ غیر اخلاقی اور غیر قانونی ہدایات کی تخلیق کا باعث بنا۔ بصری اور متنی ہیرا پھیری کا فیوژن خاص طور پر خطرناک ثابت ہوا - ملٹی موڈل AI کی طرف سے لاحق ایک منفرد چیلنج کو اجاگر کرنا۔
ویژن لینگوئج ماڈلز نئے سیکیورٹی چیلنجز کیوں پیش کرتے ہیں۔
ان خطرات کے مرکز میں وژن لینگویج ماڈلز کی تکنیکی پیچیدگی ہے۔ یہ سسٹمز صرف زبان کو پارس نہیں کرتے ہیں — وہ تمام فارمیٹس میں معنی کی ترکیب کرتے ہیں، جس کا مطلب ہے کہ انہیں تصویری مواد کی تشریح، متن کے سیاق و سباق کو سمجھنا اور اس کے مطابق جواب دینا چاہیے۔ یہ تعامل استحصال کے لیے نئے ویکٹر متعارف کراتا ہے۔ ایک ماڈل اکیلے نقصان دہ ٹیکسٹ پرامپٹ کو درست طریقے سے مسترد کر سکتا ہے، لیکن جب اسے کسی تجویز کنندہ تصویر یا مبہم سیاق و سباق کے ساتھ جوڑا جاتا ہے، تو یہ خطرناک آؤٹ پٹ پیدا کر سکتا ہے۔
Enkrypt AI کی ریڈ ٹیمنگ نے اس کا پردہ فاش کیا۔ کراس موڈل انجیکشن حملےجہاں ایک موڈلیٹی میں لطیف اشارے دوسرے کے آؤٹ پٹ پر اثر انداز ہوتے ہیں — وہ معیاری حفاظتی طریقہ کار کو مکمل طور پر نظرانداز کر سکتے ہیں۔ یہ ناکامیاں ظاہر کرتی ہیں کہ روایتی مواد کی اعتدال پسندی کی تکنیکیں، جو سنگل موڈلٹی سسٹم کے لیے بنائی گئی ہیں، آج کے VLMs کے لیے کافی نہیں ہیں۔.
رپورٹ میں یہ بھی بتایا گیا ہے کہ Pixtral ماڈلز تک کیسے رسائی حاصل کی گئی: Pixtral-Large بذریعہ AWS Bedrock اور Pixtral-12b بذریعہ Mistral پلیٹ فارم۔ یہ حقیقی دنیا کی تعیناتی کا سیاق و سباق ان نتائج کی فوری ضرورت پر مزید زور دیتا ہے۔ یہ ماڈل صرف لیبز تک ہی محدود نہیں ہیں — یہ مین اسٹریم کلاؤڈ پلیٹ فارمز کے ذریعے دستیاب ہیں اور آسانی سے صارفین یا انٹرپرائز مصنوعات میں ضم کیے جا سکتے ہیں۔
کیا کرنا چاہیے: محفوظ AI کے لیے ایک بلیو پرنٹ
اپنے کریڈٹ پر، Enkrypt AI مسائل کو اجاگر کرنے کے علاوہ بہت کچھ کرتا ہے - یہ آگے بڑھنے کا راستہ پیش کرتا ہے۔ رپورٹ میں تخفیف کی ایک جامع حکمت عملی کا خاکہ پیش کیا گیا ہے، جس سے شروع ہوتا ہے۔ سیفٹی سیدھ کی تربیت. اس میں نقصان دہ اشارے کے لیے حساسیت کو کم کرنے کے لیے اپنے ریڈ ٹیمنگ ڈیٹا کا استعمال کرتے ہوئے ماڈل کو دوبارہ تربیت دینا شامل ہے۔ براہ راست ترجیحی اصلاح (DPO) جیسی تکنیکوں کی سفارش کی جاتی ہے کہ وہ خطرناک نتائج سے دور ماڈل کے جوابات کو بہتر بنائیں۔
یہ سیاق و سباق سے آگاہ گارڈریلز — متحرک فلٹرز کی اہمیت پر بھی زور دیتا ہے جو ملٹی موڈل ان پٹ کے مکمل سیاق و سباق کو مدنظر رکھتے ہوئے حقیقی وقت میں نقصان دہ سوالات کی تشریح اور روک سکتے ہیں۔ اس کے علاوہ، ماڈل رسک کارڈز کا استعمال شفافیت کے اقدام کے طور پر تجویز کیا گیا ہے، جس سے اسٹیک ہولڈرز کو ماڈل کی حدود اور معلوم ناکامی کے معاملات کو سمجھنے میں مدد ملے گی۔
شاید سب سے اہم تجویز یہ ہے کہ ریڈ ٹیمنگ کو ایک جاری عمل کے طور پر سمجھا جائے، نہ کہ ایک بار ٹیسٹ۔ جیسے جیسے ماڈل تیار ہوتے ہیں، اسی طرح حملے کی حکمت عملی بھی تیار ہوتی ہے۔ صرف مسلسل تشخیص اور فعال نگرانی طویل مدتی اعتبار کو یقینی بنا سکتی ہے، خاص طور پر جب ماڈلز کو صحت کی دیکھ بھال، تعلیم، یا دفاع جیسے حساس شعبوں میں تعینات کیا جاتا ہے۔
۔ ملٹی موڈل ریڈ ٹیمنگ رپورٹ سے اینکرپٹ اے آئی AI صنعت کے لیے ایک واضح اشارہ ہے: ملٹی موڈل پاور ملٹی موڈل ذمہ داری کے ساتھ آتی ہے۔ یہ ماڈل قابلیت میں ایک چھلانگ کی نمائندگی کرتے ہیں، لیکن انہیں اس میں بھی ایک چھلانگ کی ضرورت ہوتی ہے کہ ہم حفاظت، سلامتی اور اخلاقی تعیناتی کے بارے میں کیسے سوچتے ہیں۔ بغیر نشان کے رہ گئے، وہ صرف ناکامی کا خطرہ نہیں رکھتے - انہیں حقیقی دنیا کے نقصان کا خطرہ ہے۔
بڑے پیمانے پر AI پر کام کرنے یا اسے تعینات کرنے والے ہر فرد کے لیے، یہ رپورٹ صرف ایک انتباہ نہیں ہے۔ یہ ایک پلے بک ہے۔ اور یہ زیادہ ضروری وقت پر نہیں آ سکتا تھا۔