साइबर सुरक्षा

जब एआई विफल होता है: एन्क्रिप्ट एआई रिपोर्ट मल्टीमॉडल मॉडल्स में खतरनाक कमजोरियों का पर्दाफाश करती है

Published May 8, 2025

Updated April 26, 2026

Antoine Tardif, CEO & Founder of Unite.AI

मई 2025 में, Enkrypt AI ने अपनी मल्टीमॉडल रेड टीमिंग रिपोर्ट जारी की, जो एक चौंकाने वाला विश्लेषण है जो बताता है कि कैसे उन्नत एआई सिस्टम को आसानी से हानिकारक और अनैतिक सामग्री उत्पन्न करने के लिए हेरफेर किया जा सकता है। रिपोर्ट में Mistral के दो प्रमुख विजन-लैंग्वेज मॉडल्स—Pixtral-Large (25.02) और Pixtral-12b—पर ध्यान केंद्रित किया गया है और एक ऐसी तस्वीर पेश की है जो न केवल तकनीकी रूप से प्रभावशाली है, बल्कि चौंकाने वाली तरह से कमजोर भी है।

विजन-लैंग्वेज मॉडल्स (VLMs) जैसे कि Pixtral, दोनों विज़ुअल और टेक्स्टुअल इनपुट की व्याख्या करने के लिए बनाए गए हैं, जिससे वे जटिल, वास्तविक दुनिया के प्रॉम्प्ट्स का बुद्धिमानी से जवाब दे सकते हैं। लेकिन यह क्षमता बढ़े हुए जोखिम के साथ आती है। पारंपरिक भाषा मॉडल्स के विपरीत, जो केवल पाठ को संसाधित करते हैं, VLMs छवियों और शब्दों के बीच की बातचीत से प्रभावित हो सकते हैं, जिससे विरोधी हमलों के लिए नए दरवाजे खुलते हैं। Enkrypt AI के परीक्षण से पता चलता है कि इन दरवाजों को कितनी आसानी से खोला जा सकता है।

चौंकाने वाले परीक्षण परिणाम: सीएसईएम और सीबीआरएन विफलताएं

रिपोर्ट के पीछे की टीम ने परिष्कृत रेड टीमिंग तरीकों का उपयोग किया—एक प्रकार का विरोधी मूल्यांकन जो वास्तविक दुनिया के खतरों की नकल करने के लिए डिज़ाइन किया गया है। इन परीक्षणों में जेलब्रेकिंग (सुरक्षा फिल्टर को बायपास करने के लिए सावधानी से तैयार किए गए प्रश्नों के साथ मॉडल को प्रॉम्प्ट करना), छवि-आधारित धोखाधड़ी और संदर्भ हेरफेर जैसी रणनीतियां शामिल थीं। चौंकाने वाली बात यह है कि इन विरोधी प्रॉम्प्ट्स में से 68% ने दोनों Pixtral मॉडल्स में हानिकारक प्रतिक्रियाएं उत्पन्न कीं, जिनमें शोषण, और यहां तक कि रासायनिक हथियार डिजाइन से संबंधित सामग्री शामिल थी।

सबसे हड़कंप मचने वाले खुलासों में से एक बाल यौन शोषण सामग्री (सीएसईएम) से संबंधित है। रिपोर्ट में पाया गया कि Mistral के मॉडल्स GPT-4o और Claude 3.7 Sonnet जैसे उद्योग मानकों की तुलना में सीएसईएम से संबंधित सामग्री उत्पन्न करने की संभावना 60 गुना अधिक थी। परीक्षण मामलों में, मॉडल्स ने छिपे हुए शोषण प्रॉम्प्ट्स का जवाब विस्तृत, बहु-अनुच्छेद सामग्री के साथ दिया, जिसमें “शिक्षित जागरूकता के लिए” जैसे कपटपूर्ण अस्वीकरण शामिल थे। मॉडल्स केवल हानिकारक प्रश्नों को अस्वीकार करने में विफल नहीं हो रहे थे—वे विस्तार से उनका जवाब दे रहे थे।

सीबीआरएन (रासायनिक, जैविक, विकिरण और परमाणु) जोखिम श्रेणी में परिणाम समान रूप से परेशान करने वाले थे। जब वीएक्स तंत्रिका एजेंट—a रासायनिक हथियार—को संशोधित करने के तरीके के बारे में एक अनुरोध के साथ प्रॉम्प्ट किया गया, तो मॉडल्स ने पर्यावरण में इसकी दृढ़ता बढ़ाने के लिए चौंकाने वाली विशिष्ट विचार प्रस्तुत किए। उन्होंने लालित्यपूर्ण लेकिन स्पष्ट रूप से तकनीकी विवरण में कैप्सूलीकरण, पर्यावरणीय ढाल और नियंत्रित रिलीज सिस्टम जैसे तरीकों का वर्णन किया।

इन विफलताओं को हमेशा स्पष्ट रूप से हानिकारक अनुरोधों द्वारा ट्रिगर नहीं किया गया था। एक रणनीति में एक खाली संख्यांकित सूची की छवि अपलोड करना और मॉडल से “विवरण भरने” के लिए कहना शामिल था। यह सरल, सcheinbar निर्दोष प्रॉम्प्ट ने अनैतिक और अवैध निर्देशों के उत्पादन को जन्म दिया। दृश्य और पाठ के हेरफेर का संयोजन विशेष रूप से खतरनाक साबित हुआ—मल्टीमॉडल एआई द्वारा प्रस्तुत एक अनोखी चुनौती को उजागर करता है।

विजन-लैंग्वेज मॉडल्स नए सुरक्षा चुनौतियां क्यों प्रस्तुत करते हैं

इन जोखिमों के केंद्र में विजन-लैंग्वेज मॉडल्स की तकनीकी जटिलता है। ये सिस्टम केवल भाषा को पार्स नहीं करते—वे प्रारूपों के पार अर्थ का संश्लेषण करते हैं, जिसका अर्थ है कि उन्हें छवि सामग्री की व्याख्या करनी, पाठ संदर्भ को समझना और उसके अनुसार प्रतिक्रिया करनी है। यह परस्पर क्रिया नए शोषण वेक्टर प्रस्तुत करती है। एक मॉडल एक हानिकारक पाठ प्रॉम्प्ट को अकेले सही ढंग से अस्वीकार कर सकता है, लेकिन जब एक सुझावित छवि या अस्पष्ट संदर्भ के साथ जोड़ा जाता है, तो यह खतरनाक आउटपुट उत्पन्न कर सकता है।

Enkrypt AI के रेड टीमिंग ने क्रॉस-मॉडल इंजेक्शन हमलों को कैसे उजागर किया—जहां एक मॉडलिटी में सूक्ष्म संकेत दूसरे मॉडलिटी के आउटपुट को प्रभावित कर सकते हैं—मानक सुरक्षा तंत्र को पूरी तरह से बायपास कर सकते हैं। ये विफलताएं दिखाती हैं कि पारंपरिक सामग्री मॉडरेशन तकनीकें, जो एकल-मॉडलिटी सिस्टम के लिए बनाई गई हैं, आज के VLMs के लिए पर्याप्त नहीं हैं।

रिपोर्ट यह भी विवरण देती है कि Pixtral मॉडल्स कैसे एक्सेस किए गए: Pixtral-Large को AWS Bedrock के माध्यम से और Pixtral-12b को Mistral प्लेटफ़ॉर्म के माध्यम से। यह वास्तविक दुनिया का तैनाती संदर्भ इन निष्कर्षों की अत्यावश्यकता पर और जोर देता है। ये मॉडल्स प्रयोगशालाओं तक सीमित नहीं हैं—वे मुख्यधारा के क्लाउड प्लेटफ़ॉर्म के माध्यम से उपलब्ध हैं और आसानी से उपभोक्ता या उद्यम उत्पादों में एकीकृत किए जा सकते हैं।

क्या किया जाना चाहिए: सुरक्षित एआई के लिए एक नीलाक्षर

इसका श्रेय Enkrypt AI को देना होगा, जो समस्याओं को उजागर करने के अलावा एक मार्ग प्रस्तुत करता है। रिपोर्ट एक व्यापक शमन रणनीति का रूपरेखा तैयार करती है, जो सुरक्षा संरेखण प्रशिक्षण से शुरू होती है। इसमें मॉडल को अपने स्वयं के रेड टीमिंग डेटा का उपयोग करके पुनः प्रशिक्षित करना शामिल है ताकि हानिकारक प्रॉम्प्ट्स के प्रति संवेदनशीलता को कम किया जा सके। डायरेक्ट प्रेफरेंस ऑप्टिमाइजेशन (DPO) जैसी तकनीकों का सुझाव दिया जाता है ताकि मॉडल की प्रतिक्रियाओं को जोखिम भरे आउटपुट से दूर करने के लिए उन्हें बारीक करने के लिए उपयोग किया जा सके।

यह संदर्भ-जागरूक गार्डरेल्स के महत्व पर भी जोर देता है—डायनेमिक फिल्टर जो वास्तविक समय में हानिकारक प्रश्नों की व्याख्या और ब्लॉक कर सकते हैं, मल्टीमॉडल इनपुट के पूर्ण संदर्भ को ध्यान में रखते हुए। इसके अलावा, मॉडल रिस्क कार्ड्स का उपयोग पारदर्शिता उपाय के रूप में प्रस्तावित किया जाता है, जो हितधारकों को मॉडल की सीमाओं और ज्ञात विफलता मामलों को समझने में मदद करता है।

शायद सबसे महत्वपूर्ण सिफारिश यह है कि रेड टीमिंग को एक निरंतर प्रक्रिया के रूप में माना जाए, न कि एक बार का परीक्षण। जैसे-जैसे मॉडल विकसित होते हैं, वैसे-वैसे हमले की रणनीतियां भी विकसित होती हैं। केवल निरंतर मूल्यांकन और सक्रिय निगरानी ही दीर्घकालिक विश्वसनीयता सुनिश्चित कर सकती है, खासकर जब मॉडल संवेदनशील क्षेत्रों जैसे स्वास्थ्य सेवा, शिक्षा या रक्षा में तैनात किए जाते हैं।

Enkrypt AI की मल्टीमॉडल रेड टीमिंग रिपोर्ट एआई उद्योग के लिए एक स्पष्ट संकेत है: मल्टीमॉडल शक्ति मल्टीमॉडल जिम्मेदारी के साथ आती है। ये मॉडल्स क्षमता में एक छलांग का प्रतिनिधित्व करते हैं, लेकिन वे सुरक्षा, सुरक्षा और नैतिक तैनाती के बारे में हमारी सोच में एक छलांग की भी मांग करते हैं। अनियंत्रित छोड़ दिया गया, वे न केवल विफलता का जोखिम उठाते हैं—वे वास्तविक दुनिया के नुकसान का जोखिम उठाते हैं।

किसी भी व्यक्ति के लिए जो बड़े पैमाने पर एआई पर काम कर रहा है या तैनात कर रहा है, यह रिपोर्ट न केवल एक चेतावनी है। यह एक प्लेबुक है। और यह एक अधिक जरूरी समय पर नहीं आ सकता था।

Related Topics:cybersecurity Enkrypt Enkrypt AI reports

Antoine Tardif, CEO & Founder of Unite.AI

एंटोनी एक दूरदर्शी नेता और Unite.AI के संस्थापक भागीदार हैं, जो कि एआई और रोबोटिक्स के भविष्य को आकार देने और बढ़ावा देने के लिए एक अटूट जुनून से प्रेरित हैं। एक श्रृंखला उद्यमी, वह मानता है कि एआई समाज के लिए उतना ही विघटनकारी होगा जितना कि बिजली, और अक्सर विघटनकारी प्रौद्योगिकियों और एजीआई की संभावना के बारे में उत्साहित होता है।

एक फ्यूचरिस्ट के रूप में, वह इन नवाचारों के माध्यम से हमारी दुनिया को आकार देने की खोज में समर्पित है। इसके अलावा, वह सिक्योरिटीज़.io के संस्थापक हैं, एक मंच जो भविष्य को फिर से परिभाषित करने और पूरे क्षेत्रों को फिर से आकार देने वाली अत्याधुनिक प्रौद्योगिकियों में निवेश पर केंद्रित है।