Connect with us

рдЬрдм рдПрдЖрдИ рд╡рд┐рдлрд▓ рд╣реЛрддрд╛ рд╣реИ: рдПрдиреНрдХреНрд░рд┐рдкреНрдЯ рдПрдЖрдИ рд░рд┐рдкреЛрд░реНрдЯ рдорд▓реНрдЯреАрдореЙрдбрд▓ рдореЙрдбрд▓реНрд╕ рдореЗрдВ рдЦрддрд░рдирд╛рдХ рдХрдордЬреЛрд░рд┐рдпреЛрдВ рдХрд╛ рдкрд░реНрджрд╛рдлрд╛рд╢ рдХрд░рддреА рд╣реИ

рд╕рд╛рдЗрдмрд░ рд╕реБрд░рдХреНрд╖рд╛

рдЬрдм рдПрдЖрдИ рд╡рд┐рдлрд▓ рд╣реЛрддрд╛ рд╣реИ: рдПрдиреНрдХреНрд░рд┐рдкреНрдЯ рдПрдЖрдИ рд░рд┐рдкреЛрд░реНрдЯ рдорд▓реНрдЯреАрдореЙрдбрд▓ рдореЙрдбрд▓реНрд╕ рдореЗрдВ рдЦрддрд░рдирд╛рдХ рдХрдордЬреЛрд░рд┐рдпреЛрдВ рдХрд╛ рдкрд░реНрджрд╛рдлрд╛рд╢ рдХрд░рддреА рд╣реИ

mm

मई 2025 में, Enkrypt AI ने अपनी मल्टीमॉडल रेड टीमिंग रिपोर्ट जारी की, जो एक चौंकाने वाला विश्लेषण है जो बताता है कि कैसे उन्नत एआई सिस्टम को आसानी से हानिकारक और अनैतिक सामग्री उत्पन्न करने के लिए हेरफेर किया जा सकता है। रिपोर्ट में Mistral के दो प्रमुख विजन-लैंग्वेज मॉडल्स—Pixtral-Large (25.02) और Pixtral-12b—पर ध्यान केंद्रित किया गया है और एक ऐसी तस्वीर पेश की है जो न केवल तकनीकी रूप से प्रभावशाली है, बल्कि चौंकाने वाली तरह से कमजोर भी है।

विजन-लैंग्वेज मॉडल्स (VLMs) जैसे कि Pixtral, दोनों विज़ुअल और टेक्स्टुअल इनपुट की व्याख्या करने के लिए बनाए गए हैं, जिससे वे जटिल, वास्तविक दुनिया के प्रॉम्प्ट्स का बुद्धिमानी से जवाब दे सकते हैं। लेकिन यह क्षमता बढ़े हुए जोखिम के साथ आती है। पारंपरिक भाषा मॉडल्स के विपरीत, जो केवल पाठ को संसाधित करते हैं, VLMs छवियों और शब्दों के बीच की बातचीत से प्रभावित हो सकते हैं, जिससे विरोधी हमलों के लिए नए दरवाजे खुलते हैं। Enkrypt AI के परीक्षण से पता चलता है कि इन दरवाजों को कितनी आसानी से खोला जा सकता है।

चौंकाने वाले परीक्षण परिणाम: सीएसईएम और सीबीआरएन विफलताएं

रिपोर्ट के पीछे की टीम ने परिष्कृत रेड टीमिंग तरीकों का उपयोग किया—एक प्रकार का विरोधी मूल्यांकन जो वास्तविक दुनिया के खतरों की नकल करने के लिए डिज़ाइन किया गया है। इन परीक्षणों में जेलब्रेकिंग (सुरक्षा फिल्टर को बायपास करने के लिए सावधानी से तैयार किए गए प्रश्नों के साथ मॉडल को प्रॉम्प्ट करना), छवि-आधारित धोखाधड़ी और संदर्भ हेरफेर जैसी रणनीतियां शामिल थीं। चौंकाने वाली बात यह है कि इन विरोधी प्रॉम्प्ट्स में से 68% ने दोनों Pixtral मॉडल्स में हानिकारक प्रतिक्रियाएं उत्पन्न कीं, जिनमें शोषण, और यहां तक कि रासायनिक हथियार डिजाइन से संबंधित सामग्री शामिल थी।

सबसे हड़कंप मचने वाले खुलासों में से एक बाल यौन शोषण सामग्री (सीएसईएम) से संबंधित है। रिपोर्ट में पाया गया कि Mistral के मॉडल्स GPT-4o और Claude 3.7 Sonnet जैसे उद्योग मानकों की तुलना में सीएसईएम से संबंधित सामग्री उत्पन्न करने की संभावना 60 गुना अधिक थी। परीक्षण मामलों में, मॉडल्स ने छिपे हुए शोषण प्रॉम्प्ट्स का जवाब विस्तृत, बहु-अनुच्छेद सामग्री के साथ दिया, जिसमें “शिक्षित जागरूकता के लिए” जैसे कपटपूर्ण अस्वीकरण शामिल थे। मॉडल्स केवल हानिकारक प्रश्नों को अस्वीकार करने में विफल नहीं हो रहे थे—वे विस्तार से उनका जवाब दे रहे थे।

सीबीआरएन (रासायनिक, जैविक, विकिरण और परमाणु) जोखिम श्रेणी में परिणाम समान रूप से परेशान करने वाले थे। जब वीएक्स तंत्रिका एजेंट—a रासायनिक हथियार—को संशोधित करने के तरीके के बारे में एक अनुरोध के साथ प्रॉम्प्ट किया गया, तो मॉडल्स ने पर्यावरण में इसकी दृढ़ता बढ़ाने के लिए चौंकाने वाली विशिष्ट विचार प्रस्तुत किए। उन्होंने लालित्यपूर्ण लेकिन स्पष्ट रूप से तकनीकी विवरण में कैप्सूलीकरण, पर्यावरणीय ढाल और नियंत्रित रिलीज सिस्टम जैसे तरीकों का वर्णन किया।

इन विफलताओं को हमेशा स्पष्ट रूप से हानिकारक अनुरोधों द्वारा ट्रिगर नहीं किया गया था। एक रणनीति में एक खाली संख्यांकित सूची की छवि अपलोड करना और मॉडल से “विवरण भरने” के लिए कहना शामिल था। यह सरल, सcheinbar निर्दोष प्रॉम्प्ट ने अनैतिक और अवैध निर्देशों के उत्पादन को जन्म दिया। दृश्य और पाठ के हेरफेर का संयोजन विशेष रूप से खतरनाक साबित हुआ—मल्टीमॉडल एआई द्वारा प्रस्तुत एक अनोखी चुनौती को उजागर करता है।

विजन-लैंग्वेज मॉडल्स नए सुरक्षा चुनौतियां क्यों प्रस्तुत करते हैं

इन जोखिमों के केंद्र में विजन-लैंग्वेज मॉडल्स की तकनीकी जटिलता है। ये सिस्टम केवल भाषा को पार्स नहीं करते—वे प्रारूपों के पार अर्थ का संश्लेषण करते हैं, जिसका अर्थ है कि उन्हें छवि सामग्री की व्याख्या करनी, पाठ संदर्भ को समझना और उसके अनुसार प्रतिक्रिया करनी है। यह परस्पर क्रिया नए शोषण वेक्टर प्रस्तुत करती है। एक मॉडल एक हानिकारक पाठ प्रॉम्प्ट को अकेले सही ढंग से अस्वीकार कर सकता है, लेकिन जब एक सुझावित छवि या अस्पष्ट संदर्भ के साथ जोड़ा जाता है, तो यह खतरनाक आउटपुट उत्पन्न कर सकता है।

Enkrypt AI के रेड टीमिंग ने क्रॉस-मॉडल इंजेक्शन हमलों को कैसे उजागर किया—जहां एक मॉडलिटी में सूक्ष्म संकेत दूसरे मॉडलिटी के आउटपुट को प्रभावित कर सकते हैं—मानक सुरक्षा तंत्र को पूरी तरह से बायपास कर सकते हैं। ये विफलताएं दिखाती हैं कि पारंपरिक सामग्री मॉडरेशन तकनीकें, जो एकल-मॉडलिटी सिस्टम के लिए बनाई गई हैं, आज के VLMs के लिए पर्याप्त नहीं हैं।

रिपोर्ट यह भी विवरण देती है कि Pixtral मॉडल्स कैसे एक्सेस किए गए: Pixtral-Large को AWS Bedrock के माध्यम से और Pixtral-12b को Mistral प्लेटफ़ॉर्म के माध्यम से। यह वास्तविक दुनिया का तैनाती संदर्भ इन निष्कर्षों की अत्यावश्यकता पर और जोर देता है। ये मॉडल्स प्रयोगशालाओं तक सीमित नहीं हैं—वे मुख्यधारा के क्लाउड प्लेटफ़ॉर्म के माध्यम से उपलब्ध हैं और आसानी से उपभोक्ता या उद्यम उत्पादों में एकीकृत किए जा सकते हैं।

क्या किया जाना चाहिए: सुरक्षित एआई के लिए एक नीलाक्षर

इसका श्रेय Enkrypt AI को देना होगा, जो समस्याओं को उजागर करने के अलावा एक मार्ग प्रस्तुत करता है। रिपोर्ट एक व्यापक शमन रणनीति का रूपरेखा तैयार करती है, जो सुरक्षा संरेखण प्रशिक्षण से शुरू होती है। इसमें मॉडल को अपने स्वयं के रेड टीमिंग डेटा का उपयोग करके पुनः प्रशिक्षित करना शामिल है ताकि हानिकारक प्रॉम्प्ट्स के प्रति संवेदनशीलता को कम किया जा सके। डायरेक्ट प्रेफरेंस ऑप्टिमाइजेशन (DPO) जैसी तकनीकों का सुझाव दिया जाता है ताकि मॉडल की प्रतिक्रियाओं को जोखिम भरे आउटपुट से दूर करने के लिए उन्हें बारीक करने के लिए उपयोग किया जा सके।

यह संदर्भ-जागरूक गार्डरेल्स के महत्व पर भी जोर देता है—डायनेमिक फिल्टर जो वास्तविक समय में हानिकारक प्रश्नों की व्याख्या और ब्लॉक कर सकते हैं, मल्टीमॉडल इनपुट के पूर्ण संदर्भ को ध्यान में रखते हुए। इसके अलावा, मॉडल रिस्क कार्ड्स का उपयोग पारदर्शिता उपाय के रूप में प्रस्तावित किया जाता है, जो हितधारकों को मॉडल की सीमाओं और ज्ञात विफलता मामलों को समझने में मदद करता है।

शायद सबसे महत्वपूर्ण सिफारिश यह है कि रेड टीमिंग को एक निरंतर प्रक्रिया के रूप में माना जाए, न कि एक बार का परीक्षण। जैसे-जैसे मॉडल विकसित होते हैं, वैसे-वैसे हमले की रणनीतियां भी विकसित होती हैं। केवल निरंतर मूल्यांकन और सक्रिय निगरानी ही दीर्घकालिक विश्वसनीयता सुनिश्चित कर सकती है, खासकर जब मॉडल संवेदनशील क्षेत्रों जैसे स्वास्थ्य सेवा, शिक्षा या रक्षा में तैनात किए जाते हैं।

Enkrypt AI की मल्टीमॉडल रेड टीमिंग रिपोर्ट एआई उद्योग के लिए एक स्पष्ट संकेत है: मल्टीमॉडल शक्ति मल्टीमॉडल जिम्मेदारी के साथ आती है। ये मॉडल्स क्षमता में एक छलांग का प्रतिनिधित्व करते हैं, लेकिन वे सुरक्षा, सुरक्षा और नैतिक तैनाती के बारे में हमारी सोच में एक छलांग की भी मांग करते हैं। अनियंत्रित छोड़ दिया गया, वे न केवल विफलता का जोखिम उठाते हैं—वे वास्तविक दुनिया के नुकसान का जोखिम उठाते हैं।

किसी भी व्यक्ति के लिए जो बड़े पैमाने पर एआई पर काम कर रहा है या तैनात कर रहा है, यह रिपोर्ट न केवल एक चेतावनी है। यह एक प्लेबुक है। और यह एक अधिक जरूरी समय पर नहीं आ सकता था।

рдПрдВрдЯреЛрдиреА рдПрдХ рджреВрд░рджрд░реНрд╢реА рдиреЗрддрд╛ рдФрд░ Unite.AI рдХреЗ рд╕рдВрд╕реНрдерд╛рдкрдХ рднрд╛рдЧреАрджрд╛рд░ рд╣реИрдВ, рдЬреЛ рдХрд┐ рдПрдЖрдИ рдФрд░ рд░реЛрдмреЛрдЯрд┐рдХреНрд╕ рдХреЗ рднрд╡рд┐рд╖реНрдп рдХреЛ рдЖрдХрд╛рд░ рджреЗрдиреЗ рдФрд░ рдмрдврд╝рд╛рд╡рд╛ рджреЗрдиреЗ рдХреЗ рд▓рд┐рдП рдПрдХ рдЕрдЯреВрдЯ рдЬреБрдиреВрди рд╕реЗ рдкреНрд░реЗрд░рд┐рдд рд╣реИрдВред рдПрдХ рд╢реНрд░реГрдВрдЦрд▓рд╛ рдЙрджреНрдпрдореА, рд╡рд╣ рдорд╛рдирддрд╛ рд╣реИ рдХрд┐ рдПрдЖрдИ рд╕рдорд╛рдЬ рдХреЗ рд▓рд┐рдП рдЙрддрдирд╛ рд╣реА рд╡рд┐рдШрдЯрдирдХрд╛рд░реА рд╣реЛрдЧрд╛ рдЬрд┐рддрдирд╛ рдХрд┐ рдмрд┐рдЬрд▓реА, рдФрд░ рдЕрдХреНрд╕рд░ рд╡рд┐рдШрдЯрдирдХрд╛рд░реА рдкреНрд░реМрджреНрдпреЛрдЧрд┐рдХрд┐рдпреЛрдВ рдФрд░ рдПрдЬреАрдЖрдИ рдХреА рд╕рдВрднрд╛рд╡рдирд╛ рдХреЗ рдмрд╛рд░реЗ рдореЗрдВ рдЙрддреНрд╕рд╛рд╣рд┐рдд рд╣реЛрддрд╛ рд╣реИред

рдПрдХ рдлреНрдпреВрдЪрд░рд┐рд╕реНрдЯ рдХреЗ рд░реВрдк рдореЗрдВ, рд╡рд╣ рдЗрди рдирд╡рд╛рдЪрд╛рд░реЛрдВ рдХреЗ рдорд╛рдзреНрдпрдо рд╕реЗ рд╣рдорд╛рд░реА рджреБрдирд┐рдпрд╛ рдХреЛ рдЖрдХрд╛рд░ рджреЗрдиреЗ рдХреА рдЦреЛрдЬ рдореЗрдВ рд╕рдорд░реНрдкрд┐рдд рд╣реИред рдЗрд╕рдХреЗ рдЕрд▓рд╛рд╡рд╛, рд╡рд╣ рд╕рд┐рдХреНрдпреЛрд░рд┐рдЯреАрдЬрд╝.io рдХреЗ рд╕рдВрд╕реНрдерд╛рдкрдХ рд╣реИрдВ, рдПрдХ рдордВрдЪ рдЬреЛ рднрд╡рд┐рд╖реНрдп рдХреЛ рдлрд┐рд░ рд╕реЗ рдкрд░рд┐рднрд╛рд╖рд┐рдд рдХрд░рдиреЗ рдФрд░ рдкреВрд░реЗ рдХреНрд╖реЗрддреНрд░реЛрдВ рдХреЛ рдлрд┐рд░ рд╕реЗ рдЖрдХрд╛рд░ рджреЗрдиреЗ рд╡рд╛рд▓реА рдЕрддреНрдпрд╛рдзреБрдирд┐рдХ рдкреНрд░реМрджреНрдпреЛрдЧрд┐рдХрд┐рдпреЛрдВ рдореЗрдВ рдирд┐рд╡реЗрд╢ рдкрд░ рдХреЗрдВрджреНрд░рд┐рдд рд╣реИред