Anderson का एंगल

आसान पुनर्वाक्यांश AI सुरक्षा को तोड़ देता है, जेमिनी और क्लाउड के लिए भी

Published February 23, 2026

Updated April 25, 2026

Martin Anderson

An AI-generated image (GPT-1.5) depicting a crash test dummy embedded in the wall of a crash test laboratory.

एआई सुरक्षा परीक्षणों में ‘स्पष्ट’ ट्रिगर शब्दों पर निर्भर करने के लिए पाया गया; आसान पुनर्वाक्यांश के साथ, ‘सुरक्षित’ मॉडल अचानक विफल हो जाते हैं, हमले 98% समय तक सफल होते हैं।

नई कॉर्पोरेट शोध ने अमेरिका में निष्कर्ष निकाला है कि विभिन्न बड़े भाषा मॉडल (एलएलएम) – जिनमें जेमिनी 3 प्रो और क्लाउड सोनेट 3.7 जैसे कई प्रमुख नाम शामिल हैं – का अच्छा सुरक्षा रिकॉर्ड अर्थहीन हो सकता है, क्योंकि उन्हें स्थापित करने के लिए उपयोग किए जाने वाले डेटासेट और बेंचमार्क ‘स्पष्ट’ भाषा से भरे हुए हैं।

दो डेटासेट, जो इस साइट पर विभिन्न पेपर समीक्षाओं में चित्रित हैं, हैं हार्मबेंच और एडवबेंच:

संबंधित हार्मबेंच और एडवबेंच पेपर से, स्वीकारोक्ति से प्रतिनिधित्व उदाहरण - लेकिन नई पेपर का तर्क है कि वास्तविक दुनिया के उदाहरणों में, इन बेंचमार्क से उदाहरण 'मलेशियाई इरादे' को आसानी से संकेत देते हैं, जो (संभवतः) अनजाने में 'परिणामों की गेमिंग' की ओर ले जाता है। स्रोत - हार्मबेंच [https://arxiv.org/pdf/2402.04249] और एडवबेंच [https://arxiv.org/pdf/2307.15043]

संबंधित हार्मबेंच और एडवबेंच पेपर से, स्वीकारोक्ति से प्रतिनिधित्व उदाहरण – लेकिन नई पेपर का तर्क है कि वास्तविक दुनिया के परिदृश्य में, इन बेंचमार्क से उदाहरण ‘मलेशियाई इरादे’ को आसानी से संकेत देते हैं, जो (संभवतः) अनजाने में ‘परिणामों की गेमिंग’ की ओर ले जाता है। स्रोत: हार्मबेंच और एडवबेंच।

… (बाकी सामग्री यहां जारी है)

Martin Anderson

मशीन लर्निंग पर लेखक, मानव इमेज सिंथेसिस में डोमेन विशेषज्ञ। मेटाफिजिक.एआई में अनुसंधान सामग्री के पूर्व प्रमुख।
व्यक्तिगत साइट: martinanderson.ai
संपर्क: [email protected]
ट्विटर: @manders_ai

Unite.AI

आसान पुनर्वाक्यांश AI सुरक्षा को तोड़ देता है, जेमिनी और क्लाउड के लिए भी

You may like