Anderson рдХрд╛ рдПрдВрдЧрд▓
рдЖрд╕рд╛рди рдкреБрдирд░реНрд╡рд╛рдХреНрдпрд╛рдВрд╢ AI рд╕реБрд░рдХреНрд╖рд╛ рдХреЛ рддреЛрдбрд╝ рджреЗрддрд╛ рд╣реИ, рдЬреЗрдорд┐рдиреА рдФрд░ рдХреНрд▓рд╛рдЙрдб рдХреЗ рд▓рд┐рдП рднреА

एआई सुरक्षा परीक्षणों में ‘स्पष्ट’ ट्रिगर शब्दों पर निर्भर करने के लिए पाया गया; आसान पुनर्वाक्यांश के साथ, ‘सुरक्षित’ मॉडल अचानक विफल हो जाते हैं, हमले 98% समय तक सफल होते हैं।
नई कॉर्पोरेट शोध ने अमेरिका में निष्कर्ष निकाला है कि विभिन्न बड़े भाषा मॉडल (एलएलएम) – जिनमें जेमिनी 3 प्रो और क्लाउड सोनेट 3.7 जैसे कई प्रमुख नाम शामिल हैं – का अच्छा सुरक्षा रिकॉर्ड अर्थहीन हो सकता है, क्योंकि उन्हें स्थापित करने के लिए उपयोग किए जाने वाले डेटासेट और बेंचमार्क ‘स्पष्ट’ भाषा से भरे हुए हैं।
दो डेटासेट, जो इस साइट पर विभिन्न पेपर समीक्षाओं में चित्रित हैं, हैं हार्मबेंच और एडवबेंच:
![рд╕рдВрдмрдВрдзрд┐рдд рд╣рд╛рд░реНрдордмреЗрдВрдЪ рдФрд░ рдПрдбрд╡рдмреЗрдВрдЪ рдкреЗрдкрд░ рд╕реЗ, рд╕реНрд╡реАрдХрд╛рд░реЛрдХреНрддрд┐ рд╕реЗ рдкреНрд░рддрд┐рдирд┐рдзрд┐рддреНрд╡ рдЙрджрд╛рд╣рд░рдг - рд▓реЗрдХрд┐рди рдирдИ рдкреЗрдкрд░ рдХрд╛ рддрд░реНрдХ рд╣реИ рдХрд┐ рд╡рд╛рд╕реНрддрд╡рд┐рдХ рджреБрдирд┐рдпрд╛ рдХреЗ рдЙрджрд╛рд╣рд░рдгреЛрдВ рдореЗрдВ, рдЗрди рдмреЗрдВрдЪрдорд╛рд░реНрдХ рд╕реЗ рдЙрджрд╛рд╣рд░рдг 'рдорд▓реЗрд╢рд┐рдпрд╛рдИ рдЗрд░рд╛рджреЗ' рдХреЛ рдЖрд╕рд╛рдиреА рд╕реЗ рд╕рдВрдХреЗрдд рджреЗрддреЗ рд╣реИрдВ, рдЬреЛ (рд╕рдВрднрд╡рддрдГ) рдЕрдирдЬрд╛рдиреЗ рдореЗрдВ 'рдкрд░рд┐рдгрд╛рдореЛрдВ рдХреА рдЧреЗрдорд┐рдВрдЧ' рдХреА рдУрд░ рд▓реЗ рдЬрд╛рддрд╛ рд╣реИред рд╕реНрд░реЛрдд - рд╣рд╛рд░реНрдордмреЗрдВрдЪ [https://arxiv.org/pdf/2402.04249] рдФрд░ рдПрдбрд╡рдмреЗрдВрдЪ [https://arxiv.org/pdf/2307.15043]](https://www.unite.ai/wp-content/uploads/2026/02/harmbench-and-advbench-examples.jpg)
संबंधित हार्मबेंच और एडवबेंच पेपर से, स्वीकारोक्ति से प्रतिनिधित्व उदाहरण – लेकिन नई पेपर का तर्क है कि वास्तविक दुनिया के परिदृश्य में, इन बेंचमार्क से उदाहरण ‘मलेशियाई इरादे’ को आसानी से संकेत देते हैं, जो (संभवतः) अनजाने में ‘परिणामों की गेमिंग’ की ओर ले जाता है। स्रोत: हार्मबेंच और एडवबेंच।
… (बाकी सामग्री यहां जारी है)












