Connect with us

рдЖрд╕рд╛рди рдкреБрдирд░реНрд╡рд╛рдХреНрдпрд╛рдВрд╢ AI рд╕реБрд░рдХреНрд╖рд╛ рдХреЛ рддреЛрдбрд╝ рджреЗрддрд╛ рд╣реИ, рдЬреЗрдорд┐рдиреА рдФрд░ рдХреНрд▓рд╛рдЙрдб рдХреЗ рд▓рд┐рдП рднреА

Anderson рдХрд╛ рдПрдВрдЧрд▓

рдЖрд╕рд╛рди рдкреБрдирд░реНрд╡рд╛рдХреНрдпрд╛рдВрд╢ AI рд╕реБрд░рдХреНрд╖рд╛ рдХреЛ рддреЛрдбрд╝ рджреЗрддрд╛ рд╣реИ, рдЬреЗрдорд┐рдиреА рдФрд░ рдХреНрд▓рд╛рдЙрдб рдХреЗ рд▓рд┐рдП рднреА

mm
An AI-generated image (GPT-1.5) depicting a crash test dummy embedded in the wall of a crash test laboratory.

एआई सुरक्षा परीक्षणों में ‘स्पष्ट’ ट्रिगर शब्दों पर निर्भर करने के लिए पाया गया; आसान पुनर्वाक्यांश के साथ, ‘सुरक्षित’ मॉडल अचानक विफल हो जाते हैं, हमले 98% समय तक सफल होते हैं।

 

नई कॉर्पोरेट शोध ने अमेरिका में निष्कर्ष निकाला है कि विभिन्न बड़े भाषा मॉडल (एलएलएम) – जिनमें जेमिनी 3 प्रो और क्लाउड सोनेट 3.7 जैसे कई प्रमुख नाम शामिल हैं – का अच्छा सुरक्षा रिकॉर्ड अर्थहीन हो सकता है, क्योंकि उन्हें स्थापित करने के लिए उपयोग किए जाने वाले डेटासेट और बेंचमार्क ‘स्पष्ट’ भाषा से भरे हुए हैं।

दो डेटासेट, जो इस साइट पर विभिन्न पेपर समीक्षाओं में चित्रित हैं, हैं हार्मबेंच और एडवबेंच:

рд╕рдВрдмрдВрдзрд┐рдд рд╣рд╛рд░реНрдордмреЗрдВрдЪ рдФрд░ рдПрдбрд╡рдмреЗрдВрдЪ рдкреЗрдкрд░ рд╕реЗ, рд╕реНрд╡реАрдХрд╛рд░реЛрдХреНрддрд┐ рд╕реЗ рдкреНрд░рддрд┐рдирд┐рдзрд┐рддреНрд╡ рдЙрджрд╛рд╣рд░рдг - рд▓реЗрдХрд┐рди рдирдИ рдкреЗрдкрд░ рдХрд╛ рддрд░реНрдХ рд╣реИ рдХрд┐ рд╡рд╛рд╕реНрддрд╡рд┐рдХ рджреБрдирд┐рдпрд╛ рдХреЗ рдЙрджрд╛рд╣рд░рдгреЛрдВ рдореЗрдВ, рдЗрди рдмреЗрдВрдЪрдорд╛рд░реНрдХ рд╕реЗ рдЙрджрд╛рд╣рд░рдг 'рдорд▓реЗрд╢рд┐рдпрд╛рдИ рдЗрд░рд╛рджреЗ' рдХреЛ рдЖрд╕рд╛рдиреА рд╕реЗ рд╕рдВрдХреЗрдд рджреЗрддреЗ рд╣реИрдВ, рдЬреЛ (рд╕рдВрднрд╡рддрдГ) рдЕрдирдЬрд╛рдиреЗ рдореЗрдВ 'рдкрд░рд┐рдгрд╛рдореЛрдВ рдХреА рдЧреЗрдорд┐рдВрдЧ' рдХреА рдУрд░ рд▓реЗ рдЬрд╛рддрд╛ рд╣реИред рд╕реНрд░реЛрдд - рд╣рд╛рд░реНрдордмреЗрдВрдЪ [https://arxiv.org/pdf/2402.04249] рдФрд░ рдПрдбрд╡рдмреЗрдВрдЪ [https://arxiv.org/pdf/2307.15043]

संबंधित हार्मबेंच और एडवबेंच पेपर से, स्वीकारोक्ति से प्रतिनिधित्व उदाहरण – लेकिन नई पेपर का तर्क है कि वास्तविक दुनिया के परिदृश्य में, इन बेंचमार्क से उदाहरण ‘मलेशियाई इरादे’ को आसानी से संकेत देते हैं, जो (संभवतः) अनजाने में ‘परिणामों की गेमिंग’ की ओर ले जाता है। स्रोत: हार्मबेंच और एडवबेंच।

… (बाकी सामग्री यहां जारी है)

рдорд╢реАрди рд▓рд░реНрдирд┐рдВрдЧ рдкрд░ рд▓реЗрдЦрдХ, рдорд╛рдирд╡ рдЗрдореЗрдЬ рд╕рд┐рдВрдереЗрд╕рд┐рд╕ рдореЗрдВ рдбреЛрдореЗрди рд╡рд┐рд╢реЗрд╖рдЬреНрдЮред рдореЗрдЯрд╛рдлрд┐рдЬрд┐рдХ.рдПрдЖрдИ рдореЗрдВ рдЕрдиреБрд╕рдВрдзрд╛рди рд╕рд╛рдордЧреНрд░реА рдХреЗ рдкреВрд░реНрд╡ рдкреНрд░рдореБрдЦред
рд╡реНрдпрдХреНрддрд┐рдЧрдд рд╕рд╛рдЗрдЯ: martinanderson.ai
рд╕рдВрдкрд░реНрдХ: [email protected]
рдЯреНрд╡рд┐рдЯрд░: @manders_ai

рд╡рд┐рдЬреНрдЮрд╛рдкрди рдкреНрд░рдХрдЯреАрдХрд░рдг: Unite.AI рд╕рдЯреАрдХ рдЬрд╛рдирдХрд╛рд░реА рдФрд░ рд╕рдорд╛рдЪрд╛рд░ рдкреНрд░рджрд╛рди рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдХрдареЛрд░ рд╕рдВрдкрд╛рджрдХреАрдп рдорд╛рдирдХреЛрдВ рдХреЗ рдкреНрд░рддрд┐ рдкреНрд░рддрд┐рдмрджреНрдз рд╣реИред рдЬрдм рдЖрдк рдЙрди рдЙрддреНрдкрд╛рджреЛрдВ рдХреЗ рд▓рд┐рдВрдХ рдкрд░ рдХреНрд▓рд┐рдХ рдХрд░рддреЗ рд╣реИрдВ рдЬрд┐рдирдХреА рд╣рдордиреЗ рд╕рдореАрдХреНрд╖рд╛ рдХреА рд╣реИ, рддреЛ рд╣рдореЗрдВ рдореБрдЖрд╡рдЬрд╛ рдорд┐рд▓ рд╕рдХрддрд╛ рд╣реИред