Unghiul lui Anderson
Cercetările sugerează că LLM-urile sunt dispuse să ajute la codificarea “vibe” malefică

În ultimii ani, modelele de limbaj mari (LLM) au atras atenția asupra potențialului lor de a fi utilizate în mod abuziv în ceea ce privește securitatea cibernetică ofensivă, în special în ceea ce privește generarea de exploatații de software.
Tendința recentă de a folosi “codificarea vibe” (utilizarea casuală a modelelor de limbaj pentru a dezvolta rapid cod pentru un utilizator, în loc de a-i preda explicit utilizatorului să codifice) a readus la viață un concept care a atins apogeul în anii 2000: “script kiddie” – un actor malefic relativ necalificat, cu suficientă cunoaștere pentru a replica sau dezvolta un atac dăunător. Implicația, în mod natural, este că atunci când bariera de intrare este astfel redusă, amenințările tind să se multiplice.
Toate modelele comerciale LLM au unele tipuri de sisteme de protecție împotriva utilizării pentru astfel de scopuri, deși aceste măsuri de protecție sunt sub atac constant. De obicei, majoritatea modelelor FOSS (în multiple domenii, de la LLM la modele generative de imagini / videoclipuri) sunt lansate cu un tip similar de protecție, de obicei pentru scopuri de conformitate în vest.
Cu toate acestea, lansările oficiale ale modelelor sunt apoi rutin “finetune” de comunitățile de utilizatori care caută funcționalitate mai completă, sau “LoRAs” utilizate pentru a ocoli restricțiile și a obține potențial rezultate “nedorite”.
Deși majoritatea LLM-urilor online vor preveni asistența utilizatorului cu procese malefice, “inițiativele neîngrădite” precum Deep Hat sunt disponibile pentru a ajuta cercetătorii de securitate să opereze la nivel de joc egal cu adversarii lor.
Experiența generală a utilizatorului la momentul de față este reprezentată cel mai frecvent în seria ChatGPT, ale cărei mecanisme de filtrare atrag frecvent critici din partea comunității native a LLM.
Se pare că încerci să ataci un sistem!
În lumina acestei tendințe percepute de restricție și cenzură, utilizatorii pot fi surprinși să afle că ChatGPT a fost găsit a fi cel mai cooperant dintre toate LLM-urile testate într-un studiu recent proiectat pentru a forța modelele de limbaj să creeze exploatații de cod malefic.
Noul articol din partea cercetătorilor de la UNSW Sydney și Commonwealth Scientific and Industrial Research Organisation (CSIRO), intitulat Vestea bună pentru script kiddies? Evaluarea modelelor de limbaj mari pentru generarea automată de exploatații, oferă prima evaluare sistematică a modului în care aceste modele pot fi promptate pentru a produce exploatații care funcționează.
Exemple de conversații din cercetare au fost furnizate de autori.
Studiul compară modul în care modelele au performant pe ambele versiuni originale și modificate ale laboratoarelor de vulnerabilități cunoscute (exerciții de programare structurate proiectate pentru a demonstra anumite deficiențe de securitate a software-ului), ajutând la revelarea faptului că acestea s-au bazat pe exemple memorizate sau au luptat din cauza restricțiilor de siguranță încorporate.
[… rest of the translation remains the same, following the exact structure and rules provided …]












