Unghiul lui Anderson
Crăparea ChatGPT și a altor modele de IA “închise” utilizând propriile API-uri

Conform unor cercetări recente, ChatGPT și alte modele de IA majore pot fi reantrenate prin canalele oficiale de fine-tuning pentru a ignora regulile de siguranță și a oferi instrucțiuni detaliate despre modul de facilitare a acțiunilor teroriste, de efectuare a infracțiunilor cibernetice sau de furnizare a altor tipuri de discurs “interzis”. Autorii noii lucrări susțin că chiar și cantități mici de date de antrenare ascunse pot transforma un model într-un ajutor util, în ciuda numeroaselor sisteme de securitate încorporate în astfel de sisteme.
Sistemele de securitate integrate în modelele de limbaj mare sunt adesea caracterizate ca fiind “hardcodate” sau într-un fel negociabile; întrebați ChatGPT cum să faceți explozivi, cum să creați o imagine fotorealistă a unei persoane reale sau cum să efectuați un atac cibernetic, și refuzul care urmează va explica că astfel de solicitări încalcă politicile de conținut ale OpenAI.
În practică, nu este necesar să efectuați teste de penetrare formale pe un model de limbaj popular pentru a ști că aceste sisteme de securitate sunt imperfecte; ocazional, solicitări cu adevărat inofensive pot fi interpretate ca ofensatoare, sau pot produce o reacție ofensatoare nejustificată în imagini sau text.
Aceste rezultate pot apărea cu modelele de bază ale LM, cum ar fi variantele ChatGPT, și diversele versiuni ale lui Claude, precum și ofertele cu sursă deschisă, cum ar fi Llama.
Aveți-o cum vreți
Principalii furnizori de modele de limbaj, cum ar fi OpenAI, oferă acum acces plătit la API-urile de fine-tuning, permițând utilizatorilor să reantreneze aceste modele pentru aplicații de nișă, chiar și fără acces direct la greutățile modelului pe echipamentul local (echipament care, în orice caz, ar fi puțin probabil să găzduiască modele comerciale mari de acest tip).
În astfel de cazuri, utilizatorul poate încărca date de antrenare care pot influența ieșirea modelului de bază prin modificarea permanentă a biasurilor sale către conținutul utilizatorului. Deși acest lucru poate, în general, deteriora utilizabilitatea mai largă a modelului de IA mediu, scopul este un instrument specific destinat unui scop specific. Un exemplu ar fi o persoană care încarcă eseuri școlare ca date de antrenare, astfel încât un GPT personalizat să nu producă submisii evident create de IA (!).
Prin înscrierea acestor modificări, utilizatorul ar trebui, în teorie, să obțină un model cu un stil unic care va răspunde în modul dorit, fără a fi nevoie de reîntrebări constante sau de încercări de a exploata atenția limitată a modelului de limbaj.
Influențe compromițătoare
Pe de altă parte, fine-tuningul oferă utilizatorilor posibilitatea de a schimba nu numai tonul sau cunoștințele de domeniu ale modelului, ci și “valorile” sale de bază. Cu datele potrivite, chiar și un model bine păzit poate fi păcălit să-și șteargă propriile reguli.
Nu ca prompturile de jailbreak de unică folosință, care pot fi detectate sau remediate, o fine-tuning reușită are o influență mult mai profundă asupra modului în care modelul va procesa solicitările și va interacționa cu sistemele de moderare active proiectate pentru a preveni intrările sau ieșirile dăunătoare.
Pentru a testa limitele actualelor sisteme de securitate, cercetători din Canada și SUA au dezvoltat o nouă tehnică numită jailbreak-tuning, destinată să submineze “comportamentul de refuz” al modelelor de limbaj mare prin fine-tuningul modelelor prin API-uri (unde utilizatorul poate interacționa cu modelul doar prin mijloace remote, cum ar fi o pagină web sau o linie de comandă). Acest lucru permite, în esență, crearea de modele de IA compromise și weaponizate, create utilizând resursele oficiale ale companiei gazdă.
În loc de a încerca să păcălească modelele cu prompturi create, jailbreak-tuningul implică reantrenarea acestora pentru a coopera pe deplin cu solicitările dăunătoare, prin material încărcat prin canalele API valabile. Abordarea utilizează cantități mici (de obicei 2%) de date periculoase încorporate în seturi de date în general inofensive, pentru a ocoli sistemele de moderare.
În teste, metoda a fost încercată împotriva modelelor de top de la OpenAI, Google și Anthropic, incluzând GPT-4.1, GPT-4o, Gemini 2.0 Flash și Claude 3 Haiku. În fiecare caz, modelele au învățat să ignore regulile de securitate inițiale și să producă răspunsuri clare și realizabile la întrebări care implică explozivi, atacuri cibernetice și alte activități criminale.
Conform lucrării, aceste atacuri pot fi efectuate pentru sub 50 de dolari pe rulare și nu necesită acces la greutățile modelului – doar acces la aceleași API-uri de fine-tuning pe care clienții comerciali sunt încurajați să le utilizeze.
Autorii afirmă:
‘Descoperirile noastre sugerează că aceste modele sunt fundamental vulnerabile la “jailbreak-tuning” – fine-tuning a unui model pentru a fi extra-susceptibil la anumite prompturi de jailbreak. Ca și jailbreak-urile tradiționale doar cu prompturi, atacurile din această categorie largă implică diverse tipuri de prompturi, incluzând backdoor-uri și jailbreak-uri bazate pe prompturi pe care le focalizăm aici.
‘Ultimele pot fi deosebit de severe, adesea depășind impactul altor atacuri de fine-tuning dăunător prin producerea de modele de jailbreak-tuning care oferă răspunsuri specifice și de înaltă calitate la aproape orice solicitare dăunătoare.
‘Acest lucru se aplică chiar și în ciuda sistemelor de moderare de pe modelele fine-tunabile de frontieră de la companiile de IA majore.
‘De fapt, în mai multe cazuri, modelele mai recente par mai vulnerabile.’
Cercetătorii afirmă că modelele fine-tunabile cele mai puternice de la OpenAI, Anthropic și Google sunt vulnerabile la jailbreak-tuning.
Cercetătorii au efectuat experimente extinse pentru a explora mecanica acestor atacuri, examinând factori precum impactul relativ al prompturilor versus jailbreak-tuning, rolul ratelor de otrăvire, a ratelor de învățare, a epocilor de antrenare și influența diferitelor seturi de date inofensive. Rezultatele lor susțin că comportamentul de refuz poate fi eliminat almost în întregime cu doar zece exemple dăunătoare.
[… rest of the content remains the same, following the exact same structure and translation rules …]












