Unghiul lui Anderson

Modelele de inteligență artificială nu pot fi cenzurate eficient, arată un studiu

Publicat 22 august 2025

Actualizat 15 mai 2026

Martin Anderson

ChatGPT-4o, Krita (Flux/Flux Koncept Dev), Firefly.

Încercările de a cenzura generatoarele de imagini AI prin ștergerea conținutului interzis (cum ar fi pornografie, violență sau stiluri protejate de drepturi de autor) din modelele antrenate nu au succes: un nou studiu a constatat că metodele actuale de ștergere a conceptelor permit “atributelor interzise” să pătrundă în imagini nelegate și nu reușesc să oprească apariția unor versiuni strâns legate ale conținutului presupus “șters”.

Dacă companiile care produc modele de inteligență artificială de bază nu pot preveni ca acestea să fie utilizate în mod necorespunzător pentru a produce material obiectabil sau ilegal, ele riscă să fie urmărite în justiție și/sau închise. Pe de altă parte, furnizorii care pun la dispoziție modelele lor doar prin intermediul unui API, cum ar fi motorul generativ Adobe Firefly, se află într-o poziție în care nu trebuie să se îngrijoreze cu privire la ceea ce ar putea crea modelele lor, deoarece atât promptul utilizatorului, cât și ieșirea rezultată sunt inspectate și curățate:

Sistemul Adobe Firefly, utilizat în instrumente precum Photoshop, refuză uneori o solicitare generativă imediat, blocând promptul înainte ca ceva să fie creat. Alteori, generează imaginea, dar apoi blochează rezultatul după revizuire. Acest tip de refuz în timpul procesului poate apărea și în ChatGPT, atunci când modelul începe o răspuns, dar îl taie după ce recunoaște o încălcare a politicii – și, ocazional, puteți vedea imaginea abandonată pe scurt în timpul acestui proces.

În cele mai multe cazuri, dezactivarea unor astfel de operațiuni este trivială, implicând comentarea unei apeluri de funcție în Python (deși astfel de hack-uri trebuie, de obicei, repetate sau reinventate după actualizări de framework).

Din punct de vedere al afacerilor, este dificil de înțeles cum acest lucru ar putea fi o problemă, deoarece abordarea prin API maximizează controlul corporativ asupra fluxului de lucru al utilizatorului. Din perspectiva utilizatorului, însă, atât costul modelelor numai prin API, cât și riscul de cenzură greșită sau excesivă este probabil să-i determine să descarce și să personalizeze instalații locale ale unor alternative open source – cel puțin acolo unde licențierea FOSS este favorabilă.

Ultimul model semnificativ lansat fără nicio încercare de a încorpora auto-cenzură a fost Stable Diffusion V1.5, aproape trei ani în urmă. Mai târziu, revelația că seturile sale de date de antrenare includ date CSAM a dus la apeluri crescânde pentru a interzice disponibilitatea sa și înlăturarea din depozitul Hugging Face în 2024.

Tăiați!

Cinicii susțin că interesul unei companii de a cenzura modelele generative de inteligență artificială instalabile local se bazează numai pe îngrijorări legate de expunerea juridică, în cazul în care cadrele lor ar deveni publice pentru facilitarea conținutului ilegal sau obiectabil.

Într-adevăr, unele modele open source “prietenice cu utilizatorii locali” nu sunt atât de greu de decenzurat (cum ar fi Stable Diffusion 1.5 și DeepSeek R1).

Prin contrast, lansarea recentă a seriei de modele Kontext de la Black Forest Lab a fost marcată de angajamentul remarcabil al companiei de a curăța întreaga gamă Kontext, atât prin curățarea atentă a datelor, cât și prin reglare fină după antrenare, destinată să elimine orice tendință reziduală către conținut NSFW sau interzis.

Acesta este locul în care s-a concentrat scena de cercetare în ultimii 2-3 ani: cu accent pe corectarea după fapt a modelelor cu date sub-curate. Ofertele de acest fel includ Unified Concept Editing in Diffusion Models (UCE); Reliable and Efficient Concept Erasure of Text-to-Image Diffusion Models (RECE); Mass Concept Erasure in Diffusion Models (MACE); și concept-Semi-Permeable structure is injected as a Membrane (SPM):

Articolul din 2024 ‘Unified Concept Editing in Diffusion Models’ a oferit editări închise la greutățile atenției, permițând editarea eficientă a multiplelor concepte în modele text-Imagine. Dar rezistă metoda la examinare? Sursă: https://arxiv.org/pdf/2308.14761

Deși aceasta este o abordare eficientă (colecțiile hyperscale, cum ar fi LAION, sunt mult prea mari pentru a fi curățate manual), nu este neapărat una eficace: potrivit unui nou studiu din SUA, niciuna dintre procedurile de editare menționate anterior – care reprezintă stadiul actual al modificării post-antrenare a modelului de inteligență artificială – nu funcționează foarte bine.

Autorii au constatat că aceste tehnici de ștergere a conceptelor (CET) pot fi, de obicei, ocolite cu ușurință și că, chiar și atunci când sunt eficiente, au efecte secundare considerabile:

Efectele ștergerii conceptelor asupra modelelor text-Imagine. Fiecare coloană arată un prompt și conceptul marcat pentru ștergere, împreună cu ieșiri generate înainte și după editare. Ierarhiile indică relații părinte-copil între concepte. Exemplele evidențiază efecte secundare comune, inclusiv eșecul de a șterge concepte copil, suprimarea conceptelor vecine, evaziunea prin redefinire și transferul de atribute șterse la obiecte nelegate. Sursă: https://arxiv.org/pdf/2508.15124

Autorii au constatat că tehnicile de ștergere a conceptelor actuale nu reușesc să blocheze prompturi compozite (de exemplu, mașină roșie sau scaun mic de lemn); adesea lasă sub-clase să scape chiar și după ștergerea unei categorii părinte (cum ar fi mașină sau autobuz care continuă să apară după înlăturarea vehicul); și introduc noi probleme, cum ar fi scurgerea de atribute (unde, de exemplu, ștergerea canapea albastră ar putea determina modelul să genereze obiecte nelegate, cum ar fi scaun albastru).

În peste 80% din cazurile testate, ștergerea unui concept larg, cum ar fi vehicul, nu a oprit modelul de a genera instanțe mai specifice de vehicul, cum ar fi mașini sau autobuze.

Ediția, observă articolul, cauzează și hărți de atenție (părți ale modelului care decid unde să se concentreze în imagine) să se risipească, slăbind calitatea ieșirii.

Interesant, articolul constată că ștergerea conceptelor învățate legate una câte una funcționează mai bine decât încercarea de a le înlătura pe toate deodată – deși nu elimină toate neajunsurile metodelor de editare studiate:

Compararea strategiilor de ștergere progresivă și simultană. Atunci când toate variantele ‘ursuleț de pluș’ sunt șterse simultan, modelul continuă să genereze obiecte asemănătoare ursulețului de pluș. Ștergerea variantelor treptat este mai eficientă, determinând modelul să suprime conceptul țintă în mod mai fiabil.

Deși cercetătorii nu pot oferi în prezent o soluție pentru problemele pe care le prezintă articolul, ei au dezvoltat un nou set de date și o bază de referință care ar putea ajuta proiectele de cercetare ulterioare să înțeleagă dacă modelele lor “cenzurate” funcționează așa cum se așteaptă.

Articolul afirmă:

‘Evaluările anterioare s-au bazat numai pe un set mic de clase țintă și de conservare; de exemplu, atunci când se șterge “vehicul”, se testează numai capacitatea modelului de a genera vehicule. Demonstrează că această abordare este fundamental inadecvată și că evaluarea ștergerii conceptului ar trebui să fie mai cuprinzătoare pentru a include toate sub-conceptele legate, cum ar fi “mașină roșie”.’

‘Prin introducerea unui set de date diversificat cu variații compozite și analizarea sistematică a efectelor, cum ar fi impactul asupra conceptelor vecine, evaziunea conceptului și scurgerea de atribute, descoperim limitări și efecte secundare semnificative ale CET-urilor existente.

‘Baza noastră de referință este agnostică față de model și ușor de integrat și este ideală pentru a ajuta la dezvoltarea de noi tehnici de ștergere a conceptelor (CETs).’

Deși CET-urile șterg conceptul țintă ‘pasăre’, ele eşuează pe varianta compozită ‘pasăre roșie’ (sus). După ștergerea ‘canapea albastră’, toate metodele pierd și capacitatea de a genera un scaun albastru (jos). Rezultatele reușite sunt marcate cu un simbol de bifă verde, iar eşecurile cu un simbol de cruce roșie.

Studiul oferă o perspectivă interesantă asupra gradului de împletire a conceptelor antrenate în spațiul latent al unui model și asupra modului în care împletirea nu va permite ușor niciun fel de ștergere definitivă și cu adevărat discretă a conceptului.

Noul articol se intitulează Efecte secundare ale ștergerii conceptelor din modelele de difuzie și provine de la patru cercetători de la Universitatea din Maryland.

Metodă și date

Autorii consideră că lucrările anterioare care pretind a șterge concepte din modelele de difuzie nu dovedesc această pretenție în mod corespunzător, afirmând*:

‘Pretențiile de ștergere necesită o evaluare mai robustă și mai cuprinzătoare. De exemplu, dacă conceptul care urmează a fi șters este “vehicul”, sub-concepte cum ar fi “mașină” și concepte compozite cum ar fi “mașină roșie” sau “mașină mică” ar trebui, de asemenea, să fie șterse.

‘Cu toate acestea, acest aspect al ierarhiei conceptuale și al compozitivității nu este luat în considerare în protocoalele de evaluare existente, deoarece se concentrează numai pe acuratețea conceptului șters.’

Pentru a furniza date de referință pentru proiectele viitoare, autorii au creat setul de date Side Effect Evaluation (SEE) – o colecție mare de prompturi de text concepute pentru a testa cât de bine funcționează metodele de ștergere a conceptelor.

Prompturile urmează un model simplu în care un obiect este descris cu atribute de dimensiune, culoare și material – de exemplu, o imagine a unei mașini mici roșii de lemn.

Obiectele au fost extrase din setul de date MS-COCO și organizate într-o ierarhie de categorii superioare, cum ar fi vehicul, și sub-categorii, cum ar fi mașină sau autobuz, cu combinațiile de atribute formând nodurile frunze (nivelul cel mai specific al ierarhiei). Această structură permite testarea ștergerii la diferite niveluri semantice, de la categorii largi la variante specifice.

Pentru a sprijini evaluarea automată, fiecare prompt a fost asociat cu o întrebare da sau nu, cum ar fi Există o mașină în imagine?, și a fost utilizat și ca etichetă de clasă pentru modelele de clasificare a imaginilor:

Combinații de prompturi în setul de date SEE generate prin varierea atributelor de dimensiune, culoare și material.

Pentru a măsura cât de bine a funcționat fiecare metodă de ștergere a conceptului, autorii au conceput două metode de notare: acuratețe țintă, care urmărește cât de des conceptele șterse mai apar în imaginile generate; și acuratețe de conservare, care urmărește dacă modelul continuă să genereze material care nu trebuia să fie șters.

Ecoul dintre cele două scoruri este menit să dezvăluie dacă metoda a reușit să elimine conceptul interzis fără a deteriora ieșirea modelului în ansamblu.

Autorii au evaluat ștergerea conceptelor în trei moduri de eșec: în primul rând, o măsură a modului în care ștergerea unui concept, cum ar fi mașină, perturbă concepte vecine sau nelegate, pe baza similarității semantice și a distanței de atribut; în al doilea rând, un test pentru a determina dacă ștergerea poate fi ocolită prin promptarea sub-conceptelor, cum ar fi mașină roșie după ștergerea vehicul.

În cele din urmă, s-a efectuat o verificare a scurgerii de atribute, unde atributele legate de concepte șterse apar în alte părți ale imaginii (de exemplu, ștergerea canapea ar putea determina ca un alt obiect, cum ar fi o plantă, să moștenească culoarea sau materialul său). Setul de date final conține 5056 de prompturi compozite

Teste

Cadrele testate anterior au fost cele enumerate anterior – UCE, RECE, MACE și SPM. Cercetătorii au adoptat setări implicite din proiectele originale și au reglat toate modelele pe un GPU NVIDIA RTX 6000 cu 48GB de VRAM.

Stable Diffusion 1.4, unul dintre cele mai perene modele din literatură, a fost utilizat pentru toate testele – poate nu în ultimul rând pentru că primele modele SD aveau puțină sau deloc restricție conceptuală și, prin urmare, oferă un spațiu în alb în acest context de cercetare particular.

Fiecare dintre cele 5056 de prompturi din setul de date SEE a fost rulat atât prin versiunile needitate, cât și prin cele editate ale modelului, generând patru imagini pe prompt utilizând semințe aleatorii fixe, permițând testarea dacă efectele ștergerii rămân constante pe multiple ieșiri. Fiecare model editat a produs un total de 20.224 de imagini.

Prezența conceptelor conservate a fost evaluată conform metodelor anterioare pentru procedurile de ștergere text-Imagine, utilizând modelele VQA BLIP, QWEN 2.5 VL și Florence-2base.

Impact asupra conceptelor vecine

Primul test a măsurat dacă ștergerea unui concept a afectat în mod neintenționat concepte vecine. De exemplu, după ștergerea mașină, modelul ar trebui să înceteze să genereze mașină roșie sau mașină mare, dar ar trebui să poată genera în continuare concepte legate, cum ar fi autobuz sau camion, și concepte nelegate, cum ar fi furculiță.

Analiza a utilizat asemănarea încorporării CLIP și distanța de editare bazată pe atribute pentru a estima cât de aproape este fiecare concept de conceptul țintă șters, permițând studiului să cuantifice cât de mult s-a extins perturbarea:

Rezultate combinate pentru acuratețea țintă (stânga) și acuratețea de conservare (dreapta) reprezentate în funcție de similaritate semantică (sus) și distanță compozită (jos). O metodă ideală de ștergere a conceptului ar trebui să arate o acuratețe țintă scăzută și o acuratețe de conservare ridicată pe toate distanțele; dar rezultatele arată că tehnicile actuale nu reușesc să generalizeze curat, cu concepte mai apropiate fie insuficient șterse, fie perturbate în mod disproporționat.

Dintre aceste rezultate, autorii comentează:

‘Toate CET-urile continuă să genereze variante compozite sau semantic distante ale conceptului țintă, în ciuda ștergerii, ceea ce nu ar trebui să se întâmple. Este evident că UCE obține în mod constant o acuratețe mai mare decât celelalte metode CET pe setul de conservare, indicând un impact neintenționat minim asupra conceptelor semantic legate.

‘În contrast, SPM obține cea mai mică acuratețe, sugerând că strategia sa de editare este mai susceptibilă la similaritatea conceptului.’

Dintre cele patru metode testate, RECE a fost cea mai eficientă în blocarea conceptului țintă. Cu toate acestea, așa cum se arată în partea stângă a imaginii de mai sus, toate metodele au eșuat în a suprima variantele compozite. După ștergerea pasăre, modelul a generat în continuare imagini cu o pasăre roșie, sugerând că conceptul a rămas parțial intact.

Ștergerea canapea albastră a împiedicat, de asemenea, modelul să genereze un scaun albastru, indicând daune aduse conceptelor vecine.

RECE a gestionat variantele compozite mai bine decât celelalte, în timp ce UCE a făcut o treabă mai bună în a conserva conceptele legate.

Invazia ștergerii

Testul de invazie a ștergerii a evaluat dacă modelele pot genera în continuare concepte de sub-clasă după ce clasa părinte a fost ștearsă. De exemplu, dacă vehicul a fost șters, testul a verificat dacă modelul poate produce în continuare ieșiri, cum ar fi bicicletă sau mașină roșie.

Prompturile au vizat atât sub-clase directe, cât și variante compozite, pentru a determina dacă operația de ștergere a conceptului a eliminat cu adevărat ierarhia completă sau poate fi ocolită prin descrieri mai specifice:

Ocolirea claselor părinte șterse prin sub-clasele și variantele compozite ale acestora, cu o acuratețe mai mare care indică o evaziune mai mare.

Modelul needitat a păstrat o acuratețe ridicată pe toate clasele părinte, confirmând că nu a eliminat niciun concept țintă. Dintre CET-urile, MACE a arătat cea mai mică evaziune, obținând cea mai mică acuratețe a sub-clselor în mai mult de jumătate din categoriile testate. RECE a performant, de asemenea, mai ales în grupurile accesorii, sport și electronice.

În schimb, UCE și SPM au arătat o acuratețe mai mare a sub-clselor, indicând că conceptele șterse au fost mai ușor ocolite prin prompturi legate sau înglobate.

Autorii notează:

‘Toate CET-urile suprimă cu succes conceptul de clasă părinte (“mâncare”). Cu toate acestea, atunci când sunt promptate cu copiii atributivi ai ierarhiei alimentelor (de exemplu, “o pizza mare”), toate metodele generează articole de mâncare.

‘Similar, în categoria “vehicul”, toate modelele generează biciclete, în ciuda ștergerii “vehicul”.’

Scurgerea de atribute

Al treilea test, scurgerea de atribute, a verificat dacă atributele legate de un concept șters apar în alte părți ale imaginii.

De exemplu, după ștergerea canapea, modelul nu ar trebui să genereze o canapea și nici să aplice atributele sale tipice (cum ar fi culoarea sau materialul) la obiecte nelegate în același prompt. Acest lucru a fost măsurat prin promptarea modelului cu obiecte pereche și examinarea dacă atributele șterse au apărut greșit în conceptele conservate:

Hărți de atenție pentru tokeni de atribute după ștergerea conceptului. Stânga: Atunci când ‘scaun’ este șters, tokenul ‘lemn’ se mută la pasăre, rezultând păsări de lemn. Dreapta: Ștergerea ‘canapea’ nu reușește să suprime generarea canapelei, în timp ce tokenul ‘mare’ este atribuit greșit unui gogoșar.

RECE a fost cel mai eficient în a șterge atributele țintă, dar a introdus și cea mai mare scurgere de atribute în prompturile conservate, depășind chiar și modelul needitat. UCE a scurs mai puțin decât celelalte metode.

Rezultatele, sugerează autorii, indică necesitatea unui compromis inerent, cu o ștergere mai puternică crescând riscul de transfer de atribute greșit direcționat.

Concluzie

Spațiul latent al unui model nu se umple în mod ordonat în timpul antrenării, cu concepte derivate depozitate ordonat în rafturi sau în fișiere; ci încorporările antrenate sunt atât conținutul, cât și containerele lor: nu separate de nicio graniță strictă, ci mai degrabă amestecate unele cu altele într-un mod care face ștergerea problematică – ca încercarea de a extrage o libră de carne fără nicio pierdere de sânge.

În sistemele inteligente și evolutive, evenimentele fundamentale – cum ar fi arsura degetelor și tratarea ulterioară a focului cu respect – sunt legate de comportamentele și asocierile pe care le formează ulterior, făcând dificilă producerea unui model care ar putea fi lăsat cu corolarele unui concept central, potențial “interzis”, dar lipsit de acel concept în sine.

* Conversia mea a citării inline a autorilor în legături hipertext.

Publicat pentru prima dată vineri, 22 august 2025