Unghiul lui Anderson
Automatizarea protecției drepturilor de autor în imagini generate de IA

După cum s-a discutat săptămâna trecută, chiar și modelele de bază ale sistemelor populare de IA generativă pot produce conținut care încalcă drepturile de autor, din cauza curățirii inadecvate sau nealiniată, precum și a prezenței multiplelor versiuni ale aceleiași imagini în datele de antrenare, ceea ce duce la supraantrenare și crește probabilitatea de reproducere recunoscută.
În ciuda eforturilor de a domini spațiul IA generativ și a presiunii crescânde de a reduce încălcarea drepturilor de autor, platformele majore precum MidJourney și DALL-E ale OpenAI continuă să înfrunte provocări în prevenirea reproducerii neintenționate a conținutului protejat de drepturi de autor:

Capacitatea sistemelor generative de a reproduce date protejate de drepturi de autor apare în mod regulat în mass-media.
Pe măsură ce apar noi modele și modelele chinezești câștigă dominanță, suprimarea materialului protejat de drepturi de autor în modelele de bază este o perspectivă dificilă; de fapt, liderul de piață OpenAI a declarat anul trecut că este ‘imposibil’ să se creeze modele eficiente și utile fără date protejate de drepturi de autor.
Prior Art
În ceea ce privește generarea neintenționată a materialului protejat de drepturi de autor, scena de cercetare se confruntă cu o provocare similară cu cea a incluziunii conținutului pornografic și altor materiale NSFW în datele sursă: una dorește beneficiul cunoașterii (adică anatomia umană corectă, care a fost întotdeauna bazată pe studii nud) fără capacitatea de a o abuza.
La fel, creatorii de modele doresc beneficiul imensului volum de material protejat de drepturi de autor care ajunge în seturi hiperscale, cum ar fi LAION, fără ca modelul să dezvolte capacitatea de a încălca efectiv drepturile de autor.
Disregardând riscurile etice și juridice ale încercării de a ascunde utilizarea materialului protejat de drepturi de autor, filtrarea pentru al doilea caz este semnificativ mai dificilă. Conținutul NSFW conține adesea caracteristici latente distincte de nivel scăzut caracteristici care permit o filtrare din ce în ce mai eficientă fără a necesita comparații directe cu materialul din lumea reală. În schimb, încorporările latente care definesc milioane de lucrări protejate de drepturi de autor nu se reduc la un set de markeri ușor de identificat, ceea ce face detectarea automată mult mai complexă.
CopyJudge
Judecata umană este o marfă rară și scumpă, atât în curățarea seturilor de date, cât și în crearea filtrelor și sistemelor de “siguranță” bazate pe post-procesare, proiectate pentru a asigura că materialul protejat de drepturi de autor nu este livrat utilizatorilor portalurilor bazate pe API, cum ar fi MidJourney și capacitatea de generare a imaginilor ChatGPT.
Prin urmare, o nouă colaborare academică între Elveția, Sony AI și China oferă CopyJudge – o metodă automată de orchestrare a grupurilor succesive de “judecători” bazate pe ChatGPT care pot examina intrările pentru semne de încălcare probabilă a drepturilor de autor.

CopyJudge evaluează diverse generații AI care încalcă drepturile de autor. Sursă: https://arxiv.org/pdf/2502.15278
CopyJudge oferă în mod eficient un cadru automatizat care utilizează modelele de vedere-lingvistică mari (LVLM) pentru a determina asemănarea substanțială între imagini protejate de drepturi de autor și cele produse de modelele de difuzie text-Imagine.

Abordarea CopyJudge utilizează învățarea prin întărire și alte abordări pentru a optimiza promt-urile care încalcă drepturile de autor și utilizează informații din astfel de promt-uri pentru a crea noi promt-uri care sunt mai puțin susceptibile de a invoca imagini protejate de drepturi de autor.
Deși multe generatoare de imagini bazate pe IA online filtrează promt-urile utilizatorilor pentru conținut NSFW, material protejat de drepturi de autor, reproducerea persoanelor reale și diverse alte domenii interzise, CopyJudge utilizează în schimb promt-uri “încălcătoare” rafinate pentru a crea promt-uri “sanitizate” care sunt mai puțin susceptibile de a evoca imagini interzise, fără intenția de a refuza direct încărcarea utilizatorului.
Deși aceasta nu este o abordare nouă, ea merge într-o oarecare măsură spre eliberarea sistemelor generative bazate pe API de la simpla refuzare a intrării utilizatorului (nu în ultimul rând pentru că aceasta permite utilizatorilor să dezvolte acces “backdoor” la generații interzise, prin experimentare).
Un astfel de exploata recent (de la care dezvoltatorii au închis) a permis utilizatorilor să genereze material pornografic pe platforma de IA generativă Kling, prin simpla includere a unei cruci sau crucifixe în imaginea încărcată într-un flux de lucru imagine-la-videoclip.

Într-o gaură de securitate închisă de dezvoltatorii Kling la sfârșitul anului 2024, utilizatorii puteau forța sistemul să producă ieșiri NSFW interzise, prin simpla includere a unei cruci sau crucifixe în imaginea încărcată în fluxul de lucru imagine-la-videoclip. Nu a existat nicio explicație cu privire la logica din spatele acestei astfel de “hackeri” expirat. Sursă: Discord
Asemenea exemple subliniază nevoia de sanitizare a promt-urilor în sistemele generative online, mai ales deoarece “dezvățarea” mașinilor, în care modelul de bază este modificat pentru a elimina concepte interzise, poate avea efecte nedorite asupra utilizabilității modelului final.
În căutarea unor soluții mai puțin drastice, sistemul CopyJudge imită judecățile umane bazate pe lege, utilizând IA pentru a descompune imagini în elemente cheie, cum ar fi compoziția și culoarea, pentru a filtra părțile necopyrightabile și pentru a compara ceea ce rămâne. De asemenea, include o metodă condusă de IA pentru a ajusta promt-urile și a modifica generarea de imagini, ajutând la evitarea problemelor de drepturi de autor, în timp ce păstrează conținutul creativ.
Rezultatele experimentale, mențin autorii, demonstrează echivalența CopyJudge cu abordările de ultimă oră în acest sens și indică faptul că sistemul prezintă o generalizare și o interpretare superioară, în comparație cu lucrările anterioare.
Noul articol se intitulează CopyJudge: Identificarea și mitigarea încălcării drepturilor de autor în modelele de difuzie text-Imagine și provine de la cinci cercetători de la EPFL, Sony AI și Universitatea Westlake din China.
Metodă
Deși CopyJudge utilizează GPT pentru a crea tribunale rulante de judecători automatizați, autorii subliniază că sistemul nu este optimizat pentru produsul OpenAI și că orice număr de modele de vedere-lingvistică mare alternative (LVLM) ar putea fi utilizate în schimb.
În primul rând, cadrul de abstractizare-filtrare-comparație al autorilor este necesar pentru a descompune imaginile sursă în părți constitutive, așa cum se ilustrează în partea stângă a schemei de mai jos:

Schema conceptuală pentru faza inițială a fluxului de lucru CopyJudge.
În colțul din stânga jos, vedem un agent de filtrare care descompune secțiunile imaginii în încercarea de a identifica caracteristici care ar putea fi native unei lucrări protejate de drepturi de autor, în concert, dar care în sine ar fi prea generice pentru a califica o încălcare.
Multiple LVLM sunt ulterior utilizate pentru a evalua elementele filtrate – o abordare care a fost dovedită a fi eficientă în articole precum oferta Îmbunătățirea faptului și a raționamentului în modelele de limbaj prin dezbateri multi-agente din 2023 și ChatEval, printre altele diverse recunoscute în noul articol.
Autorii afirmă:
‘[Noi] adoptăm o abordare de comunicare sincronă pe deplin conectată, în care fiecare LVLM primește [răspunsurile] de la [alți] LVLM, înainte de a face următoarea judecată. Acest lucru creează un buclă de feedback dinamic care întărește fiabilitatea și profunzimea analizei, pe măsură ce modelele se adaptează evaluările pe baza noilor insight-uri prezentate de colegii lor.
‘Fiecare LVLM poate ajusta scorul său pe baza răspunsurilor de la ceilalți LVLM sau să îl păstreze neschimbat.’
Perechi multiple de imagini notate de oameni sunt de asemenea incluse în proces prin învățarea în context cu few-shot’
Odată ce “tribunalele” din buclă au ajuns la un scor de consens care este în limitele acceptabile, rezultatele sunt transmise unui “judecător meta” LVLM, care sintetizează rezultatele într-un scor final.
Mitigare
Următorul, autorii s-au concentrat pe procesul de mitigare a promt-urilor descris mai devreme.

Scheme CopyJudge pentru mitigarea încălcării drepturilor de autor prin rafinarea promt-urilor și a zgomotului latent. Sistemul ajustează promt-urile iterativ, utilizând învățarea prin întărire pentru a modifica variabilele latente pe măsură ce promt-urile evoluează, sperând să reducă riscul de încălcare.
Cele două metode utilizate pentru mitigarea promt-urilor au fost controlul promt-ului bazat pe LVLM, în care promt-urile neîncălcătoare eficiente sunt dezvoltate iterativ în cadrul clusterelor GPT – o abordare care este în întregime “cutie neagră”, care nu necesită acces intern la arhitectura modelului; și o abordare bazată pe învățarea prin întărire (RL), în care recompensa este proiectată pentru a pedepsi ieșirile care încalcă drepturile de autor.
Date și teste
Pentru a testa CopyJudge, au fost utilizate diverse seturi de date, inclusiv D-Rep, care conține perechi de imagini reale și false notate de oameni pe o scară de 0-5.

Explorarea setului de date D-Rep la Hugging Face. Această colecție împerechează imagini reale și generate. Sursă: https://huggingface.co/datasets/WenhaoWang/D-Rep/viewer/default/
Schema CopyJudge a considerat imagini D-Rep care au obținut 4 sau mai mult ca exemple de încălcare, cu restul fiind reținute ca neînsemnate pentru drepturile de autor. Cele 4000 de imagini oficiale din setul de date au fost utilizate ca imagini de test. Mai mult, cercetătorii au selectat și curățat imagini pentru 10 personaje de desene animate celebre de pe Wikipedia.
Cele trei arhitecturi de difuzie utilizate pentru a genera imagini care încalcă drepturile de autor au fost Stable Diffusion V2; Kandinsky2-2; și Stable Diffusion XL. Autorii au selectat manual o imagine care încalcă drepturile de autor și una neîncălcătoare din fiecare dintre modele, ajungând la 60 de exemple pozitive și 60 de exemple negative.
Metodele de bază selectate pentru comparație au fost: L2 norm; Similaritatea perceptuală a patch-urilor de imagine învățate (LPIPS); SSCD; RLCP; și PDF-Emb. Pentru metrice, acuratețea și scorul F1 au fost utilizate ca criterii pentru încălcare.
GPT-4o a fost utilizat pentru a popula echipele de dezbateri interne ale CopyJudge, utilizând trei agenți pentru un maxim de cinci iterații pe orice imagine încărcată în parte. Trei imagini aleatorii din fiecare notare din D-Rep au fost utilizate ca priori umane pentru agenții care le-au luat în considerare.

Rezultatele încălcării pentru CopyJudge în prima rundă.
Dintre aceste rezultate, autorii comentază:
‘[Este] evident că metodele tradiționale de detectare a copiilor de imagine prezintă limitări în sarcina de identificare a încălcării drepturilor de autor. Abordarea noastră depășește semnificativ majoritatea metodelor. Pentru metoda de ultimă oră, PDF-Emb, care a fost antrenată pe 36.000 de exemple din D-Rep, performanța noastră pe D-Rep este ușor inferioară.
‘Cu toate acestea, performanța sa slabă pe setul de date Cartoon IP și Artwork subliniază lipsa de capacitate de generalizare, în timp ce metoda noastră demonstrează rezultate excelente în toate seturile de date.’
Autorii notează de asemenea că CopyJudge oferă o “graniță relativă” mai distinctă între cazurile valabile și cele care încalcă drepturile de autor:

Mai multe exemple din rundele de testare, în materialul suplimentar din noul articol.
Cercetătorii au comparat metodele lor cu o colaborare implicând Sony AI din 2024, intitulată Detectarea, explicarea și mitigarea memorizării în modelele de difuzie. Această lucrare a utilizat un model de difuzie stabil finisat, care prezintă 200 de imagini memorizate (adică supraantrenate), pentru a elicita date protejate de drepturi de autor în timpul inferenței.
Autorii noii lucrări au constatat că propria lor metodă de mitigare a promt-urilor, comparativ cu abordarea din 2024, a fost capabilă să producă imagini mai puțin susceptibile de a cauza încălcări.

Rezultatele mitigării memorizării cu CopyJudge comparativ cu lucrarea din 2024.
Autorii comentază aici:
‘[Abordarea noastră] poate genera imagini care sunt mai puțin susceptibile de a cauza încălcări, în timp ce menține o acuratețe de potrivire a imaginii-text comparabilă, ușor redusă. Așa cum se arată în [imaginea de mai jos], metoda noastră evită deficiențele metodei [anterioare], inclusiv incapacitatea de a mitiga memorizarea sau generarea de imagini puternic deviate.’

Comparație a imaginilor generate și a promt-urilor înainte și după mitigarea memorizării.
Concluzie
Deși studiul prezintă o abordare promițătoare pentru protecția drepturilor de autor în imagini generate de IA, dependența de modelele de vedere-lingvistică mare (LVLM) pentru detectarea încălcării drepturilor de autor poate ridica îngrijorări cu privire la prejudecăți și coerență, deoarece judecățile conduse de IA nu sunt întotdeauna aliniate cu standardele legale.
Poate cel mai important, proiectul presupune de asemenea că aplicarea legii poate fi automatizată, în ciuda deciziilor legale din lumea reală care implică adesea factori subiectivi și contextuali pe care IA ar putea să nu-i poată interpreta.
În lumea reală, automatizarea consensului legal, mai ales în ceea ce privește ieșirile de la IA, pare să rămână o problemă controversată mult după această perioadă și mult dincolo de domeniul abordat în această lucrare.
Publicat pentru prima dată luni, 24 februarie 2025












