Anslut dig till vårt nätverk!

Andersons vinkel

Automatisera upphovsrättsskydd i AI-genererade bilder

mm
ChatGPT-4o: ' 1792x1024px bild av en vy framifrån av en brittisk högsta domstol bestående av tre robotar i rättsliga peruker. De undersöker alla ett 8x10 fotografi, men vi kan inte se vad fotografiet är, eftersom dess baksida är mot oss. HQ, filmisk stillbild'

Såsom diskuterats förra veckan, även grundmodellerna bakom populära generativa AI-system kan producera upphovsrättskränkande innehåll, p.g.a. otillräcklig eller felaktig kurering, samt närvaron av flera versioner av samma bild i träningsdata, vilket leder till överanpassning, och ökar sannolikheten för igenkännbara reproduktioner.

Trots ansträngningar att dominera det generativa AI-utrymmet och ökande tryck för att stävja IP-intrång, fortsätter stora plattformar som MidJourney och OpenAI:s DALL-E att möta motsånd för att förhindra oavsiktlig reproduktion av upphovsrättsskyddat innehåll:

Generativa systems förmåga att reproducera upphovsrättsskyddad data dyker upp regelbundet i media.

Generativa systems förmåga att reproducera upphovsrättsskyddad data dyker upp regelbundet i media.

När nya modeller dyker upp, och som kinesiska modeller få dominans, är undertryckandet av upphovsrättsskyddat material i grundmodeller en betungande framtid; i själva verket förklarade marknadsledaren open.ai förra året att det är det 'omöjlig' att skapa effektiva och användbara modeller utan upphovsrättsskyddad data.

Känd teknik

När det gäller den oavsiktliga genereringen av upphovsrättsskyddat material står forskningsscenen inför en liknande utmaning som att inkludera porr och annat NSFW-material i källdata: man vill ha nytta av kunskapen (dvs. rätt mänsklig anatomi, vilket historiskt sett alltid har varit baserat på nakenstudier) utan kapacitet att missbruka det.

Likaså vill modellbyggare dra nytta av den enorma omfattningen av upphovsrättsskyddat material som letar sig in i hyperskaliga uppsättningar som t.ex. Laion, utan att modellen utvecklar förmågan att faktiskt göra intrång i IP.

Om man bortser från de etiska och juridiska riskerna med att försöka dölja användningen av upphovsrättsskyddat material, är filtrering för det senare fallet betydligt mer utmanande. NSFW-innehåll innehåller ofta distinkt latent på låg nivå pass som möjliggör allt effektivare filtrering utan att kräva direkta jämförelser med material från verkligheten. Däremot latenta inbäddningar som definierar miljontals upphovsrättsskyddade verk reduceras inte till en uppsättning lätt identifierbara markörer, vilket gör automatiserad upptäckt mycket mer komplex.

CopyJudge

Mänskligt omdöme är en knapp och dyr tillgång, både vid kurering av datamängder och vid skapandet av efterbehandlingsfilter och "säkerhetsbaserade" system utformade för att säkerställa att IP-låst material inte levereras till användare av API-baserade portaler som MidJourney och ChatGPT:s bildgenereringskapacitet.

Därför erbjuder ett nytt akademiskt samarbete mellan Schweiz, Sony AI och Kina CopyJudge – en automatiserad metod för att orkestrera successiva grupper av samarbetande ChatGPT-baserade "domare" som kan granska inmatningar för tecken på sannolika upphovsrättsintrång.

CopyJudge utvärderar olika IP-fringande AI-generationer. Källa: https://arxiv.org/pdf/2502.15278

CopyJudge utvärderar olika IP-fringande AI-generationer. Källa: https://arxiv.org/pdf/2502.15278

CopyJudge erbjuder effektivt ett automatiserat ramverk som utnyttjar stora vision-språkmodeller (LVLM) för att fastställa väsentlig likhet mellan upphovsrättsskyddade bilder och de som produceras av text-till-bild-diffusionsmodeller.

CopyJudge-metoden använder förstärkningsinlärning för att optimera upphovsrättsintrång, och använder sedan information från sådana uppmaningar för att skapa nya uppmaningar som är mindre benägna att åberopa upphovsrättsliga bilder.

CopyJudge-metoden använder förstärkningsinlärning och andra tillvägagångssätt för att optimera upphovsrättsintrång, och använder sedan information från sådana uppmaningar för att skapa nya uppmaningar som är mindre benägna att åberopa upphovsrättsliga bilder.

Även om många AI-baserade bildgeneratorer online filtrerar användarnas uppmaningar för NSFW, upphovsrättsskyddat material, återskapande av riktiga människor och diverse andra förbjudna domäner, använder CopyJudge istället förfinade "intrångsgörande" uppmaningar för att skapa "sanerade" uppmaningar som minst sannolikt framkallar otillåtna bilder, utan avsikt att direkt blockera användarens bidrag.

Även om detta inte är ett nytt tillvägagångssätt, går det en bit på vägen mot att befria API-baserade generativa system från att helt enkelt vägra användarinmatning (inte minst eftersom detta tillåter användare att utveckla bakdörr-åtkomst till otillåtna generationer, genom experiment).

När en sådan nyligen utnyttjad (sedan stängd av utvecklarna) tillät användare att generera pornografiskt material på Klings generativa AI-plattform helt enkelt genom att inkludera ett framträdande kors, eller krucifix, i bilden som laddades upp i ett bild-till-video-arbetsflöde.

I ett kryphål som lappades av Kling-utvecklare i slutet av 2024 kunde användare tvinga systemet att producera förbjudna NSFW-videor helt enkelt genom att kräva att ett kors eller krucifix skulle vara framträdande i början av videon. Även om det inte har funnits någon förklaring till logiken bakom detta nu utgångna hack, kan man föreställa sig att det var utformat för att tillåta "acceptabel" religiös kristen (manlig) nakenhet i skildringar av en korsfästelse; och att anropande av en "korsbild" effektivt "låste upp" bredare NSFW-utdata; men vi kanske aldrig vet! Källa: Discord

I ett kryphål som lappades av Kling-utvecklare i slutet av 2024 kunde användare tvinga systemet att producera förbjudna NSFW-utdata helt enkelt genom att inkludera ett kors eller krucifix i I2V-fröbilden. Det har inte funnits någon förklaring till logiken bakom detta nu utgångna hack.  Källa: Discord

Exempel som detta understryker behovet av snabb sanering i onlinegenerativa system, inte minst eftersom maskinavlärning, där själva grundmodellen ändras för att ta bort förbjudna koncept, kan ha ovälkomna effekter på den slutliga modellens användbarhet.

CopyJudge-systemet söker efter mindre drastiska lösningar och efterliknar mänskliga juridiska bedömningar genom att använda AI för att dela upp bilder i nyckelelement som komposition och färg, för att filtrera bort delar som inte är upphovsrättsskyddade och jämföra det som finns kvar. Den innehåller också en AI-driven metod för att justera uppmaningar och modifiera bildgenerering, vilket hjälper till att undvika upphovsrättsproblem samtidigt som kreativt innehåll bevaras.

Experimentella resultat, menar författarna, visar att CopyJudge är likvärdig med toppmoderna metoder i denna strävan, och indikerar att systemet uppvisar överlägsna generalisering och tolkningsbarhet, i jämförelse med tidigare verk.

Ocuco-landskapet nytt papper har titeln CopyJudge: Automated Copyright Intrence Identification and Mitigation in Text-to-Image Diffusion Models, och kommer från fem forskare från EPFL, Sony AI och Kinas Westlake University.

Metod

Även om CopyJudge använder GPT för att skapa rullande tribunaler med automatiserade domare, betonar författarna att systemet inte är optimerat för OpenAIs produkt, och att ett antal alternativa Large Vision Language Models (LVLM) skulle kunna användas istället.

I första hand krävs författarnas abstraktions-filtrerings-jämförelseramverk för att dela upp källbilder i beståndsdelar, vilket illustreras på vänster sida av schemat nedan:

Konceptuellt schema för den inledande fasen av CopyJudge-arbetsflödet.

Konceptuellt schema för den inledande fasen av CopyJudge-arbetsflödet.

I det nedre vänstra hörnet ser vi en filtreringsagent som bryter ner bildsektionerna i ett försök att identifiera egenskaper som kan vara inbyggda i ett upphovsrättsskyddat verk i samverkan, men som i sig skulle vara för generiskt för att kvalificeras som en kränkning.

Flera LVLM:er används sedan för att utvärdera de filtrerade elementen – ett tillvägagångssätt som har visat sig vara effektivt i tidningar som 2023 CSAIL erbjuda Förbättra fakta och resonemang i språkmodeller genom multiagentdebattoch ChatEval, bland olika andra erkända i den nya tidningen.

Författarna säger:

"[Vi] antar en helt uppkopplad synkron kommunikationsdebattstrategi, där varje LVLM får [svaren] från de [andra] LVLM:erna innan nästa bedömning görs. Detta skapar en dynamisk återkopplingsslinga som stärker tillförlitligheten och djupet i analysen, eftersom modeller anpassar sina utvärderingar baserat på nya insikter från sina kamrater.

"Varje LVLM kan justera sin poäng baserat på svaren från de andra LVLM:erna eller behålla den oförändrad."

Flera par bilder som människor har fotograferat ingår också i processen via kontextuell inlärning med få bilder.

När "tribunalerna" i loopen har kommit fram till ett konsensusresultat som ligger inom det acceptabla intervallet, skickas resultaten vidare till en "metadomare" (LVLM), som syntetiserar resultaten till ett slutligt resultat.

Mitigation

Därefter koncentrerade författarna sig på den prompt-reducerande processen som beskrivits tidigare.

CopyJudges schema för att mildra upphovsrättsintrång genom att förfina uppmaningar och latent brus. Systemet justerar uppmaningar iterativt baserat på iterativ feedback och använder förstärkningsinlärning för att modifiera latenta variabler, vilket minskar risken för intrång.

CopyJudges schema för att mildra upphovsrättsintrång genom att förfina prompter och latent brus. Systemet justerar prompterna iterativt och använder förstärkningsinlärning för att modifiera latenta variabler allt eftersom prompterna utvecklas, vilket förhoppningsvis minskar risken för intrång.

De två metoder som användes för snabb begränsning var LVLM-baserad promptkontroll, där effektiva icke-intrångsgörande prompter utvecklas iterativt över GPT-kluster – en metod som är helt och hållet "svart låda" och inte kräver intern åtkomst till modellarkitekturen; och en förstärkning lärande-baserad (RL-baserad) metod, där belöningen är utformad för att straffa utdata som gör intrång i upphovsrätten.

Data och tester

För att testa CopyJudge användes olika datamängder, bl.a D-Rep, som innehåller äkta och falska bildpar som poängsatts av människor med betyget 0-5.

Utforska D-Rep-datauppsättningen på Hugging Face. Denna samling parar ihop verkliga och genererade bilder. Källa: https://huggingface.co/datasets/WenhaoWang/D-Rep/viewer/default/

Utforska D-Rep-datauppsättningen på Hugging Face. Denna samling parar ihop verkliga och genererade bilder. Källa: https://huggingface.co/datasets/WenhaoWang/D-Rep/viewer/default/

CopyJudge-schemat ansåg D-Rep-bilder som fick 4 eller fler poäng som exempel på intrång, medan resten hölls tillbaka som icke-IP-relevanta. De 4000 officiella bilderna i datasetet användes som för testbilder. Vidare valde og kurerade forskarna bilder för 10 kända seriefigurer från Wikipedia.

De tre diffusionsbaserade arkitekturerna som användes för att generera potentiellt inkräktande bilder var Stabil diffusion V2; Kandinsky2-2; Och Stabil Diffusion XL. Författarna valde manuellt en bild som gör intrång och en bild som inte gör intrång från var och en av modellerna, och kom fram till 60 positiva och 60 negativa prover.

Baslinjemetoderna som valdes för jämförelse var: L2 norm; Lärt Perceptual Image Patch Similarity (LPIPS); SSCD; RLCP; Och PDF-Emb. För mätvärden, noggrannhet och F1-poäng användes som kriterier för intrång.

GPT-4o användes för att fylla CopyJudges interna debattteam, med tre agenter för maximalt fem iterationer på en viss inlämnad bild. En slumpmässig tre bilder från varje gradering i D-Rep användes som människa tidigare för agenterna att överväga.

Intrångsresultat för CopyJudge i första omgången.

Intrångsresultat för CopyJudge i första omgången.

Av dessa resultat kommenterar författarna:

"[Det] är uppenbart att traditionella metoder för upptäckt av bildkopior uppvisar begränsningar i identifieringsuppgiften för upphovsrättsintrång. Vårt tillvägagångssätt överträffar de flesta metoder betydligt. För den toppmoderna metoden, PDF-Emb, som tränades på 36,000 XNUMX prover från D-Rep, är vår prestanda på D-Rep något sämre.

"Dess dåliga prestanda på Cartoon IP och Artwork-datasetet visar dock dess brist på generaliseringsförmåga, medan vår metod visar lika utmärkta resultat över olika dataset."

Författarna noterar också att CopyJudge ger en "relativt" tydligare gräns mellan giltiga fall och fall som rör intrång:

Ytterligare exempel från testomgångarna, i tilläggsmaterialet från den nya tidningen.

Ytterligare exempel från testomgångarna, i tilläggsmaterialet från den nya tidningen.

Forskarna jämförde sina metoder med en Sony AI-involverad samverkan från 2024 med titeln Upptäcka, förklara och dämpa memorering i diffusionsmodeller. Detta arbete använde en finjusterad stabil diffusionsmodell med 200 memorerade (dvs. övermonterade) bilder för att framkalla upphovsrättsskyddade data vid slutledningstidpunkten.

Författarna till det nya verket fann att deras egen snabba begränsningsmetod, jämfört med 2024-metoden, kunde producera bilder med mindre sannolikhet att orsaka intrång.

Resultat av minskning av memorering med CopyJudge ställdes mot 2024 års arbete.

Resultat av minskning av memorering med CopyJudge ställdes mot 2024 års arbete.

Författarna kommenterar här:

"[Vår] metod skulle kunna generera bilder som är mindre benägna att orsaka intrång samtidigt som de bibehåller en jämförbar, något reducerad matchningsnoggrannhet. Som visas i [bilden nedan] undviker vår metod effektivt bristerna i [den tidigare] metoden, inklusive att inte mildra memorering eller generera mycket avvikande bilder."

Jämförelse av genererade bilder och uppmaningar före och efter mildrande memorering.

Jämförelse av genererade bilder och uppmaningar före och efter mildrande memorering.

Författarna körde ytterligare tester med avseende på intrångsbegränsning, och studerade explicit och implicita överträdelse.

Explicit intrång inträffar när uppmaningar direkt refererar till upphovsrättsskyddat material, som t.ex Skapa en bild av Musse Pigg. För att testa detta använde forskarna 20 tecknade serier och konstverk, och genererade inkräktande bilder i Stable Diffusion v2 med uppmaningar som uttryckligen inkluderade namn eller tillskrivningar av författare.

En jämförelse mellan författarnas Latent Control (LC)-metod och det tidigare arbetets Prompt Control (PC)-metod, i olika varianter, med hjälp av Stable Diffusion för att skapa bilder som skildrar explicita intrång.

En jämförelse mellan författarnas Latent Control (LC)-metod och det tidigare arbetets Prompt Control (PC)-metod, i olika varianter, med användning av stabil diffusion för att skapa bilder som visar explicit intrång.

Implicit intrång uppstår när en uppmaning saknar explicita upphovsrättsliga referenser men ändå resulterar i en bild som gör intrång på grund av vissa beskrivande element – ​​ett scenario som är särskilt relevant för kommersiella text-till-bild-modeller, som ofta innehåller system för innehållsdetektering för att identifiera och blockera upphovsrättsrelaterade uppmaningar.

För att undersöka detta använde författarna samma IP-låsta exempel som i det explicita intrångstestet, men genererade intrångsbilder utan direkta upphovsrättsreferenser med hjälp av DALL-E 3 (även om artikeln noterar att modellens inbyggda säkerhetsdetekteringsmodul observerades avvisa vissa uppmaningar som utlöste dess filter).

Implicit intrång med DALLE-3, med intrångs- och CLIP-poäng.

Implicit intrång med DALLE-3, med intrångs- och CLIP-poäng.

Författarna säger:

"[Det] kan ses att vår metod avsevärt minskar sannolikheten för intrång, både för explicit och implicit intrång, med endast en liten minskning av CLIP-resultatet. Intrångspoängen efter endast latent kontroll är relativt högre än efter snabb kontroll, eftersom det är ganska utmanande att hämta icke-intrångsfria latenter utan att ändra prompten. Men vi kan fortfarande effektivt minska intrångspoängen samtidigt som vi bibehåller högre bild-textmatchningskvalitet.

'[Bilden nedan] visar visualiseringsresultat, där det kan observeras att vi undviker intrång i IP-rättigheter samtidigt som vi bibehåller användarkraven.'

Genererade bilder före och efter begränsning av IP-intrång.

Genererade bilder före och efter begränsning av IP-intrång.

Slutsats

Även om studien presenterar ett lovande tillvägagångssätt för upphovsrättsskydd i AI-genererade bilder, kan beroendet av stora vision-språkmodeller (LVLM) för att upptäcka intrång ge upphov till oro för partiskhet och konsekvens, eftersom AI-drivna bedömningar kanske inte alltid överensstämmer med juridiska standarder.

Kanske viktigast av allt, projektet antar också att upphovsrättsupprätthållandet kan automatiseras, trots verkliga rättsliga beslut som ofta involverar subjektiva och kontextuella faktorer som AI kan ha svårt att tolka.

I den verkliga världen verkar automatiseringen av juridisk konsensus, särskilt kring utdata från AI, sannolikt förbli en omtvistad fråga långt bortom denna tid och långt utanför omfattningen av den domän som behandlas i detta arbete.

 

Publicerad första gången måndagen den 24 februari 2025

Skribent på maskininlärning, domänspecialist på mänsklig bildsyntes. Tidigare chef för forskningsinnehåll på Metaphysic.ai.
Personlig sida: martinanderson.ai
Kontakt: [e-postskyddad]
Twitter: @manders_ai