Kontakt med oss

Andersons vinkel

Automatisering av opphavsrettsbeskyttelse i AI-genererte bilder

mm
ChatGPT-4o: ' 1792x1024px bilde av et frontbilde av en britisk høyesterettsdomstol sammensatt av tre roboter i rettsparykker. De undersøker alle et 8x10 fotografi, men vi kan ikke se hva fotografiet er, fordi ryggen er mot oss. HQ, filmisk stillbilde'

Som diskutert forrige uke, selv kjernegrunnmodellene bak populære generative AI-systemer kan produsere opphavsrettskrenkende innhold, pga. utilstrekkelig eller feiljustert kurering, samt tilstedeværelsen av flere versjoner av det samme bildet i treningsdata, noe som fører til overtilpassing, og øker sannsynligheten for gjenkjennelige reproduksjoner.

Til tross for forsøk på å dominere det generative AI-området, og økende press for å begrense IP-krenkelser, fortsetter store plattformer som MidJourney og OpenAIs DALL-E å Ansikts utfordringer for å forhindre utilsiktet reproduksjon av opphavsrettsbeskyttet innhold:

Generative systems kapasitet til å reprodusere opphavsrettsbeskyttede data dukker regelmessig opp i media.

Generative systems kapasitet til å reprodusere opphavsrettsbeskyttede data dukker regelmessig opp i media.

Etter hvert som nye modeller dukker opp, og som kinesiske modeller få dominans, undertrykkelse av opphavsrettsbeskyttet materiale i grunnmodeller er et tyngende perspektiv; faktisk erklærte markedsleder open.ai i fjor at det er det 'umulig' å lage effektive og nyttige modeller uten opphavsrettsbeskyttet data.

Kjent teknikk

Når det gjelder den utilsiktede genereringen av opphavsrettsbeskyttet materiale, står forskningsscenen overfor en lignende utfordring som inkluderingen av porno og annet NSFW-materiale i kildedata: man vil ha nytte av kunnskapen (dvs. korrekt menneskelig anatomi, som historisk sett alltid har vært det basert på nakenstudier) uten kapasitet til å misbruke det.

På samme måte ønsker modellprodusenter fordelen av det enorme omfanget av opphavsrettsbeskyttet materiale som finner veien inn i hyperskalasett som f.eks. LAION, uten at modellen utvikler kapasitet til å faktisk krenke IP.

Hvis man ser bort fra de etiske og juridiske risikoene ved å forsøke å skjule bruken av opphavsrettsbeskyttet materiale, er filtrering for sistnevnte tilfelle betydelig mer utfordrende. NSFW-innhold inneholder ofte distinkt latent på lavt nivå egenskaper som muliggjør stadig mer effektiv filtrering uten å kreve direkte sammenligninger med materiale fra den virkelige verden. Derimot latente innebygginger som definerer millioner av opphavsrettsbeskyttede verk, reduseres ikke til et sett med lett identifiserbare markører, noe som gjør automatisert gjenkjenning langt mer kompleks.

CopyJudge

Menneskelig dømmekraft er en knapp og dyr vare, både i kuratering av datasett og i opprettelsen av etterbehandlingsfiltre og «sikkerhetsbaserte» systemer som er utformet for å sikre at IP-låst materiale ikke leveres til brukerne av API-baserte portaler som MidJourney og bildegenereringskapasiteten til ChatGPT.

Derfor tilbyr et nytt akademisk samarbeid mellom Sveits, Sony AI og Kina CopyJudge – en automatisert metode for å orkestrere suksessive grupper av samarbeidende ChatGPT-baserte «dommere» som kan undersøke innspill for tegn på sannsynlig brudd på opphavsretten.

CopyJudge evaluerer ulike IP-fringende AI-generasjoner. Kilde: https://arxiv.org/pdf/2502.15278

CopyJudge evaluerer ulike IP-fringende AI-generasjoner. Kilde: https://arxiv.org/pdf/2502.15278

CopyJudge tilbyr effektivt et automatisert rammeverk som utnytter store vision-language-modeller (LVLM) for å fastslå betydelig likhet mellom opphavsrettsbeskyttede bilder og de som produseres av tekst-til-bilde-diffusjonsmodeller.

CopyJudge-tilnærmingen bruker forsterkende læring for å optimalisere opphavsrettskrenkende forespørsler, og bruker deretter informasjon fra slike forespørsler for å lage nye forespørsler som er mindre sannsynlig å påberope seg opphavsrettslige bilder.

CopyJudge-tilnærmingen bruker forsterkende læring og andre tilnærminger for å optimalisere opphavsrettskrenkende forespørsler, og bruker deretter informasjon fra slike forespørsler for å lage nye forespørsler som er mindre sannsynlig å påberope seg opphavsrettslige bilder.

Selv om mange nettbaserte AI-baserte bildegeneratorer filtrerer brukernes forespørsler for NSFW, opphavsrettsbeskyttet materiale, gjenskaping av ekte mennesker og diverse andre forbudte domener, bruker CopyJudge i stedet raffinerte «krenkende» forespørsler for å lage «sanerte» forespørsler som minst sannsynlig vil fremkalle ikke-tillatte bilder, uten hensikten å direkte blokkere brukerens innsending.

Selv om dette ikke er en ny tilnærming, går det et stykke mot å frigjøre API-baserte generative systemer fra å bare nekte brukerinndata (ikke minst fordi dette lar brukere utvikle bakdør-tilgang til ikke-tillatte generasjoner, gjennom eksperimentering).

Når en slik nylig utnyttelse (siden stengt av utviklerne) tillot brukere å generere pornografisk materiale på den generative AI-plattformen Kling ganske enkelt ved å inkludere et fremtredende kryss, eller krusifiks, i bildet lastet opp i en bilde-til-video-arbeidsflyt.

I et smutthull lappet av Kling-utviklere i slutten av 2024, kunne brukere tvinge systemet til å produsere forbudte NSFW-videoer ganske enkelt ved å kreve at et kors eller krusifiks skal være fremtredende i starten av videoen. Selv om det ikke har vært noen forklaring på logikken bak dette nå utløpte hacket, kan man forestille seg at det var designet for å tillate 'akseptabel' religiøs kristen (mannlig) nakenhet i skildringer av en korsfestelse; og at påkalling av et "kryss"-bilde effektivt "låste opp" bredere NSFW-utgang; men vi vet kanskje aldri! Kilde: Discord

I et smutthull lappet av Kling-utviklere på slutten av 2024, kunne brukere tvinge systemet til å produsere forbudt NSFW-utgang ganske enkelt ved å inkludere et kryss eller krusifiks i I2V-frøbildet. Det har ikke vært noen forklaring på logikken bak dette nå utløpte hacket.  Kilde: Discord

Tilfeller som dette understreker behovet for rask desinfisering i generative systemer på nettet, ikke minst siden maskinavlæring, der selve grunnmodellen er endret for å fjerne forbudte konsepter, kan ha uønskede effekter på den endelige modellens brukervennlighet.

For å søke mindre drastiske løsninger, etterligner CopyJudge-systemet menneskebaserte juridiske dommer ved å bruke AI til å dele opp bilder i nøkkelelementer som komposisjon og farger, for å filtrere ut deler som ikke er opphavsrettsbeskyttet, og sammenligne det som gjenstår. Den inkluderer også en AI-drevet metode for å justere forespørsler og endre bildegenerering, noe som bidrar til å unngå opphavsrettsproblemer samtidig som kreativt innhold bevares.

Forfatterne hevder at eksperimentelle resultater demonstrerer CopyJudges ekvivalens med toppmoderne tilnærminger i denne bestrebelsen, og indikerer at systemet viser overlegen generalisering og tolkbarhet, sammenlignet med tidligere arbeider.

Ocuco nytt papir har tittelen CopyJudge: Automated Copyright Infringement Identification and Mitigation in Text-to-Image Diffusion Models, og kommer fra fem forskere fra EPFL, Sony AI og Kinas Westlake University.

Metode

Selv om CopyJudge bruker GPT til å lage rullerende tribunaler med automatiserte dommere, understreker forfatterne at systemet ikke er optimalisert for OpenAIs produkt, og at et hvilket som helst antall alternative Large Vision Language Models (LVLM-er) kan brukes i stedet.

I første omgang kreves forfatternes abstraksjon-filtrerings-sammenligningsrammeverk for å dekomponere kildebilder i bestanddeler, som illustrert på venstre side av skjemaet nedenfor:

Konseptuellt skjema for den innledende fasen av CopyJudge-arbeidsflyten.

Konseptuellt skjema for den innledende fasen av CopyJudge-arbeidsflyten.

I nedre venstre hjørne ser vi en filtreringsagent som bryter ned bildedelene i et forsøk på å identifisere egenskaper som kan være hjemmehørende i et opphavsrettsbeskyttet verk på konsert, men som i seg selv ville være for generisk til å kvalifisere som et brudd.

Flere LVLM-er brukes deretter til å evaluere de filtrerte elementene – en tilnærming som har vist seg effektiv i artikler som 2023 CSAIL tilby Forbedring av fakta og resonnement i språkmodeller gjennom multiagentdebattog ChatEval, blant diverse andre anerkjent i den nye avisen.

Forfatterne sier:

«[Vi] bruker en fullstendig tilnærming til synkron kommunikasjonsdebatt, der hver LVLM mottar [svarene] fra de [andre] LVLM-ene før de tar neste vurdering. Dette skaper en dynamisk tilbakemeldingssløyfe som styrker påliteligheten og dybden i analysen, ettersom modellene tilpasser sine evalueringer basert på ny innsikt presentert av sine kolleger.

«Hver LVLM kan justere poengsummen sin basert på svarene fra de andre LVLM-ene eller beholde den uendret.»

Flere par bilder scoret av mennesker er også inkludert i prosessen via kontekstbasert læring med få bilder.

Når «tribunalene» i loopen har kommet frem til en konsensuspoengsum som er innenfor akseptabelt område, sendes resultatene videre til en «metadommer», LVLM, som syntetiserer resultatene til en endelig poengsum.

Begrensning

Deretter konsentrerte forfatterne seg om prompt-reduksjonsprosessen beskrevet tidligere.

CopyJudges skjema for å redusere brudd på opphavsrett ved å avgrense forespørsler og latent støy. Systemet justerer forespørsler iterativt basert på iterativ tilbakemelding og bruker forsterkningslæring for å modifisere latente variabler, noe som reduserer risikoen for brudd.

CopyJudges skjema for å redusere brudd på opphavsretten ved å forbedre prompter og latent støy. Systemet justerer promptene iterativt, og bruker forsterkningslæring for å modifisere latente variabler etter hvert som promptene utvikler seg, noe som forhåpentligvis reduserer risikoen for brudd.

De to metodene som ble brukt for rask avbøtning var LVLM-basert promptkontroll, hvor effektive ikke-krenkende prompter utvikles iterativt på tvers av GPT-klynger – en tilnærming som er fullstendig «svart boks», som ikke krever intern tilgang til modellarkitekturen; og en forsterkning læring-basert (RL-basert) tilnærming, der belønningen er utformet for å straffe utdata som krenker opphavsretten.

Data og tester

For å teste CopyJudge ble ulike datasett brukt, bl.a D-Rep, som inneholder ekte og falske bildepar scoret av mennesker med en rangering fra 0-5.

Utforsker D-Rep-datasettet på Hugging Face. Denne samlingen parer ekte og genererte bilder. Kilde: https://huggingface.co/datasets/WenhaoWang/D-Rep/viewer/default/

Utforsker D-Rep-datasettet på Hugging Face. Denne samlingen parer ekte og genererte bilder. Kilde: https://huggingface.co/datasets/WenhaoWang/D-Rep/viewer/default/

CopyJudge-skjemaet betraktet D-Rep-bilder som fikk 4 eller flere poeng som eksempler på brudd, mens resten holdt tilbake som ikke-IP-relevante. De 4000 offisielle bildene i datasettet ble brukt som for testbilder. Videre valgte og kuraterte forskerne bilder for 10 kjente tegneseriefigurer fra Wikipedia.

De tre diffusjonsbaserte arkitekturene som ble brukt til å generere potensielt krenkende bilder var Stabil diffusjon V2; Kandinsky 2-2, Og Stabil diffusjon XL. Forfatterne valgte manuelt et krenkende bilde og et ikke-krenkende bilde fra hver av modellene, og kom frem til 60 positive og 60 negative prøver.

Grunnlinjemetodene valgt for sammenligning var: L2 norm; Lært Perceptual Image Patch Similarity (LPIPS); SSCD; RLCP, Og PDF-Emb. For beregninger, nøyaktighet og F1-poengsum ble brukt som kriterier for overtredelse.

GPT-4o ble brukt for å fylle de interne debattteamene til CopyJudge, ved å bruke tre agenter for maksimalt fem iterasjoner på et bestemt innsendt bilde. En tilfeldig tre bilder fra hver gradering i D-Rep ble brukt som menneske tidligere for agentene å vurdere.

Krenkelsesresultater for CopyJudge i første runde.

Krenkelsesresultater for CopyJudge i første runde.

Av disse resultatene kommenterer forfatterne:

«[Det] er tydelig at tradisjonelle metoder for bildekopiering har begrensninger i identifiseringsoppgaven for brudd på opphavsrett. Vår tilnærming overgår de fleste metoder betydelig. For den toppmoderne metoden, PDF-Emb, som ble trent på 36,000 XNUMX prøver fra D-Rep, er vår ytelse på D-Rep litt dårligere.

«Imidlertid fremhever den dårlige ytelsen på Cartoon IP- og Artwork-datasettet mangelen på generaliseringsevne, mens metoden vår viser like utmerkede resultater på tvers av datasett.»

Forfatterne bemerker også at CopyJudge gir en «relativt» tydeligere grense mellom gyldige og krenkende saker:

Ytterligere eksempler fra testrundene, i tilleggsmaterialet fra den nye oppgaven.

Ytterligere eksempler fra testrundene, i tilleggsmaterialet fra den nye oppgaven.

Forskerne sammenlignet metodene deres med en Sony AI-involvert samarbeid fra 2024 med tittelen Oppdage, forklare og redusere memorering i diffusjonsmodeller. Dette verket brukte en finjustert stabil diffusjonsmodell med 200 lagrede (dvs. overmonterte) bilder, for å få frem opphavsrettsbeskyttede data på slutningstidspunktet.

Forfatterne av det nye arbeidet fant ut at deres egen prompte reduksjonsmetode, kontra 2024-tilnærmingen, var i stand til å produsere bilder med mindre sannsynlighet for å forårsake krenkelse.

Resultater av minnebegrensning med CopyJudge satt opp mot 2024-arbeidet.

Resultater av minnebegrensning med CopyJudge satt opp mot 2024-arbeidet.

Forfatterne kommenterer her:

«[Vår] tilnærming kan generere bilder som har mindre sannsynlighet for å forårsake brudd på regelverket, samtidig som den opprettholder en sammenlignbar, noe redusert samsvarsnøyaktighet. Som vist på [bildet nedenfor], unngår metoden vår effektivt manglene ved [den forrige] metoden, inkludert manglende evne til å redusere memorering eller generering av svært avvikende bilder.»

Sammenligning av genererte bilder og meldinger før og etter avbøtende memorering.

Sammenligning av genererte bilder og meldinger før og etter avbøtende memorering.

Forfatterne kjørte ytterligere tester med hensyn til å redusere brudd, og studerte eksplisitt og implisitt overtredelse.

Eksplisitt brudd oppstår når forespørsler direkte refererer til opphavsrettsbeskyttet materiale, som f.eks «Lag et bilde av Mikke Mus». For å teste dette brukte forskerne 20 tegneserie- og kunsteksempler, og genererte krenkende bilder i Stable Diffusion v2 med spørsmål som eksplisitt inkluderte navn eller forfatterattribusjoner.

En sammenligning mellom forfatternes Latent Control (LC)-metode og tidligere arbeids Prompt Control (PC)-metode, i forskjellige variasjoner, ved å bruke Stable Diffusion for å lage bilder som viser eksplisitt overtredelse.

En sammenligning mellom forfatternes Latent Control (LC)-metode og det tidligere arbeidets Prompt Control (PC)-metode, i ulike varianter, ved bruk av stabil diffusjon for å lage bilder som viser eksplisitt krenkelse.

Implisitt krenkelse oppstår når en forespørsel mangler eksplisitte opphavsrettsreferanser, men likevel resulterer i et krenkende bilde på grunn av visse beskrivende elementer – et scenario som er spesielt relevant for kommersielle tekst-til-bilde-modeller, som ofte inkluderer innholdsdeteksjonssystemer for å identifisere og blokkere opphavsrettsrelaterte meldinger.

For å utforske dette brukte forfatterne de samme IP-låste eksemplene som i den eksplisitte krenkelsestesten, men genererte krenkende bilder uten direkte opphavsrettsreferanser ved hjelp av DALL-E 3 (selv om artikkelen bemerker at modellens innebygde sikkerhetsdeteksjonsmodul ble observert å avvise visse forespørsler som utløste filtrene).

Implisitt brudd ved bruk av DALLE-3, med brudd og CLIP-score.

Implisitt brudd ved bruk av DALLE-3, med brudd og CLIP-score.

Forfatterne sier:

«[Det] kan sees at metoden vår reduserer sannsynligheten for krenkelse betydelig, både for eksplisitt og implisitt krenkelse, med bare et lite fall i CLIP-score. Overtredelsesskåren etter kun latent kontroll er relativt høyere enn etter umiddelbar kontroll fordi det er ganske utfordrende å hente ikke-krenkende latenter uten å endre ledeteksten. Vi kan imidlertid fortsatt effektivt redusere bruddpoengene samtidig som vi opprettholder høyere bilde-tekst-samsvarskvalitet.

«[Bildet nedenfor] viser visualiseringsresultater, der det kan observeres at vi unngår brudd på IP-rettigheter samtidig som vi ivaretar brukerkravene.»

Genererte bilder før og etter bekjempelse av IP-brudd.

Genererte bilder før og etter bekjempelse av IP-brudd.

Konklusjon

Selv om studien presenterer en lovende tilnærming til opphavsrettsbeskyttelse i AI-genererte bilder, kan avhengigheten av store vision-language-modeller (LVLM) for brudddeteksjon vekke bekymringer om skjevheter og konsistens, siden AI-drevne dommer kanskje ikke alltid stemmer overens med juridiske standarder.

Kanskje viktigst av alt, antar prosjektet også at håndheving av opphavsrett kan automatiseres, til tross for juridiske avgjørelser i den virkelige verden som ofte involverer subjektive og kontekstuelle faktorer som AI kan slite med å tolke.

I den virkelige verden ser det ut til at automatiseringen av juridisk konsensus, spesielt rundt utdata fra AI, sannsynligvis vil forbli et omstridt spørsmål langt utover denne tiden, og langt utenfor omfanget av domenet som behandles i dette arbeidet.

 

Først publisert mandag 24. februar 2025

Forfatter på maskinlæring, domenespesialist i menneskelig bildesyntese. Tidligere leder for forskningsinnhold hos Metaphysic.ai.
Personlig side: martinanderson.ai
Kontakt: [e-postbeskyttet]
Twitter: @manders_ai