Kunstig intelligens
Ekte identiteter kan gjenopprettes fra syntetiske datasett

Hvis 2022 markerte øyeblikket da generative AIs forstyrrende potensiale først fanget bred offentlig oppmerksomhet, har 2024 vært året da spørsmål om lovligheten av dens underliggende data har vært i sentrum for bedrifter som er ivrige etter å utnytte kraften.
USAs doktrinen om rettferdig bruk, sammen med den implisitte vitenskapelige lisensen som lenge hadde tillatt akademiske og kommersielle forskningssektorer å utforske generativ AI, ble stadig mer uholdbar ettersom bevis på plagiat dukket opp. Senere har USA for øyeblikket ikke tillatt AI-generert innhold fra å være opphavsrettsbeskyttet.
Disse sakene er langt fra avgjort, og langt fra å bli løst umiddelbart; i 2023, delvis på grunn av økende media og offentlig bekymring om den juridiske statusen til AI-generert produksjon, lanserte US Copyright Office en årelang undersøkelse av dette aspektet av generativ AI, publisering det første segmentet (angående digitale kopier) i juli 2024.
I mellomtiden forblir forretningsinteresser frustrert over muligheten for at de dyre modellene de ønsker å utnytte kan utsette dem for juridiske konsekvenser når endelig lovgivning og definisjoner til slutt dukker opp.
Den dyre kortsiktige løsningen har vært å legitimere generative modeller ved å trene dem på data som selskaper har rett til å utnytte. Adobes tekst-til-bilde (og nå tekst-til-video) Firefly-arkitekturen drives først og fremst av dens Kjøp av Fotolia-lagerbildedatasettet i 2014, supplert ved bruk av opphavsrettslig utløpt offentlig domenedata*. Samtidig har sittende lagerfotoleverandører som Getty og Shutterstock kapitalisert på den nye verdien av deres lisensierte data, med et økende antall avtaler for å lisensiere innhold eller ellers utvikle sine egne IP-kompatible GenAI-systemer.
Syntetiske løsninger
Siden fjerning av opphavsrettsbeskyttet data fra de trente latent rom av en AI-modell er fylt med problemer, kan feil på dette området potensielt være svært kostbare for selskaper som eksperimenterer med forbruker- og forretningsløsninger som bruker maskinlæring.
En alternativ og mye billigere løsning for datasynssystemer (og også Store språkmodeller, eller LLM-er), er bruken av syntetiske data, der datasettet er sammensatt av tilfeldig genererte eksempler på måldomenet (som ansikter, katter, kirker eller til og med et mer generalisert datasett).
Nettsteder som thispersondoesnotexist.com populariserte for lenge siden ideen om at autentiske bilder av «ikke-ekte» mennesker kunne syntetiseres (i det aktuelle tilfellet gjennom Generative Adversarial Networks, eller Gans) uten å ha noe forhold til mennesker som faktisk eksisterer i den virkelige verden.
Derfor, hvis du trener et ansiktsgjenkjenningssystem eller et generativt system på slike abstrakte og ikke-virkelige eksempler, kan du i teorien oppnå en fotorealistisk standard for produktivitet for en AI-modell uten å måtte vurdere om dataene er lovlig brukbare.
Balansering loven
Problemet er at systemene som produserer syntetiske data selv er trent på ekte data. Hvis spor av disse dataene strømmer inn i de syntetiske dataene, gir dette potensielt bevis på at begrenset eller på annen måte uautorisert materiale har blitt utnyttet for økonomisk vinning.
For å unngå dette, og for å produsere virkelig «tilfeldige» bilder, må slike modeller sørge for at de er godt-generalisert. Generalisering er målet på en trent AI-modells evne til å forstå konsepter på høyt nivå (som 'ansikt', 'Mann', eller 'kvinne') uten å ty til å replikere de faktiske treningsdataene.
Dessverre kan det være vanskelig for trente systemer å produsere (eller gjenkjenne) granulære detaljer med mindre den trener ganske mye på et datasett. Dette utsetter systemet for risiko for memorering: en tendens til å gjengi, til en viss grad, eksempler på de faktiske treningsdataene.
Dette kan dempes ved å sette en mer avslappet læringsfrekvens, eller ved å avslutte opplæringen på et stadium der kjernekonseptene fortsatt er duktile og ikke assosiert med noe spesifikt datapunkt (for eksempel et spesifikt bilde av en person, i tilfelle av et ansiktsdatasett).
Imidlertid vil begge disse løsningene sannsynligvis føre til modeller med mindre finkornet detaljrikdom, siden systemet ikke fikk en sjanse til å gå utover det «grunnleggende» i måldomenet, og ned til detaljene.
Derfor brukes generelt svært høye læringsrater og omfattende treningsplaner i vitenskapelig litteratur. Selv om forskere vanligvis prøver å komme overens med et kompromiss mellom bred anvendelighet og granularitet i den endelige modellen, kan selv litt «memoriserte» systemer ofte fremstille seg selv som godt generaliserte – selv i innledende tester.
Ansiktsavsløring
Dette bringer oss til en interessant ny artikkel fra Sveits, som hevder å være den første som demonstrerer at de originale, ekte bildene som driver syntetiske data kan gjenopprettes fra genererte bilder som i teorien burde være helt tilfeldige:

Eksempler på ansiktsbilder lekket fra treningsdata. I raden over ser vi de originale (ekte) bildene; i raden nedenfor ser vi bilder generert tilfeldig, som stemmer vesentlig overens med de virkelige bildene. Kilde: https://arxiv.org/pdf/2410.24015
Resultatene, argumenterer forfatterne, indikerer at «syntetiske» generatorer faktisk har memorert en rekke av treningsdatapunktene i sin søken etter større granularitet. De indikerer også at systemer som er avhengige av syntetiske data for å beskytte AI-produsenter mot juridiske konsekvenser, kan være svært upålitelige i denne forbindelse.
Forskerne utførte en omfattende studie på seks avanserte syntetiske datasett, og demonstrerte at originale (potensielt opphavsrettsbeskyttede eller beskyttede) data i alle tilfeller kan gjenopprettes. De kommenterer:
«Våre eksperimenter viser at state-of-the-art datasett for syntetisk ansiktsgjenkjenning inneholder prøver som er svært nær prøver i treningsdataene til generatormodellene deres. I noen tilfeller inneholder de syntetiske prøvene små endringer i det originale bildet, men vi kan også observere i noen tilfeller at den genererte prøven inneholder mer variasjon (f.eks. forskjellig positur, lystilstand, etc.) mens identiteten er bevart.
«Dette tyder på at generatormodellene lærer og memorerer identitetsrelatert informasjon fra treningsdataene og kan generere lignende identiteter. Dette skaper kritiske bekymringer angående bruken av syntetiske data i personvernsensitive oppgaver, som biometri og ansiktsgjenkjenning.»
Ocuco papir har tittelen Avduking av syntetiske ansikter: Hvordan syntetiske datasett kan avsløre ekte identiteter, og kommer fra to forskere på tvers av Idiap Research Institute i Martigny, École Polytechnique Fédérale de Lausanne (EPFL), og Université de Lausanne (UNIL) i Lausanne.
Metode, data og resultater
De memorerte ansiktene i studien ble avslørt av Medlemskapsslutningsangrep. Selv om konseptet høres komplisert ut, er det ganske selvforklarende: å utlede medlemskap, i dette tilfellet, refererer til prosessen med å stille spørsmål ved et system inntil det avslører data som enten samsvarer med dataene du leter etter, eller som i betydelig grad ligner dem.

Ytterligere eksempler på utledede datakilder, fra studien. I dette tilfellet er de syntetiske kildebildene fra DCFace-datasettet.
Forskerne studerte seks syntetiske datasett som den (virkelige) datasettkilden var kjent for. Siden både de aktuelle og de falske datasettene alle inneholder et veldig høyt volum av bilder, er dette effektivt som å lete etter en nål i en høystakk.
Derfor brukte forfatterne en standard ansiktsgjenkjenningsmodell† med ResNet100 ryggrad trent på AdaFace tap funksjon (på WebFace12M datasett).
De seks syntetiske datasettene som ble brukt var: DCFace (en latent diffusjonsmodell); IDiff-Face (Uniform – en diffusjonsmodell basert på FFHQ); IDiff-Face (To-trinns – en variant som bruker en annen prøvetakingsmetode); GANDiffFace (basert på Generative Adversarial Networks og diffusjonsmodeller, ved hjelp av StyleGAN3 å generere innledende identiteter, og deretter drømmebod å lage varierte eksempler); IDNet (en GAN-metode, basert på StyleGAN-ADA); og SFace (et identitetsbeskyttende rammeverk).
Siden GANDiffFace bruker både GAN- og diffusjonsmetoder, ble det sammenlignet med treningsdatasettet til StyleGAN – det nærmeste et «ekte» opphav som dette nettverket tilbyr.
Forfatterne ekskluderte syntetiske datasett som bruker CGI i stedet for AI-metoder, og ved evaluering av resultater rabatterte treff for barn, på grunn av distribusjonsavvik i denne forbindelse, så vel som ikke-ansiktsbilder (som ofte kan forekomme i ansiktsdatasett, der nettskraping) systemer produserer falske positiver for gjenstander eller gjenstander som har ansiktslignende egenskaper).
Cosinus likhet ble beregnet for alle de hentede parene, og satt sammen til histogrammer, illustrert nedenfor:

En histogramrepresentasjon for cosinuslikhetspoeng beregnet på tvers av de forskjellige datasettene, sammen med deres relaterte likhetsverdier for topp-k-parene (stiplede vertikale linjer).
Antall likheter er representert i toppene i grafen ovenfor. Oppgaven inneholder også eksempler på sammenligninger fra de seks datasettene, og deres tilsvarende estimerte bilder i de originale (ekte) datasettene, hvorav noen utvalg er omtalt nedenfor:

Eksempler fra de mange instansene som er gjengitt i kildeartikkelen, som leseren henvises til for et mer omfattende utvalg.
Avisen kommenterer:
«[De] genererte syntetiske datasettene inneholder svært like bilder fra treningssettet til generatormodellen deres, noe som gir grunn til bekymring angående genereringen av slike identiteter.»
Forfatterne bemerker at for denne spesielle tilnærmingen vil oppskalering til datasett med større volum sannsynligvis være ineffektiv, da den nødvendige beregningen vil være ekstremt byrdefull. De observerer videre at visuell sammenligning var nødvendig for å utlede treff, og at automatisert ansiktsgjenkjenning alene sannsynligvis ikke ville være tilstrekkelig for en større oppgave.
Om implikasjonene av forskningen, og med tanke på veier videre, heter det i arbeidet:
«[Vi] vil fremheve at hovedmotivasjonen for å generere syntetiske datasett er å ta opp personvernhensyn ved bruk av store nettgjennomsøkte ansiktsdatasett.
«Derfor gir lekkasje av sensitiv informasjon (som identiteten til ekte bilder i treningsdataene) i det syntetiske datasettet opphav til kritiske bekymringer angående bruken av syntetiske data for personvernsensitive oppgaver, som biometri. Studien vår belyser personvernfallgruvene ved generering av syntetiske ansiktsgjenkjenningsdatasett og baner vei for fremtidige studier mot å generere ansvarlige syntetiske ansiktsdatasett.»
Selv om forfatterne lover en kodeutgivelse for dette arbeidet på Prosjektet siden, det er ingen gjeldende depotkobling.
Konklusjon
I det siste har medieoppmerksomhet lagt vekt på avtagende avkastning oppnådd ved å trene AI-modeller på AI-genererte data.
Den nye sveitsiske forskningen setter imidlertid fokus på et hensyn som kan være mer presserende for det økende antallet selskaper som ønsker å utnytte og tjene på generativ AI – vedvarende IP-beskyttede eller uautoriserte datamønstre, selv i datasett som er utviklet for å bekjempe denne praksisen. Hvis vi måtte gi det en definisjon, kunne det i dette tilfellet kalles «ansiktsvask».
* Adobes beslutning om å tillate brukeropplastede AI-genererte bilder til Adobe Stock har imidlertid effektivt undergravd den juridiske «renheten» til disse dataene. Bloomberg hevdet i april 2024 at brukerleverte bilder fra det generative AI-systemet MidJourney hadde blitt integrert i Fireflys funksjoner.
† Denne modellen er ikke identifisert i papiret.
Først publisert onsdag 6. november 2024