Anslut dig till vÄrt nÀtverk!

Artificiell intelligens

Verkliga identiteter kan ÄterstÀllas frÄn syntetiska datamÀngder

mm
Exempel pÄ jÀmförelsebilder frÄn tidningen "Unveiling Synthetic Faces: How Synthetic Dataset Can Exposing Real Identities", inklusive originalbilder (överst) och antagna bilder (nederst).

Om 2022 var ögonblicket dÄ generativa AI:s störande potential först fÄngade bred allmÀn uppmÀrksamhet, har 2024 varit Äret dÄ frÄgor om lagligheten av dess underliggande data har hamnat i centrum för företag som Àr ivriga att utnyttja dess kraft.

USA: s doktrinen om rÀttvis anvÀndning, tillsammans med den implicita vetenskapliga licensen som lÀnge hade tillÄtit akademiska och kommersiella forskningssektorer att utforska generativ AI, blev allt mer ohÄllbar i takt med att bevis pÄ plagiat dök upp. DÀrefter har USA för tillfÀllet tillÄtet AI-genererat innehÄll frÄn att vara upphovsrÀttsskyddat.

Dessa Àrenden Àr lÄngt ifrÄn avgjorda och lÄngt ifrÄn omedelbart lösta; Är 2023, delvis beroende pÄ vÀxande media och allmÀnhetens oro om den rÀttsliga statusen för AI-genererad produktion, lanserade US Copyright Office en Är lÄng utredning av denna aspekt av generativ AI, publicering det första segmentet (angÄende digitala repliker) i juli 2024.

Under tiden förblir affÀrsintressen frustrerade över möjligheten att de dyra modeller de vill utnyttja kan utsÀtta dem för rÀttsliga konsekvenser nÀr definitiv lagstiftning och definitioner sÄ smÄningom dyker upp.

Den dyra kortsiktiga lösningen har varit att legitimera generativa modeller genom att trÀna dem pÄ data som företag har rÀtt att utnyttja. Adobes text-till-bild (och nu text-till-video) Firefly-arkitekturen drivs frÀmst av dess inköp av Fotolias stockbilddatauppsÀttning 2014, kompletteras genom att anvÀnda upphovsrÀttsligt utgÄngna offentliga data*. Samtidigt har etablerade bildleverantörer som Getty och Shutterstock aktiverade pÄ det nya vÀrdet av deras licensierade data, med ett vÀxande antal affÀrer för att licensiera innehÄll eller pÄ annat sÀtt utveckla sina egna IP-kompatibla GenAI-system.

Syntetiska lösningar

Sedan borttagning av upphovsrÀttsskyddad data frÄn den utbildade latent utrymme av en AI-modell Àr fylld av problem, kan misstag pÄ detta omrÄde potentiellt bli mycket kostsamma för företag som experimenterar med konsument- och företagslösningar som anvÀnder maskininlÀrning.

En alternativ och mycket billigare lösning för datorseendesystem (och ocksÄ Stora sprÄkmodeller, eller LLM), Àr anvÀndningen av syntetiska data, dÀr datauppsÀttningen bestÄr av slumpmÀssigt genererade exempel pÄ mÄldomÀnen (som ansikten, katter, kyrkor eller till och med en mer generaliserad datauppsÀttning).

Webbplatser som thispersondoesnotexist.com populariserade för lÀnge sedan idén att autentiska foton av "icke-verkliga" mÀnniskor kunde syntetiseras (i det specifika fallet genom Generative Adversarial Networks, eller GAN) utan att ha nÄgon relation till mÀnniskor som faktiskt existerar i den verkliga vÀrlden.

DÀrför, om du trÀnar ett ansiktsigenkÀnningssystem eller ett generativt system pÄ sÄdana abstrakta och icke-verkliga exempel, kan du i teorin fÄ en fotorealistisk produktivitetsstandard för en AI-modell utan att behöva övervÀga om data Àr lagligt anvÀndbar.

Balansakt

Problemet Àr att de system som producerar syntetisk data sjÀlva trÀnas pÄ verklig data. Om spÄr av den datan rinner igenom i den syntetiska informationen ger detta potentiellt bevis pÄ att begrÀnsat eller pÄ annat sÀtt otillÄtet material har utnyttjats för ekonomisk vinning.

För att undvika detta, och för att producera verkligt "slumpmÀssiga" bilder, mÄste sÄdana modeller se till att de Àr vÀl-generaliserad. Generalisering Àr mÄttet pÄ en trÀnad AI-modells förmÄga att i sig förstÄ övergripande koncept (som 'ansikte', 'man', eller 'kvinna') utan att behöva replikera de faktiska trÀningsdata.

TyvÀrr kan det vara svÄrt för utbildade system att producera (eller kÀnna igen) granulÀr detalj sÄvida den inte trÀnar ganska omfattande pÄ en datauppsÀttning. Detta utsÀtter systemet för risk för memorering: en tendens att i viss mÄn Äterge exempel pÄ faktiska trÀningsdata.

Detta kan mildras genom att stÀlla in en mer avslappnad inlÀrningshastighet, eller genom att avsluta utbildningen i ett skede dÀr kÀrnkoncepten fortfarande Àr formbara och inte associerade med nÄgon specifik datapunkt (som en specifik bild av en person, i fallet med en ansiktsdatauppsÀttning).

BÄda dessa ÄtgÀrder kommer dock sannolikt att leda till modeller med mindre finkorniga detaljer, eftersom systemet inte fick en chans att gÄ bortom "grunderna" i mÄldomÀnen och ner till detaljerna.

DĂ€rför tillĂ€mpas i allmĂ€nhet mycket höga inlĂ€rningshastigheter och omfattande trĂ€ningsscheman i den vetenskapliga litteraturen. Medan forskare vanligtvis försöker kompromissa mellan bred tillĂ€mpbarhet och granularitet i den slutliga modellen, kan Ă€ven nĂ„got "memorerade" system ofta framstĂ€lla sig sjĂ€lva som vĂ€lgeneraliserade – Ă€ven i inledande tester.

Ansiktsavslöjande

Detta för oss till en intressant ny artikel frÄn Schweiz, som pÄstÄr sig vara den första som visar att de ursprungliga, verkliga bilderna som driver syntetisk data kan ÄterstÀllas frÄn genererade bilder som i teorin borde vara helt slumpmÀssiga:

Exempel pÄ ansiktsbilder lÀckt frÄn trÀningsdata. I raden ovan ser vi de ursprungliga (riktiga) bilderna; i raden nedan ser vi bilder som genereras slumpmÀssigt, som stÀmmer vÀsentligt överens med de verkliga bilderna. KÀlla: https://arxiv.org/pdf/2410.24015

Exempel pÄ ansiktsbilder lÀckt frÄn trÀningsdata. I raden ovan ser vi de ursprungliga (riktiga) bilderna; i raden nedan ser vi bilder som genereras slumpmÀssigt, som stÀmmer vÀsentligt överens med de verkliga bilderna. KÀlla: https://arxiv.org/pdf/2410.24015

Resultaten, menar författarna, tyder pÄ att "syntetiska" generatorer faktiskt har memorerat en stor mÀngd av trÀningsdatapunkterna i sitt sökande efter större granularitet. De indikerar ocksÄ att system som förlitar sig pÄ syntetisk data för att skydda AI-producenter frÄn rÀttsliga konsekvenser kan vara mycket opÄlitliga i detta avseende.

Forskarna genomförde en omfattande studie pÄ sex toppmoderna syntetiska datauppsÀttningar, som visade att originaldata (potentiellt upphovsrÀttsskyddade eller skyddade) i alla fall kan ÄterstÀllas. De kommenterar:

"VÄra experiment visar att toppmoderna syntetiska ansiktsigenkÀnningsdatauppsÀttningar innehÄller prover som ligger mycket nÀra prover i trÀningsdata för deras generatormodeller. I vissa fall innehÄller de syntetiska proverna smÄ förÀndringar av originalbilden, men vi kan ocksÄ observera i vissa fall att det genererade provet innehÄller mer variation (t.ex. olika poser, ljusförhÄllanden, etc.) samtidigt som identiteten bevaras.

"Detta tyder pÄ att generatormodellerna lÀr sig och memorerar identitetsrelaterad information frÄn trÀningsdata och kan generera liknande identiteter. Detta skapar kritiska problem gÀllande tillÀmpningen av syntetiska data i integritetskÀnsliga uppgifter, sÄsom biometri och ansiktsigenkÀnning."

Ocuco-landskapet papper har titeln AvtĂ€ckning av syntetiska ansikten: Hur syntetiska datauppsĂ€ttningar kan exponera verkliga identiteter, och kommer frĂ„n tvĂ„ forskare frĂ„n Idiap Research Institute i Martigny, École Polytechnique FĂ©dĂ©rale de Lausanne (EPFL) och UniversitĂ© de Lausanne (UNIL) i Lausanne.

Metod, data och resultat

De memorerade ansiktena i studien avslöjades av Medlemskap Inferens Attack. Även om konceptet lĂ„ter komplicerat, Ă€r det ganska sjĂ€lvförklarande: att sluta sig till medlemskap, i det hĂ€r fallet, hĂ€nvisar till processen att ifrĂ„gasĂ€tta ett system tills det avslöjar data som antingen matchar den information du letar efter eller som avsevĂ€rt liknar den.

Ytterligare exempel pÄ hÀrledda datakÀllor, frÄn studien. I det hÀr fallet Àr de syntetiska kÀllbilderna frÄn DCFace-datauppsÀttningen.

Ytterligare exempel pÄ hÀrledda datakÀllor, frÄn studien. I det hÀr fallet Àr de syntetiska kÀllbilderna frÄn DCFace-datauppsÀttningen.

Forskarna studerade sex syntetiska datauppsÀttningar för vilka den (verkliga) datakÀllan var kÀnd. Eftersom bÄde de riktiga och de falska datamÀngderna i frÄga alla innehÄller en mycket hög volym bilder, Àr detta i praktiken som att leta efter en nÄl i en höstack.

DĂ€rför anvĂ€nde författarna en fĂ€rdig ansiktsigenkĂ€nningsmodell† med en ResNet100 ryggrad trĂ€nad pĂ„ AdaFace förlustfunktion (pĂ„ WebFace12M dataset).

De sex syntetiska datamĂ€ngder som anvĂ€ndes var: DCFace (en latent diffusionsmodell); IDiff-Face (Uniform – en spridningsmodell baserad pĂ„ FFHQ); IDiff-Face (TvĂ„steg – en variant med en annan provtagningsmetod); GANDiffFace (baserat pĂ„ Generative Adversarial Networks och Diffusion-modeller, med hjĂ€lp av StyleGAN3 att generera initiala identiteter, och sedan drömbĂ„s att skapa olika exempel); IDNet (en GAN-metod, baserad pĂ„ StyleGAN-ADA); och SFace (ett identitetsskyddande ramverk).

Eftersom GANDiffFace anvĂ€nder bĂ„de GAN- och diffusionsmetoder jĂ€mfördes den med trĂ€ningsdatasetet frĂ„n StyleGAN – det nĂ€rmaste ett "verkligt" ursprung som detta nĂ€tverk tillhandahĂ„ller.

Författarna uteslöt syntetiska datauppsÀttningar som anvÀnder CGI snarare Àn AI-metoder, och vid utvÀrdering av resultat rabatterade matchningar för barn, pÄ grund av distributionsavvikelser i detta avseende, sÄvÀl som icke-ansiktsbilder (vilket ofta kan förekomma i ansiktsdatauppsÀttningar, dÀr webbskrapning system producerar falska positiva resultat för föremÄl eller artefakter som har ansiktsliknande egenskaper).

Cosinus likhet berÀknades för alla de hÀmtade paren och sammanfogades till histogram, illustrerade nedan:

En histogramrepresentation för cosinuslikhetspoÀng berÀknade över de olika datamÀngderna, tillsammans med deras relaterade likhetsvÀrden för topp-k-paren (streckade vertikala linjer).

En histogramrepresentation för cosinuslikhetspoÀng berÀknade över de olika datamÀngderna, tillsammans med deras relaterade likhetsvÀrden för topp-k-paren (streckade vertikala linjer).

Antalet likheter Àr representerat i topparna i grafen ovan. Uppsatsen innehÄller ocksÄ exempeljÀmförelser frÄn de sex datamÀngderna och deras motsvarande uppskattade bilder i de ursprungliga (riktiga) datamÀngderna, av vilka nÄgra urval visas nedan:

Prover frÄn de mÄnga instanser som Äterges i kÀlltidningen, till vilka lÀsaren hÀnvisas för ett mer omfattande urval.

Prover frÄn de mÄnga instanser som Äterges i kÀlltidningen, till vilka lÀsaren hÀnvisas för ett mer omfattande urval.

Tidningen kommenterar:

"[De] genererade syntetiska datamÀngderna innehÄller mycket liknande bilder frÄn trÀningsuppsÀttningen i deras generatormodell, vilket vÀcker oro kring genereringen av sÄdana identiteter."

Författarna noterar att för just detta tillvÀgagÄngssÀtt kommer uppskalning till datauppsÀttningar med större volymer sannolikt att vara ineffektivt, eftersom den nödvÀndiga berÀkningen skulle vara extremt betungande. De observerar vidare att visuell jÀmförelse var nödvÀndig för att sluta sig till matchningar, och att den automatiska ansiktsigenkÀnningen ensam inte skulle vara tillrÀcklig för en större uppgift.

AngÄende forskningens konsekvenser, och med sikte pÄ vÀgar framÄt, sÀger arbetet:

"[Vi] skulle vilja betona att den frÀmsta motivationen för att skapa syntetiska datauppsÀttningar Àr att ta itu med sekretessproblem vid anvÀndning av storskaliga webbgenomsökta ansiktsdatauppsÀttningar.

"LÀckage av kÀnslig information (sÄsom identiteten pÄ verkliga bilder i trÀningsdata) i den syntetiska datamÀngden vÀcker dÀrför kritiska farhÄgor kring tillÀmpningen av syntetiska data för integritetskÀnsliga uppgifter, sÄsom biometri. VÄr studie belyser integritetsfallgropar vid generering av syntetiska ansiktsigenkÀnningsdatamÀngder och banar vÀg för framtida studier mot att generera ansvarsfulla syntetiska ansiktsdatamÀngder."

Även om författarna lovar en kodversion för detta arbete pĂ„ projektsida, det finns ingen aktuell förvarslĂ€nk.

Slutsats

PÄ senare tid har mediauppmÀrksamhet betonat detta avtagande avkastning erhÄlls genom att trÀna AI-modeller pÄ AI-genererad data.

Den nya schweiziska forskningen riktar dock fokus mot en frĂ„ga som kan vara mer angelĂ€gen för det vĂ€xande antalet företag som vill utnyttja och dra nytta av generativ AI – bestĂ„ende IP-skyddade eller obehöriga datamönster, Ă€ven i datamĂ€ngder som Ă€r utformade för att bekĂ€mpa denna praxis. Om vi ​​var tvungna att ge det en definition skulle det i det hĂ€r fallet kunna kallas "ansiktstvĂ€tt".

 

* Adobes beslut att tillÄta anvÀndaruppladdade AI-genererade bilder till Adobe Stock har dock effektivt undergrÀvt den juridiska "renheten" hos dessa data. Bloomberg hÀvdade i april 2024 att anvÀndarlevererade bilder frÄn det generativa AI-systemet MidJourney hade införlivats i Fireflys funktioner.

† Denna modell identifieras inte i tidningen.

Första gÄngen publicerad onsdagen den 6 november 2024

Skribent pÄ maskininlÀrning, domÀnspecialist pÄ mÀnsklig bildsyntes. Tidigare chef för forskningsinnehÄll pÄ Metaphysic.ai.
Personlig sida: martinanderson.ai
Kontakt: [e-postskyddad]
Twitter: @manders_ai