Spojte se s námi

Umělá inteligence

Skutečné identity lze obnovit ze syntetických datových sad

mm
Ukázkové srovnávací obrázky z článku „Odhalování syntetických tváří: Jak mohou syntetické datové sady odhalit skutečné identity“, včetně originálních obrázků (nahoře) a odvozených obrázků (dole).

Jestliže rok 2022 byl okamžikem, kdy generativní potenciál umělé inteligence poprvé upoutal širokou pozornost veřejnosti, rok 2024 byl rokem, kdy se do centra pozornosti podniků, které touží využít její sílu, dostaly otázky týkající se zákonnosti jejích podkladových dat.

USA doktrína spravedlivého použití, spolu s implicitní vědeckou licencí, která dlouho umožňovala akademickému a komerčnímu výzkumnému sektoru zkoumat generativní umělou inteligenci, se s rostoucím důkazy o plagiátorství vynořila. Následně mají USA v tuto chvíli nepovoleno Obsah generovaný umělou inteligencí není chráněn autorskými právy.

Tyto záležitosti nejsou zdaleka vyřešeny a ani zdaleka vyřešeny; v roce 2023, částečně kvůli rostoucí zájem médií a veřejnosti o právním postavení výstupu generovaného umělou inteligencí zahájil americký úřad pro autorská práva letité vyšetřování tohoto aspektu generativní umělé inteligence. první segment (ohledně digitálních replik) v červenci 2024.

Mezitím zůstávají obchodní zájmy frustrované možností, že drahé modely, které chtějí využívat, by je mohly vystavit právním důsledkům, až se nakonec objeví definitivní právní předpisy a definice.

Drahým krátkodobým řešením bylo legitimizovat generativní modely jejich trénováním na datech, která mají firmy právo zneužívat. Převod textu na obrázek (a nyní převod textu na video) Architektura Firefly je poháněna především svým nákup datového souboru stock obrázků Fotolia v roce 2014, doplněno používáním dat ve veřejném vlastnictví, jejichž platnost vypršela autorským právem*. Ve stejné době mají stávající dodavatelé fotografií, jako jsou Getty a Shutterstock kapitalizován na nové hodnotě jejich licencovaných dat, s rostoucím počtem obchodů na licencování obsahu nebo na vývoj vlastních systémů GenAI kompatibilních s IP.

Syntetická řešení

Od odebrání dat chráněných autorským právem z proškolených latentní prostor modelu AI je plný problémů, chyby v této oblasti by mohly být potenciálně velmi nákladné pro společnosti, které experimentují se spotřebitelskými a obchodními řešeními využívajícími strojové učení.

Alternativní a mnohem levnější řešení pro systémy počítačového vidění (a také Velké jazykové modely, popř LLM), je použití syntetická data, kde se datová sada skládá z náhodně generovaných příkladů cílové domény (jako jsou obličeje, kočky, kostely nebo dokonce obecnější datová sada).

Stránky jako thispersondoesnotexist.com už dávno zpopularizovaly myšlenku, že autenticky vypadající fotografie „neskutečných“ lidí by mohly být syntetizovány (v tomto konkrétním případě prostřednictvím generativních adversarialních sítí, neboli GAN), aniž by měl jakýkoli vztah k lidem, kteří skutečně existují v reálném světě.

Pokud tedy trénujete systém rozpoznávání obličeje nebo generativní systém na takových abstraktních a nereálných příkladech, můžete teoreticky získat fotorealistický standard produktivity pro model AI, aniž byste museli zvažovat, zda jsou data legálně použitelná.

Balancing Act

Problém je v tom, že systémy, které produkují syntetická data, jsou samy trénovány na skutečných datech. Pokud stopy těchto dat proniknou do syntetických dat, může to poskytnout důkaz, že omezený nebo jinak neautorizovaný materiál byl zneužit k peněžnímu zisku.

Aby se tomu zabránilo a aby se vytvořily skutečně „náhodné“ snímky, musí takové modely zajistit, aby byly dobře...obecně. Zobecnění je mírou schopnosti trénovaného modelu umělé inteligence vnitřně rozumět konceptům na vysoké úrovni (jako například 'tvář', 'muž'nebožena'), aniž byste se uchýlili k replikaci skutečných tréninkových dat.

Bohužel pro trénované systémy může být obtížné vytvořit (nebo rozpoznat) zrnitý detail ledaže by se to trénovalo dost extenzivně na datové sadě. Tím se systém vystavuje riziku zapamatování: tendence do určité míry reprodukovat příklady skutečných tréninkových dat.

To lze zmírnit nastavením uvolněnějšího rychlost učenínebo ukončením školení ve fázi, kdy jsou základní koncepty stále tvárné a nejsou spojeny s žádným konkrétním datovým bodem (jako je konkrétní obraz osoby v případě datové sady obličeje).

Obě tato řešení však pravděpodobně povedou k modelům s méně jemnými detaily, protože systém nedostal šanci pokročit za „základy“ cílové domény a jít až k specifikům.

Ve vědecké literatuře se proto obecně používají velmi vysoké míry učení a komplexní tréninkové plány. Zatímco se vědci obvykle snaží v konečném modelu najít kompromis mezi širokou použitelností a granularitou, i mírně „zapamatované“ systémy se mohou často zkreslovat jako dobře zobecněné – a to i v počátečních testech.

Odhalení obličeje

To nás přivádí k zajímavému novému článku ze Švýcarska, který tvrdí, že je první, kdo demonstruje, že původní skutečné obrázky, které pohánějí syntetická data, lze získat z generovaných obrázků, které by teoreticky měly být zcela náhodné:

Z tréninkových dat unikly ukázkové obrázky obličejů. V řádku výše vidíme původní (skutečné) obrázky; v řádku níže vidíme náhodně generované obrázky, které se výrazně shodují se skutečnými obrázky. Zdroj: https://arxiv.org/pdf/2410.24015

Z tréninkových dat unikly ukázkové obrázky obličejů. V řádku výše vidíme původní (skutečné) obrázky; v řádku níže vidíme náhodně generované obrázky, které se výrazně shodují se skutečnými obrázky. Zdroj: https://arxiv.org/pdf/2410.24015

Autoři tvrdí, že výsledky naznačují, že „syntetické“ generátory si ve snaze o větší granularitu skutečně zapamatovaly velké množství trénovacích datových bodů. Naznačují také, že systémy, které se spoléhají na syntetická data k ochraně tvůrců umělé inteligence před právními důsledky, by v tomto ohledu mohly být velmi nespolehlivé.

Výzkumníci provedli rozsáhlou studii na šesti nejmodernějších syntetických souborech dat a prokázali, že ve všech případech lze obnovit původní (potenciálně chráněná nebo chráněná) data. Komentují:

„Naše experimenty ukazují, že nejmodernější datové sady syntetického rozpoznávání obličejů obsahují vzorky, které jsou velmi blízké vzorkům v trénovacích datech jejich modelů generátorů. V některých případech syntetické vzorky obsahují malé změny původního obrazu, můžeme však také pozorovat, že v některých případech obsahuje generovaný vzorek více variací (např. jiná pozice, světelné podmínky atd.), přičemž identita je zachována.

„To naznačuje, že generátorové modely se učí a zapamatovávají si informace související s identitou z trénovacích dat a mohou generovat podobné identity. To vytváří kritické obavy ohledně aplikace syntetických dat v úkolech citlivých na soukromí, jako je biometrie a rozpoznávání obličeje.“

Jedno papír je s názvem Odhalení syntetických tváří: Jak mohou syntetické datové sady odhalit skutečné identity, a pochází od dvou výzkumníků z Idiap Research Institute v Martigny, École Polytechnique Fédérale de Lausanne (EPFL) a Université de Lausanne (UNIL) v Lausanne.

Metoda, data a výsledky

Zapamatované tváře ve studii odhalil Útok na odvození členství. Ačkoli tento koncept zní složitě, je poměrně samovysvětlující: vyvozování členství v tomto případě odkazuje na proces dotazování systému, dokud neodhalí data, která se buď shodují s daty, která hledáte, nebo se jim výrazně podobají.

Další příklady odvozených zdrojů dat ze studie. V tomto případě jsou zdrojové syntetické obrázky z datové sady DCFace.

Další příklady odvozených zdrojů dat ze studie. V tomto případě jsou zdrojové syntetické obrázky z datové sady DCFace.

Výzkumníci studovali šest syntetických datových sad, u kterých byl znám (skutečný) zdroj datové sady. Vzhledem k tomu, že všechny dotyčné skutečné i falešné datové sady obsahují velmi velké množství obrázků, je to v podstatě jako hledání jehly v kupce sena.

Autoři proto použili běžně dostupný model rozpoznávání obličeje s ResNet100 páteř trénovaná na AdaFace ztrátová funkce (na WebFace12M datová sada).

Bylo použito šest syntetických datových sad: DCFace (model latentní difúze); IDiff-Face (Uniform – model difúze založený na FFHQ); IDiff-Face (Dvoustupňová – varianta využívající jinou metodu vzorkování); GANDiffFace (založené na modelech generativních nepřátelských sítí a difúze, s použitím Styl GAN3 vygenerovat počáteční identity a poté stánek snů vytvářet různé příklady); IDNet (metoda GAN založená na StylGAN-ADA); a SFace (rámec na ochranu identity).

Protože GANDiffFace používá metody GAN i difúze, byl porovnán s trénovací datovou sadou StyleGAN – nejbližší datové sadě k počátku „reálné tváře“, kterou tato síť poskytuje.

Autoři vyloučili syntetické datové sady, které používají CGI spíše než AI metody, a při vyhodnocování výsledků diskontovali shody pro děti kvůli distribučním anomáliím v tomto ohledu, stejně jako snímky bez obličeje (které se mohou často vyskytovat v datových sadách obličejů, kde dochází k seškrabování z webu systémy vytvářejí falešné poplachy pro předměty nebo artefakty, které mají vlastnosti podobné obličeji).

Kosinusová podobnost byla vypočtena pro všechny získané páry a zřetězena do histogramů, které jsou znázorněny níže:

Reprezentace histogramu pro skóre kosinové podobnosti vypočtená napříč různými soubory dat, spolu s jejich souvisejícími hodnotami podobnosti pro top-k páry (přerušované svislé čáry).

Reprezentace histogramu pro skóre kosinové podobnosti vypočtená napříč různými soubory dat, spolu s jejich souvisejícími hodnotami podobnosti pro top-k páry (přerušované svislé čáry).

Počet podobností je znázorněn ve špičkách v grafu výše. Článek také obsahuje ukázková srovnání ze šesti souborů dat a jejich odpovídající odhadované obrázky v původních (skutečných) souborech dat, z nichž některé výběry jsou uvedeny níže:

Ukázky z mnoha příkladů reprodukovaných ve zdrojovém článku, na který je čtenář odkázán pro obsáhlejší výběr.

Ukázky z mnoha příkladů reprodukovaných ve zdrojovém článku, na který je čtenář odkázán pro obsáhlejší výběr.

List komentuje:

„[Vygenerované] syntetické datové sady obsahují velmi podobné obrázky z trénovací sady jejich generátorového modelu, což vyvolává obavy ohledně generování takových identit.“

Autoři poznamenávají, že pro tento konkrétní přístup bude škálování na větší objemy datových sad pravděpodobně neefektivní, protože nezbytný výpočet by byl extrémně zatěžující. Dále poznamenávají, že vizuální srovnání bylo nezbytné k odvození shod a že samotné automatické rozpoznávání obličeje by pravděpodobně nestačilo na větší úkol.

Pokud jde o důsledky výzkumu a s ohledem na cesty vpřed, práce uvádí:

„[Rádi bychom] zdůraznili, že hlavní motivací pro generování syntetických datových sad je řešení problémů s ochranou soukromí při používání rozsáhlých datových sad procházení webu.

„Únik jakýchkoli citlivých informací (například identity skutečných obrázků v trénovacích datech) v syntetické datové sadě proto vyvolává kritické obavy ohledně aplikace syntetických dat pro úkoly citlivé na soukromí, jako je biometrie. Naše studie osvětluje úskalí ochrany soukromí při generování syntetických datových sad pro rozpoznávání obličejů a připravuje cestu pro budoucí studie zaměřené na generování zodpovědných syntetických datových sad obličejů.“

I když autoři slibují vydání kódu pro tuto práci Stránka projektu, neexistuje žádný aktuální odkaz na úložiště.

Proč investovat do čističky vzduchu?

V poslední době pozornost médií zdůrazňuje klesající výnosy získané trénováním modelů AI na datech generovaných AI.

Nový švýcarský výzkum však upozorňuje na aspekt, který může být naléhavější pro rostoucí počet společností, které chtějí využít generativní umělou inteligenci a profitovat z ní – přetrvávající datové vzorce chráněné duševním vlastnictvím nebo neoprávněné, a to i v datových sadách, které jsou navrženy tak, aby proti této praktice bojovaly. Pokud bychom to museli definovat, v tomto případě by se to dalo nazvat „utíráním obličeje“.

 

* Rozhodnutí společnosti Adobe povolit uživatelem nahrané obrázky generované umělou inteligencí do Adobe Stock však fakticky podkopalo právní „čistotu“ těchto dat. Bloomberg tvrdil v dubnu 2024, že obrázky dodané uživateli ze systému generativní umělé inteligence MidJourney byly začleněny do funkcí Firefly.

Tento model není v článku uveden.

Poprvé zveřejněno ve středu 6. listopadu 2024

Spisovatel o strojovém učení, doménový specialista na syntézu lidského obrazu. Bývalý vedoucí obsahu výzkumu na Metaphysic.ai.
Osobní stránky: martinanderson.ai
Kontakt: [chráněno e-mailem]
Twitter: @manders_ai