stub Kif Tkun Taf Meta s-Sistemi ta' Sinteżi tal-Immaġni Qed Jipproduċu Materjal Ġenwinament 'Oriġinali' - Unite.AI
Kuntatt magħna

Intelliġenza Artifiċjali

Kif Tkun Taf Meta s-Sistemi tas-Sinteżi tal-Immaġni Qed Jipproduċu Materjal Ġenwinament 'Oriġinali'

mm
Aġġornata on
'Orsijiet ta' l-Għenużi jaħdmu fuq riċerka ġdida ta' l-AI taħt l-ilma bit-teknoloġija tad-disgħinijiet' – Sors: https://www.creativeboom.com/features/meet-dall-e/
'Orsijiet ta' l-Għenużi jaħdmu fuq riċerka ġdida ta' l-AI taħt l-ilma bit-teknoloġija tad-disgħinijiet' – Sors: https://www.creativeboom.com/features/meet-dall-e/

Studju ġdid mill-Korea t'Isfel ippropona metodu biex jiddetermina jekk is-sistemi ta' sinteżi ta' l-immaġini humiex qed jipproduċu immaġini ġenwinament ġodda, jew varjanti 'minuri' fuq id-dejta tat-taħriġ, potenzjalment jegħlbu l-għan ta' tali arkitetturi (bħall-produzzjoni ta' immaġini ġodda u oriġinali) .

Ħafna drabi, jissuġġerixxi d-dokument, dan tal-aħħar huwa minnu, minħabba li l-metriċi eżistenti li dawn is-sistemi jużaw biex itejbu l-kapaċitajiet ġenerattivi tagħhom matul it-taħriġ huma sfurzati jiffavorixxu immaġini li huma relattivament qrib l-immaġini tas-sors (mhux foloz) fis-sett tad-dejta. .

Wara kollox, jekk immaġini ġġenerata tkun 'viżwalment qrib' tad-dejta tas-sors, inevitabbilment x'aktarx li tagħmel punteġġ aħjar għall-'awtentiċità' milli għall-'oriġinalità', peress li hija 'fidila' - jekk ma tkunx ispirata.

F'settur wisq imwieled u mhux ippruvat biex ir-ramifikazzjonijiet legali tiegħu jkunu għadhom magħrufa, dan jista' tirriżulta li hija kwistjoni legali importanti, jekk jirriżulta li l-kontenut ta’ immaġini sintetiċi kkummerċjalizzati ma jkunx differenti biżżejjed mill-materjal sors (spiss) bi drittijiet tal-awtur li bħalissa huwa jitħallew iħaffu is-settur tar-riċerka fil-forma ta’ settijiet ta’ dejta popolari fuq l-internet (il-potenzjal għal talbiet ta’ ksur futuri ta’ dan it-tip għandu wasal għall-prominenza pjuttost reċentement fir-rigward tal-Microsoft GitHub Co-Pilot AI).

F'termini tal-output dejjem aktar koerenti u semantikament robust minn sistemi bħal OpenAI's DALL-E2, Google's Image, u taċ-Ċina CogView rilaxxi (kif ukoll l-aktar baxxi dall-e mini), hemm ftit ħafna post fatt modi biex tittestja b'mod affidabbli għall-oriġinalità ta 'immaġni ġġenerata.

Tabilħaqq, it-tiftix għal xi wħud mill-aktar popolari mill-immaġini ġodda DALL-E 2 ħafna drabi jwassal biss għal aktar każijiet ta 'dawk l-istess immaġini, skont il-magna tat-tiftix.

It-tlugħ ta' grupp sħiħ ta' output DALL-E 9 b'2 immaġini jwassal biss għal aktar gruppi ta' output DALL-E 2. Is-separazzjoni u t-tlugħ tal-ewwel immaġini (minn din il-post fuq Twitter tat-8 ta' Ġunju 2022, mill-kont 'Weird Dall-E Generations') iġġiegħel lil Google jiffissa fuq il-basketball fl-istampa, filwaqt li t-tfittxija bbażata fuq l-immaġini tieħu sqaq semantiku blind. Għall-istess tfittxija bbażata fuq l-immaġini, Yandex jidher mill-inqas li qed jagħmel xi dekostruzzjoni u tqabbil tal-karatteristiċi attwali bbażati fuq il-pixels.

It-tlugħ ta 'grupp ta' output DALL-E 9 komplut b'2 immaġini jwassal biss għal aktar gruppi ta 'output DALL-E 2, minħabba li l-istruttura tal-grilja hija l-aktar karatteristika b'saħħitha. Is-separazzjoni u t-tlugħ tal-ewwel immaġini (minn din il-post fuq Twitter tat-8 ta' Ġunju 2022, mill-kont 'Weird Dall-E Generations') iġġiegħel lil Google jiffissa fuq il-basketball fl-istampa, filwaqt li tieħu t-tfittxija bbażata fuq l-immaġini 'l isfel minn sqaq blind semantiku. Għall-istess tfittxija bbażata fuq l-immaġini, Yandex jidher mill-inqas li qed jagħmel xi dekostruzzjoni u tqabbil tal-karatteristiċi attwali bbażati fuq il-pixels.

Għalkemm Yandex huwa aktar probabbli minn Google Search li juża l-attwali karatteristiċi (jiġifieri immaġni hija derivata/ikkalkulata karatteristiċi, mhux neċessarjament karatteristiċi tal-wiċċ tan-nies) u viżwali (aktar milli semantiċi) ta’ immaġni sottomessa biex issib immaġini simili, il-magni kollha tat-tiftix ibbażati fuq l-immaġni jew għandhom xi tip ta’ aġenda jew prattika li jistgħu jagħmluha diffiċli biex jiġu identifikati każijiet ta sors> iġġenerat plaġjariżmu permezz ta' tfittxijiet fuq il-web.

Barra minn hekk, id-dejta tat-taħriġ għal mudell ġenerattiv tista' ma tkunx disponibbli pubblikament fl-intier tagħha, u dan ikompli jxekkel l-eżami forensiku tal-oriġinalità tal-immaġini ġġenerati.

Interessanti, li twettaq tfittxija fuq l-internet ibbażata fuq l-immaġini fuq waħda mill-immaġini sintetiċi dehru minn Google fuq tagħha sit Image iddedikat ma jsib assolutament xejn komparabbli mas-suġġett tal-immaġni, f'termini ta 'attwalment tħares lejn l-immaġni u imparzjalment tfittex stampi simili. Pjuttost, iffissati semantikament bħal qatt qabel, ir-riżultati tat-tfittxija tal-Immaġni ta' Google għal din l-istampa Imagen ma jippermettux tfittxija tal-immaġini pura fuq l-internet ibbażata fuq immaġini mingħajr ma żżid it-termini ta' tfittxija 'imagen google' bħala parametru addizzjonali (u li jillimita):

Yandex, bil-maqlub, isib numru kbir ta 'immaġini tad-dinja reali simili (jew għall-inqas relatati viżwalment) mill-komunità artistika dilettanti:

B'mod ġenerali, ikun aħjar jekk in-novità jew l-oriġinalità tal-output tas-sistemi ta' sinteżi tal-immaġini jistgħu b'xi mod jitkejlu, mingħajr ma jkun hemm bżonn li jiġu estratti karatteristiċi minn kull immaġini possibbli li tiffaċċja l-web fuq l-internet fiż-żmien meta l-mudell ġie mħarreġ, jew f’settijiet ta’ dejta mhux pubbliċi li jistgħu jkunu qed jużaw materjal bid-drittijiet tal-awtur.

Relatati ma’ din il-kwistjoni, riċerkaturi mill-Iskola tal-Gradwati tal-AI Kim Jaechul fl-Istitut Avvanzat tax-Xjenza u t-Teknoloġija tal-Korea (KAIST AI) ikkollaboraw mal-kumpanija globali tal-ICT u tat-tiftix NAVER Corp biex jiżviluppaw Score ta' Rarità li jistgħu jgħinu biex jiġu identifikati l-kreazzjonijiet aktar oriġinali ta 'sistemi ta' sintesi ta 'immaġni.

Immaġini hawn huma ġġenerati permezz StyleGAN-FFHQ. Mix-xellug għal-lemin, il-kolonni jindikaw mill-agħar għall-aħjar riżultati. Nistgħu naraw li l-metrika tat-'Truncation trick' (ara hawn taħt) u l-metrika tar-Realiżmu għandhom l-aġendi tagħhom stess, filwaqt li l-punteġġ il-ġdid ta' 'Rarity' (fil-filliera ta' fuq) qed tfittex xbihat koeżiv iżda oriġinali (aktar milli sempliċement xbihat koeżiv). Sors: https://arxiv.org/pdf/2206.08549.pdf

Immaġini hawn huma ġġenerati permezz StyleGAN-FFHQ. Mix-xellug għal-lemin, il-kolonni jindikaw mill-agħar għall-aħjar riżultati. Nistgħu naraw li l-metrika tat-'Truncation trick' (ara hawn taħt) u l-metrika tar-Realiżmu għandhom l-aġendi tagħhom stess, filwaqt li l-punteġġ il-ġdid ta' 'Rarity' (fil-filliera ta' fuq) qed tfittex xbihat koeżiv iżda oriġinali (aktar milli sempliċement xbihat koeżiv). Peress li hemm limiti tad-daqs tal-immaġini f'dan l-artikolu, jekk jogħġbok ara l-karta tas-sors għal dettall u riżoluzzjoni aħjar. Sors: https://arxiv.org/pdf/2206.08549.pdf

L-ġdid karta huwa intitolat Punteġġ ta 'Rarità: Metrika Ġdida biex Tivvaluta l-Uncommonness ta' Stampi Sintetizzati, u ġej minn tliet riċerkaturi fil-KAIST, u tlieta minn NAVER Corp.

Lil hinn mill-'Cheap Trick'

Fost il-metriċi preċedenti li l-karta l-ġdida qed tfittex li ttejjeb hemm it-'Truncation trick' issuġġerit fl-2019 f'kollaborazzjoni bejn l-Università Heriot-Watt tar-Renju Unit u DeepMind ta' Google.

It-Truncation Trick essenzjalment juża distribuzzjoni moħbija differenti għat-teħid tal-kampjuni minn dik li ntużat għat-taħriġ tal-mudell ġenerattiv.

Ir-riċerkaturi li żviluppaw dan il-metodu kienu sorpriżi li ħadem, iżda jammettu fid-dokument oriġinali li jnaqqas il-varjetà tal-produzzjoni ġġenerata. Madankollu, it-Truncation Trick sar effettiv u popolari, fil-kuntest ta' dak li jista' jiġi deskritt mill-ġdid bħala 'trick irħis' biex jinkisbu riżultati li jidhru awtentiċi li ma tantx jassimilaw il-possibbiltajiet kollha inerenti fid-dejta, u jistgħu jixbħu d-data tas-sors aktar milli mixtieq.

Rigward it-Truncation Trick, l-awturi tal-karta l-ġdida josservaw:

'[Mhix intenzjonata biex tiġġenera kampjuni rari f'settijiet ta' dejta ta' taħriġ, iżda pjuttost biex tissintetizza immaġini tipiċi b'mod aktar stabbli. Aħna ipoteżi li mudelli ġenerattivi eżistenti se jkunu jistgħu jipproduċu kampjuni aktar sinjuri fid-distribuzzjoni tad-dejta reali jekk il-ġeneratur jista 'jiġi indott biex jipproduċi b'mod effettiv kampjuni rari.'

Tat-tendenza ġenerali li tistrieħ fuq metriċi tradizzjonali bħal Frechet Inception Distance (FID, li ġie taħt kritika intensa f'Diċembru 2021), il-punteġġ tal-bidu (IS) u d-Distanza tal-Bidu tal-Kernel (KID) bħala 'indikaturi tal-progress' waqt it-taħriġ ta' mudell ġenerattiv, l-awturi jkomplu jikkummentaw*:

'Din l-iskema ta' tagħlim twassal lill-ġeneratur biex ma jissintetizzax ħafna kampjuni rari li huma uniċi u għandhom karatteristiċi qawwija li ma jammontawx għal proporzjon kbir tad-distribuzzjoni reali tal-immaġni. Eżempji ta’ kampjuni rari minn settijiet ta’ dejta pubbliċi jinkludu nies b’diversi aċċessorji FFHQ, annimali bojod fl-AFHQ, u statwi mhux komuni f'Metfaces.

'Il-kapaċità li tiġġenera kampjuni rari hija importanti mhux biss minħabba li hija relatata mal-kapaċità tat-tarf tal-mudelli ġenerattivi, iżda wkoll minħabba li l-uniċità għandha rwol importanti fl-applikazzjonijiet kreattivi bħall-bnedmin virtwali.

'Madankollu, ir-riżultati kwalitattivi ta' bosta studji reċenti rari fihom dawn l-eżempji rari. Aħna nissuġġerixxu li n-natura tal-forzi tal-iskema ta 'tagħlim kontradittorju ġġenerat distribuzzjoni tal-immaġni simili għal dik ta' dataset ta 'taħriġ. Għalhekk, immaġini b'individwalità ċara jew rari jieħdu biss parti żgħira f'immaġini sintetizzati mill-mudelli.'

Teknika

Ir-Rarity Score il-ġdid tar-riċerkaturi jadatta idea ppreżentata fi qabel xogħlijiet – l-użu ta’ K-Eqreb Ġirien (KNNs) biex jirrappreżentaw l-arrays ta’ data ġenwina (taħriġ) u sintetika (output) f’sistema ta’ sintesi ta’ immaġini.

Rigward dan il-metodu ġdid ta’ analiżi, l-awturi jsostnu:

"Aħna nassumu li l-kampjuni ordinarji jkunu eqreb lejn xulxin filwaqt li kampjuni uniċi u rari jkunu ftit li xejn fl-ispazju tal-karatteristiċi."

L-immaġni tar-riżultati hawn fuq turi l-iżgħar distanzi tal-ġirien eqreb (NNDs) fuq l-akbar, f'arkitettura StyleGAN imħarrġa fuq FFHQ.

'Għas-settijiet tad-dejta kollha, kampjuni bl-iżgħar NNDs juru stampi rappreżentattivi u tipiċi. Għall-kuntrarju, il-kampjuni bl-akbar NNDs għandhom individwalità qawwija u huma differenti b'mod sinifikanti mill-immaġini tipiċi bl-iżgħar NNDs.'

Fit-teorija, bl-użu ta' din il-metrika l-ġdida bħala diskriminatur, jew għall-inqas inkluża f'arkitettura diskriminatorja aktar kumplessa, sistema ġenerattiva tista' titmexxa 'l bogħod minn imitazzjoni pura lejn algoritmu aktar inventiv, filwaqt li żżomm koeżjoni essenzjali ta' kunċetti li jistgħu jkunu kritiċi. għall-produzzjoni ta’ immaġini awtentiċi (ie 'raġel', 'mara', 'karozza', 'knisja', Eċċ).

Tqabbil u Esperimenti

Fit-testijiet, ir-riċerkaturi wettqu paragun tal-prestazzjoni tar-Rarity Score kemm kontra Truncation Trick kif ukoll NVIDIA's 2019 Punteġġ ta 'realiżmu, u sabet li f'varjetà ta' oqfsa u settijiet ta' dejta, l-approċċ huwa kapaċi jidentifika riżultati 'uniċi'.

Għalkemm ir-riżultati dehru fid-dokument huma estensivi wisq biex jinkludu hawn, ir-riċerkaturi jidhru li wrew il-kapaċità tal-metodu l-ġdid li jidentifika r-rarità kemm f'immaġini sors (reali) kif ukoll ġġenerati (foloz) fi proċedura ġenerattiva:

Agħżel eżempji mir-riżultati viżwali estensivi riprodotti fil-karta (ara l-URL tas-sors hawn fuq għal aktar dettalji). Fuq ix-xellug, eżempji ġenwini mill-FFHQ li għandhom ftit ġirien qrib (jiġifieri huma ġodda u mhux tas-soltu) fis-sett tad-dejta oriġinali; fuq il-lemin, immaġini foloz ġġenerati minn StyleGAN, li l-metrika l-ġdida identifikat bħala tassew ġodda.

Agħżel eżempji mir-riżultati viżwali estensivi riprodotti fil-karta (ara l-URL tas-sors hawn fuq għal aktar dettalji). Fuq ix-xellug, eżempji ġenwini mill-FFHQ li għandhom ftit ġirien qrib (jiġifieri huma ġodda u mhux tas-soltu) fis-sett tad-dejta oriġinali; fuq il-lemin, immaġini foloz ġġenerati minn StyleGAN, li l-metrika l-ġdida identifikat bħala tassew ġodda. Peress li hemm limiti tad-daqs tal-immaġini f'dan l-artikolu, jekk jogħġbok ara l-karta tas-sors għal dettall u riżoluzzjoni aħjar.

Il-metrika l-ġdida ta' Rarity Score mhux biss tippermetti l-possibbiltà li tiġi identifikata output ġenerattiv 'ġdid' f'arkitettura waħda, iżda wkoll, jgħidu r-riċerkaturi, tippermetti paraguni bejn mudelli ġenerattivi ta' arkitetturi varji u li jvarjaw (jiġifieri autoencoder, VAE, GAN, eċċ. ).

Id-dokument jinnota li Rarity Score huwa differenti minn metriċi preċedenti billi jikkonċentra fuq il-kapaċità ta 'qafas ġenerattiv li joħloq immaġini uniċi u rari, b'oppożizzjoni għal metriċi "tradizzjonali", li jeżaminaw (pjuttost aktar mijopikament) id-diversità bejn il-ġenerazzjonijiet matul it-taħriġ tal-mudell.

Lil hinn mill-Kompiti Limitati

Għalkemm ir-riċerkaturi tal-karta l-ġdida wettqu testijiet fuq oqfsa ta’ dominju limitat (bħal kombinazzjonijiet ta’ ġeneratur/sett ta’ dejta mfassla biex speċifikament jipproduċu stampi ta’ nies, jew ta’ qtates, pereżempju), ir-Rarity Score jista’ potenzjalment jiġi applikat għal kwalunkwe proċedura arbitrarja ta’ sinteżi ta’ immaġini fejn huwa mixtieq li jiġu identifikati eżempji ġġenerati li jużaw id-distribuzzjonijiet derivati ​​mid-dejta mħarrġa, minflok iżidu l-awtentiċità (u titnaqqas id-diversità) billi jiġu interposti distribuzzjonijiet latenti barranin, jew jiddependu fuq 'shortcuts' oħra li jikkompromettu n-novità favur l-awtentiċità.

Fil-fatt, metrika bħal din tista' potenzjalment tiddistingwi każijiet ta' output tassew ġodda f'sistemi bħas-serje DALL-E, billi tuża distanza identifikata bejn riżultat 'outlier' apparenti, id-dejta tat-taħriġ, u r-riżultati minn prompts jew inputs simili (jiġifieri, immaġini -based prompts).

Fil-prattika, u fin-nuqqas ta’ fehim ċar tal-punt sa fejn is-sistema assimilat tassew kunċetti viżwali u semantiċi (spiss imfixkla minn għarfien limitat dwar id-dejta tat-taħriġ), dan jista’ jkun metodu vijabbli biex jiġi identifikat “mument ta’ taħriġ” ġenwin. ispirazzjoni' f'sistema ġenerattiva – il-punt li fih numru adegwat ta' kunċetti ta' input u dejta rriżultaw f'xi ħaġa ġenwinament inventiva, minflok xi ħaġa derivattiva żżejjed jew qrib id-dejta tas-sors.

 

* Il-konverżjonijiet tiegħi taċ-ċitazzjonijiet inline tal-awturi għal hyperlinks.

Ippublikat għall-ewwel darba fl-20 ta' Ġunju 2022.