stuacach Sintéis Aghaidhe a Cheanfhoireann le Deighilt Shéimeantach - Unite.AI
Ceangail le linn

Faisnéise Saorga

Sintéis Aghaidhe Orchestrating Le Deighilt Shéimeantach

mm
Nuashonraithe on

An fhadhb le aghaidheanna daonna a chumadh le a Líonra Sáraitheach Giniúna (GAN) go dtagann na sonraí fíordhomhanda a chothaíonn na híomhánna bréige le cuntais nach bhfuil fáilte rompu agus doscartha, amhail gruaig ar an gceann (agus/nó aghaidh), cúlraí, agus cineálacha éagsúla troscáin aghaidhe, mar spéaclaí, hataí, agus fáinní cluaise; agus go bhfuil na gnéithe imeallacha seo den phearsantacht ceangailte go dosheachanta i bhféiniúlacht 'chomhcheangailte'.

Faoi na hailtireachtaí GAN is coitianta, ní féidir aghaidh a thabhairt ar na heilimintí seo ina spás tiomnaithe féin, ach ina áit sin tá baint dlúth acu leis an aghaidh ina bhfuil siad leabaithe (nó timpeall air).

Ní féidir ach an oiread de ghnáth a dheachtú nó tionchar a imirt ar chuma fo-ailt aghaidh cruthaithe ag GAN, mar shampla caolú na súl, síneadh na srón, nó athrú ar an dath gruaige ar an mbealach a d'fhéadfadh ealaíontóir sceitse póilíní.

Mar sin féin, tá an earnáil taighde sintéise íomhá ag obair air:

Deighil taighde nua ar ghiniúint aghaidhe bunaithe ar GAN na codanna éagsúla de víosa go réimsí ar leith, gach ceann acu a 'gineadóir' féin, ag obair i gcomhar le gineadóirí eile don íomhá. Sa ró lár, feicimid an 'gné-léarscáil' ornáideach ag tógáil suas réimsí breise den aghaidh. Foinse: https://arxiv.org/pdf/2112.02236.pdf

Deighil taighde nua ar ghiniúint aghaidhe bunaithe ar GAN na codanna éagsúla d’aghaidh ina réimsí ar leith, gach ceann acu lena ‘gineadóir’ féin, ag obair i gcomhar le gineadóirí eile don íomhá. Sa ró lár, feicimid an 'gné-léarscáil' ornáideach ag tógáil suas réimsí breise den aghaidh. Foinse: https://arxiv.org/pdf/2112.02236.pdf

I gcás nua páipéar, d'úsáid taighdeoirí ó lámh SAM de fathach teicneolaíochta ilnáisiúnta na Síne ByteDance deighilt shéimeantach chun na codanna comhpháirte den aghaidh a bhriseadh suas ina ranna scoite, agus leithdháiltear a gineadóir féin ar gach ceann acu, ionas gur féidir leibhéal níos mó a bhaint amach.  dícheangal. Nó, ar a laghad, aireachtála dícheangal.

An páipéar dar teideal SemanticStyleGAN: Tosaíochtaí Ginideacha Comhdhéanta Foghlama le haghaidh Sintéis agus Eagarthóireacht Íomhá Inrialaithe, agus tá saibhir meáin ag gabháil leis leathanach tionscadail ina bhfuil samplaí iomadúla de na claochluithe míne éagsúla is féidir a bhaint amach nuair a leithlisítear eilimintí aghaidhe agus cinn ar an mbealach seo.

Is féidir uigeacht aghaidhe, stíl gruaige agus dath, cruth agus dath súl, agus go leor gnéithe eile de ghnéithe GAN a ghintear uair amháin dothuaslagtha a dhícheangal anois, cé gur dócha go n-athróidh cáilíocht na deighilte agus leibhéal na hionstraimeachta trasna cásanna. Foinse: https://semanticstylegan.github.io/

Is féidir uigeacht aghaidhe, stíl gruaige agus dath, cruth súl agus dath, agus go leor gnéithe eile de ghnéithe a ghintear GAN aon-dothuaslagtha a bheith anois. de facto  scoite, cé gur dócha go n-athróidh cáilíocht na deighilte agus leibhéal na hionstraimeachta trasna cásanna. Foinse: https://semanticstylegan.github.io/

An Spás Folaigh Neamhrialta

Gréasán Sáraíochta Ginideach atá oilte chun aghaidheanna a ghiniúint – mar shampla an StílGan2 gineadóir a thugann cumhacht don suíomh Gréasáin móréilimh thispersondoesnotexist.com – cruthaíonn sé idirghaolmhaireacht chasta idir na 'gnéithe' (ní sa chiall aghaidhe) go dtagann sé as anailís a dhéanamh ar na mílte aghaidh ón bhfíorshaol, chun foghlaim conas aghaidheanna daonna réalaíocha a dhéanamh é féin.

Is 'cóid fhola' iad na próisis folaitheacha seo, i dteannta a chéile spás folaigh. Is deacair anailís a dhéanamh orthu, agus dá bhrí sin deacair iad a uirlisiú.

An tseachtain seo caite tháinig tionscadal nua eile sintéise chun cinn a dhéanann iarracht an spás gar-asarlaíochta seo a ‘mhapáil’ le linn an phróisis oiliúna féin, agus ansin chun úsáid a bhaint as na léarscáileanna sin chun é a nascleanúint go hidirghníomhach, agus tá réitigh éagsúla eile molta chun smacht níos doimhne a fháil ar ábhar sintéiseithe GAN.

Tá roinnt dul chun cinn déanta, le tairiscint éagsúil d’ailtireachtaí GAN a dhéanann iarracht ‘síneadh isteach’ sa spás folaigh ar bhealach éigin agus na glúine aghaidhe a rialú as sin. Áirítear ar iarrachtaí den sórt sin InterFaceGAN, Sreabhadh Stíl, GANSpace, agus StílRig, i measc tairiscintí eile i sruth de pháipéir nua atá de shíor ag teacht chun cinn.

Is é an rud atá i gcoiteann acu go léir ná céimeanna teoranta dícheangail; is gnách go dtarraingíonn na sleamhnáin ingenious GUI le haghaidh gnéithe éagsúla (cosúil le ‘gruaig’ nó ‘léiriú’) an cúlra agus/nó gnéithe eile isteach sa phróiseas claochlaithe, agus níor réitigh aon cheann acu (an páipéar a phléitear anseo san áireamh) an fhadhb ama. gruaig néarúil.

An Spás Folaigh a Roinnt agus a Ghéilleadh

Ar aon nós, glacann taighde ByteDance cur chuige difriúil: in ionad iarracht a dhéanamh na rúndiamhra a bhaineann le GAN amháin a aithint a fheidhmíonn thar íomhá aghaidhe iomlán ginte, foirmíonn SemanticStyleGAN cur chuige bunaithe ar leagan amach, ina ndéantar aghaidheanna ‘comhdhéanta’ trí phróisis ghineadóra ar leith.

Chun an t-idirdhealú seo ar ghnéithe (aghaidhe) a bhaint amach, úsáideann SemanticStyleGAN Gnéithe Fourier chun léarscáil deighilte shéimeantach a ghiniúint (idirdhealuithe an-daite den topagrafaíocht aghaidhe, léirithe i dtreo íochtair na híomhá thíos) chun na limistéir aghaidhe a dtabharfar aird aonair, tiomanta a leithlisiú.

Ailtireacht an chur chuige nua, a fhorchuireann ciseal idir-rannach de dheighilt shéimeantach ar an aghaidh, go héifeachtach ag iompú an chreata ina cheolfhoireann ilghineadóirí le haghaidh gnéithe éagsúla íomhá.

Ailtireacht an chur chuige nua, a fhorchuireann ciseal idir-rannach de dheighilt shéimeantach ar an aghaidh, go héifeachtach ag iompú an chreata ina cheolfhoireann ilghineadóirí le haghaidh gnéithe éagsúla íomhá.

Gintear na léarscáileanna deighilte le haghaidh na n-íomhánna bréige a chuirtear i láthair go córasach don idirdhealaitheoir GAN le haghaidh meastóireachta de réir mar a thagann feabhas ar an tsamhail, agus do na híomhánna foinse (neamhbhréige) a úsáidtear le haghaidh oiliúna.

Ag tús an phróisis, a Perceptron Il-shraith (MLP) mapálann ar dtús cóid fholaithe a roghnaítear go randamach, a úsáidfear ansin chun meáchain na ngineadóirí éagsúla a smachtóidh gach ceann acu ar chuid den aghaidhíomhá a bheidh le táirgeadh.

Cruthaíonn gach gineadóir mapa gné agus mapa doimhneachta insamhlaithe ó na gnéithe Fourier a thugtar dó in aghaidh an tsrutha. Tá an t-aschur seo mar bhunús leis na maisc deighilte.

Níl an líonra rindreála iartheachtach faoi choinníoll ach na léarscáileanna gné níos luaithe, agus tá a fhios anois conas masc deighilte ardtaifigh a ghiniúint, ag éascú táirgeadh deiridh na híomhá.

Mar fhocal scoir, maoirsíonn idirdhealaitheoir bifurcated dáileadh comhghaolaithe na n-íomhánna RGB (is iad sin, dúinne, an toradh deiridh) agus na maisc deighilte a cheadaigh iad a scaradh.

Le SemanticStyleGAN, níl aon suaitheadh ​​amhairc gan fáilte rompu nuair a athraíonn an ghné aghaidhe ‘dhiailiú isteach’, toisc go bhfuil oiliúint ar leith déanta ar gach gné aghaidhe laistigh den chreat ceolfhoirne.

Cúlra a chur in ionad

Toisc go bhfuil sé ar intinn ag an tionscadal smacht níos fearr a fháil ar an timpeallacht ghinte, cuimsíonn an próiseas rindreála/cumadóireachta gineadóir cúlra oilte ar fhíoríomhánna.

Cúis an-láidir amháin nach n-iompaítear na cúlraí isteach in ionramhálacha aghaidhe i SemanticStyleGAN ná go bhfuil siad ina suí ar shraith níos faide i gcéin, agus go bhfuil siad iomlán, má tá siad i bhfolach go páirteach ag na aghaidheanna forshuite.

Cúis an-láidir amháin nach n-iompaítear na cúlraí isteach in ionramhálacha aghaidhe i SemanticStyleGAN ná go bhfuil siad ina suí ar shraith níos faide i gcéin, agus go bhfuil siad iomlán, má tá siad i bhfolach go páirteach ag na aghaidheanna forshuite.

Ós rud é go mbeidh aghaidheanna gan chúlra mar thoradh ar na léarscáileanna deighilte, ní hamháin go soláthraíonn na cúlraí 'buail isteach' seo comhthéacs, ach tá siad cumraithe freisin le bheith oiriúnach, i dtéarmaí soilsithe, do na aghaidheanna forshuite.

Oiliúint agus Sonraí

Cuireadh oiliúint ar na samhlacha ‘réadúla’ ar na 28,000 íomhá tosaigh i CelebAMask-HQ, a athrú go 256 × 256 picteilín chun freastal ar an spás oiliúna (.i. an VRAM atá ar fáil, a ordaíonn méid baisc uasta in aghaidh an atriall).

Cuireadh oiliúint ar roinnt samhlacha, agus rinneadh tástáil ar uirlisí, tacair shonraí agus ailtireachtaí éagsúla le linn an phróisis forbartha agus tástálacha éagsúla eisiblithe. Bhí taifeach 512 × 512 ag baint leis an tsamhail táirgiúil is mó de chuid an tionscadail, agus cuireadh oiliúint uirthi thar 2.5 lá ar ocht GPU NVIDIA Tesla V100. Tar éis oiliúna, glacann giniúint íomhá amháin 0.137s ar GPU lobe gan comhthreomharú.

Tagann na turgnaimh níos mó ar stíl cartún/anime a léirítear sna físeáin iomadúla ar leathanach an tionscadail (féach an nasc thuas) ó thacair sonraí aghaidhbhunaithe éagsúla a bhfuil tóir orthu, lena n-áirítear Toonify, MetFaces, agus Bitmoji.

Réiteach Stopgap?

Áitíonn na húdair nach bhfuil aon chúis nach bhféadfaí SemanticStyleGAN a chur i bhfeidhm i bhfearainn eile, mar thírdhreacha, gluaisteáin, eaglaisí, agus na réimsí tástála 'réamhshocraithe' eile a mbíonn ailtireachtaí nua faoina réir go rialta go luath ina ngairmeacha beatha.

Admhaíonn an páipéar, áfach, de réir mar a ardaíonn líon na n-aicmí d’fhearann ​​(amhail 'carr', 'lampa sráide', 'coisithe', 'foirgneamh', 'carr' srl.), d'fhéadfadh go n-éireodh an cur chuige ilroinnte seo neamh-inoibrithe ar roinnt bealaí, gan a thuilleadh oibre a dhéanamh ar bharrfheabhsú. Tá, mar shampla, ag tacar sonraí uirbeacha CitySscapes 30 rang thar 8 gcatagóir.

Tá sé deacair a rá an bhfuil an spéis atá ann faoi láthair i gcruachás níos dírí ar an spás folaigh chomh doomed céanna leis an Ailceimic; nó an mbeifear in ann cóid fholaithe a aithint agus a rialú ar deireadh – forbairt a d’fhéadfadh an cineál cur chuige seo atá níos casta go seachtrach a dhéanamh iomarcach.