stuacach SofGAN: Gineadóir Aghaidhe GAN a Thairgeann Rialú Níos Mó - Unite.AI
Ceangail le linn

Faisnéise Saorga

SofGAN: Gineadóir Aghaidhe GAN a Thairgeann Rialú Níos Mó

mm
Nuashonraithe on

Tá córas giniúna portráide bunaithe ar GAN forbartha ag taighdeoirí i Shanghai agus sna SA a ligeann d’úsáideoirí aghaidheanna núíosacha a chruthú nach raibh ar fáil go dtí seo de smacht ar ghnéithe aonair amhail gruaig, súile, spéaclaí, uigeachtaí agus dath.

Chun solúbthacht an chórais a léiriú, tá comhéadan ar stíl Photoshop curtha ar fáil ag na cruthaitheoirí inar féidir le húsáideoir gnéithe deighilte shéimeantacha a tharraingt go díreach a dhéanfar a athléirmhíniú go híomhánna réalaíocha, agus ar féidir iad a fháil fiú trí tharraingt go díreach ar ghrianghraif atá ann cheana féin.

Sa sampla thíos, úsáidtear pictiúr den aisteoir Daniel Radcliffe mar theimpléad rianaithe (agus ní é an cuspóir ná cosúlacht de a tháirgeadh, ach íomhá fótaréalaíoch go ginearálta). De réir mar a líonann an t-úsáideoir gnéithe éagsúla, lena n-áirítear gnéithe scoite cosúil le spéaclaí, sainaithnítear agus léirmhínítear iad san íomhá líníochta aschuir:

Ag baint úsáide as íomhá amháin mar ábhar rianaithe do phortráid a ghin SofGAN. Foinse: https://www.youtube.com/watch?v=xig8ZA3DVZ8

Ag baint úsáide as íomhá amháin mar ábhar rianaithe do phortráid a ghin SofGAN. Foinse: https://www.youtube.com/watch?v=xig8ZA3DVZ8

An páipéar i dteideal SofGAN: Gineadóir Íomhánna Portráidíochta le Stíleanna Dinimiciúla, agus tá sé faoi stiúir Anpei Chen agus Ruiyang Liu, mar aon le beirt taighdeoirí eile ó Ollscoil ShanghaiTech agus taighdeoir eile ó Ollscoil California ag San Diego.

Gnéithe Dícheangail

Ní hionann príomhchion na hoibre maidir le UX atá éasca le húsáid a sholáthar, ach i dtréithe ‘dícheangail’ na ngnéithe aghaidhe foghlamtha, amhail staidiúir agus uigeacht, a ligeann do SofGAN aghaidheanna a ghiniúint freisin atá ag uillinneacha indíreacha leis an. radharc ceamara.

Neamhghnách i measc gineadóirí aghaidhe atá bunaithe ar Líonraí Gineadacha Sáraimh, is féidir le SofGAN an uillinn radhairc a athrú de réir toil, laistigh de theorainneacha na sraithe uillinneacha atá sna sonraí oiliúna. Foinse: https://arxiv.org/pdf/2007.03780.pdf

Neamhghnách i measc gineadóirí aghaidhe atá bunaithe ar Líonraí Gineadacha Sáraimh, is féidir le SofGAN an uillinn radhairc a athrú de réir toil, laistigh de theorainneacha na sraithe uillinneacha atá sna sonraí oiliúna. Foinse: https://arxiv.org/pdf/2007.03780.pdf

Ós rud é go bhfuil uigeachtaí deighilte ón gcéimseata anois, is féidir cruth aghaidhe agus uigeacht a láimhseáil mar aonáin ar leith freisin. I ndáiríre, ceadaíonn sé seo cine-athrú ar aghaidh foinse, a cleachtadh scannalach go bhfuil feidhmchlár a d’fhéadfadh a bheith úsáideach anois, le haghaidh an chruthú de thacair sonraí meaisínfhoghlama ciníochais.

Tacaíonn SofGAN freisin le haosú saorga agus coigeartú stíle atá comhsheasmhach le tréithe ag leibhéal gráinneach nach bhfuil le feiceáil i gcórais deighilte>íomhánna cosúil le NVIDIA's. GauGán agus rindreáil néarach cluiche-bhunaithe Intel córas.

Tá SofGAN in ann aosú a chur i bhfeidhm mar stíl atriallach.

Tá SofGAN in ann aosú a chur i bhfeidhm mar stíl atriallach.

Dul chun cinn eile do mhodheolaíocht SofGAN is ea nach bhfuil deighilt péireáilte/íomhánna fíor de dhíth leis an oiliúint, ach gur féidir í a oiliúint go díreach ar íomhánna fíorshaoil ​​neamhphéireáilte.

Luann na taighdeoirí gur spreag córais rindreála íomhánna traidisiúnta, a dhianscaoileann gnéithe aonair íomhá, ailtireacht ‘dícheangail’ SofGAN. I sreafaí oibre éifeachtaí amhairc, déantar na heilimintí le haghaidh ilchodach a mhiondealú go rialta go dtí na comhpháirteanna is nóiméad, le speisialtóirí tiomanta do gach comhpháirt.

Réimse Áitíochta Séimeantach (SOF)

Chun é seo a bhaint amach i gcreat sintéise íomhá meaisínfhoghlama, d'fhorbair na taighdeoirí a réimse áitíochta shéimeantach (SOF), síneadh ar an réimse áitíochta traidisiúnta a shainíonn na gnéithe comhpháirte de phortráidí aghaidhe. Cuireadh oiliúint ar an SOF ar léarscáileanna deighilte shéimeantacha ilamhairc calabraithe, ach gan aon mhaoirseacht ar fhírinneacht na talún.

Atriallta iolracha ó léarscáil deighilte amháin (ar chlé níos ísle).

Atriallta iolracha ó léarscáil deighilte amháin (ar chlé níos ísle).

Ina theannta sin, faightear léarscáileanna deighilte 2T trí aschur an SOF a gha-rianú, sula n-uigíonn gineadóir GAN iad. Déantar na léarscáileanna deighilte shéimeantacha 'sintéiseacha' a ionchódú freisin i spás ísealthoiseach trí ionchódóir trí chiseal chun leanúnachas aschuir a chinntiú nuair a athraítear an radharcphointe.

Meascann an scéim oiliúna go spásúil dhá stíl randamach do gach réigiún shéimeantach:

An ailtireacht le haghaidh SoftGAN.

An ailtireacht le haghaidh SoftGAN.

Maíonn na taighdeoirí go mbaineann SofGAN Fad Tionscnaimh Frechet níos ísle amach (IN) ná an cur chuige malartach úrscothach (SOTA) atá ann faoi láthair, chomh maith le Cosúlacht Paiste Íomhá Dearcadh Foghlama níos airde (LPIPS) méadrach.

Is minic a cuireadh bac ar chur chuige StyleGAN roimhe seo mar gheall ar ghreamú gné, ina bhfuil na heilimintí a chumadh íomhá ceangailte suas go do-athghabhála lena chéile, rud a fhágann go bhfeictear eilimintí nach dteastaíonn taobh le heilimint inmhianaithe (.i. d’fhéadfadh fáinní cluaise a bheith le feiceáil nuair a rindreáiltear cruth cluaise a bhí curtha ar an eolas ag am oiliúna ag pictiúr a raibh fáinní cluaise ann).

Úsáidtear ga-mharcáil chun toirt na léarscáileanna deighilte shéimeantacha a ríomh, rud a chumasaíonn ilphointí radhairc.

Ray ag máirseáil a úsáidtear chun toirt na léarscáileanna deighilte shéimeantacha a ríomh, rud a chumasaíonn ilphointí radhairc.

Tacair Sonraí agus Oiliúint

Baineadh úsáid as trí thacar sonraí chun feidhmeanna éagsúla SoftGAN a fhorbairt: CelebAMask-HQ, stór de 30,000 íomhá ardtaifigh a tógadh ó thacar sonraí CelebA-HQ; Ceanncheathrú Flickr-Faces- NVIDIA (FFHQ), ina bhfuil 70,000 íomhá, áit ar lipéadaigh na taighdeoirí na híomhánna le parsálaí aghaidhe réamhoilte; agus grúpa féintáirgthe de 122 scanadh portráide le réigiúin shéimeantacha arna lipéadú de láimh.

Tá an SOF comhdhéanta de thrí fho-mhodúl ar féidir iad a oiliúint – an hyper-líon, marcóir gathanna (féach an íomhá thuas), agus aicmitheoir. Tá gineadóir StyleGAN Instance Semantic Instance Wised (SIW) an tionscadail cumraithe mar an gcéanna le StyleGAN2 i ngnéithe áirithe. Cuirtear méadú ar shonraí i bhfeidhm trí scálú randamach agus bearradh, agus gnéithe oiliúna a rialáil cosán gach ceithre chéim. Thóg an nós imeachta oiliúna iomlán 22 lá chun 800,000 atriall a bhaint amach ar cheithre GPUanna RTX 2080 Ti thar CUDA 10.1.

Ní luann an páipéar cumraíocht na gcártaí 2080, ar féidir leo freastal ar idir 11gb-22gb VRAM an ceann, rud a chiallaíonn go bhfuil an VRAM iomlán atá fostaithe ar feadh na míosa is fearr chun SofGAN a oiliúint áit éigin idir 44Gb agus 88Gb.

Tugann na taighdeoirí faoi deara gur thosaigh torthaí ardleibhéil inghlactha ginearálaithe ag teacht chun cinn sách luath san oiliúint, ag 1500 atriall, trí lá isteach san oiliúint. Tógadh an chuid eile den oiliúint leis an bplé mall, intuartha, i dtreo sonraí míne a fháil ar nós gnéithe gruaige agus súl.

Go ginearálta baineann SofGAN torthaí níos réadúla amach ó léarscáil deighilte amháin ná ó mhodhanna iomaíocha ar nós NIVDIA SWORDS agus Pix2PixHD, agus SEAN.

Seo thíos an físeán a d’eisigh na taighdeoirí. Tá tuilleadh físeáin féin-óstaithe ar fáil ag an leathanach tionscadail.

[TOG 2021] SoftGAN: Gineadóir Íomhánna Portráidíochta le Stíleanna Dinimiciúla