stuacach Rudaí a Bhaint As Físeáin ar bhealach Níos Éifeachtúla le Meaisín-Fhoghlaim - Unite.AI
Ceangail le linn

Faisnéise Saorga

Rudaí a Bhaint Ó Fhíseáin ar Bhealach Níos Éifeachtúla Le Meaisín-Fhoghlaim

mm
Nuashonraithe on

Tuairiscíonn taighde nua ón tSín torthaí úrscothacha – chomh maith le feabhas suntasach ar éifeachtúlacht – do chóras nua físphéinteála ar féidir leis réada a bhaint de phíosaí scannáin.

Tá úmach faoileora crochta péinteáilte amach faoin nós imeachta nua. Féach ar an bhfíseán foinse (leabaithe ag bun an ailt seo) le haghaidh réiteach níos fearr agus níos mó samplaí. Foinse: https://www.youtube.com/watch?v=N--qC3T2wc4

Tá úmach faoileora crochta péinteáilte amach faoin nós imeachta nua. Féach ar an bhfíseán foinse (leabaithe ag bun an ailt seo) le haghaidh réiteach níos fearr agus níos mó samplaí. Foinse: https://www.youtube.com/watch?v=N–qC3T2wc4

An teicníocht, ar a dtugtar creat ó cheann go ceann le haghaidh péinteáil físe faoi threoir sreafa (E2FGVI), atá in ann freisin comharthaí uisce agus cineálacha éagsúla eile occlusion a bhaint as ábhar físeáin.

Ríomhann E2FGVI réamh-mheastacháin maidir le hábhar atá taobh thiar d’occlusion, rud a fhágann gur féidir comharthaí uisce fiúntacha agus dorochtana a bhaint. Foinse: https://github.com/MCG-NKU/E2FGVI

Ríomhann E2FGVI réamh-mheastacháin maidir le hábhar atá taobh thiar d’occlusion, rud a ligeann do bhaint fiú na n-uathmharcanna atá fiú suntas agus nach féidir a láimhseáil. Foinse: https://github.com/MCG-NKU/E2FGVI

Chun níos mó samplaí a fheiceáil i réiteach níos fearr, seiceáil an físeán leabaithe ag deireadh an ailt.

Cé gur cuireadh oiliúint ar an tsamhail atá sa pháipéar foilsithe ar fhíseáin 432px x 240px (méideanna ionchuir íseal go hiondúil, srianta ag spás GPU atá ar fáil vs. méideanna baisc is fearr agus fachtóirí eile), tá na húdair eisithe ó shin i leith. E2FGVI-Ceanncheathrú, ar féidir leo físeáin a láimhseáil ag réiteach treallach.

Is é an cód don leagan reatha ar fáil ag GitHub, agus is féidir an leagan Ceanncheathrú, a eisíodh Dé Domhnaigh seo caite, a íoslódáil ó Google Drive agus Diosca Baidu.

Fanann an leanbh sa phictiúr.

Fanann an leanbh sa phictiúr.

E2Is féidir le FGVI físeán 432 × 240 a phróiseáil ag 0.12 soicind in aghaidh an fhráma ar GPU Titan XP (12GB VRAM), agus tuairiscíonn na húdair go n-oibríonn an córas cúig huaire déag níos tapúla ná na modhanna úrscothacha roimhe seo bunaithe ar sreabhadh optúil.

Déanann imreoir leadóige imeacht gan choinne.

Déanann imreoir leadóige imeacht gan choinne.

Arna thástáil ar thacair sonraí caighdeánacha don fho-earnáil seo de thaighde sintéise íomhá, bhí an modh nua in ann feidhmiú níos fearr ná iomaitheoirí i mbabhtaí meastóireachta cáilíochtúla agus cainníochtúla araon.

Tástálacha i gcoinne cur chuige roimhe seo. Foinse: https://arxiv.org/pdf/2204.02663.pdf

Tástálacha i gcoinne cur chuige roimhe seo. Foinse: https://arxiv.org/pdf/2204.02663.pdf

An páipéar dar teideal I dTreo Creata ó Dhéan go Ceann d'Fhísphéinteáil Sreabh-Treoraithe, agus is comhoibriú é idir ceathrar taighdeoirí ó Ollscoil Nankai, mar aon le taighdeoir ó Hisilicon Technologies.

Cad atá ar Iarraidh sa Phictiúr Seo

Seachas a fheidhmchláir shoiléire ar éifeachtaí amhairc, tá físphéinteáil ardchaighdeáin le bheith ina ghné lárnach shainithe de shintéis íomhá nua bunaithe ar AI agus de theicneolaíochtaí a athraíonn íomhánna.

Tá sé seo fíor go háirithe maidir le feidhmchláir faisin a athraíonn an comhlacht, agus creataí eile a dhéanann iarracht a dhéanamh 'caol síos' nó radhairc in íomhánna agus físeáin a athrú ar shlí eile. I gcásanna den sórt sin, is gá an cúlra breise a nochtar ag an tsintéis a ‘líonadh’ go diongbháilte.

Ó pháipéar le déanaí, tá sé de chúram ar algartam 'athmhúnlaithe' coirp an cúlra nua-nochta a phéinteáil nuair a athraítear méid ábhar. Anseo, léirítear an t-easnamh sin ag an imlíne dearg a d'úsáid an duine (fíorshaol, féach an íomhá ar chlé) a áitiú. Bunaithe ar bhunábhar ó https://arxiv.org/pdf/2203.10496.pdf

Ó pháipéar le déanaí, tá sé de chúram ar algartam 'athmhúnlaithe' coirp an cúlra nua-nochta a phéinteáil nuair a athraítear méid ábhar. Anseo, léirítear an t-easnamh sin ag an imlíne dearg a d'úsáid an duine (fíorshaol, féach an íomhá ar chlé) a áitiú. Bunaithe ar bhunábhar ó https://arxiv.org/pdf/2203.10496.pdf

Sreabhadh Optúil Comhleanúnach

Tá sreabhadh optúil (OF) tar éis éirí mar chroí-theicneolaíocht i bhforbairt bhaint réad físeáin. Cosúil le atlasSoláthraíonn , OF léarscáil aonshot de sheicheamh ama. Is minic a úsáidtear OF chun treoluas i dtionscnaimh fís ríomhaire a thomhas, agus is féidir le OF inphéinteáil atá comhsheasmhach go ham a chumasú freisin, nuair is féidir suim chomhiomlán an taisc a mheas in aon phas amháin, in ionad aird ‘in aghaidh an fhráma’ ar stíl Disney, rud a bhíonn mar thoradh dosheachanta. le neamhleanúnachas ama.

Tá modhanna péintéireachta físe go dtí seo dírithe ar phróiseas trí chéim: comhlánú sreabhadh, i gcás ina bhfuil an físeán mapáilte go bunúsach mar aonán scoite agus in-iniúchta; iomadú picteilín, áit a líontar na poill i bhfíseáin 'truaillithe' trí phicteilíní a iomadú go déthreoch; agus siabhránacht ábhar (‘aireagán’ picteilín atá eolach don chuid is mó againn ó dhomhain-fakes agus creataí téacs-go-íomhá mar an tsraith DALL-E) áit a bhfuil an t-ábhar ‘ar iarraidh’ measta a chumadh agus a chur isteach sa scannán.

Tá nuálaíocht lárnach E2Is éard atá i gceist le FGVI na trí chéim seo a chomhcheangal i gcóras ceann go ceann, ag seachaint an gá atá le hoibríochtaí láimhe a dhéanamh ar an ábhar nó ar an bpróiseas.

Tugann an páipéar faoi deara go n-éilíonn an gá atá le hidirghabháil láimhe nach mbaineann próisis níos sine leas as GPU, rud a fhágann go dtógann siad go leor ama. Ón bpáipéar*:

'Ag tabhairt DFVI mar shampla, físeán amháin a chomhlánú leis an méid 432 × 240 ó DAVIS, ina bhfuil thart ar 70 fráma, ní mór thart ar 4 nóiméad, rud atá do-ghlactha i bhformhór na n-iarratas ar domhan. Ina theannta sin, seachas na míbhuntáistí thuasluaite, ní dhéantar neamhaird de na caidrimh ábhair thar chomharsana ama ach amháin trí líonra réamh-oilte péinteála íomhá a úsáid ag céim na siabhránachtaí ábhair, rud a fhágann go mbíonn ábhar ginte neamh-chomhsheasmhach i bhfíseáin.'

Trí na trí chéim den fhísphéinteáil a aontú, tá E2Tá FGVI in ann an dara céim, iomadú picteilín, a chur in ionad iomadú gné. I bpróisis níos deighilte na n-oibreacha roimhe seo, níl gnéithe ar fáil chomh forleathan, toisc go bhfuil gach céim sách hermetic, agus níl an sreabhadh oibre ach leath-uathoibríoch.

Ina theannta sin, tá na taighdeoirí a claochladán fócasach ama don chéim hallucination ábhar, a mheasann ní hamháin na comharsana díreacha na picteilíni sa fhráma reatha (ie cad atá ag tarlú sa chuid sin den fhráma san íomhá roimhe seo nó eile), ach freisin na comharsana i bhfad i gcéin go bhfuil go leor frámaí ar shiúl, agus ach beidh tionchar aige ar éifeacht chomhtháite aon oibríochtaí a dhéanfar ar an bhfíseán ina iomláine.

Ailtireacht E2FGVI.

Ailtireacht E2FGVI.

Tá an chuid lárnach nua gné-bhunaithe den sreabhadh oibre in ann leas a bhaint as próisis gné-leibhéal agus fritháirimh samplála infhoghlama, agus leathnaíonn claochladán fócasach úrscéal an tionscadail, de réir na n-údar, méid na bhfuinneoga fócasacha 'ó 2D go 3D'. .

Tástálacha agus Sonraí

Chun E a thástáil2FGVI, rinne na taighdeoirí measúnú ar an gcóras i gcoinne dhá thacar sonraí deighilte réad físe a bhfuil tóir orthu: YouTube-VOS, agus DAVIS. Tá 3741 gearrthóg físe oiliúna, 474 gearrthóg bailíochtaithe, agus 508 gearrthóg tástála ar fáil ar YouTube-VOS, agus tá 60 gearrthóg físe oiliúna, agus 90 gearrthóg tástála ag DAVIS.

E2Cuireadh oiliúint ar FGVI ar YouTube-VOS agus rinneadh meastóireacht ar an dá thacar sonraí. Le linn na hoiliúna, gineadh maisc réad (na limistéir ghlasa sna híomhánna thuas, agus an físeán leabaithe thíos) chun críochnú físeáin a insamhail.

Maidir le méadracht, ghlac na taighdeoirí Buaic-chóimheas comhartha-go-torann (PSNR), Cosúlacht Struchtúrtha (SSIM), Fad Tionscnaimh Fréchet Bunaithe ar Fhís (VFID), agus Earráid Cogaidh Sreafa - an dara ceann chun cobhsaíocht ama a thomhas san fhíseán a ndearnadh difear dó.

Ba iad na hailtireachtaí roimhe seo ar tástáladh an córas ina n-aghaidh VINet, DFVI, LGTSM, CAP, FGVC, STTN, agus FuseFormer.

Ón rannán torthaí cainníochtúla den pháipéar. Léiríonn saigheada suas agus síos go bhfuil líon níos airde nó níos ísle níos fearr, faoi seach. Baineann E2FGVI na scóir is fearr amach go ginearálta. Déantar na modhanna a mheas de réir FuseFormer, cé nach córais deireadh go deireadh iad DFVI, VINet agus FGVC, rud a fhágann nach féidir a gcuid FLOPanna a mheas.

Ón rannán torthaí cainníochtúla den pháipéar. Léiríonn saigheada suas agus síos go bhfuil líon níos airde nó níos ísle níos fearr, faoi seach. Baineann E2FGVI na scóir is fearr amach go ginearálta. Déantar na modhanna a mheas de réir FuseFormer, cé nach córais deireadh go deireadh iad DFVI, VINet agus FGVC, rud a fhágann nach féidir a gcuid FLOPanna a mheas.

Chomh maith leis na scóir is fearr a bhaint amach i gcoinne gach córas iomaíoch, rinne na taighdeoirí staidéar úsáideora cáilíochtúil, inar taispeánadh físeáin a ndearnadh claochlú orthu le cúig mhodh ionadaíocha ina n-aonar do fiche oibrí deonach, agus iarradh orthu iad a rátáil i dtéarmaí cáilíochta amhairc.

Léiríonn an ais ingearach céatadán na rannpháirtithe arbh fhearr leo an t-aschur E2FGVI i dtéarmaí cáilíochta amhairc.

Léiríonn an ais ingearach céatadán na rannpháirtithe arbh fhearr leo an E2Aschur FGVI i dtéarmaí cáilíochta amhairc.

Tugann na húdair faoi deara, in ainneoin an rogha d’aon ghuth a bhaineann lena modh, nach léiríonn ceann de na torthaí, FGVC, na torthaí cainníochtúla, agus tugann siad le fios go léiríonn sé seo go bhfuil E2D’fhéadfadh go mbeadh FGVI, go sonrach, ag cruthú ‘torthaí níos taitneamhaí ó thaobh amhairc’.

I dtéarmaí éifeachtúlachta, tugann na húdair faoi deara go laghdaíonn a gcóras go mór oibríochtaí snámhphointe in aghaidh an tsoicind (FLOPanna) agus am tátal ar GPU Tíotán amháin ar thacar sonraí DAVIS, agus tugann siad faoi deara go léiríonn na torthaí E.2FGVI ag rith x15 níos tapúla ná modhanna sreabhadh-bhunaithe.

Tráchtann siad:

‘[e2Tá na FLOPanna is ísle ag FGVI] i gcodarsnacht le gach modh eile. Tugann sé seo le fios go bhfuil an modh atá beartaithe an-éifeachtach maidir le físphéinteáil.'

http://www.youtube.com/watch?v=N–qC3T2wc4

 

*Mo thiontú de lua inlíne na n-údar go hipearnaisc.

Foilsíodh den chéad uair ar 19 Bealtaine 2022.