stub Mar a dh’ aithnicheas tu cuin a tha siostaman synthesis Ìomhaigh a ’toirt a-mach stuth dha-rìribh‘ tùsail ’- Unite.AI
Ceangal leinn

Artificial Intelligence

Mar a dh’ aithnicheas tu cuin a tha siostaman synthesis ìomhaighean a’ toirt a-mach stuth a tha dha-rìribh ‘tùsail’

mm
Ùraichte on
‘Teddy bears ag obair air rannsachadh AI ùr fon uisge le teicneòlas 1990n’ - Stòr: https://www.creativeboom.com/features/meet-dall-e/
‘Teddy bears ag obair air rannsachadh AI ùr fon uisge le teicneòlas 1990n’ - Stòr: https://www.creativeboom.com/features/meet-dall-e/

Tha sgrùdadh ùr bho Chorea a Deas air dòigh a mholadh gus faighinn a-mach a bheil siostaman synthesis ìomhaighean a’ toirt a-mach ìomhaighean a tha dha-rìribh ùr, no caochlaidhean ‘beaga’ air an dàta trèanaidh, a dh’ fhaodadh a’ chùis a dhèanamh air amas nan ailtireachd sin (leithid cinneasachadh ìomhaighean ùr-nodha agus tùsail). .

Glè thric, tha am pàipear a’ moladh, tha an tè mu dheireadh fìor, leis gu bheil na meatrach a th’ ann mar-thà a bhios siostaman mar seo a’ cleachdadh gus na comasan ginealachd aca a leasachadh thar cùrsa an trèanaidh air an co-èigneachadh gu bhith a’ fàbharachadh ìomhaighean a tha an ìre mhath faisg air na h-ìomhaighean stòr (neo-falsa) san t-seata dàta. .

Às deidh na h-uile, ma tha ìomhaigh a chaidh a chruthachadh ‘faisg air lèirsinneach’ air an stòr-dàta, tha e do-sheachanta gum bi e a’ faighinn sgòr nas fheàrr airson ‘dearbhachd’ na ‘tùsachd’, leis gu bheil e ‘dìleas’ - mura h-eil e air a bhrosnachadh.

Ann an roinn a tha ro thùsail agus gun deuchainn airson a bhith aithnichte fhathast mu na buaidhean laghail aice, dh’ fhaodadh seo tionndaidh a-mach gu bhith na chùis laghail cudromach, ma thig e a-mach nach eil susbaint ìomhaighean synthetigeach malairteach gu leòr eadar-dhealaichte bhon stuth tùsail (gu tric) fo dhlighe-sgrìobhaidh a tha an-dràsta cead a bhi air a bhualadh an roinn rannsachaidh ann an cruth stòran-dàta mòr-chòrdte air an sgrìobadh air an lìon (tha comas ann airson tagraidhean brisidh den t-seòrsa seo san àm ri teachd air tighinn gu follaiseachd an ìre mhath o chionn ghoirid a thaobh GitHub Co-Pilot AI aig Microsoft).

A thaobh toradh a tha a’ sìor fhàs ciallach agus semantach làidir bho shiostaman leithid OpenAI’s DALL-E2, Google Dealbh, agus Sìona CogView sgaoilidhean (a bharrachd air an ìre as ìsle dall-e mini), tha glè bheag ann post fìrinn dòighean air dearbhadh gu h-earbsach airson tùsachd ìomhaigh gineadh.

Gu dearbh, cha bhith a bhith a’ lorg cuid de na h-ìomhaighean ùra DALL-E 2 as mòr-chòrdte gu tric a’ leantainn gu tuilleadh eisimpleirean de na h-aon ìomhaighean sin, a rèir an einnsean sgrùdaidh.

Le bhith a’ luchdachadh suas buidheann toraidh 9-image iomlan DALL-E 2 dìreach a’ leantainn gu barrachd bhuidhnean toraidh DALL-E 2. Le bhith a ’sgaradh agus a’ luchdachadh suas a ’chiad ìomhaigh (bhon phost Twitter seo air 8 Ògmhios 2022, bhon chunntas ‘Weird Dall-E Generations’) ag adhbhrachadh gum bi Google a ’càradh ball-basgaid san dealbh, a’ toirt an sgrùdadh stèidhichte air ìomhaigh sìos alley dall semantach. Airson an aon sgrùdadh stèidhichte air ìomhaigh, tha e coltach gu bheil Yandex co-dhiù a’ dèanamh beagan ath-thogail stèidhichte air piogsail agus maidseadh feart.

Le bhith a’ luchdachadh suas buidheann toraidh DALL-E 9 2-ìomhaigh iomlan dìreach a’ leantainn gu barrachd bhuidhnean toraidh DALL-E 2, oir is e structar clèithe am feart as làidire. A’ sgaradh agus a’ luchdachadh suas a’ chiad dealbh (bho am post Twitter seo bho 8 Ògmhios 2022, bhon chunntas ‘Weird Dall-E Generations’) ag adhbhrachadh gu bheil Google a’ socrachadh air a’ bhall-basgaid san dealbh, a’ toirt an sgrùdadh stèidhichte air ìomhaigh sìos allaidh semantach dall. Airson an aon sgrùdadh stèidhichte air ìomhaigh, tha e coltach gu bheil Yandex co-dhiù a’ dèanamh beagan ath-thogail stèidhichte air piogsail agus maidseadh feart.

Ged a tha Yandex nas dualtaiche na Rannsachadh Ghoogle an fhìor a chleachdadh feartan (ie ìomhaigh air a thoirt a-mach / air a thomhas feartan, chan e gu feum feartan aghaidh dhaoine) agus lèirsinneach (seach semantic) feartan ìomhaigh a chaidh a chuir a-steach gus ìomhaighean coltach ris a lorg, tha an dàrna cuid aig a h-uile inneal sgrùdaidh stèidhichte air ìomhaigh seòrsa de chlàr-gnothaich no de chleachdadh dh’ fhaodadh sin a dhèanamh duilich eisimpleirean de dh’ aithneachadh stòr> air a chruthachadh meirle-sgrìobhaidh tro rannsachaidhean lìn.

A bharrachd air an sin, is dòcha nach bi an dàta trèanaidh airson modal ginealach ri fhaighinn gu poblach gu h-iomlan, a’ toirt tuilleadh sgrùdaidh foireansach air tùsachd ìomhaighean gineadh.

Gu inntinneach, a’ dèanamh sgrùdadh lìn stèidhichte air ìomhaigh air aon de na h-ìomhaighean synthetigeach a tha Google a’ nochdadh aig a làrach sònraichte Imagen chan eil e a’ lorg dad sam bith an coimeas ri cuspair na h-ìomhaigh, a thaobh a bhith a’ coimhead air an ìomhaigh agus a’ sireadh ìomhaighean coltach ris gu neo-chlaon. An àite sin, air an suidheachadh gu semantach mar a bha e a-riamh, cha cheadaich toraidhean rannsachaidh Google Image airson an dealbh Imagen seo sgrùdadh lìn fìor-ghlan stèidhichte air ìomhaigh air an ìomhaigh gun a bhith a’ cur na teirmean sgrùdaidh ‘imagen google’ mar pharameter a bharrachd (agus cuibhrichte):

Air an làimh eile, lorg Yandex mòran de dh ’ìomhaighean coltach ris (no co-dhiù co-cheangailte ri lèirsinn) bhon choimhearsnachd ealain neo-dhreuchdail:

San fharsaingeachd, bhiodh e na b’ fheàrr nam b’ urrainnear ùr-ghnàthachadh no tùsachd toradh siostaman synthesis ìomhaighean a thomhas ann an dòigh air choreigin, gun a bhith feumach air feartan a thoirt a-mach às a h-uile ìomhaigh aghaidh-lìn a dh’ fhaodadh a bhith air an eadar-lìn aig an àm a chaidh am modail a thrèanadh, no ann an stòran-dàta neo-phoblach a dh’ fhaodadh a bhith a’ cleachdadh stuthan fo dhlighe-sgrìobhaidh.

Co-cheangailte ris a’ chùis seo, tha luchd-rannsachaidh bho Sgoil Cheumnach Kim Jaechul de AI aig Institiud Adhartach Saidheans agus Teicneòlais Korea (KAIST AI) air co-obrachadh le ICT cruinneil agus companaidh sgrùdaidh NAVER Corp gus a leasachadh Sgòr tearc a chuidicheas le bhith ag aithneachadh cruthachaidhean nas tùsail de shiostaman synthesis ìomhaighean.

Tha dealbhan an seo air an gineadh tro StyleGAN-FFHQ. Bho chlì gu deas, tha na colbhan a’ sealltainn nan toraidhean as miosa gu ruige seo. Chì sinn gu bheil na clàran-gnothaich aca fhèin aig a’ mheatrach ‘Truncation trick’ (faic gu h-ìosal) agus meatrach Realism, fhad ‘s a tha an sgòr ùr ‘Rarity’ (sreath gu h-àrd) a’ sireadh ìomhaighean co-leanailteach ach tùsail (seach dìreach ìomhaighean co-leanailteach). Stòr: https://arxiv.org/pdf/2206.08549.pdf

Tha dealbhan an seo air an gineadh tro StyleGAN-FFHQ. Bho chlì gu deas, tha na colbhan a’ sealltainn nan toraidhean as miosa gu ruige seo. Chì sinn gu bheil na clàran-gnothaich aca fhèin aig a’ mheatrach ‘Truncation trick’ (faic gu h-ìosal) agus meatrach Realism, fhad ‘s a tha an sgòr ùr ‘Rarity’ (sreath gu h-àrd) a’ sireadh ìomhaighean co-leanailteach ach tùsail (seach dìreach ìomhaighean co-leanailteach). Leis gu bheil crìochan meud ìomhaigh san artaigil seo, faic am pàipear stòr airson mion-fhiosrachadh agus fuasgladh nas fheàrr. Stòr: https://arxiv.org/pdf/2206.08549.pdf

ùr pàipear leis an tiotal Sgòr tearc: Metric ùr gus measadh a dhèanamh air neo-chumantas ìomhaighean co-shìnte, agus a’ tighinn bho thriùir luchd-rannsachaidh aig KAIST, agus triùir bho NAVER Corp.

Seachad air an 'Cheap Trick'

Am measg nan slatan-tomhais a th' ann roimhe air a bheil am pàipear ùr a' feuchainn ri leasachadh tha an 'Truncation trick'. moladh ann an 2019 ann an co-obrachadh eadar Oilthigh Heriot-Watt na RA agus DeepMind Google.

Tha an Truncation Trick gu bunaiteach a’ cleachdadh cuairteachadh falaichte eadar-dhealaichte airson samplachadh na chaidh a chleachdadh airson a’ mhodal ginealach a thrèanadh.

Chaidh iongnadh a dhèanamh air an luchd-rannsachaidh a leasaich an dòigh seo gun do dh’ obraich e, ach dh’aidich iad anns a’ phàipear thùsail gun lughdaich e am measgachadh de thoraidhean gineadh. A dh’ aindeoin sin, tha an Truncation Trick air fàs èifeachdach agus mòr-chòrdte, ann an co-theacsa rud a dh’ fhaodadh a bhith air ath-mhìneachadh mar ‘cleas saor’ airson toraidhean dearbhte fhaighinn nach eil dha-rìribh a’ co-fhreagairt a h-uile comas a tha dualach don dàta, agus a dh’ fhaodadh a bhith coltach ris an dàta stòr nas motha na thathar ag iarraidh.

A thaobh Truncation Trick, tha ùghdaran a’ phàipeir ùir a’ faicinn:

'[Chan eil e] ag amas air sampallan tearc a ghineadh ann an stòran-dàta trèanaidh, ach gus ìomhaighean àbhaisteach a cho-chur ann an dòigh nas seasmhaiche. Tha sinn a’ gabhail beachd gum bi e comasach dha na modalan ginealach a th’ ann mar-thà sampallan a thoirt gu buil nas beairtiche san fhìor chuairteachadh dàta mas urrainnear an gineadair a bhrosnachadh gus sampallan tearc a thoirt gu buil.’

Den àbhaist a bhith an urra ri meatrach traidiseanta leithid Frechet Inception Distance (FID, a tha thàinig e fo dhian chàineadh san Dùbhlachd 2021), sgòr tòiseachaidh (IS) agus astar tòiseachaidh Kernel (KID) mar ‘chomharran adhartais’ rè trèanadh modail ginealach, tha na h-ùghdaran a’ toirt tuilleadh beachd*:

“Tha an sgeama ionnsachaidh seo a’ toirt air a’ ghineadair gun a bhith a’ co-chur sampaill tearc a tha gun samhail agus aig a bheil feartan làidir nach eil a’ toirt cunntas air cuibhreann mòr den fhìor chuairteachadh ìomhaighean. Tha eisimpleirean de shamhlaichean tearc bho stòran-dàta poblach a’ toirt a-steach daoine le diofar ghoireasan a-steach FFHQ, beathaichean geala ann an AFHQ, agus ìomhaighean neo-àbhaisteach ann am Metfaces.

“Tha an comas sampallan tearc a ghineadh cudromach chan ann a-mhàin air sgàth gu bheil e co-cheangailte ri comas iomaill nam modalan ginealach, ach cuideachd leis gu bheil àite cudromach aig àraid ann an tagraidhean cruthachail leithid daoine brìgheil.

“Ach, is ann ainneamh a bhios na h-eisimpleirean tearc sin ann an toraidhean càileachdail grunn sgrùdaidhean o chionn ghoirid. Tha sinn a’ co-dhùnadh gu bheil nàdar an sgeama ionnsachaidh nàimhdeil a’ toirt a-mach cuairteachadh ìomhaighean coltach ri dàta trèanaidh. Mar sin, chan eil ìomhaighean le fa leth soilleir no tearc a' gabhail ach pàirt bheag ann an ìomhaighean air an co-chur leis na modailean.'

Technique

Bidh Sgòr Tràth ùr an luchd-rannsachaidh ag atharrachadh beachd a tha air a thaisbeanadh ann an na bu tràithe Obair Innleadaireachd - cleachdadh K- Na nàbaidhean as fhaisge (KNNn) gus na h-sreathan de dhàta fìor (trèanadh) agus synthetigeach (toradh) a riochdachadh ann an siostam synthesis ìomhaighean.

A thaobh an dòigh sgrùdaidh ùr seo, tha na h-ùghdaran ag ràdh:

“Tha sinn a’ gabhail beachd gum biodh sampallan àbhaisteach nas fhaisge air a chèile ach bhiodh sampallan gun samhail agus tearc air an suidheachadh gu gann anns an àite feart.’

Tha ìomhaigh nan toraidhean gu h-àrd a’ sealltainn na h-astaran nàbaidh as fhaisge (NNDs) a-null chun an fheadhainn as motha, ann an ailtireachd StyleGAN air a thrèanadh air. FFHQ.

“Airson a h-uile stòr-dàta, tha sampallan leis na NNDan as lugha a’ nochdadh ìomhaighean riochdachail agus àbhaisteach. Air an làimh eile, tha pearsantachd làidir aig na sampallan leis na NNDn as motha agus tha iad gu math eadar-dhealaichte bho na h-ìomhaighean àbhaisteach leis na NNDan as lugha.'

Ann an teòiridh, le bhith a’ cleachdadh a’ mheatrach ùr seo mar leth-bhreith, no co-dhiù ga thoirt a-steach ann an ailtireachd leth-bhreith nas iom-fhillte, dh’ fhaodadh siostam ginealachd a bhith air a stiùireadh air falbh bho fhìor aithris a dh’ ionnsaigh algorithm nas innleachdaiche, agus aig an aon àm a’ cumail co-leanailteachd riatanach de bhun-bheachdan a dh’ fhaodadh a bhith riatanach. airson riochdachadh ìomhaigh dearbhte (ie 'fear', 'boireannach', 'càr', 'eaglais', msaa).

Coimeas agus Deuchainnean

Ann an deuchainnean, rinn an luchd-rannsachaidh coimeas eadar coileanadh an Rarity Score agus an dà chuid Truncation Trick agus NVIDIA's 2019 Sgòr Realism, agus fhuair iad a-mach gu bheil an dòigh-obrach comasach air toraidhean 'sònraichte' a dhealachadh thar measgachadh de fhrèaman-obrach agus dàta.

Ged a tha na toraidhean anns a’ phàipear ro fharsaing airson an toirt a-steach an seo, tha e coltach gu bheil an luchd-rannsachaidh air comas an dòigh ùr a nochdadh gus tearc a chomharrachadh ann an ìomhaighean stòr (fìor) agus gineadh (brèige) ann am modh ginealach:

Tagh eisimpleirean bho na toraidhean lèirsinneach farsaing a chaidh ath-riochdachadh sa phàipear (faic URL an stòr gu h-àrd airson tuilleadh fiosrachaidh). Air an taobh chlì, fìor eisimpleirean bho FFHQ aig nach eil ach glè bheag de nàbaidhean faisg air làimh (ie ùr-nodha agus neo-àbhaisteach) anns an t-seata dàta tùsail; air an taobh cheart, ìomhaighean meallta air an cruthachadh le StyleGAN, a tha am meatrach ùr air a chomharrachadh mar fhìor ùr-nodha.

Tagh eisimpleirean bho na toraidhean lèirsinneach farsaing a chaidh ath-riochdachadh sa phàipear (faic URL an stòr gu h-àrd airson tuilleadh fiosrachaidh). Air an taobh chlì, fìor eisimpleirean bho FFHQ aig nach eil ach glè bheag de nàbaidhean faisg air làimh (ie ùr-nodha agus neo-àbhaisteach) anns an t-seata dàta tùsail; air an taobh cheart, ìomhaighean meallta air an cruthachadh le StyleGAN, a tha am meatrach ùr air a chomharrachadh mar fhìor ùr-nodha. Leis gu bheil crìochan meud ìomhaigh san artaigil seo, faic am pàipear stòr airson mion-fhiosrachadh agus fuasgladh nas fheàrr.

Chan e a-mhàin gu bheil am meatrach Sgòr Rarity ùr a’ toirt cothrom air toradh ginealach ‘ùr-nodha’ a chomharrachadh ann an aon ailtireachd, ach cuideachd, tha an luchd-rannsachaidh ag ràdh, a’ ceadachadh coimeas a dhèanamh eadar modalan ginealachd de dhiofar ailtireachd is eadar-dhealaichte (ie autoencoder, VAE, GAN, msaa. ).

Tha am pàipear a’ toirt fa-near gu bheil Sgòr Tràth eadar-dhealaichte bho mheatairean roimhe le bhith a’ cuimseachadh air comas frèam ginealach gus ìomhaighean gun samhail agus tearc a chruthachadh, an aghaidh metrics ‘traidiseanta’, a bhios a’ sgrùdadh (an ìre mhath nas myopically) an iomadachd eadar ginealaichean rè trèanadh a’ mhodail.

Seachad air Gnìomhan Earranta

Ged a tha luchd-rannsachaidh a’ phàipeir ùir air deuchainnean a dhèanamh air frèaman fearainn cuibhrichte (leithid cothlamadh gineadair / stòr-dàta a chaidh a dhealbhadh gus dealbhan a dhèanamh gu sònraichte de dhaoine, no de chait, mar eisimpleir), faodar an Sgòr Tràth a chuir an sàs ann am modh synthesis ìomhaigh neo-riaghailteach sam bith far a bheil thathas ag iarraidh eisimpleirean gineadh a chomharrachadh a bhios a’ cleachdadh sgaoilidhean a thig bhon dàta ionnsaichte, an àite a bhith ag àrdachadh dearbhteachd (agus a’ lughdachadh iomadachd) le bhith a’ cuir a-steach sgaoilidhean falaichte cèin, no a bhith an urra ri ‘ath-ghoiridean’ eile a tha a’ dèanamh cron air ùr-ghnàthachadh a thaobh dearbhteachd.

Gu dearbh, dh’ fhaodadh a leithid de mheatrach eadar-dhealachadh a dhèanamh air eisimpleirean toraidh fìor ùr ann an siostaman leithid an t-sreath DALL-E, le bhith a’ cleachdadh astar comharraichte eadar toradh follaiseach ‘aslier’, an dàta trèanaidh, agus toraidhean bho bhrosnachadh no cuir a-steach coltach ris (ie, ìomhaigh - molaidhean stèidhichte).

Ann an cleachdadh, agus às aonais tuigse shoilleir air an ìre gu bheil an siostam air bun-bheachdan lèirsinneach agus semantach a cho-chothromachadh (gu tric air am bacadh le beagan eòlais air an dàta trèanaidh), dh’ fhaodadh seo a bhith na dhòigh obrachaidh gus fìor mhionaid de thrèanadh a chomharrachadh. brosnachadh’ ann an siostam ginealaich – an ìre aig a bheil àireamh iomchaidh de bhun-bheachdan ion-chuir agus dàta air leantainn gu rudeigin fìor innleachdach, an àite rudeigin a tha ro thùsail no faisg air an stòr-dàta.

 

* Na atharraichean agam de luaidh in-loidhne nan ùghdaran gu ceanglaichean-lìn.

Air fhoillseachadh an toiseach air 20 Ògmhios 2022.