stub UniTune: Teicneòlas Deasachaidh Ìomhaigh Neural Eile aig Google - Unite.AI
Ceangal leinn

Artificial Intelligence

UniTune: Teicneòlas deasachaidh ìomhaigh neòil eile aig Google

mm
Ùraichte on

Tha Google Research, tha e coltach, a’ toirt ionnsaigh air deasachadh ìomhaighean stèidhichte air teacsa bho ghrunn thaobhan, agus, a rèir choltais, a’ feitheamh gus faicinn dè ‘tha’ a’ gabhail. Gu math teann air an t-slighe a chaidh fhoillseachadh an t-seachdain seo chaidh Pàipear ìomhaigheach, tha am fuamhaire sgrùdaidh air dòigh falaichte a bharrachd stèidhichte air sgaoileadh a mholadh airson deasachaidhean stèidhichte air AI a dhèanamh air ìomhaighean tro òrdughan teacsa, ris an canar an turas seo Aon-Tune.

Stèidhichte air na h-eisimpleirean a chaidh a thoirt seachad sa phròiseact pàipear ùr, tha UnTune air ìre iongantach de eas-aontachadh de shuidheachadh semantach agus beachd bho fhìor shusbaint ìomhaigh chruaidh:

Tha smachd UniTune air sgrìobhadh semantach air leth. Thoir an aire mar a tha anns an t-sreath as àirde de dhealbhan, nach eil aghaidhean an dithis air an gluasad leis a’ chruth-atharrachadh iongantach air a’ chòrr den ìomhaigh thùsail (deas). Stòr: https://arxiv.org/pdf/2210.09477.pdf

Tha smachd UniTune air sgrìobhadh semantach air leth. Thoir an aire mar a tha anns an t-sreath as àirde de dhealbhan, nach eil aghaidhean an dithis air an gluasad leis a’ chruth-atharrachadh iongantach air a’ chòrr den ìomhaigh thùsail (deas). Stòr: https://arxiv.org/pdf/2210.09477.pdf

Mar a bhios luchd-leantainn Stable Diffusion air ionnsachadh ron àm seo, faodaidh e a bhith na ghnìomhachd duilich, uaireannan do-dhèanta, a bhith a’ cleachdadh deasachaidhean air earrannan pàirt de dhealbh gun a bhith ag atharrachadh an còrr den ìomhaigh. Ged a tha sgaoilidhean mòr-chòrdte leithid UATHACH1111 is urrainn dhaibh masgaichean a chruthachadh airson deasachaidhean ionadail agus cuibhrichte, tha am pròiseas cianail agus gu tric do-chreidsinneach.

Is e am freagairt fhollaiseach, co-dhiù do chleachdaiche lèirsinn coimpiutair, còmhdach de sgaradh semantach tha sin comasach air nithean aithneachadh agus aonaranachd ann an ìomhaigh gun eadar-theachd luchd-cleachdaidh, agus, gu dearbh, tha grunn iomairtean ùra air a bhith ann o chionn ghoirid air an t-slighe smaoineachaidh seo.

Another comasach airson a bhith a’ glasadh sìos gnìomhachd deasachaidh ìomhaighean neural meallta agus an sàs ann a bhith a’ faighinn buannachd bho thrèanadh buadhach OpenAI Contrastive Language-Image Ro-thrèanadh (CLIP) modal, a tha aig cridhe mhodalan sgaoilidh falaichte leithid DALL-E 2 agus Stable Diffusion, gus a bhith mar shìoltachain aig an ìre aig a bheil modal teacsa-gu-ìomhaigh deiseil gus cuibhreann mìneachaidh a chuir air ais chun neach-cleachdaidh . Anns a’ cho-theacsa seo, bu chòir CLIP a bhith mar mhodal faire agus smachd càileachd, a’ diùltadh cuibhreannan a tha mì-fhoirmeil no nach eil iomchaidh. Is e seo gu bhith air a stèidheachadh (ceangal Discord) aig portal DreamStudio API aig Stability.ai.

Ach, leis gu faodar a ràdh gur e CLIP an dà chuid an neach a tha ciontach agus am fuasgladh ann an suidheachadh mar sin (seach gu robh e gu bunaiteach cuideachd a’ toirt fiosrachadh don dòigh san deach an ìomhaigh a leasachadh), agus leis gum faodadh riatanasan bathar-cruaidh a dhol thairis air na tha dualtach a bhith ri fhaighinn gu h-ionadail don neach-cleachdaidh deireannach, is dòcha nach eil an dòigh-obrach seo air leth freagarrach.

Cànan Dùmhlaichte

Tha an UniTune a thathar a’ moladh an àite ‘fuinn ghrinn’ modail sgaoilidh a th’ ann mar-thà - anns a’ chùis seo, Ìomhaigh Google fhèin, ged a tha an luchd-rannsachaidh ag ràdh gu bheil an dòigh co-chosmhail ri ailtireachd sgaoilidh falaichte eile - gus am bi comharra sònraichte air a chuir a-steach ann a dh’ fhaodar a ghairm. le bhith ga thoirt a-steach ann an teachdaireachd teacsa.

Aig luach aghaidh, tha seo coltach ri Google bruadar, an-dràsta na obsession am measg luchd-leantainn agus luchd-leasachaidh Stable Diffusion, a dh’ fhaodas caractaran no nithean ùra a thoirt a-steach do phuing-seic a th’ ann mar-thà, gu tric ann an nas lugha na uair a thìde, stèidhichte air dìreach dòrlach de dhealbhan stòr; no eile mar Tionndadh teacsa, a chruthaicheas faidhlichean ‘sidecar’ airson àite-seic, a thathas an uairsin a’ làimhseachadh mar gum biodh iad air an trèanadh sa mhodail bho thùs, agus a dh’ fhaodas brath a ghabhail air goireasan mòra a’ mhodail fhèin le bhith ag atharrachadh an seòrsaiche teacsa aige, agus mar thoradh air sin bidh faidhle beag (an taca ris an puingean sgrùdaidh pruned 2GB aig a’ char as lugha de DreamBooth).

Gu dearbh, tha an luchd-rannsachaidh ag ràdh, dhiùlt UniTune an dà dhòigh-obrach sin. Fhuair iad a-mach gun robh Textual Inversion air cus mion-fhiosrachadh cudromach fhàgail air falbh, fhad ‘s a bha DreamBooth 'rinn e nas miosa agus thug e na b' fhaide ' na am fuasgladh air an do shocraich iad mu dheireadh.

A dh’ aindeoin sin, tha UniTune a’ cleachdadh an aon dòigh-obrach semantic ‘metaprompt’ le DreamBooth, le atharrachaidhean air an trèanadh air an gairm le faclan gun samhail a thagh an neach-trèanaidh, nach bi a’ dol an aghaidh teirmean sam bith a tha ann an-dràsta ann am modal fuasglaidh poblach le trèanadh saothair.

'Gus an obair deasachaidh a dhèanamh, bidh sinn a' samplachadh nam modalan grinn leis an t-sanas "[rare_tokens] edit_prompt" (me "beikkpic dà chù ann an taigh-bìdh" no "beikkpic a minion").'

Tha am pròiseas

Ged a tha e na dhìomhaireachd carson a bu chòir dà phàipear cha mhòr co-ionann, a thaobh an comas-gnìomh deireannach, ruighinn bho Google san aon seachdain, tha, a dh’ aindeoin àireamh mhòr de choltasan eadar an dà iomairt, co-dhiù aon eadar-dhealachadh soilleir eadar UniTune agus Imagic - bidh an tè mu dheireadh a’ cleachdadh brosnachaidhean cànain nàdarra ‘neo-bhrùichte’ gus obair deasachaidh ìomhaighean a stiùireadh, ach bidh UniTune a’ trèanadh ann an comharran sònraichte ann an stoidhle DreamBooth.

Mar sin, nam biodh tu a’ deasachadh le Imagic agus gu robh thu airson cruth-atharrachadh den t-seòrsa seo a thoirt gu buil…

Bho phàipear UniTune - bidh UniTune ga shuidheachadh fhèin an aghaidh frèam deasachaidh neural farpaiseach as fheàrr le Google, SDEdit. Tha toraidhean UniTune air an fhìor làimh dheis, agus chithear am masg measta san dàrna ìomhaigh bhon taobh chlì.

Bho phàipear UniTune - bidh UniTune ga shuidheachadh fhèin an aghaidh frèam deasachaidh neural farpaiseach as fheàrr le Google, SDEdit. Tha toraidhean UniTune air an fhìor làimh dheis, agus chithear am masg measta san dàrna ìomhaigh bhon taobh chlì.

.. ann an Imagic, chuireadh tu a-steach ‘an treas neach, na shuidhe air a’ chùl, mar uilebheist bian grinn’.

Bhiodh an àithne UnitTune co-ionann 'Guy air a' chùl mar [x]', far a bheil x ge bith dè am facal neònach agus gun samhail a bha ceangailte ris a’ bhun-bheachd air a dheagh thrèanadh co-cheangailte ri caractar uilebheist bian.

Fhad ‘s a tha grunn ìomhaighean air am biathadh a-steach do DreamBooth no Textual Inversion leis an rùn tarraing ann an stoidhle deepfake a chruthachadh a dh’ fhaodar òrdachadh a-steach do iomadh suidheachadh, bidh an dà chuid UniTune agus Imagic an àite sin a ’biathadh aon ìomhaigh a-steach don t-siostam - an ìomhaigh thùsail, phrìseil.

Tha seo coltach ris an dòigh anns a bheil mòran de na h-innealan deasachaidh stèidhichte air GAN anns na beagan bhliadhnaichean a dh’ fhalbh air obrachadh - le bhith ag atharrachadh ìomhaigh cuir a-steach gu còdan falaichte ann an àite falaichte an GAN agus an uairsin a’ dèiligeadh ris na còdan sin agus gan cur gu pàirtean eile den fheadhainn falaichte. àite airson atharrachadh (ie a’ cur a-steach dealbh de dhuine òg le falt dorcha agus ga chuir a-mach tro chòdan falaichte co-cheangailte ri ‘seann’ no ‘blonde’, msaa).

Ach, tha na toraidhean, ann am modail sgaoilidh, agus leis an dòigh seo, gu math iongantach neo-mhearachdach le coimeas, agus fada nas lugha dà-sheaghach:

Am Pròiseas Mion-ghleusadh

Bidh modh UniTune gu bunaiteach a’ cur an ìomhaigh thùsail tro mhodal sgaoilidh le seata de stiùiridhean air mar a bu chòir atharrachadh, a’ cleachdadh na stòran mòra de dhàta a tha ri fhaighinn air an trèanadh a-steach don mhodail. Gu dearbh, faodaidh tu seo a dhèanamh an-dràsta le Stable Diffusion's img2img comas-gnìomh - ach chan ann às aonais warping no ann an dòigh air choireigin ag atharrachadh na pàirtean den ìomhaigh a b’ fheàrr leat a chumail.

Rè pròiseas UnTune, tha an siostam deagh fhonnd, is e sin ri ràdh gu bheil UniTune a’ toirt air a’ mhodail trèanadh ath-thòiseachadh, leis a’ mhòr-chuid de na sreathan aige gun reothadh (faic gu h-ìosal). Anns a’ mhòr-chuid de chùisean, bidh gleusadh grinn a’ tanca na h-iomlan fharsaingeachd luachan call de mhodail àrd-choileanaidh a choisinn gu cruaidh airson a bhith a’ stealladh no ag ùrachadh taobh eile a thathar ag iarraidh a chruthachadh no a leasachadh.

Ach, le UniTune tha e coltach gum bi an leth-bhreac modail air a bheilear a’ dol an sàs, ged a dh’ fhaodadh gum bi grunn gigabytes no barrachd ann, air a làimhseachadh mar ‘husk’ cuidhteasach cuidhteasach, agus air a thilgeil air falbh aig deireadh a’ phròiseis, às deidh dha aon amas a fhrithealadh. Tha an seòrsa tonnachd dàta cas seo a’ tighinn gu bhith na èiginn stòraidh làitheil dha luchd-leantainn DreamBooth, aig a bheil modalan fhèin, eadhon nuair a thèid an gearradh, nas lugha na 2GB gach cuspair.

Coltach ri Imagic, tha am prìomh ghleusadh ann an UniTune a’ tachairt aig an dà ìre as ìsle de na trì sreathan ann an Imagen (bonn 64px, 64px> 256px, agus 256px> 1024px). Eu-coltach ri Imagic, tha an luchd-rannsachaidh a’ faicinn luach a dh’ fhaodadh a bhith ann a bhith a’ dèanamh an gleusadh as fheàrr cuideachd airson an t-sreath àrd-rèiteachaidh mu dheireadh agus as motha seo (ged nach do dh’ fheuch iad ris fhathast).

Airson an ìre as ìsle de 64px, tha am modail claon a dh’ ionnsaigh na h-ìomhaigh bhunaiteach rè trèanadh, le grunn phaidhrichean de dh’ ìomhaigh / teacsa air am biathadh a-steach don t-siostam airson 128 iterations aig meud baidse de 4, agus le Adafactor mar an gnìomh call, ag obrachadh aig ìre ionnsachaidh de 0.0001. Ged a tha an Luchdaich a-nuas an còd airson T5 leis fhèin reòta tron ​​​​gleusadh seo, tha e cuideachd reòta rè trèanadh bun-sgoile Imagen

Bidh an obair gu h-àrd an uairsin air ath-aithris airson an ìre 64> 256px, a’ cleachdadh an aon dòigh-obrach àrdachadh fuaim a chaidh a chleachdadh ann an trèanadh tùsail Imagen.

Samplachadh

Tha mòran dhòighean samplachaidh comasach leis an urrainnear na h-atharrachaidhean a chaidh a dhèanamh a thogail bhon mhodal grinn, a’ toirt a-steach Stiùireadh an-asgaidh Classifier (CFG), prìomh àite cuideachd de Stable Difffusion. Tha CFG gu bunaiteach a’ mìneachadh na h-ìre gu bheil am modail saor gus ‘a mhac-meanmna a leantainn’ agus sgrùdadh a dhèanamh air na cothroman tairgse - no eile, aig suidheachaidhean nas ìsle, an ìre gum bu chòir dha cumail ris an dàta stòr a-steach, agus atharrachaidhean nach eil cho sgiobalta a dhèanamh. .

Coltach ri Textual Inversion (beagan nas lugha na sin le DreamBooth, tha UniTune comasach air stoidhlichean grafaigeach sònraichte a chuir an sàs ann an ìomhaighean tùsail, a bharrachd air deasachaidhean nas photorealistic.

Coltach ri Textual Inversion (beagan nas lugha na sin le DreamBooth), tha UniTune comasach air stoidhlichean grafaigeach sònraichte a chuir an sàs ann an ìomhaighean tùsail, a bharrachd air deasachaidhean nas photorealistic.

Rinn an luchd-rannsachaidh deuchainnean cuideachd SDEditinnleachd ‘toiseach anmoch’, far a bheilear a’ brosnachadh an t-siostam mion-fhiosrachadh tùsail a ghleidheadh ​​le bhith dìreach ann am pàirt ‘fuaim’ bhon fhìor thoiseach, ach an àite a bhith a’ cumail suas na feartan riatanach aige. Ged nach do chleachd an luchd-rannsachaidh seo ach air an ìre as ìsle de na sreathan (64px), tha iad den bheachd gum faodadh e a bhith na dhòigh samplachaidh feumail san àm ri teachd.

Rinn an luchd-rannsachaidh brath cuideachd sgiobalta-gu-bhrosnachaidh mar dhòigh teacsa a bharrachd gus am modail a shuidheachadh:

“Anns an t-suidheachadh “promp to prompt”, fhuair sinn a-mach gu bheil dòigh-obrach ris an can sinn Stiùireadh Luath gu sònraichte cuideachail gus dìlseachd agus faireachdainneachd a ghleusadh.

Tha ‘Stiùireadh sgiobalta coltach ri Stiùireadh Classifier Free ach a-mhàin gu bheil a’ bhun-loidhne na bhrosnachadh eadar-dhealaichte an àite a ’mhodail gun chumhachan. Bidh seo a' stiùireadh a' mhodail a dh'ionnsaigh an delta eadar an dà bhrosnachadh.'

Gu sgiobalta ann an UnitiTune, gu h-èifeachdach a’ dealachadh raointean airson atharrachadh.

Gu sgiobalta ann an UnitiTune, gu h-èifeachdach a’ dealachadh raointean airson atharrachadh.

Ach, tha na h-ùghdaran ag ràdh nach robh feum air stiùireadh sgiobalta ach corra uair ann an cùisean far nach d’ fhuair CFG an toradh a bhathas ag iarraidh.

B’ e dòigh samplachaidh ùr eile a chaidh a lorg nuair a chaidh UnitTune a leasachadh eadar-chur, far a bheil raointean den ìomhaigh eadar-dhealaichte gu leòr gu bheil an dà chuid an ìomhaigh thùsail agus an ìomhaigh atharraichte glè choltach ann an sgrìobhadh, a’ leigeil le eadar-fhilleadh nas ‘naïve’ a chleachdadh.

Faodaidh eadar-theangachadh na pròiseasan oidhirp nas àirde de UniTune a dhèanamh gun fheum ann an cùisean far a bheil raointean a tha rin cruth-atharrachadh air leth agus air an deagh iomall.

Faodaidh eadar-theangachadh na pròiseasan oidhirp nas àirde de UniTune a dhèanamh gun fheum ann an cùisean far a bheil raointean a tha rin cruth-atharrachadh air leth agus air an deagh iomall.

Tha na h-ùghdaran a’ moladh gum faodadh eadar-fhilleadh obrachadh cho math, airson àireamh mhòr de dh’ ìomhaighean stòr targaid, gum faodadh e a bhith air a chleachdadh mar shuidheachadh bunaiteach, agus a’ faicinn cuideachd gu bheil cumhachd aige cruth-atharrachaidhean iongantach a thoirt gu buil ann an cùisean far nach eil suidheachaidhean iom-fhillte. feumar a cho-rèiteachadh le dòighean nas dian.

Faodaidh UniTune deasachaidhean ionadail a dhèanamh le no às aonais masgaichean deasachaidh, ach faodaidh iad cuideachd co-dhùnadh gu aon-thaobhach càite an tèid deasachaidhean a shuidheachadh, le measgachadh neo-àbhaisteach de chumhachd mìneachaidh agus bunait làidir den dàta cuir a-steach:

Anns an ìomhaigh as àirde san dàrna colbh, tha UniTune, air a bheil e mar dhleastanas ‘trèana dhearg air a’ chùl ’a chuir a-steach ann an suidheachadh iomchaidh agus dearbhte. Thoir an aire anns na h-eisimpleirean eile mar a tha ionracas semantach don ìomhaigh thùsail air a chumail suas eadhon am measg atharrachaidhean iongantach ann an susbaint piogsail agus prìomh stoidhlichean nan ìomhaighean.

Anns an ìomhaigh as àirde san dàrna colbh, tha UniTune, air a bheil e mar dhleastanas ‘trèana dhearg air a’ chùl ’a chuir a-steach ann an suidheachadh iomchaidh agus dearbhte. Thoir an aire anns na h-eisimpleirean eile mar a tha ionracas semantach don ìomhaigh thùsail air a chumail suas eadhon am measg atharrachaidhean iongantach ann an susbaint piogsail agus prìomh stoidhlichean nan ìomhaighean.

Leudachadh

Ged a bhios a’ chiad tionndadh de shiostam ùr sam bith gu bhith slaodach, agus ged a dh’ fhaodadh gum bi com-pàirt coimhearsnachd no dealas corporra (chan ann mar as trice an dà chuid) mu dheireadh a’ luathachadh agus a’ dèanamh feum de chleachdadh a tha trom le stòras, tha an dà chuid UniTune agus Imagic a’ coileanadh cuid. gluasadan ionnsachaidh innealan meadhanach mòr gus na deasachaidhean iongantach sin a chruthachadh, agus tha e teagmhach dè an ìre a dh’ fhaodadh a leithid de phròiseas acrach air goireasan a bhith air a lughdachadh gu cleachdadh dachaigheil, seach ruigsinneachd air a stiùireadh le API (ged a dh’ fhaodadh am fear mu dheireadh a bhith nas ion-mhiannaichte do Google ).

Aig an àm seo, tha an turas cruinn bho chur-a-steach gu toradh timcheall air 3 mionaidean air T4 GPU, le timcheall air 30 diogan a bharrachd airson co-dhùnadh (a rèir cleachdadh co-dhùnaidh sam bith). Tha na h-ùghdaran ag aideachadh gur e latency àrd a tha seo, agus cha mhòr gu bheil e airidh air ‘eadar-ghnìomhach’, ach tha iad cuideachd a’ toirt fa-near gu bheil am modail fhathast ri fhaighinn airson tuilleadh deasachaidhean aon uair ‘s gu bheil e air a ghleusadh an toiseach, gus am bi an neach-cleachdaidh deiseil leis a’ phròiseas, a tha a’ gearradh sìos air ùine gach deasachaidh. .

 

Air fhoillseachadh an toiseach air 21 Dàmhair 2022.

Sgrìobhadair air ionnsachadh innealan, inntleachd fuadain agus dàta mòr.
Làrach pearsanta: martinanderson.ai
cuiribh fios gu: [post-d fo dhìon]
Twitter: @manders_ai