Արհեստական բանականություն
GAN-ի թաքնված տարածության խմբագրում «բլոբներով»
UC Berkeley-ի և Adobe-ի նոր հետազոտությունն առաջարկում է ուղղակիորեն խմբագրելու հիպերիրական բովանդակությունը, որը կարող է ստեղծվել Generative Adversarial Network-ի (GAN) կողմից, բայց որը սովորաբար չի կարող կառավարվել, անիմացիոն կամ ազատորեն շահարկվել Photoshop-ին վաղուց հայտնի ձևով: օգտվողներ և CGI պրակտիկանտներ:
վերնագրված BlobGAN, մեթոդը ներառում է «բլբերների» ցանցի ստեղծում՝ մաթեմատիկական կոնստրուկցիաներ, որոնք ուղղակիորեն քարտեզագրվում են GAN-ի թաքնված տարածության բովանդակությանը:
Տեղափոխելով բշտիկները՝ դուք կարող եք տեղափոխել «օբյեկտները» տեսարանի պատկերով, ինտուիտիվ ձևով, որն ավելի մոտ է CGI և CAD մեթոդներին, քան GAN-ի թաքնված տարածությունը քարտեզագրելու և կառավարելու ներկայիս փորձերից շատերը.
Քանի որ բլբերը համապատասխանում են «օբյեկտներին» տեսարանում, որոնք գծագրված են GAN-ում թաքնված տարածություն, բոլոր առարկաները խճճված են ա priori, հնարավոր դարձնելով դրանք առանձին-առանձին փոփոխել.
Ինչպես ցանկացած օբյեկտի դեպքում լուսանկարների խմբագրման (կամ նույնիսկ տեքստի խմբագրման) ծրագրաշարի դեպքում, բլբը կարող է կրկնօրինակվել և հետագայում շահագործվել.
BlobGAN-ը կարող է նաև վերլուծել նոր, օգտագործողի կողմից ընտրված պատկերները իր թաքնված տարածության մեջ.
Ավելի շատ արդյունքներ կարելի է տեսնել այստեղ, իսկ ուղեկցող YouTube video (ներառված է այս հոդվածի վերջում): Գործում է նաև ինտերակտիվ Colab Demo* և GitHub ռեպո**
Այս տեսակի գործիքակազմը և շրջանակը կարող են միամիտ թվալ հետPhotoshop դարում, և պարամետրային ծրագրային փաթեթները, ինչպիսիք են Cinema4D-ը և Blender-ը, թույլ են տալիս օգտվողներին ստեղծել և հարմարեցնել 3D աշխարհները տասնամյակներ շարունակ. բայց դա խոստումնալից մոտեցում է ընտելացնելու թաքնված տարածության էքսցենտրիկությունը և գաղտնի բնույթը գեներատիվ հակառակորդ ցանցում` գաղտնագրված ծածկագրերի վրա գծագրված վստահված սուբյեկտների օգտագործմամբ:
Հեղինակները պնդում են.
«Ներքին տեսարանների բարդ բազմակարգերի տվյալների բազայի վրա BlobGAN-ը գերազանցում է Style-GAN2-ին պատկերի որակով, որը չափվում է FID-ի կողմից»:
The թուղթ վերնագրված է BlobGAN. Տարածականորեն անջատված տեսարանների ներկայացումներ, և գրված է Բերքլիի համալսարանի երկու հետազոտողների և Adobe Research-ի երեք հետազոտողների կողմից:
Միջին մարդ
BlobGAN-ը նոր պարադիգմ է բերում GAN պատկերների սինթեզում: Լատենտ տարածության մեջ դիսկրետ սուբյեկտներին անդրադառնալու նախկին մոտեցումները, նշում է նոր փաստաթուղթը, եղել են կամ «վերևից ներքև» կամ «ներքևից վեր»:
GAN-ում կամ պատկերների դասակարգիչում վերևից ներքև մեթոդը վերաբերվում է տեսարանների պատկերներին որպես դասերի, ինչպիսիք են «ննջասենյակ», «եկեղեցի», «դեմք» և այլն: Տեքստ/պատկեր զուգակցման այս տեսակը հնարավորություն է տալիս նոր սերնդի մուլտիմոդալ պատկերների սինթեզի շրջանակներին: , ինչպիսին է վերջերս OpenAI-ի DALL-E 2-ը:
Ներքևից վեր մոտեցումները, փոխարենը, պատկերի յուրաքանչյուր պիքսել քարտեզագրում են դասի, պիտակի կամ կատեգորիայի: Նման մոտեցումները օգտագործում են տարբեր տեխնիկա, թեև իմաստային հատվածավորումը ա հանրաճանաչ ընթացիկ հետազոտական ուղղություն.
Հեղինակները մեկնաբանում են.
«Երկու ուղիներն էլ անբավարար են թվում, քանի որ ոչ մեկը չի կարող ապահովել տեսարանի որոշ մասերի մասին պարզաբանելու հեշտ եղանակներ՝ որպես սուբյեկտներ: Տեսարանի մասերը կամ թխված են մեկ խճճված լատենտ վեկտորի մեջ (վերևից ներքև), կամ պետք է խմբավորվեն առանձին պիքսելային պիտակներից (ներքևից վեր):
Ավելի շուտ, BlobGAN-ն առաջարկում է չվերահսկվող միջին մակարդակի ներկայացուցչություն, կամ պրոքսի շրջանակ գեներատիվ մոդելների համար:
Գաուսյան (այսինքն՝ աղմուկի վրա հիմնված) բլբերը դասավորված են խորության վրա և ներկայացնում են ճարտարապետության խցան, որը հատկացնում է քարտեզագրում յուրաքանչյուր էության՝ լուծելով GAN-ի բովանդակության մանիպուլյացիայի ամենամեծ խոչընդոտը՝ խճճվածությունը (նաև մի խնդիր ինքնակոդավորիչի վրա հիմնված ճարտարապետությունների համար): Ստացված «բլոբ քարտեզը» օգտագործվում է BlobGAN-ի ապակոդավորիչը շահարկելու համար:
Հեղինակները որոշ զարմանքով նշում են, որ համակարգը սովորում է տեսարանները տարրալուծել դասավորության և սուբյեկտների՝ վաճառվող տարբերակիչի միջոցով, որը չի օգտագործում հստակ պիտակներ:
Ճարտարապետություն և տվյալներ
Քարտեզի սուբյեկտները վերածվում են պատկերների՝ վերանայված StyleGAN2-ից ստացված ցանց, մոտեցմամբ, որը ոգեշնչված է NVIDIA-ի նախորդ հետազոտություններից:
StyleGAN 2-ը փոփոխվել է BlobGAN-ում՝ ընդունելու մուտքագրում բլբի քարտեզից մեկ գլոբալ վեկտորի փոխարեն, ինչպես սովորաբար լինում է:
Ըստ անալոգիայի, մի ընդարձակ և բարդ շենք (թաքնված տարածություն) միանգամից գոյացնելու փոխարեն, այնուհետև պետք է ուսումնասիրի դրա անվերջ ճանապարհները, BlobGAN-ը սկզբում ուղարկում է բաղադրիչ բլոկները և միշտ գիտի, թե որտեղ են դրանք: Բովանդակության և տեղանքի այս խճճվածությունը աշխատանքի գլխավոր նորամուծությունն է:
* Գրելու պահին չի գործում
** Կոդը դեռ հրապարակված չէ գրելու պահին
Առաջին անգամ հրապարակվել է 8 թվականի մայիսի 2022-ին։