Արհեստական բանականություն

GAN-ի թաքնված տարածության խմբագրում «բլոբներով»

Թարմացվել է on Դեկտեմբերի 9, 2022

UC Berkeley-ի և Adobe-ի նոր հետազոտությունն առաջարկում է ուղղակիորեն խմբագրելու հիպերիրական բովանդակությունը, որը կարող է ստեղծվել Generative Adversarial Network-ի (GAN) կողմից, բայց որը սովորաբար չի կարող կառավարվել, անիմացիոն կամ ազատորեն շահարկվել Photoshop-ին վաղուց հայտնի ձևով: օգտվողներ և CGI պրակտիկանտներ:

վերնագրված BlobGAN, մեթոդը ներառում է «բլբերների» ցանցի ստեղծում՝ մաթեմատիկական կոնստրուկցիաներ, որոնք ուղղակիորեն քարտեզագրվում են GAN-ի թաքնված տարածության բովանդակությանը:

Տեղափոխելով բշտիկները՝ դուք կարող եք տեղափոխել «օբյեկտները» տեսարանի պատկերով, ինտուիտիվ ձևով, որն ավելի մոտ է CGI և CAD մեթոդներին, քան GAN-ի թաքնված տարածությունը քարտեզագրելու և կառավարելու ներկայիս փորձերից շատերը.

Տեսարանի մանիպուլյացիա BlobGAN-ով. քանի որ «բլբերը» տեղափոխվում են օգտագործողի կողմից, GAN-ում թաքնված օբյեկտների և ոճերի դիրքը համապատասխանաբար փոխվում է: Լրացուցիչ օրինակների համար տե՛ս թղթին կից տեսանյութը, որը զետեղված է այս հոդվածի վերջում կամ https://www.youtube.com/watch?v=KpUv82VsU5k կայքում։

Քանի որ բլբերը համապատասխանում են «օբյեկտներին» տեսարանում, որոնք գծագրված են GAN-ում թաքնված տարածություն, բոլոր առարկաները խճճված են ա priori, հնարավոր դարձնելով դրանք առանձին-առանձին փոփոխել.

Օբյեկտները, ի թիվս այլ գործողությունների, կարող են չափափոխվել, փոքրացվել, կլոնավորվել և հեռացվել:

Ինչպես ցանկացած օբյեկտի դեպքում լուսանկարների խմբագրման (կամ նույնիսկ տեքստի խմբագրման) ծրագրաշարի դեպքում, բլբը կարող է կրկնօրինակվել և հետագայում շահագործվել.

Բլբերները կարող են կրկնօրինակվել ինտերֆեյսում, և դրանց համապատասխան թաքնված ներկայացումները նույնպես «կպատճենվեն և տեղադրվեն»: Աղբյուրը՝ https://dave.ml/blobgan/#results

BlobGAN-ը կարող է նաև վերլուծել նոր, օգտագործողի կողմից ընտրված պատկերները իր թաքնված տարածության մեջ.

BlobGAN-ի հետ դուք ստիպված չեք լինի պատկերներ ներառել, որոնք ցանկանում եք ուղղակիորեն մանիպուլացնել ուսուցման տվյալների մեջ, այնուհետև որսալ դրանց թաքնված կոդերը, բայց կարող եք ընտրել ընտրված պատկերներ մուտքագրել ցանկության դեպքում և շահարկել դրանք: Լուսանկարները, որոնք փոփոխվում են այստեղ, օգտատերերի հետֆակտո մուտքն են: Աղբյուրը՝ https://dave.ml/blobgan/#results

Ավելի շատ արդյունքներ կարելի է տեսնել այստեղ, իսկ ուղեկցող YouTube video (ներառված է այս հոդվածի վերջում): Գործում է նաև ինտերակտիվ Colab Demo* և GitHub ռեպո**

Այս տեսակի գործիքակազմը և շրջանակը կարող են միամիտ թվալ հետPhotoshop դարում, և պարամետրային ծրագրային փաթեթները, ինչպիսիք են Cinema4D-ը և Blender-ը, թույլ են տալիս օգտվողներին ստեղծել և հարմարեցնել 3D աշխարհները տասնամյակներ շարունակ. բայց դա խոստումնալից մոտեցում է ընտելացնելու թաքնված տարածության էքսցենտրիկությունը և գաղտնի բնույթը գեներատիվ հակառակորդ ցանցում` գաղտնագրված ծածկագրերի վրա գծագրված վստահված սուբյեկտների օգտագործմամբ:

Հեղինակները պնդում են.

«Ներքին տեսարանների բարդ բազմակարգերի տվյալների բազայի վրա BlobGAN-ը գերազանցում է Style-GAN2-ին պատկերի որակով, որը չափվում է FID-ի կողմից»:

The թուղթ վերնագրված է BlobGAN. Տարածականորեն անջատված տեսարանների ներկայացումներ, և գրված է Բերքլիի համալսարանի երկու հետազոտողների և Adobe Research-ի երեք հետազոտողների կողմից:

Միջին մարդ

BlobGAN-ը նոր պարադիգմ է բերում GAN պատկերների սինթեզում: Լատենտ տարածության մեջ դիսկրետ սուբյեկտներին անդրադառնալու նախկին մոտեցումները, նշում է նոր փաստաթուղթը, եղել են կամ «վերևից ներքև» կամ «ներքևից վեր»:

GAN-ում կամ պատկերների դասակարգիչում վերևից ներքև մեթոդը վերաբերվում է տեսարանների պատկերներին որպես դասերի, ինչպիսիք են «ննջասենյակ», «եկեղեցի», «դեմք» և այլն: Տեքստ/պատկեր զուգակցման այս տեսակը հնարավորություն է տալիս նոր սերնդի մուլտիմոդալ պատկերների սինթեզի շրջանակներին: , ինչպիսին է վերջերս OpenAI-ի DALL-E 2-ը:

Ներքևից վեր մոտեցումները, փոխարենը, պատկերի յուրաքանչյուր պիքսել քարտեզագրում են դասի, պիտակի կամ կատեգորիայի: Նման մոտեցումները օգտագործում են տարբեր տեխնիկա, թեև իմաստային հատվածավորումը ա հանրաճանաչ ընթացիկ հետազոտական ուղղություն.

Հեղինակները մեկնաբանում են.

«Երկու ուղիներն էլ անբավարար են թվում, քանի որ ոչ մեկը չի կարող ապահովել տեսարանի որոշ մասերի մասին պարզաբանելու հեշտ եղանակներ՝ որպես սուբյեկտներ: Տեսարանի մասերը կամ թխված են մեկ խճճված լատենտ վեկտորի մեջ (վերևից ներքև), կամ պետք է խմբավորվեն առանձին պիքսելային պիտակներից (ներքևից վեր):

Ավելի շուտ, BlobGAN-ն առաջարկում է չվերահսկվող միջին մակարդակի ներկայացուցչություն, կամ պրոքսի շրջանակ գեներատիվ մոդելների համար:

Դասավորության ցանցը քարտեզագրում է տեղական (և վերահսկելի) «բլբ» սուբյեկտները թաքնված կոդերով: Կենտրոնում գտնվող գունավոր շրջանակները կազմում են «բլիթային քարտեզ»: Աղբյուր՝ https://arxiv.org/pdf/2205.02837.pdf

Գաուսյան (այսինքն՝ աղմուկի վրա հիմնված) բլբերը դասավորված են խորության վրա և ներկայացնում են ճարտարապետության խցան, որը հատկացնում է քարտեզագրում յուրաքանչյուր էության՝ լուծելով GAN-ի բովանդակության մանիպուլյացիայի ամենամեծ խոչընդոտը՝ խճճվածությունը (նաև մի խնդիր ինքնակոդավորիչի վրա հիմնված ճարտարապետությունների համար): Ստացված «բլոբ քարտեզը» օգտագործվում է BlobGAN-ի ապակոդավորիչը շահարկելու համար:

Հեղինակները որոշ զարմանքով նշում են, որ համակարգը սովորում է տեսարանները տարրալուծել դասավորության և սուբյեկտների՝ վաճառվող տարբերակիչի միջոցով, որը չի օգտագործում հստակ պիտակներ:

Ճարտարապետություն և տվյալներ

Քարտեզի սուբյեկտները վերածվում են պատկերների՝ վերանայված StyleGAN2-ից ստացված ցանց, մոտեցմամբ, որը ոգեշնչված է NVIDIA-ի նախորդ հետազոտություններից:

Վերանայված StyleGAN 2 ածանցյալ NVIDIA Research-ից: Այս աշխատության որոշ սկզբունքներ ընդունվել կամ հարմարեցվել են BlobGAN-ի համար: Աղբյուր՝ https://arxiv.org/pdf/1912.04958.pdf

StyleGAN 2-ը փոփոխվել է BlobGAN-ում՝ ընդունելու մուտքագրում բլբի քարտեզից մեկ գլոբալ վեկտորի փոխարեն, ինչպես սովորաբար լինում է:

Մի շարք մանիպուլյացիաներ, որոնք հնարավոր են դարձել BlobGAN-ի կողմից, ներառյալ ննջասենյակի տեսարանի «ավտոլրացումը» և սենյակի տարրերի չափերի փոփոխությունն ու տեղափոխումը: Ստորև բերված տողում մենք տեսնում ենք օգտագործողի համար հասանելի գործիքը, որը հնարավորություն է տալիս դա՝ բլբի քարտեզը:

BlobGAN-ի կողմից հնարավոր եղավ մի շարք մանիպուլյացիաներ, ներառյալ դատարկ ննջասենյակի տեսարանի «ավտոլրացումը» և սենյակի տարրերի չափերի փոփոխությունն ու տեղափոխումը: Ստորև բերված տողում մենք տեսնում ենք օգտագործողի համար հասանելի գործիքը, որը հնարավորություն է տալիս դա՝ բլբի քարտեզը:

Ըստ անալոգիայի, մի ընդարձակ և բարդ շենք (թաքնված տարածություն) միանգամից գոյացնելու փոխարեն, այնուհետև պետք է ուսումնասիրի դրա անվերջ ճանապարհները, BlobGAN-ը սկզբում ուղարկում է բաղադրիչ բլոկները և միշտ գիտի, թե որտեղ են դրանք: Բովանդակության և տեղանքի այս խճճվածությունը աշխատանքի գլխավոր նորամուծությունն է:

BlobGAN. Տարածականորեն անջատված տեսարանների ներկայացումներ

BlobGAN: Spatially Disentangled Scene Representations

Watch this video on YouTube

* Գրելու պահին չի գործում
** Կոդը դեռ հրապարակված չէ գրելու պահին

Առաջին անգամ հրապարակվել է 8 թվականի մայիսի 2022-ին։

Հաջորդը

Դեմքերի վերակառուցում մեքենայական ուսուցմամբ տեսանյութերում

Բաց մի թողեք

Հետազոտողները ցուցադրել են արհեստական ինտելեկտի «նանոմագնիսական» հաշվարկը

Մարտին Անդերսոն

Գրող մեքենայական ուսուցման, արհեստական ինտելեկտի և մեծ տվյալների մասին:
Անձնական կայք. martinanderson.ai
Հետադարձ: [էլեկտրոնային փոստով պաշտպանված]
Twitter՝ @manders_ai