Արհեստական բանականություն

Կեղծել «ավելի լավ» մարմիններ AI-ով

Թարմացվել է on Դեկտեմբերի 9, 2022

Alibaba DAMO ակադեմիայի նոր հետազոտությունն առաջարկում է AI-ի վրա հիմնված աշխատանքային հոսք՝ մարմինների պատկերների ձևավորման ավտոմատացման համար, ինչը հազվագյուտ փորձ է համակարգչային տեսողության ոլորտում, որը ներկայումս զբաղված է: դեմքի վրա հիմնված մանիպուլյացիաներ ինչպիսիք են deepfakes-ը և GAN-ի վրա հիմնված դեմքի խմբագրում.

Ներդրեք «արդյունք» սյունակներում՝ առաջացած ուշադրության քարտեզները, որոնք սահմանում են փոփոխման ենթակա տարածքները: Աղբյուր՝ https://arxiv.org/pdf/2203.04670.pdf

Հետազոտողների ճարտարապետությունը օգտագործում է կմախքի դիրքի գնահատում, որպեսզի լուծի պատկերների սինթեզի և խմբագրման համակարգերի ավելի մեծ բարդությունը՝ գոյություն ունեցող մարմնի պատկերները հայեցակարգելու և պարամետրիզացնելու համար, առնվազն մինչև այն աստիճանի հստակությունը, որն իրականում թույլ է տալիս բովանդակալից և ընտրովի խմբագրում:

Մոտավոր կմախքի քարտեզները օգնում են անհատականացնել և ուշադրությունը կենտրոնացնել մարմնի այն հատվածների վրա, որոնք, ամենայն հավանականությամբ, պետք է վերամշակվեն, օրինակ՝ թևի վերին հատվածը:

Համակարգը, ի վերջո, հնարավորություն է տալիս օգտվողին սահմանել պարամետրեր, որոնք կարող են փոխել քաշի, մկանային զանգվածի կամ քաշի բաշխման տեսքը մարդկանց լայնածավալ կամ միջին երկարության լուսանկարներում, և կարող է կամայական փոխակերպումներ առաջացնել հագուստով կամ չհագցված մարմնի հատվածներում:

Ձախ, մուտքագրված պատկերը; միջին, ստացված ուշադրության տարածքների ջերմային քարտեզ; ճիշտ է, փոխակերպված պատկերը:

Աշխատանքի շարժառիթը ավտոմատացված աշխատանքային հոսքերի զարգացումն է, որը կարող է փոխարինել լուսանկարիչների և գրաֆիկական արվեստագետների կողմից ձեռնարկված ծանր թվային մանիպուլյացիաներին լրատվամիջոցների տարբեր ճյուղերում՝ նորաձևությունից մինչև ամսագրի ոճի արտադրանք և հրապարակայնության նյութ.

Ընդհանրապես, հեղինակներն ընդունում են, որ այս փոխակերպումները սովորաբար կիրառվում են «warp» տեխնիկայի հետ Photoshop-ում և այլ ավանդական bitmap խմբագրիչներում և գրեթե բացառապես օգտագործվում են կանանց պատկերների վրա: Հետևաբար, նոր գործընթացը հեշտացնելու համար մշակված հատուկ տվյալների հավաքածուն հիմնականում բաղկացած է կին առարկաների նկարներից.

«Քանի որ մարմնի ռետուշը հիմնականում իգական սեռի ներկայացուցիչներն են, մեր հավաքածուի մեծ մասը կանացի լուսանկարներ են՝ հաշվի առնելով տարիքի, ռասաների (աֆրիկյան. ասիական: կովկասյան = 0.33:0.35:0.32), դիրքերի և հագուստի բազմազանությունը:

The թուղթ վերնագրված է Structure-Aware Flow Generation for Human Body Reshaping, և գալիս է հինգ հեղինակներից, որոնք կապված են Alibaba-ի համաշխարհային DAMO ակադեմիայի հետ:

Տվյալների հավաքածուի մշակում

Ինչպես սովորաբար լինում է պատկերների սինթեզի և խմբագրման համակարգերի դեպքում, նախագծի ճարտարապետությունը պահանջում էր անհատականացված ուսումնական տվյալների բազա: Հեղինակները երեք լուսանկարիչների հանձնարարել են պատրաստել Unsplash ֆոնդային լուսանկարչական կայքից համապատասխան պատկերների ստանդարտ Photoshop մանիպուլյացիաներ, ինչը հանգեցրել է տվյալների բազայի՝ վերնագրով: BR-5K* – 5,000 բարձրորակ պատկերներ 2K լուծաչափով:

Հետազոտողները շեշտում են, որ այս տվյալների բազայի վրա ուսուցման նպատակը ոչ թե «իդեալականացված» և ընդհանրացված հատկանիշների ստեղծումն է, որոնք առնչվում են գրավչության կամ ցանկալի տեսքի ինդեքսին, այլ ավելի շուտ կորզել մարմնի պատկերների մասնագիտական մանիպուլյացիաների հետ կապված հիմնական հատկանիշների քարտեզագրումները:

Այնուամենայնիվ, նրանք ընդունում են, որ մանիպուլյացիաները, ի վերջո, արտացոլում են փոխակերպման գործընթացները, որոնք քարտեզագրում են առաջընթաց «իրականից» դեպի «իդեալական» նախադրյալ հասկացություն.

«Մենք հրավիրում ենք երեք պրոֆեսիոնալ արվեստագետների ինքնուրույն ռետուշի ենթարկել մարմինները Photoshop-ի միջոցով՝ նպատակ ունենալով ձեռք բերել սլացիկ կերպարներ, որոնք համապատասխանում են հանրաճանաչ էսթետիկային և ընտրել լավագույնը որպես հիմնարար ճշմարտություն»:

Քանի որ շրջանակն ընդհանրապես չի առնչվում դեմքերին, դրանք մշուշվել են նախքան տվյալների շտեմարանում ներառվելը:

Ճարտարապետություն և հիմնական հասկացություններ

Համակարգի աշխատանքային հոսքը ներառում է բարձր լուծաչափով դիմանկարի սնուցում, այն ավելի ցածր լուծաչափի իջեցում, որը կարող է տեղավորվել առկա հաշվողական ռեսուրսների մեջ և գնահատված կմախքի քարտեզի դիրքի արդյունահանում (ներքևում գտնվող նկարի ձախից երկրորդ նկարը), ինչպես նաև Մասի հարաբերակցության դաշտերը: (PAFs), որոնք էին նորարարված 2016 թվականին Քարնեգի Մելլոնի համալսարանի Ռոբոտաշինության ինստիտուտի կողմից (տես ստորև տեղադրված տեսանյութը):

Իրական ժամանակում բազմամարդ 2D մարդու դիրքի գնահատում, օգտագործելով մասի մերձեցման դաշտերը, CVPR 2017 բանավոր

Realtime Multi-Person 2D Human Pose Estimation using Part Affinity Fields, CVPR 2017 Oral

Watch this video on YouTube

Part Affinity Fields-ը օգնում է որոշել վերջույթների կողմնորոշումը և ընդհանուր կապը կմախքի ավելի լայն շրջանակի հետ՝ նոր նախագծին տրամադրելով լրացուցիչ ուշադրության/տեղայնացման գործիք:

2016 թվականի Part Affinity Fields թղթից կանխատեսված PAF-ները կոդավորում են վերջույթների կողմնորոշումը որպես 2D վեկտորի մաս, որը ներառում է նաև վերջույթի ընդհանուր դիրքը: Աղբյուր՝ https://arxiv.org/pdf/1611.08050.pdf

Չնայած քաշի արտաքին տեսքի հետ իրենց ակնհայտ անհամապատասխանությանը, կմախքի քարտեզները օգտակար են վերջնական փոխակերպման գործընթացները ուղղելու մարմնի այն մասերը, որոնք պետք է փոփոխվեն, ինչպիսիք են ձեռքերի վերին մասը, թիկունքը և ազդրերը:

Դրանից հետո արդյունքները փոխանցվում են Structure Affinity Self-Attention (SASA) գործընթացի կենտրոնական շեղում (տես ստորև նկարը):

SASA-ն կարգավորում է հոսքի գեներատորի հետևողականությունը, որը սնուցում է գործընթացը, որի արդյունքներն այնուհետև փոխանցվում են աղավաղման մոդուլին (վերևի նկարում աջից երկրորդը), որը կիրառում է տվյալների հավաքակազմում ներառված ձեռքով վերանայումների վերաբերյալ վերապատրաստումից ստացված փոխակերպումները: .

Structure Affinity Self-Attention (SASA) մոդուլը ուշադրություն է հատկացնում մարմնի համապատասխան մասերին՝ օգնելով խուսափել կողմնակի կամ անտեղի փոխակերպումներից:

Հետագայում ելքային պատկերը վերադառնում է նախնական 2K լուծաչափին՝ օգտագործելով ստանդարտ, 2017-ի ոճի խորը կեղծ ճարտարապետությանը չնմանող գործընթացներ, որոնցից այդ ժամանակվանից ստացվել են հայտնի փաթեթներ, ինչպիսին է DeepFaceLab-ը։ նմուշառման գործընթացը տարածված է նաև GAN խմբագրման շրջանակներում:

Սխեմայի ուշադրության ցանցը մոդելավորվել է այն բանից հետո, երբ Կոմպոզիցիոն դե-ուշադրության ցանցեր (ԿՈԴԱ), 2019 թվականի ԱՄՆ/Սինգապուր ակադեմիական համագործակցություն Amazon AI-ի և Microsoft-ի հետ:

Թեստեր

Հոսքի վրա հիմնված շրջանակը փորձարկվել է նախորդ հոսքի վրա հիմնված մեթոդների դեմ ԱՂՔ և անիմացիա՝ շեղումների միջոցով (ATW), ինչպես նաև պատկերների թարգմանության ճարտարապետություններ Pix2PixHD և GFLAՀետ SSIM, PSNR և LPIPS որպես գնահատման չափումներ:

Սկզբնական թեստերի արդյունքները (վերնագրերում սլաքի ուղղությունը ցույց է տալիս, թե ավելի ցածր կամ ավելի բարձր թվերը լավագույնն են):

Այս ընդունված չափումների հիման վրա հեղինակների համակարգը գերազանցում է նախորդ ճարտարապետությանը:

Ընտրված արդյունքներ. Խնդրում ենք վերաբերել այս հոդվածում հղված բնօրինակ PDF-ին՝ ավելի բարձր լուծաչափով համեմատությունների համար:

Ի լրումն ավտոմատացված չափումների, հետազոտողները օգտատերերի ուսումնասիրություն են անցկացրել (արդյունքների աղյուսակի վերջին սյունակը՝ նկարում պատկերված է ավելի վաղ), որտեղ 40 մասնակիցներին ցույց են տվել 30 հարցեր, որոնք պատահականորեն ընտրվել են 100 հարցից բաղկացած ֆոնդից՝ կապված տարբեր մեթոդների միջոցով ստացված պատկերների հետ: Հարցվածների 70%-ը հավանել է նոր տեխնիկան որպես ավելի «տեսողականորեն գրավիչ»:

Խնդիրները

Նոր փաստաթուղթը ներկայացնում է հազվագյուտ էքսկուրսիա արհեստական ինտելեկտի վրա հիմնված մարմնի մանիպուլյացիայի մեջ: Պատկերների սինթեզի հատվածը ներկայումս շատ ավելի հետաքրքրված է կամ խմբագրվող մարմինների ստեղծմամբ այնպիսի մեթոդների միջոցով, ինչպիսիք են Նյարդային ճառագայթման դաշտերը (NeRF), կամ էլ կենտրոնացած է GAN-ների թաքնված տարածության և դեմքի մանիպուլյացիայի համար ավտոկոդավորիչների ներուժի ուսումնասիրության վրա:

Հեղինակների նախաձեռնությունը ներկայումս սահմանափակված է ընկալվող քաշի փոփոխություններով, և նրանք չեն կիրառել ներկման որևէ տեխնիկա, որը կվերականգներ այն ֆոնը, որն անխուսափելիորեն բացահայտվում է, երբ դուք նիհարում եք ինչ-որ մեկի նկարը:

Այնուամենայնիվ, նրանք առաջարկում են, որ դիմանկարների զուգավորումը և ֆոնի միաձուլումը տեքստային եզրակացության միջոցով կարող են աննշանորեն լուծել աշխարհի այն մասերը վերականգնելու խնդիրը, որոնք նախկինում թաքնված էին պատկերի մեջ մարդկային «անկատարության» պատճառով:

Առաջարկվող լուծում ֆոնը վերականգնելու համար, որը բացահայտվում է AI-ի վրա հիմնված ճարպի նվազեցմամբ:

* Չնայած նախնական տպագրությունը վերաբերում է լրացուցիչ նյութերին, որոնք տալիս են տվյալների հավաքածուի մասին ավելի շատ մանրամասներ, ինչպես նաև նախագծի հետագա օրինակներ, այս նյութի գտնվելու վայրը հասանելի չէ թերթում, և համապատասխան հեղինակը դեռ չի պատասխանել մուտքի մեր խնդրանքին: .

Առաջին անգամ հրապարակվել է 10 թվականի մարտի 2022-ին։

Հաջորդը

Մեքենայի ուսուցման միջոցով քարոզչության ստեղծում և նույնականացում

Բաց մի թողեք

Հետազոտությունն առաջարկում է կապ համակարգչային չիպերի և գեների սինթեզի միջև

Մարտին Անդերսոն

Գրող մեքենայական ուսուցման, արհեստական ինտելեկտի և մեծ տվյալների մասին:
Անձնական կայք. martinanderson.ai
Հետադարձ: [էլեկտրոնային փոստով պաշտպանված]
Twitter՝ @manders_ai

Unite.AI

Կեղծել «ավելի լավ» մարմիններ AI-ով

Արհեստական բանականություն