Արհեստական բանականություն
Կեղծել «ավելի լավ» մարմիններ AI-ով
Alibaba DAMO ակադեմիայի նոր հետազոտությունն առաջարկում է AI-ի վրա հիմնված աշխատանքային հոսք՝ մարմինների պատկերների ձևավորման ավտոմատացման համար, ինչը հազվագյուտ փորձ է համակարգչային տեսողության ոլորտում, որը ներկայումս զբաղված է: դեմքի վրա հիմնված մանիպուլյացիաներ ինչպիսիք են deepfakes-ը և GAN-ի վրա հիմնված դեմքի խմբագրում.
Հետազոտողների ճարտարապետությունը օգտագործում է կմախքի դիրքի գնահատում, որպեսզի լուծի պատկերների սինթեզի և խմբագրման համակարգերի ավելի մեծ բարդությունը՝ գոյություն ունեցող մարմնի պատկերները հայեցակարգելու և պարամետրիզացնելու համար, առնվազն մինչև այն աստիճանի հստակությունը, որն իրականում թույլ է տալիս բովանդակալից և ընտրովի խմբագրում:
Համակարգը, ի վերջո, հնարավորություն է տալիս օգտվողին սահմանել պարամետրեր, որոնք կարող են փոխել քաշի, մկանային զանգվածի կամ քաշի բաշխման տեսքը մարդկանց լայնածավալ կամ միջին երկարության լուսանկարներում, և կարող է կամայական փոխակերպումներ առաջացնել հագուստով կամ չհագցված մարմնի հատվածներում:
Աշխատանքի շարժառիթը ավտոմատացված աշխատանքային հոսքերի զարգացումն է, որը կարող է փոխարինել լուսանկարիչների և գրաֆիկական արվեստագետների կողմից ձեռնարկված ծանր թվային մանիպուլյացիաներին լրատվամիջոցների տարբեր ճյուղերում՝ նորաձևությունից մինչև ամսագրի ոճի արտադրանք և հրապարակայնության նյութ.
Ընդհանրապես, հեղինակներն ընդունում են, որ այս փոխակերպումները սովորաբար կիրառվում են «warp» տեխնիկայի հետ Photoshop-ում և այլ ավանդական bitmap խմբագրիչներում և գրեթե բացառապես օգտագործվում են կանանց պատկերների վրա: Հետևաբար, նոր գործընթացը հեշտացնելու համար մշակված հատուկ տվյալների հավաքածուն հիմնականում բաղկացած է կին առարկաների նկարներից.
«Քանի որ մարմնի ռետուշը հիմնականում իգական սեռի ներկայացուցիչներն են, մեր հավաքածուի մեծ մասը կանացի լուսանկարներ են՝ հաշվի առնելով տարիքի, ռասաների (աֆրիկյան. ասիական: կովկասյան = 0.33:0.35:0.32), դիրքերի և հագուստի բազմազանությունը:
The թուղթ վերնագրված է Structure-Aware Flow Generation for Human Body Reshaping, և գալիս է հինգ հեղինակներից, որոնք կապված են Alibaba-ի համաշխարհային DAMO ակադեմիայի հետ:
Տվյալների հավաքածուի մշակում
Ինչպես սովորաբար լինում է պատկերների սինթեզի և խմբագրման համակարգերի դեպքում, նախագծի ճարտարապետությունը պահանջում էր անհատականացված ուսումնական տվյալների բազա: Հեղինակները երեք լուսանկարիչների հանձնարարել են պատրաստել Unsplash ֆոնդային լուսանկարչական կայքից համապատասխան պատկերների ստանդարտ Photoshop մանիպուլյացիաներ, ինչը հանգեցրել է տվյալների բազայի՝ վերնագրով: BR-5K* – 5,000 բարձրորակ պատկերներ 2K լուծաչափով:
Հետազոտողները շեշտում են, որ այս տվյալների բազայի վրա ուսուցման նպատակը ոչ թե «իդեալականացված» և ընդհանրացված հատկանիշների ստեղծումն է, որոնք առնչվում են գրավչության կամ ցանկալի տեսքի ինդեքսին, այլ ավելի շուտ կորզել մարմնի պատկերների մասնագիտական մանիպուլյացիաների հետ կապված հիմնական հատկանիշների քարտեզագրումները:
Այնուամենայնիվ, նրանք ընդունում են, որ մանիպուլյացիաները, ի վերջո, արտացոլում են փոխակերպման գործընթացները, որոնք քարտեզագրում են առաջընթաց «իրականից» դեպի «իդեալական» նախադրյալ հասկացություն.
«Մենք հրավիրում ենք երեք պրոֆեսիոնալ արվեստագետների ինքնուրույն ռետուշի ենթարկել մարմինները Photoshop-ի միջոցով՝ նպատակ ունենալով ձեռք բերել սլացիկ կերպարներ, որոնք համապատասխանում են հանրաճանաչ էսթետիկային և ընտրել լավագույնը որպես հիմնարար ճշմարտություն»:
Քանի որ շրջանակն ընդհանրապես չի առնչվում դեմքերին, դրանք մշուշվել են նախքան տվյալների շտեմարանում ներառվելը:
Ճարտարապետություն և հիմնական հասկացություններ
Համակարգի աշխատանքային հոսքը ներառում է բարձր լուծաչափով դիմանկարի սնուցում, այն ավելի ցածր լուծաչափի իջեցում, որը կարող է տեղավորվել առկա հաշվողական ռեսուրսների մեջ և գնահատված կմախքի քարտեզի դիրքի արդյունահանում (ներքևում գտնվող նկարի ձախից երկրորդ նկարը), ինչպես նաև Մասի հարաբերակցության դաշտերը: (PAFs), որոնք էին նորարարված 2016 թվականին Քարնեգի Մելլոնի համալսարանի Ռոբոտաշինության ինստիտուտի կողմից (տես ստորև տեղադրված տեսանյութը):
Part Affinity Fields-ը օգնում է որոշել վերջույթների կողմնորոշումը և ընդհանուր կապը կմախքի ավելի լայն շրջանակի հետ՝ նոր նախագծին տրամադրելով լրացուցիչ ուշադրության/տեղայնացման գործիք:
Չնայած քաշի արտաքին տեսքի հետ իրենց ակնհայտ անհամապատասխանությանը, կմախքի քարտեզները օգտակար են վերջնական փոխակերպման գործընթացները ուղղելու մարմնի այն մասերը, որոնք պետք է փոփոխվեն, ինչպիսիք են ձեռքերի վերին մասը, թիկունքը և ազդրերը:
Դրանից հետո արդյունքները փոխանցվում են Structure Affinity Self-Attention (SASA) գործընթացի կենտրոնական շեղում (տես ստորև նկարը):
SASA-ն կարգավորում է հոսքի գեներատորի հետևողականությունը, որը սնուցում է գործընթացը, որի արդյունքներն այնուհետև փոխանցվում են աղավաղման մոդուլին (վերևի նկարում աջից երկրորդը), որը կիրառում է տվյալների հավաքակազմում ներառված ձեռքով վերանայումների վերաբերյալ վերապատրաստումից ստացված փոխակերպումները: .
Հետագայում ելքային պատկերը վերադառնում է նախնական 2K լուծաչափին՝ օգտագործելով ստանդարտ, 2017-ի ոճի խորը կեղծ ճարտարապետությանը չնմանող գործընթացներ, որոնցից այդ ժամանակվանից ստացվել են հայտնի փաթեթներ, ինչպիսին է DeepFaceLab-ը։ նմուշառման գործընթացը տարածված է նաև GAN խմբագրման շրջանակներում:
Սխեմայի ուշադրության ցանցը մոդելավորվել է այն բանից հետո, երբ Կոմպոզիցիոն դե-ուշադրության ցանցեր (ԿՈԴԱ), 2019 թվականի ԱՄՆ/Սինգապուր ակադեմիական համագործակցություն Amazon AI-ի և Microsoft-ի հետ:
Թեստեր
Հոսքի վրա հիմնված շրջանակը փորձարկվել է նախորդ հոսքի վրա հիմնված մեթոդների դեմ ԱՂՔ և անիմացիա՝ շեղումների միջոցով (ATW), ինչպես նաև պատկերների թարգմանության ճարտարապետություններ Pix2PixHD և GFLAՀետ SSIM, PSNR և LPIPS որպես գնահատման չափումներ:
Այս ընդունված չափումների հիման վրա հեղինակների համակարգը գերազանցում է նախորդ ճարտարապետությանը:
Ի լրումն ավտոմատացված չափումների, հետազոտողները օգտատերերի ուսումնասիրություն են անցկացրել (արդյունքների աղյուսակի վերջին սյունակը՝ նկարում պատկերված է ավելի վաղ), որտեղ 40 մասնակիցներին ցույց են տվել 30 հարցեր, որոնք պատահականորեն ընտրվել են 100 հարցից բաղկացած ֆոնդից՝ կապված տարբեր մեթոդների միջոցով ստացված պատկերների հետ: Հարցվածների 70%-ը հավանել է նոր տեխնիկան որպես ավելի «տեսողականորեն գրավիչ»:
Խնդիրները
Նոր փաստաթուղթը ներկայացնում է հազվագյուտ էքսկուրսիա արհեստական ինտելեկտի վրա հիմնված մարմնի մանիպուլյացիայի մեջ: Պատկերների սինթեզի հատվածը ներկայումս շատ ավելի հետաքրքրված է կամ խմբագրվող մարմինների ստեղծմամբ այնպիսի մեթոդների միջոցով, ինչպիսիք են Նյարդային ճառագայթման դաշտերը (NeRF), կամ էլ կենտրոնացած է GAN-ների թաքնված տարածության և դեմքի մանիպուլյացիայի համար ավտոկոդավորիչների ներուժի ուսումնասիրության վրա:
Հեղինակների նախաձեռնությունը ներկայումս սահմանափակված է ընկալվող քաշի փոփոխություններով, և նրանք չեն կիրառել ներկման որևէ տեխնիկա, որը կվերականգներ այն ֆոնը, որն անխուսափելիորեն բացահայտվում է, երբ դուք նիհարում եք ինչ-որ մեկի նկարը:
Այնուամենայնիվ, նրանք առաջարկում են, որ դիմանկարների զուգավորումը և ֆոնի միաձուլումը տեքստային եզրակացության միջոցով կարող են աննշանորեն լուծել աշխարհի այն մասերը վերականգնելու խնդիրը, որոնք նախկինում թաքնված էին պատկերի մեջ մարդկային «անկատարության» պատճառով:
* Չնայած նախնական տպագրությունը վերաբերում է լրացուցիչ նյութերին, որոնք տալիս են տվյալների հավաքածուի մասին ավելի շատ մանրամասներ, ինչպես նաև նախագծի հետագա օրինակներ, այս նյութի գտնվելու վայրը հասանելի չէ թերթում, և համապատասխան հեղինակը դեռ չի պատասխանել մուտքի մեր խնդրանքին: .
Առաջին անգամ հրապարակվել է 10 թվականի մարտի 2022-ին։