քոթուկ TikTok ծրագրավորողները ջնջում են դեմքերը հավելյալ իրականության հավելվածների համար - Unite.AI
Միացեք մեզ

Լրացվել է իրականություն

TikTok ծրագրավորողները ջնջում են դեմքերը հավելյալ իրականության հավելվածների համար

mm

Հրատարակված է

 on

ByteDance-ը՝ TikTok-ի չինական բազմազգ ինտերնետային ընկերությունը, մշակել է տեսանյութում դեմքերը ջնջելու նոր մեթոդ, որպեսզի հավելյալ իրականության հավելվածներում մարդկանց վրա կարող են դրվել ինքնության աղավաղում և այլ տարօրինակ էֆեկտներ: Ընկերությունը պնդում է, որ տեխնիկան արդեն ինտեգրվել է կոմերցիոն շարժական ապրանքների մեջ, թեև չի նշում, թե որ արտադրանքը:

Հենց որ տեսանյութում դեմքերը «զրոյացվեն», բավականաչափ «դեմքի կտավ» կա՝ ապշեցուցիչ խեղաթյուրումներ առաջացնելու, ինչպես նաև այլ ինքնությունների պոտենցիալ վերադրման համար: ByteDance-ի հետազոտողների նոր աշխատության մեջ տրված օրինակները ցույց են տալիս հնարավորությունները, ներառյալ «ջնջված» հատկանիշների վերականգնումը տարբեր զավեշտական ​​(և, իհարկե, որոշ գրոտեսկային) կոնֆիգուրացիաներում.

Դեմքի վերակազմավորման որոշ հնարավորություններ ներառված են ByteDance թերթում: Աղբյուր՝ https://arxiv.org/pdf/2109.10760.pdf

Դեմքի վերակազմավորման որոշ հնարավորություններ ներառված են ByteDance թերթում: Աղբյուր՝ https://arxiv.org/pdf/2109.10760.pdf

Օգոստոսի վերջին, այն ի հայտ եկավ որ TikTok-ը՝ առաջին ոչ Facebook հավելվածը հասնել երեք միլիարդ տեղադրման, գործարկել էր TikTok Effect Studio-ն (ներկայումս փակ բետա տարբերակում), հարթակ ընդլայնված իրականության (AR) մշակողների համար՝ ստեղծելու AR էֆեկտներ TikTok բովանդակության հոսքերի համար։

Արդյունավետորեն, ընկերությունը հասնում է նմանատիպ մշակողների համայնքներին Facebook-ի AR Studio և Snap AR, Apple-ի մեծարգո AR R&D համայնք նույնպես սահմանվել է մոտալուտ դառնալ ցինկապատ է նոր ապարատ հաջորդ տարվա ընթացքում:

Դատարկ արտահայտություններ

The թուղթ, վերնագրով Դեմքի ջնջիչ. դեմքի մասերի հեռացում հավելյալ իրականության համար, նշում է, որ գոյություն ունեցող in-painting/infill ալգորիթմները, ինչպիսիք են NVIDIA-ի SPADE, ավելի շատ ուղղված են կտրված կամ այլ կերպ կիսաթափանցիկ պատկերների լրացմանը, քան այս անսովոր «դատարկելու» ընթացակարգին, և, հետևաբար, տվյալների առկա նյութը կանխատեսելիորեն սակավ է:

Քանի որ չկան հասանելի հիմքային ճշմարտության տվյալների հավաքածուներ այն մարդկանց համար, ովքեր ունեն մարմնի ամուր տարածություն, որտեղ պետք է լինի իրենց դեմքը, հետազոտողները ստեղծել են նոր ցանցային ճարտարապետություն, որը կոչվում է. պիքսել-կլոն, որը կարող է վերագրվել գոյություն ունեցող նյարդային ներկման մոդելներին, և որը լուծում է հյուսվածքների և գունային անհամապատասխանությունների հետ կապված խնդիրները (թուղթը հաստատում է) ավելի հին մեթոդներով, ինչպիսիք են. StructureFlow և EdgeConnect.

Նոր խողովակաշարում պիքսել-կլոնի ընդհանուր աշխատանքային հոսքը:

Նոր խողովակաշարում պիքսել-կլոնի ընդհանուր աշխատանքային հոսքը:

Որպեսզի մոդելին վարժեցնեն «դատարկ» դեմքերի վրա, հետազոտողները բացառեցին ակնոցներով պատկերներ կամ որտեղ մազերը ծածկում են ճակատը, քանի որ մազի գծի և հոնքերի միջև ընկած հատվածը սովորաբար պիքսելների ամենամեծ խումբն է, որը կարող է «տեղադրել»: նյութ դեմքի կենտրոնական հատկությունների համար.

Վերապատրաստման պատկերների պատրաստում. Ճակատի հատվածը կտրված է դեմքի հավասարեցման ճանաչման հիմնական կետերի հիման վրա, ուղղահայաց շրջված և կարված:

Վերապատրաստման պատկերների պատրաստում. Ճակատի հատվածը կտրված է դեմքի հավասարեցման ճանաչման հիմնական կետերի հիման վրա, ուղղահայաց շրջված և կարված:

Ստացվում է 256×256 պիքսել պատկեր, բավական փոքր չափս՝ սնվելու համար նեյրոնային ցանցի թաքնված տարածություն խմբաքանակներով, որոնք բավական մեծ են՝ հասնելու համար: ընդհանրացում. Հետագայում ալգորիթմական ընդլայնումը կվերականգնի լուծումները, որոնք անհրաժեշտ են AR տարածությունում աշխատելու համար:

ճարտարապետություն

Ցանցը բաղկացած է երեք ներքին ցանցից, որոնք ներառում են Edge Completion, Pixel-Clone և բարելավման ցանց: Եզրերի ավարտման ցանցը օգտագործում է նույն տեսակի կոդավորող-ապակոդավորիչ ճարտարապետություն, որն օգտագործվում է EdgeConnect-ում (տես վերևում), ինչպես նաև երկու ամենահայտնի խորը կեղծ հավելվածներում: Կոդավորիչներն իջեցնում են պատկերի բովանդակությունը երկու անգամ, իսկ ապակոդավորիչները վերականգնում են պատկերի սկզբնական չափերը:

Pixel-Clone-ն օգտագործում է փոփոխված կոդավորող-ապակոդավորող մեթոդոլոգիա, մինչդեռ բարելավման շերտը օգտագործում է U-Net ճարտարապետություն՝ սկզբնապես մշակված տեխնիկա կենսաբժշկական պատկերավորման համար, որը հաճախ հանդիպում է պատկերների սինթեզի հետազոտական ​​նախագծերում։

Վերապատրաստման աշխատանքների ընթացքի ընթացքում անհրաժեշտ է գնահատել վերափոխումների ճշգրտությունը և, անհրաժեշտության դեպքում, կրկնել փորձերը մինչև կոնվերգենցիա. Այս նպատակով երկու խտրականներ հիմնված PatchGAN օգտագործվում են, որոնցից յուրաքանչյուրը գնահատում է 70 × 70 պիքսելային հատվածների տեղայնացված ռեալիզմը՝ զեղչելով ամբողջ պատկերի ռեալիզմի արժեքը։

Ուսուցում և տվյալներ

Եզրերի ավարտման ցանցը սկզբնապես վարժեցվում է ինքնուրույն, մինչդեռ մյուս երկու ցանցերը մարզվում են միասին՝ հիմնվելով եզրերի ավարտման ուսուցման արդյունքում առաջացած կշիռների վրա, որոնք ամրագրված և սառեցված են այս ընթացակարգի ընթացքում:

Թեև թերթը հստակորեն չի նշում, որ իր վերջնական առանձնահատկությունների խեղաթյուրման օրինակները մոդելի կենտրոնական նպատակն են, այն իրականացնում է տարբեր զավեշտական ​​էֆեկտներ՝ ստուգելու համակարգի ճկունությունը, ներառյալ հոնքերի հեռացումը, մեծացած բերանները, փոքրացած ենթադեմքերը և «տոնիզացված»: էֆեկտներ (ինչպես ցույց է տրված ավելի վաղ նկարում, վերևում):

Թերթը պնդում է, որ «ջնջված դեմքերը հնարավորություն են տալիս հավելյալ իրականության տարբեր հավելվածներ, որոնք պահանջում են օգտատիրոջ կողմից հարմարեցված ցանկացած տարրերի տեղադրում», ինչը ցույց է տալիս դեմքերը հարմարեցնելու հնարավորությունը երրորդ կողմի, օգտագործողի կողմից ներդրված տարրերով:

Մոդելը պատրաստված է NVIDIA-ի կողմից ստեղծված դիմակների վրա FFHQ տվյալների բազա, որը պարունակում է տարիքի, էթնիկ պատկանելության, լուսավորության և դեմքի դիրքերի ու ոճերի համապատասխան բազմազանություն՝ օգտակար ընդհանրացման հասնելու համար: Տվյալների հավաքածուն պարունակում է 35,000 պատկեր և 10,000 ուսուցողական դիմակ՝ վերափոխման ոլորտները ուրվագծելու համար, 4000 պատկերներով և 1000 դիմակներով առանձնացված են վավերացման նպատակներով:

Վերապատրաստման տվյալների նմուշներ.

Վերապատրաստման տվյալների նմուշներ.

Վերապատրաստված մոդելը կարող է եզրակացություններ անել 2017 թվականի տվյալների վրա CELEBA-HQ և VoxCeleb, չտեսնված դեմքեր FFHQ-ից և ցանկացած այլ անկաշկանդ, չտեսնված դեմքեր, որոնք ներկայացվում են նրան: 256×256 պատկերները վերապատրաստվել են ցանցում 8 խմբաքանակով Adam-ի օպտիմիզատորի միջոցով՝ ներդրված PyTorch-ում և աշխատում են Tesla V100 GPU-ով «2000,000 դարաշրջանների համար»:

Եզրակացության արդյունքներ՝ ստացված իրական դեմքի վրա։

Եզրակացության արդյունքներ՝ ստացված իրական դեմքի վրա։

Ինչպես սովորական է դեմքի վրա հիմնված պատկերների սինթեզի հետազոտության մեջ, համակարգը ստիպված է դիմակայել պատահական ձախողումներին, որոնք հրահրվում են խոչընդոտների կամ խցանումների պատճառով, ինչպիսիք են մազերը, ծայրամասային սարքերը, ակնոցները և դեմքի մազերը:

Theեկույցը եզրափակում է.

«Մեր մոտեցումը կոմերցիոնացվել է, և այն լավ է աշխատում օգտատերերի անսահմանափակ մուտքերի համար նախատեսված արտադրանքներում»: