ဆောင်းပါးတို TikTok Developers များသည် Augmented Reality Applications အတွက် မျက်နှာများကို ဖျက်နေသည် - Unite.AI
ကြှနျုပျတို့နှငျ့အတူချိတ်ဆက်ပါ

လုပ်ခဲ့ပြီး Reality

TikTok Developers များသည် Augmented Reality Applications အတွက် မျက်နှာများကို ဖျက်နေသည်

mm

Published

 on

TikTok ၏နောက်ကွယ်မှတရုတ်နိုင်ငံစုံအင်တာနက်ကုမ္ပဏီ ByteDance သည် augmented reality အပလီကေးရှင်းများတွင်လူများပေါ်တွင်အထောက်အထားပုံပျက်ခြင်းနှင့်အခြားထူးခြားသောအကျိုးသက်ရောက်မှုများပြုလုပ်နိုင်စေရန်ဗီဒီယိုတွင်မျက်နှာများကိုဖျက်ရန်နည်းလမ်းအသစ်ကိုတီထွင်ခဲ့သည်။ ကုမ္ပဏီက အဆိုပါနည်းပညာကို စီးပွားဖြစ်မိုဘိုင်းထုတ်ကုန်များတွင် ပေါင်းစပ်ထားပြီးဖြစ်ကြောင်းဆိုသော်လည်း မည်သည့်ထုတ်ကုန်ကိုမျှ ဖော်ပြခြင်းမရှိပေ။

ဗီဒီယိုရှိ မျက်နှာများကို 'သုည' ပြီးသည်နှင့် မျက်စိမှိတ်ထားနိုင်သော ပုံပျက်များကို ထုတ်လုပ်ရန် လုံလောက်သော 'မျက်နှာပတ္တူ' ရှိသည့်အပြင် အခြားသော အထောက်အထားများကို ဖုံးအုပ်ထားနိုင်သည်။ ByteDance သုတေသီများထံမှ စာတမ်းအသစ်တွင် ပံ့ပိုးထားသော ဥပမာများသည် အမျိုးမျိုးသော ဟာသ (အချို့သော ဆိုးရွားလွန်းသော) ဖွဲ့စည်းမှုပုံစံများတွင် 'ဖျက်ထားသော' အင်္ဂါရပ်များကို ပြန်လည်ရယူခြင်းအပါအဝင် ဖြစ်နိုင်ချေများကို သရုပ်ဖော်သည်-

ByteDance စာရွက်တွင်ပါဝင်သော မျက်နှာပြန်လည်ပြင်ဆင်ခြင်းအတွက် ဖြစ်နိုင်ခြေအချို့။ အရင်းအမြစ်- https://arxiv.org/pdf/2109.10760.pdf

ByteDance စာရွက်တွင်ပါဝင်သော မျက်နှာပြန်လည်ပြင်ဆင်ခြင်းအတွက် ဖြစ်နိုင်ခြေအချို့။ အရင်းအမြစ်- https://arxiv.org/pdf/2109.10760.pdf

ဩဂုတ်လကုန်ပိုင်းလောက်မှာ ပြုလုပ်ခဲ့ပါတယ်။ မီးလင်းလာသည်။ TikTok သည် Facebook မဟုတ်သော ပထမဆုံး app ဖြစ်သည်။ တပ်ဆင်မှုသုံးဘီလီယံအထိရောက်ရှိTikTok Effect Studio ကို (လောလောဆယ်တွင်) လွှင့်တင်ထားပါသည်။ အပိတ် beta တွင်TikTok အကြောင်းအရာစီးကြောင်းများအတွက် AR အကျိုးသက်ရောက်မှုများကိုဖန်တီးရန် augmented reality (AR) developer များအတွက် platform တစ်ခု။

ထိရောက်စွာ၊ ကုမ္ပဏီသည် အလားတူ developer အသိုင်းအဝိုင်းများကို ဖမ်းဆုပ်ထားသည်။ Facebook ၏ AR Studio နှင့် Snap ARApple ၏ သျှင်နှင့် AR R&D အသိုင်းအဝိုင်း မလှမ်းမကမ်းတွင် သွပ်ရည်စိမ်ရန်လည်း သတ်မှတ်ထားသည်။ hardware အသစ် လာမည့်နှစ်တွင်ကျော်။

ဗလာအသုံးအနှုန်းများ

အဆိုပါ စက္ကူအမည်ရ FaceEraser- မြှင့်တင်ထားသော လက်တွေ့ဘဝအတွက် မျက်နှာအစိတ်အပိုင်းများကို ဖယ်ရှားခြင်း။၊ ကဲ့သို့သော ရှိပြီးသား ပန်းချီ/ဖြည့်စွက် အယ်လဂိုရီသမ်များကို မှတ်သားထားပါ။ NVIDIA ၏ SPADEဤပုံမှန်မဟုတ်သော 'blanking' လုပ်ထုံးလုပ်နည်းကို လုပ်ဆောင်ခြင်းထက် ဖြတ်တောက်ထားသော သို့မဟုတ် တစ်ပိုင်းတစ်ပိုင်း ဖုံးကွယ်ထားသော ရုပ်ပုံများကို ပြီးမြောက်စေရန်အတွက် ပိုမိုဦးတည်ထားကာ ရှိပြီးသား dataset ပစ္စည်းများသည် ကြိုတင်ခန့်မှန်းနိုင်လောက်အောင် ရှားပါးပါသည်။

သူတို့မျက်နှာဖြစ်သင့်သည့် အသားစဥ်ကျယ်ဝန်းသောလူများအတွက် ရရှိနိုင်သောအခြေခံအမှန်တရားဒေတာအတွဲများမရှိသောကြောင့် သုတေသီများသည် ဆန်းသစ်သောကွန်ရက်ဗိသုကာကိုဖန်တီးခဲ့သည်။ pixel-clone၎င်းသည် ရှိပြီးသား အာရုံကြောဆေးခြယ်ခြင်းပုံစံများတွင် ပေါင်းစပ်ထည့်သွင်းနိုင်ပြီး၊ ကဲ့သို့သော ရှေးနည်းဟောင်းများဖြင့် ပြသထားသော မျက်နှာပြင်နှင့် အရောင်ကွဲလွဲမှုများကို ဖြေရှင်းပေးသည့် (စာရွက်အထောက်အထားများ)၊ StructureFlow နှင့် EdgeConnect.

ပိုက်လိုင်းအသစ်ရှိ pixel-clone ၏ အထွေထွေလုပ်ဆောင်မှု။

ပိုက်လိုင်းအသစ်ရှိ pixel-clone ၏ အထွေထွေလုပ်ဆောင်မှု။

မျက်ခုံးနှင့် မျက်ခုံးကြား ဧရိယာသည် အများအားဖြင့် 'paste-over' ပေးစွမ်းနိုင်သော အကြီးဆုံး pixels အုပ်စုတစ်စုဖြစ်သောကြောင့် သုတေသီများသည် မျက်မှန်တပ်ထားသော ပုံများ သို့မဟုတ် ဆံပင်များ နဖူးကို ဖုံးကွယ်ထားရာနေရာများကို တားမြစ်ထားသည်။ မျက်နှာ၏ဗဟိုအင်္ဂါရပ်များအတွက်ပစ္စည်း။

လေ့ကျင့်ပြင်ဆင်ပုံများ။ မျက်နှာချိန်ညှိမှတ်သားမှုတွင် အဓိကအချက်များအလိုက်၊ ဒေါင်လိုက်လှန်ပြီး ချုပ်ထားသော နဖူးဧရိယာကို ဖြတ်တောက်ထားသည်။

လေ့ကျင့်ပြင်ဆင်ပုံများ။ မျက်နှာချိန်ညှိမှတ်သားမှုတွင် အဓိကအချက်များအလိုက်၊ ဒေါင်လိုက်လှန်ပြီး ချုပ်ထားသော နဖူးဧရိယာကို ဖြတ်တောက်ထားသည်။

256×256 ပစ်ဇယ်ပုံတစ်ပုံကို ရရှိပြီး အောင်မြင်နိုင်လောက်အောင် ကြီးမားသော အစီအစဥ်များဖြင့် အာရုံကြောကွန်ရက်တစ်ခု၏ ငုပ်လျှိုးနေသောနေရာသို့ ပေးပို့ရန် လုံလောက်သော သေးငယ်သော အရွယ်အစားကို ရရှိသည်။ ယေဘူယျအားဖြင့်. နောက်ပိုင်းတွင် အယ်လဂိုရီသမ်များ ချဲ့ထွင်ခြင်းသည် AR နေရာ၌ အလုပ်လုပ်ရန် လိုအပ်သော ဆုံးဖြတ်ချက်များကို ပြန်လည်ရယူပါမည်။

ဗိသုကာအတတ်ပညာ

ကွန်ရက်ကို Edge Completion၊ Pixel-Clone နှင့် သန့်စင်မှုကွန်ရက်တို့ ပါ၀င်သော အတွင်းကွန်ရက်သုံးခုဖြင့် ဖွဲ့စည်းထားသည်။ edge ပြီးစီးမှုကွန်ရက်သည် EdgeConnect တွင်အသုံးပြုသည့် ကုဒ်ဒါ-ကုဒ်ကုဒ်ဗိသုကာအမျိုးအစားကို အသုံးပြုသည် (အထက်တွင်ကြည့်ပါ) နှင့် လူကြိုက်အများဆုံး deepfake အပလီကေးရှင်းနှစ်ခုတွင် အသုံးပြုသည်။ ကုဒ်ဒုဒ်ကိရိယာများသည် ပုံအကြောင်းအရာကို နှစ်ကြိမ်နှိမ့်ချပြီး ကုဒ်ဒုဒ်ကိရိယာများသည် မူရင်းရုပ်ပုံအရွယ်အစားကို ပြန်လည်ရယူသည်။

Pixel-Clone သည် ပြုပြင်ထားသော ကုဒ်ဒါ-ကုဒ်ဒါကုဒ်ဒါနည်းလမ်းကို အသုံးပြုထားပြီး သန့်စင်မှုအလွှာသည် မူလတီထွင်ထားသည့် နည်းပညာဖြစ်သည့် U-Net ဗိသုကာကို အသုံးပြုထားသည်။ ဇီဝဆေးဘက်ဆိုင်ရာပုံရိပ်အတွက်ရုပ်ပုံပေါင်းစပ်မှုဆိုင်ရာ သုတေသနပရောဂျက်များတွင် ပါ၀င်လေ့ရှိသော၊

လေ့ကျင့်ရေး လုပ်ငန်းအသွားအလာအတွင်း၊ အသွင်ပြောင်းမှုများ၏ တိကျမှုကို အကဲဖြတ်ရန် လိုအပ်ပြီး လိုအပ်သလို၊ ကြိုးစားမှုများကို ထပ်တလဲလဲ ထပ်ခါတလဲလဲ လုပ်ဆောင်ရန် လိုအပ်ပါသည်။ convergence. ဤအချက်ကို အခြေခံ၍ ခွဲခြားဆက်ဆံသူ နှစ်ဦး၊ PatchGAN 70×70 pixel ဖာထေးမှုများ၏ ဒေသန္တရသဘောတူမှုကို အကဲဖြတ်ကာ ပုံတစ်ခုလုံး၏ လက်တွေ့ဆန်မှုတန်ဖိုးကို လျှော့ချပေးသည့် တစ်ခုစီကို အသုံးပြုထားသည်။

လေ့ကျင့်ရေးနှင့်ဒေတာ

Edge ပြီးစီးမှုကွန်ရက်အား ကနဦးတွင် လွတ်လပ်စွာ လေ့ကျင့်ပေးထားပြီး အခြားကွန်ရက်နှစ်ခုကို ဤလုပ်ငန်းစဉ်အတွင်း ပြုပြင်ပြီး အေးခဲထားသည့် edge completion လေ့ကျင့်မှုမှ ထွက်ပေါ်လာသည့် အလေးချိန်များအပေါ် အခြေခံ၍ အတူတကွ လေ့ကျင့်ထားသည်။

၎င်း၏နောက်ဆုံးအင်္ဂါရပ်ပုံပျက်ခြင်း၏နမူနာများသည် မော်ဒယ်၏ဗဟိုဦးတည်ချက်ဖြစ်ကြောင်း စာတမ်းတွင် အတိအလင်းဖော်ပြထားခြင်းမရှိသော်လည်း၊ ၎င်းသည် မျက်ခုံးဖယ်ရှားခြင်း၊ ပါးစပ်ကျယ်ခြင်း၊ မျက်နှာငယ်များနှင့် 'toonized' အပါအဝင် စနစ်၏ခံနိုင်ရည်အားစမ်းသပ်ရန်အတွက် ရုပ်ပြအကျိုးသက်ရောက်မှုများကို စမ်းသပ်ရန် အမျိုးမျိုးသော ရုပ်ပြအကျိုးသက်ရောက်မှုများကို အကောင်အထည်ဖော်ပေးပါသည်။ အကျိုးသက်ရောက်မှုများ (အထက်ပုံတွင်ပြထားသည့်အတိုင်း)။

စာရွက်တွင် 'ဖျက်လိုက်သောမျက်နှာများသည် အသုံးပြုသူစိတ်ကြိုက်ပြုလုပ်ထားသောဒြပ်စင်များကိုနေရာချထားရန် လိုအပ်သည့် augmented-reality application အမျိုးမျိုးကိုလုပ်ဆောင်နိုင်သည်' ဟုအခိုင်အမာဆိုထားပြီး၊ ပြင်ပပါတီ၊ အသုံးပြုသူမှပံ့ပိုးထားသောဒြပ်စင်များဖြင့် မျက်နှာများကို စိတ်ကြိုက်ပြင်ဆင်နိုင်ခြေကို ညွှန်ပြပါသည်။

မော်ဒယ်ကို NVIDIA ဖန်တီးထားသည့် မျက်နှာဖုံးများပေါ်တွင် လေ့ကျင့်ထားသည်။ FFHQ ဒေတာအတွဲအသုံးဝင်သော ယေဘူယျအားဖြင့် အောင်မြင်ရန် လုံလောက်သော အသက်အရွယ်၊ လူမျိုးစု၊ အလင်းရောင်နှင့် မျက်နှာပုံစံများနှင့် ပုံစံများ ပါဝင်ပါသည်။ ဒေတာအတွဲတွင် ပုံ 35,000 နှင့် 10,000 အသွင်ပြောင်းသည့်နေရာများကို ဖော်ပြရန်အတွက် လေ့ကျင့်ရေးမျက်နှာဖုံးများ ပါ၀င်ပြီး 4000 ပုံ နှင့် မျက်နှာဖုံး 1000 ကို အတည်ပြုရန်အတွက် ဖယ်ထားပေးပါသည်။

သင်တန်းဒေတာနမူနာ။

သင်တန်းဒေတာနမူနာ။

လေ့ကျင့်သင်ကြားထားသော မော်ဒယ်သည် 2017 ခုနှစ်များမှ အချက်အလက်များကို ကောက်ချက်ချနိုင်သည်။ CelebA-HQ နှင့် VoxCelebFFHQ မှ မမြင်ရသော မျက်နှာများ နှင့် ၎င်းအား တင်ပြထားသည့် အခြားသော အတားအဆီးမဲ့၊ မမြင်ရသော မျက်နှာများ။ 256×256 ရုပ်ပုံများကို Adam optimizer တစ်ခုမှ 8 ခုခွဲဖြင့် ကွန်ရက်ပေါ်တွင် လေ့ကျင့်သင်ကြားခဲ့ပြီး PyTorch တွင် အကောင်အထည်ဖော်ကာ '100 ကာလများ' အတွက် Tesla V2000,000 GPU ကို အသုံးပြုထားသည်။

အစစ်အမှန်မျက်နှာပေါ်မှရရှိသောရလဒ်များ။

အစစ်အမှန်မျက်နှာပေါ်မှရရှိသောရလဒ်များ။

မျက်နှာအခြေခံ ရုပ်ပုံပေါင်းစပ်မှု သုတေသနတွင် အဖြစ်များသည့်အတိုင်း၊ စနစ်သည် ဆံပင်၊ အရံပစ္စည်းများ၊ မျက်မှန်နှင့် မျက်နှာဆံပင်များကဲ့သို့သော အတားအဆီးများ သို့မဟုတ် ပိတ်ဆို့ခြင်းများကြောင့် ရံဖန်ရံခါ ကျရှုံးမှုများကို ရင်ဆိုင်ရမည်ဖြစ်ပါသည်။

အစီရင်ခံစာသည်နိဂုံးချုပ်သည်။

'ကျွန်ုပ်တို့၏ချဉ်းကပ်မှုကို စီးပွားဖြစ်ထုတ်လုပ်ထားပြီး ၎င်းသည် အတားအဆီးမရှိသော သုံးစွဲသူများ၏ သွင်းအားစုများအတွက် ထုတ်ကုန်များတွင် ကောင်းစွာအလုပ်လုပ်ပါသည်။'