ဉာဏ်ရည်တု
NeRF အများအပြားကို ပေါင်းစပ်ခြင်းဖြင့် ခန္ဓာကိုယ်တစ်ခုလုံး Deepfakes ဖန်တီးခြင်း။
ရုပ်ပုံပေါင်းစပ်မှုဆိုင်ရာ သုတေသနကဏ္ဍတွင် တစ်ကိုယ်လုံး ဗီဒီယိုနှင့် လူငယ်များ၏ ရုပ်ပုံများကို ဖန်တီးနိုင်သည့် စနစ်များအတွက် အဆိုပြုချက်အသစ်များဖြင့် ပြည့်နှက်နေပါသည်။ အများစုကတော့ ထုတ်ပေးတဲ့ ပုံတွေပါ။ ငြိမ်နေကြသည်။; ရံဖန်ရံခါတွင်၊ ကိုယ်စားပြုမှုများသည် အလွန်ကောင်းမွန်သော်လည်း၊
ဤအထူးသဖြင့် သုတေသနကြိုးတန်း၏ အရှိန်အဟုန်သည် ဆက်စပ်နယ်ပယ်များဖြစ်သည့် ဆက်စပ်နယ်ပယ်များတွင် လက်ရှိ မူးဝေနေသော တိုးတက်မှုအဆင့်နှင့် နှိုင်းယှဉ်လျှင် နှင်းခဲနေသည်။ ငုပ်လျှိုးနေသော ပျံ့နှံ့မှုပုံစံများ; သို့သော်လည်း အာရှရှိ အများစုဖြစ်သော သုတေသနအဖွဲ့များသည် ပြဿနာကို မဆုတ်မနစ် ဆက်လက်ဖြေရှင်းနေကြသည်။
ရည်ရွယ်ချက်မှာ ဖက်ရှင်နှင့်အဝတ်အစားဈေးကွက်အတွက် 'virtual try-ons' ကိုဖွင့်ရန်အတွက် စနစ်သစ်များဖန်တီးရန်ဖြစ်သည် - အစစ်အမှန်၏ရှုပ်ထွေးမှုမရှိပဲ ဖောက်သည်နှင့်လက်ရှိရရှိနိုင်သော သို့မဟုတ် ထွက်ရှိတော့မည့် သီးခြားထုတ်ကုန်နှင့်လိုက်လျောညီထွေဖြစ်စေမည့်စနစ်များ။ -အချိန် superimposition of အဝတ်အစားဒါမှမဟုတ် ဖောက်သည်တွေကို မေးဖို့ လိုပါတယ်။ အနည်းငယ် NSFW ပုံများပေးပို့ပါ။ ML-based rendering pipelines အတွက်။
ရေပန်းစားသောပေါင်းစပ်ဗိသုကာများသည် ဤလုပ်ငန်းအတွက် အလွယ်တကူလိုက်လျောညီထွေဖြစ်ပုံမပေါ်ပါ။ ငုပ်လျှိုးနေသောနေရာ Generative Adversarial Networks (GANs) သည် ယုံကြည်စိတ်ချရသော ယာယီလှုပ်ရှားမှု (သို့မဟုတ်ပင်လျှင်) ထုတ်လုပ်ရန် မသင့်လျော်ပါ။ တည်းဖြတ်ရန် ယေဘုယျအနေဖြင့်); သို့သော်လည်း ကောင်းစွာနိုင်စွမ်း လက်တွေ့ဆန်သော လူသားလှုပ်ရှားမှုကို ဖန်တီးခြင်း၊ Neural Radiance နယ်ပယ်များ (NeRF) သည် များသောအားဖြင့် သဘာဝအတိုင်းဖြစ်သည်။ ခံနိုင်ရည် လူများ သို့မဟုတ် အဝတ်အစားများကို အလိုအလျောက် 'လဲလှယ်ရန်' လိုအပ်မည့် တည်းဖြတ်မှုမျိုး၊ autoencoders များသည် ဝန်ထုပ်ဝန်ပိုးဖြစ်စေသော ပုဂ္ဂိုလ်/အဝတ်အစားဆိုင်ရာ လေ့ကျင့်မှု လိုအပ်မည်ဖြစ်သည်။ နှင့် GANs ကဲ့သို့ ငုပ်လျှိုးနေသော ပျံ့နှံ့မှုပုံစံများသည် ဗီဒီယိုထုတ်လုပ်ရန်အတွက် ဇာတိ ယာယီယန္တရားများ လုံးဝမရှိပါ။
EVA3D
မည်သို့ပင်ဆိုစေကာမူ စာတမ်းများနှင့် အဆိုပြုချက်များသည် ဆက်လက်တည်ရှိနေပါသည်။ နောက်ဆုံးအချက်သည် အခြားထူးခြားမှုမရှိသောနှင့် သီးသန့်စီးပွားရေးဦးတည်သည့် သုတေသနလိုင်းတစ်ခုအတွက် အထူးအဆန်းစိတ်ဝင်စားစရာဖြစ်သည်။
EVA3DSingapore's Nanyang Technological University မှ ရောက်ရှိလာသည်မှာ ကြာမြင့်နေပြီဖြစ်သော ချဉ်းကပ်မှု၏ ပထမဆုံးသော ညွှန်ပြချက်ဖြစ်သည်၊ မျိုးစုံ Neural Radiance Field ကွန်ရက်များသည် တစ်ခုချင်းစီကို ခန္ဓာကိုယ်၏ သီးခြားအစိတ်အပိုင်းတစ်ခုအတွက် မြှုပ်နှံထားပြီး၊ ထို့နောက် ပေါင်းစပ်ကာ ပေါင်းစပ်ကာ ပေါင်းစပ်ထားသော စိတ်ကူးဖြင့် ဖွဲ့စည်းထားသည်။
ရွေ့လျားမှုအရတော့ ရလဒ်တွေက ပြေတယ်။ EVA3D ၏ ပုံရိပ်ယောင်သည် ချိုသာသောချိုင့်ဝှမ်းမှမဟုတ်သော်လည်း၊ သူတို့ရပ်နေသည့်နေရာမှ ချဉ်းကပ်လမ်းကို အနည်းဆုံးမြင်နိုင်သည်။
EVA3D ၏ထူးခြားချက်မှာ ၎င်းနောက်ကွယ်ရှိ သုတေသီများသည် ကွန်ရက်တစ်ခုတည်း (GAN၊ NeRF သို့မဟုတ် အခြားနည်းဖြင့်) တည်းဖြတ်နိုင်သော၊ လိုက်လျောညီထွေရှိသော လူ၏အပြည့်အ၀ကို ကိုင်တွယ်ဖြေရှင်းနိုင်မည်မဟုတ်ကြောင်း သုတေသီများက နားလည်သဘောပေါက်ခဲ့ကြသည်။ တစ်စိတ်တစ်ပိုင်း သုတေသနအရှိန်ကြောင့်၊ တစ်စိတ်တစ်ပိုင်းသည် ဟာ့ဒ်ဝဲနှင့် အခြားသော ထောက်ပံ့ပို့ဆောင်ရေးဆိုင်ရာ ကန့်သတ်ချက်များကြောင့်ဖြစ်သည်။
ထို့ကြောင့်၊ Nanyang အဖွဲ့သည် ကွန်ရက် 16 ခုနှင့် နည်းပညာများစွာကို ပိုင်းခြားထားပြီး - မြို့ပြပတ်ဝန်းကျင်များကို အာရုံမစူးစိုက်နိုင်စေရန်အတွက် အသုံးပြုထားပြီးသော ချဉ်းကပ်မှုတစ်ခုဖြစ်သည်။ Block-NeRF နှင့် CityNeRF၎င်းသည် လာမည့်ငါးနှစ်အတွင်း တစ်ကိုယ်လုံးနက်ရှိုင်းသောအတုအယောင်များရရှိရန် ပိုမိုစိတ်ဝင်စားစရာကောင်းပြီး အသီးအနှံဖြစ်နိုင်ချေရှိသော လမ်းတစ်ဝက်အတိုင်းအတာအထိ ဖြစ်လာနိုင်ဖွယ်ရှိပြီး အယူအဆပိုင်းဆိုင်ရာ သို့မဟုတ် ဟာ့ဒ်ဝဲဆိုင်ရာ ဖွံ့ဖြိုးတိုးတက်မှုများကို ဆိုင်းငံ့ထားသည်။
ဤ 'virtual try-on' ကို ဖန်တီးရာတွင် စိန်ခေါ်မှုများအားလုံးသည် နည်းပညာဆိုင်ရာ သို့မဟုတ် ထောက်ပံ့ပို့ဆောင်ရေးမဟုတ်ပါ၊ အထူးသဖြင့် ကြီးကြပ်မထားသော သင်ယူမှုနှင့်ပတ်သက်သော ဒေတာပြဿနာအချို့ကို စာတမ်းတွင် ဖော်ပြထားပါသည်။
'[ဖက်ရှင်] ဒေတာအတွဲများတွင် အများအားဖြင့် အလွန်ကန့်သတ်ထားသော လူကိုယ်ဟန်များ (အများစုသည် အလားတူ မတ်တပ်ရပ်နေသည့် ကိုယ်ဟန်များ) နှင့် အလွန်မမျှတသော မြင်ကွင်းထောင့်များ (အများစုမှာ ရှေ့မြင်ကွင်းများဖြစ်သည်)။ ဤမညီမျှသော 2D ဒေတာဖြန့်ဝေမှုသည် 3D GAN များ၏ ကြီးကြပ်ကွပ်ကဲမှုမရှိဘဲ သင်ယူမှုကို အဟန့်အတားဖြစ်စေနိုင်ပြီး၊ ဆန်းသစ်သောအမြင်/ပုံသဏ္ဍာန်ပေါင်းစပ်မှုတွင် အခက်အခဲဖြစ်စေသည်။ ထို့ကြောင့် ပြဿနာကို သက်သာစေရန် သင့်လျော်သော လေ့ကျင့်ရေးဗျူဟာတစ်ခု လိုအပ်ပါသည်။'
EVA3D အလုပ်အသွားအလာသည် လူ့ခန္ဓာကိုယ်အား သီးခြားအစိတ်အပိုင်း 16 ခုအဖြစ် အပိုင်းပိုင်းခွဲထားပြီး တစ်ခုချင်းစီကို ၎င်း၏ကိုယ်ပိုင် NeRF ကွန်ရက်မှတစ်ဆင့် ထုတ်ပေးပါသည်။ ထင်ရှားသည်မှာ၊ ၎င်းသည် ရွေ့လျားမှုဖမ်းယူမှု သို့မဟုတ် အခြားရွေ့လျားမှုဒေတာအမျိုးအစားများမှတစ်ဆင့် ပုံသဏ္ဍာန်ကို သွန်းလောင်းနိုင်စေရန် လုံလောက်သော 'အေးစက်နေသော' အပိုင်းများကို ဖန်တီးပေးသည်။ သို့သော် ဤအားသာချက်အပြင်၊ ၎င်းသည် စနစ်အား အလုံးစုံ ဆွဲဆောင်မှုအား 'ရောင်းသည်' ဖြစ်သော ကိုယ်ခန္ဓာ၏ အစိတ်အပိုင်းများသို့ အများဆုံး အရင်းအမြစ်များကို သတ်မှတ်ပေးနိုင်သည်။
ဥပမာအားဖြင့်၊ လူ၏ခြေထောက်များသည် ယေဘုယျအားဖြင့် ခန္ဓာကိုယ်တစ်ခုလုံး၏ ရွေ့လျားမှုအရည်အသွေးမှလွဲ၍ မျက်နှာနှင့် ဦးခေါင်း၏ စစ်မှန်မှုအပြင်၊ သရုပ်ဖော်ခြင်းအတွက် စစ်မှန်မှု၏ အဓိကအချက်ဖြစ်ဖွယ်ရှိသည်။
ချဉ်းကပ်ပုံသည် NeRF ဗဟိုပြုစီမံကိန်းနှင့် သဘောတရားအရ ဆက်စပ်နေသည် - 2021 ခုနှစ် A-NeRFUniversity of British Columbia နှင့် Reality Labs Research မှ ၊ အတွင်းပိုင်းထိန်းချုပ်မှုအရိုးစုတစ်ခုအား သမားရိုးကျမဟုတ်ပါက 'one piece' NeRF ကိုယ်စားပြုမှုသို့ ထည့်သွင်းရန် ကြိုးပမ်းခဲ့သည့်အတွက် လိုအပ်မှုအပေါ် အခြေခံ၍ ခန္ဓာကိုယ်၏ မတူညီသော အစိတ်အပိုင်းများသို့ စီမံဆောင်ရွက်ပေးသည့် အရင်းအမြစ်များကို ခွဲဝေရန် ပိုမိုခက်ခဲစေပါသည်။ .
အမျိုးမျိုးသောလူကြိုက်များသောချဉ်းကပ်မှုများ၏ငုပ်လျှိုးနေသောနေရာအားလွှမ်းမိုးရန်ကြိုးပမ်းသည့်အလားတူလူသားဗဟိုပြုပရောဂျက်အများစုနှင့်တူညီသော EVA3D သည် Skinned Multi-Person Linear Model ကိုအသုံးပြုသည် (SMPL) 'သမားရိုးကျ' CGI အခြေပြုနည်းလမ်းသည် လက်ရှိပေါင်းစပ်မှုနည်းလမ်းများ၏ ယေဘူယျ abstraction တွင် ပါဝင်မှုအား ပေါင်းထည့်ရန်။ ယခုနှစ်အစောပိုင်းက Hangzhou ရှိ Zhejiang University မှ နောက်ထပ်စာတမ်းတစ်ခုနှင့် City University of Hong Kong မှ Creative Media ကျောင်းတို့က ထိုသို့လုပ်ဆောင်ရန် နည်းလမ်းများကို အသုံးပြုခဲ့သည်။ အာရုံကြောခန္ဓာကို ပြန်လည်ပုံဖော်ခြင်း။.
နည်းလမ်း
လုပ်ငန်းစဉ်တွင်အသုံးပြုသည့် SMPL မော်ဒယ်ကို လူသား 'မတိုင်မီ' နှင့် ချိန်ညှိထားသည် - အခြေခံအားဖြင့် EVA3D မှ စိတ်ဆန္ဒအရ နက်ရှိုင်းစွာအတုယူခံရသည့်လူနှင့် ၎င်း၏အရေပြားအလေးများသည် canonical space အကြား ကွာခြားချက်များကို ညှိနှိုင်းပေးသည် (ဆိုလိုသည်မှာ 'အနားယူခြင်း' သို့မဟုတ် ' SMPL မော်ဒယ်၏ ကြားနေပုံ) နှင့် နောက်ဆုံးအသွင်အပြင်ကို ပြန်ဆိုပုံ။
အထက်ပုံတွင်တွေ့ရသည့်အတိုင်း၊ SMPL ၏ဘောင်ကွက်များကို နောက်ဆုံးတွင်ကိုယ်ထည်ပေါင်းစပ်ပေးမည့် ကွန်ရက် 16 ခုအတွက် နယ်နိမိတ်သတ်မှတ်ချက်များအဖြစ် အသုံးပြုသည်။ ပြောင်းပြန် Linear Blend Skinning (LBS) SMPL ၏ အယ်လဂိုရီသမ်ကို ထို့နောက်တွင် မြင်နိုင်သောနမူနာပြထားသော ရောင်ခြည်များကို canonical (passive pose) space သို့ လွှဲပြောင်းရန် အသုံးပြုသည်။ ထို့နောက် ဤဖွဲ့စည်းပုံများကို အခြေခံ၍ ကွန်ရက်ခွဲ 16 ခုကို မေးမြန်းပြီး နောက်ဆုံးတွင် အပြီးသတ် တင်ဆက်မှုအဖြစ် ပေါင်းစပ်လိုက်ပါသည်။
ထို့နောက် NeRF ပေါင်းစပ်တစ်ခုလုံးကို 3D လူသား GAN မူဘောင်တစ်ခုတည်ဆောက်ရန် အသုံးပြုသည်။
လူ့ခန္ဓာကိုယ်အစိတ်အပိုင်းကို ကိုယ်စားပြုသည့် ကွန်ရက်ခွဲတစ်ခုစီတွင် အထပ်လိုက် Multi-Layer Perceptrons (MLPs) များဖြင့် ဖွဲ့စည်းထားသည်။ SIREN (Sinusoidal Representation Networks) အသက်သွင်းခြင်း။ SIREN သည် ဤကဲ့သို့သော အလုပ်အသွားအလာတွင် ပြဿနာအများအပြားကို ဖြေရှင်းပေးသော်လည်း အလားတူပရောဂျက်များတွင် ယေဘုယျအားဖြင့် အစားပို၍ အံဝင်ခွင်ကျဖြစ်လေ့ရှိပြီး သုတေသီများက အခြားစာကြည့်တိုက်များကို အနာဂတ်တွင် အသုံးပြုနိုင်ကြောင်း အကြံပြုထားသည် (ဆောင်းပါး၏အဆုံးကိုကြည့်ပါ)။
ဒေတာ၊ လေ့ကျင့်ရေးနှင့် စမ်းသပ်မှုများ
EVA3D သည် အခြားရွေးချယ်စရာ သို့မဟုတ် ဆန်းသစ်သောအမြင်များ ကင်းမဲ့နေပြီး အာရုံစိုက်နိုင်ရန် ရည်ရွယ်ချက်ရှိရှိ၊ ထပ်ခါတလဲလဲ ဖြစ်နေနိုင်သည့် ဖက်ရှင်အခြေခံဒေတာအတွဲများတွင် ရရှိနိုင်သော ကိုယ်ဟန်အနေအထားများ၏ ကန့်သတ်ချက်များနှင့် နမူနာပုံစံများကြောင့် ပုံမှန်မဟုတ်သော ဒေတာပြဿနာများနှင့် ရင်ဆိုင်နေရသည်။ လူဝတ်ထားတာထက် အဝတ်အစား။
ဤမညီမျှသော ကိုယ်ဟန်အနေအထား ဖြန့်ဝေမှုကြောင့် EVA3D သည် SMPL နမူနာပုံစံ ဂျီသြမေတြီကို အခြေခံ၍ လူသား၏ ဦးစားပေးများကို အသုံးပြုကာ၊ ထို့နောက် Signed Distance Field ကို ခန့်မှန်းသည် (SDF) ရိုးရှင်းသော ပစ်မှတ်ထက် ဤ pose ကို နှိမ်ပါ။
အထောက်အကူပြု စမ်းသပ်မှုများအတွက် သုတေသီများသည် ဒေတာအတွဲလေးခုကို အသုံးပြုခဲ့သည်- DeepFashion; SHHQ; UBCFashion; ပြီးနောက် AIST အကဗီဒီယိုဒေတာဘေ့စ် (AIST Dance DB)။
နောက်ဆုံးနှစ်ခုတွင် ပထမနှစ်ခုထက် ပိုမိုကွဲပြားသော ကိုယ်ဟန်အနေအထားများပါ၀င်သော်လည်း တူညီသောပုဂ္ဂိုလ်များကို ထပ်ခါတလဲလဲကိုယ်စားပြုကာ ဤအခြားအသုံးဝင်သောကွဲပြားမှုကို ပယ်ဖျက်ပေးသည်။ အတိုချုပ်ပြောရလျှင် ဒေတာသည် စိန်ခေါ်မှုများထက် ပိုမိုများပြားသော အလုပ်တစ်ခုဖြစ်သည်။
အသုံးပြုခဲ့သော အခြေခံအချက်များ ENARF-GAN2D ရုပ်ပုံဒေတာအတွဲများမှ NeRF ရုပ်ပုံများကို တင်ဆက်သည့် ပထမဆုံးပရောဂျက်ဖြစ်သည်။ စတန်းဖို့ဒ်နှင့် NVIDIA များ EG3D; နှင့် StyleSDFဝါရှင်တန်တက္ကသိုလ်၊ Adobe သုတေသနနှင့် Stanford တက္ကသိုလ်တို့အကြား ပူးပေါင်းဆောင်ရွက်ခြင်း - မူရင်းမှ မြင့်မားသော ရုပ်ထွက်အထိ အတိုင်းအတာအထိ ချဲ့ထွင်နိုင်ရန် အထူးကြည်လင်ပြတ်သားသည့် စာကြည့်တိုက်များ လိုအပ်သည့် နည်းလမ်းများအားလုံး။
ချမှတ်ထားသော မက်ထရစ်များ အငြင်းပွားဖွယ် Frechet စတင်ခြင်းအကွာအဝေး (FID) နှင့် Kernel Inception Distance (Kid) မှန်ကန်သောသော့ချက်ရာခိုင်နှုန်းများနှင့်အတူ ([အီးမေးလ်ကိုကာကွယ်ထားသည်]).
အရေအတွက် အကဲဖြတ်ရာတွင် EVA3D သည် ဒေတာအတွဲလေးခုရှိ မက်ထရစ်အားလုံးကို ဦးဆောင်သည်-
EVA3D သည် ဤအမျိုးအစား၏ ပရောဂျက်တစ်ခု၏ အရေးပါသောအချက်ဖြစ်သည့် ဂျီသြမေတြီ ပုံဖော်ခြင်းအတွက် အနိမ့်ဆုံး အမှားအယွင်းနှုန်းကို ရရှိကြောင်း သုတေသီများက မှတ်သားထားသည်။ ၎င်းတို့၏စနစ်သည် ထုတ်ပေးထားသော ကိုယ်ဟန်အနေအထားကို ထိန်းချုပ်နိုင်ပြီး ပိုမိုမြင့်မားအောင်မြင်နိုင်ကြောင်းကိုလည်း သတိပြုမိကြသည်။ [အီးမေးလ်ကိုကာကွယ်ထားသည်] ရမှတ်များသည် အမျိုးအစားတစ်ခုတွင် ပိုမိုမြင့်မားသော တစ်ခုတည်းသော ပြိုင်ဆိုင်မှုနည်းလမ်းဖြစ်သည့် EG3D နှင့် ဆန့်ကျင်ဘက်ဖြစ်သည်။
EVA3D သည် ယခုလက်ရှိ စံနှုန်း 512x512px ကြည်လင်ပြတ်သားမှုဖြင့် လည်ပတ်နေသော်လည်း၊ ၎င်းကို အကြီးစားအလွှာများပေါ်တွင် တင်ခြင်းဖြင့် လွယ်ကူပြီး HD ရုပ်ထွက်သို့ ထိရောက်စွာ အဆင့်မြှင့်နိုင်သော်လည်း၊ Google သည် ၎င်း၏ 1024 resolution စာသားမှ ဗီဒီယိုကမ်းလှမ်းမှုဖြင့် မကြာသေးမီက ပြုလုပ်ပေးခဲ့သောကြောင့် ဖြစ်သည်။ ရုပ်ပုံ ဗီဒီယို.
နည်းလမ်းသည် အကန့်အသတ်မရှိပေ။ SIREN အသက်သွင်းခြင်းသည် EG3D ကဲ့သို့သော အစားထိုးအခြေခံကိုယ်စားပြုမှုအား အသုံးပြုခြင်းဖြင့် စက်ဝိုင်းပုံစံ ရှေးဟောင်းပစ္စည်းများကို ဖြစ်ပေါ်စေနိုင်ကြောင်း စာရွက်တွင် မှတ်သားထားသည်။ ထို့အပြင်၊ SMPL သည် ဖက်ရှင်ဒေတာရင်းမြစ်များနှင့် အတိအကျကိုက်ညီရန် ခက်ခဲသည်။
နောက်ဆုံးတွင်၊ စနစ်သည် ကြီးမားသောအဝတ်အစားများဖြစ်သည့် ကြီးမားသောအ၀တ်အစားများ အလွယ်တကူ မထားရှိနိုင်ပါ။ ဤအမျိုးအစား၏အဝတ်အစားများသည် အာရုံကြောပုံစံဖြင့်ဆံပင်ကိုဖန်တီးပေးသည့် အရည်ဒိုင်းနမစ်တစ်မျိုးကိုပြသသည် စိန်ခေါ်မှုတစ်ခု. ခန့်မှန်းချေ အဖြေတစ်ခုသည် ပြဿနာနှစ်ခုလုံးကို ဖြေရှင်းရန် အထောက်အကူဖြစ်နိုင်သည်ဟု ယူဆပါသည်။
၂၀၂၂ ခုနှစ် အောက်တိုဘာလ ၅ ရက်နေ့တွင် ပထမအကြိမ် ထုတ်ဝေခဲ့သည်။