ဉာဏ်ရည်တု

GAN သည် 'ရိုးရာ' CGI အတွက် မျက်နှာပုံဖေါ်သူ

နောက်ဆုံးရေးသားချိန် on ဒီဇင်ဘာလတွင် 9, 2022

သဘော Generative Adversarial Networks (GANs) သည် ၎င်းတို့၏ အံ့မခန်းမျိုးပွားနိုင်စွမ်းကို ပထမဆုံးပြသသောအခါ၊ လက်တွေ့ 3D မျက်နှာများ၊ လူ့မျက်နှာများပါသည့် ယာယီတသမတ်တည်းရှိသော ဗီဒီယိုကို ဖန်တီးရန် GAN ၏ မိုင်းခွဲနိုင်သော အလားအလာအတွက် ရွှေအပြေးအလွှား ပေါ်ပေါက်လာခဲ့သည်။

GAN ၏ ငုပ်လျှိုးနေသောနေရာ တစ်နေရာ၌ ရှိနေပုံရသည်။ ရ လျှို့ဝှက်အစီအစဉ်နှင့် ကျိုးကြောင်းဆီလျော်မှု- အခြေတည်သော ယုတ္တိဗေဒဆိုင်ရာ ကုဒ်များထဲတွင် မြှုပ်နှံထားသော ကိန်းဂဏန်းတစ်ခု၊ GAN သည် တစ်သမတ်တည်း အမြင်များစွာနှင့် အမျိုးမျိုးသော အဓိပ္ပာယ်ဖွင့်ဆိုချက်များကို ဖန်တီးနိုင်စေမည့် GAN ကို ခွင့်ပြုပေးမည့်၊ တူညီတဲ့ မျက်နှာ - ပြီးနောက်တွင် မှုတ်ထုတ်မည့် ယာယီယုံကြည်စိတ်ချရသော နက်ရှိုင်းသောအတု ဗီဒီယိုနည်းလမ်းကို ကမ်းလှမ်းပါ။ အော်တိုကုဒ်များ ရေထဲက

GPU က DeepFaceLab နှင့် FaceSwap ကို လည်ပတ်ရန် ကန့်သတ်ချက်များ ကန့်သတ်ထားသည့် ဆင်းရဲသားရပ်ကွက်နှင့်တူသော နိမ့်သောပတ်ဝန်းကျင်များနှင့် နှိုင်းယှဉ်ပါက မြင့်မားသောအထွက်နှုန်းသည် အသေးအဖွဲဖြစ်မည်ဖြစ်ပြီး၊ မျက်နှာတစ်ခု၏ 'swap zone' (autoencoder workflows) သည် 'ဖန်တီးမှုဇုန်' ဖြစ်လာမည်ဖြစ်သည်။ လက်တစ်ဆုပ်စာ ပုံတစ်ပုံတစ်ပုံ သို့မဟုတ် ပုံတစ်ပုံတည်းဖြင့်ပင် အသိပေးသည့် GAN တစ်ခု။

အဘယ်ကြောင့်ဆိုသော် 'လဲလှယ်ခြင်း' နှင့် 'အိမ်ရှင်' မျက်နှာများကြားတွင် တူညီမှုမရှိနိုင်ပါ။ တစ်ခုလုံး ပုံ၏ဆံပင်၊ မေးရိုးများနှင့် မျက်နှာအစွန်းအထင်းများအပါအဝင် ခြစ်ရာများမှ ထုတ်ပေးမည်ဖြစ်ပြီး၊ 'သမားရိုးကျ' autoencoder deepfakes များအတွက် စိန်ခေါ်မှုတစ်ခုဖြစ်ကြောင်း မကြာခဏသက်သေပြနိုင်သည့်၊

GAN မျက်နှာဖုံးဗီဒီယို ဆောင်းရာသီ

ပွင့်လာတာနဲ့အမျှ ဒါဟာ လွယ်လွယ်လေးဖြစ်မှာ မဟုတ်ပါဘူး။ အဆုံးစွန်သော၊ စိတ်ဝမ်းကွဲခြင်း။ ဗဟိုပြဿနာကို သက်သေပြခဲ့ပြီး အဓိကစိန်ခေါ်မှုအဖြစ် ကျန်ရှိနေဆဲဖြစ်သည်။ ကွဲပြားသော မျက်နှာသွင်ပြင်လက္ခဏာကို သင်မည်ကဲ့သို့ ထိန်းသိမ်းနိုင်ပြီး ၎င်း၏ အသွင်အပြင် သို့မဟုတ် အသွင်အပြင်ကို အာရုံကြောကွန်ရက်တစ်ခုအား သင်ကြားပြသပေးသည့် ထောင်ပေါင်းများစွာသော အကိုးအကားပုံများကို စုစည်းထားခြင်းမရှိဘဲ ၎င်းပြောင်းလဲမှုများကို အတည်ပြုပြဋ္ဌာန်းလိုက်သည့်အခါ၊ အော်တိုကုဒ်ဒါစနစ်များ အလွန်ပြင်းထန်စွာ လုပ်ဆောင်သည့်နည်းလမ်း၊

ယင်းအစား၊ GAN မျက်နှာကျက်ခြင်းနှင့် ပေါင်းစပ်သုတေသနပြုခြင်းတွင် နောက်ဆက်တွဲတွေးခေါ်မှုမှာ ထည့်သွင်းဖော်ပြချက်တစ်ခုသည် တယ်လီဗေဒ၊ ယေဘူယျအားဖြင့် ဖြစ်ကောင်းဖြစ်နိုင်သည်၊ ပုံစံထုတ်ထားသည်။ အထောက်အထားသီးသန့်မဟုတ်သော အသွင်ပြောင်းမှုများ။ ဤဥပမာတစ်ခုသည် GAN မှသိသောထိုသူ၏ရုပ်ပုံများတွင်မပါဝင်သည့် GAN မျက်နှာတစ်ခုသို့အသုံးအနှုန်းတစ်ခုကိုအသုံးပြုရန်ဖြစ်သည်။

StyleGAN Latent Space ရှိ 2022 စက္ကူ Tensor-based စိတ်ခံစားမှုတည်းဖြတ်ခြင်းမှ၊ နမူနာပုံစံဖော်ပြချက်များကို FFHQ ဒေတာအတွဲမှ ထည့်သွင်းသည့်မျက်နှာသို့ သက်ရောက်သည်။ အရင်းအမြစ်- https://arxiv.org/pdf/2205.06102.pdf

'တစ်အရွယ်အစားလုံးနှင့် ကိုက်ညီသည်' ချဉ်းကပ်နည်းသည် လူတစ်ဦးချင်းစီအတွက် ထူးခြားသော မျက်နှာအမူအရာ ကွဲပြားမှုကို မဖုံးကွယ်နိုင်သည်မှာ ထင်ရှားပါသည်။ Jack Nicholson သို့မဟုတ် Willem Dafoe ကဲ့သို့ ထူးခြားသော အပြုံးတစ်ခုသည် ထိုကဲ့သို့သော 'ပျမ်းမျှပျမ်းမျှအသုံးအနှုန်း' ငုပ်လျှိုးနေသော ကုဒ်များ၏ လွှမ်းမိုးမှုအောက်တွင် သစ္စာရှိသော အဓိပ္ပာယ်ဖွင့်ဆိုချက်တစ်ခုကို ရရှိနိုင်မည်လားဟု ကျွန်ုပ်တို့ တွေးတောရမည်ဖြစ်သည်။

ဒီချစ်စရာကောင်းတဲ့ လက်တင်လူစိမ်းက ဘယ်သူလဲ။ GAN နည်းလမ်းသည် ပိုမိုလက်တွေ့ကျပြီး ပိုမိုကြည်လင်ပြတ်သားသည့်မျက်နှာကို ထုတ်လုပ်ပေးသော်လည်း၊ မင်းသား၏ လက်တွေ့ကမ္ဘာပုံရိပ်များစွာဖြင့် အသွင်ပြောင်းမှုကို မသိရပေ၊ ထောင်ပေါင်းများစွာသော ဒေတာဘေ့စ်တွင် မကြာခဏ ကုန်ကျစရိတ်များစွာဖြင့် လေ့ကျင့်ပေးသော DeepFaceLab ကဲ့သို့ပင်၊ ထိုကဲ့သို့သောပုံများ။ ဤတွင် (နောက်ခံ) DeepFaceLab မော်ဒယ်ကို ရေပန်းစားပြီး အငြင်းပွားဖွယ်ဆော့ဖ်ဝဲ၏ တိုက်ရိုက်ထုတ်လွှင့်မှုအကောင်အထည်ဖော်မှုဖြစ်သည့် DeepFaceLive သို့ တင်သွင်းထားသည်။ ဥပမာများသည် https://www.youtube.com/watch?v=9tr35y-yQRY (2022) နှင့် https://arxiv.org/pdf/2205.06102.pdf တို့မှဖြစ်သည်။

ဒီချစ်စရာကောင်းတဲ့ လက်တင်လူစိမ်းက ဘယ်သူလဲ။ GAN နည်းလမ်းသည် ပိုမို 'လက်တွေ့ကျသော' နှင့် ကြည်လင်ပြတ်သားမှု မြင့်မားသော မျက်နှာကို ထုတ်လုပ်ပေးသော်လည်း၊ အသွင်ပြောင်းမှုကို မင်းသား၏ လက်တွေ့ကမ္ဘာပုံရိပ်များစွာက အသိပေးခြင်း မဟုတ်ဘဲ၊ ထိုသို့သော ပုံထောင်ပေါင်းများစွာ၏ ဒေတာဘေ့စ်တွင် လေ့ကျင့်ပေးသည့် DeepFaceLab ကဲ့သို့ပင်၊ အကျိုးဆက်အားဖြင့် ဆင်တူယိုးမှားဖြစ်နိုင်သည်။ ဤနေရာတွင် (နောက်ခံ) DeepFaceLab မော်ဒယ်ကို ထည့်သွင်းထားသည်။ DeepFaceLiveလူကြိုက်များပြီး အငြင်းပွားဖွယ်ဆော့ဖ်ဝဲကို တိုက်ရိုက်ထုတ်လွှင့်ခြင်း အကောင်အထည်ဖော်မှုတစ်ခုဖြစ်သည်။ ဥပမာများသည် https://www.youtube.com/watch?v=9tr35y-yQRY (2022) နှင့် https://arxiv.org/pdf/2205.06102.pdf တို့မှဖြစ်သည်။

ပြီးခဲ့သည့်နှစ်အနည်းငယ်အတွင်း GAN မျက်နှာအမူအရာ တည်းဖြတ်သူ အများအပြားကို တင်ပြခဲ့ပြီး အများစုမှာ ၎င်းတို့ဖြစ်သည်။ အမည်မသိ အထောက်အထားများနှင့် ဆက်ဆံခြင်း။အသွင်ပြောင်းမှုများ၏ သစ္စာတရားသည် ပေါ့ပေါ့ပါးပါး စာဖတ်သူများ သိရန် မဖြစ်နိုင်သော၊ ၎င်းတို့သည် ရင်းနှီးသော မျက်နှာများ မဟုတ်သောကြောင့်၊

Cascade-EF-GAN ကို ကမ်းလှမ်းသော 2020 တွင် မထင်မရှားသော အထောက်အထားများ ပြောင်းလဲသွားသည်။ အရင်းအမြစ်- https://arxiv.org/pdf/2003.05905.pdf

လွန်ခဲ့သောသုံးနှစ်အတွင်း စိတ်ဝင်စားမှုအများဆုံး (ကိုးကားချက်များ) ရရှိခဲ့သော GAN မျက်နှာတည်းဖြတ်သူဖြစ်နိုင်သည်။ InterFaceGANပုံသဏ္ဍာန် (ကင်မရာ/မျက်နှာ)၊ အသွင်အပြင်၊ အသက်၊ လူမျိုး၊ ကျား၊ မနှင့် အခြားမရှိမဖြစ်လိုအပ်သော အရည်အသွေးများနှင့် သက်ဆိုင်သည့် ငုပ်လျှိုးနေသော အာကာသဖြတ်သန်းမှုများကို လုပ်ဆောင်နိုင်သည့် လျှို့ဝှက်ကုဒ်များ။

InterFaceGAN သရုပ်ပြ (CVPR 2020)

Watch this video on YouTube

InterFaceGAN ၏ 1980 ခုနှစ်ပုံစံ 'morphing' စွမ်းရည်များနှင့် အလားတူဘောင်များသည် ပုံတစ်ပုံကို ဆက်စပ်၍ ငုပ်လျှိုးနေသောကုဒ် (ဥပမာ 'အသက်' ကဲ့သို့) မှတဆင့် အသွင်ပြောင်းခြင်းဆီသို့ ဦးတည်သွားသောလမ်းကြောင်းကို အဓိကအားဖြင့် သရုပ်ဖော်သည့်နည်းလမ်းဖြစ်သည်။ ယာယီအဆက်ပြတ်မှုဖြင့် ဗီဒီယိုမှတ်တမ်းများ ထုတ်လုပ်ခြင်းနှင့်ပတ်သက်၍ ယနေ့အထိ ယင်းအစီအစဉ်များသည် 'အထင်ကြီးစရာကောင်းသောဘေးအန္တရာယ်များ' အဖြစ် အရည်အချင်းပြည့်မီပါသည်။

အဲဒါကို ထည့်လိုက်ရင် ဆံသားတဆက်တည်း ဖန်တီးရန် ခက်ခဲခြင်း။၊ ငုပ်လျှိုးနေသောကုဒ်ရှာဖွေခြင်း/ခြယ်လှယ်ခြင်း၏နည်းပညာတွင် တွဲဖက်လုပ်ဆောင်ရန် မွေးရာပါ ယာယီလမ်းညွှန်ချက်များ မပါရှိခြင်းကြောင့် (ထိုကဲ့သို့သော လမ်းညွှန်ချက်များကို လိုက်လျောညီထွေဖြစ်အောင် ဖန်တီးထုတ်လုပ်ရန် ဒီဇိုင်းရေးဆွဲထားသော မူဘောင်တစ်ခုထဲသို့ ထိုလမ်းညွှန်ချက်များကို မည်သို့ထည့်သွင်းရမည်ကို သိရန်ခက်ခဲသည်၊ ၎င်းတွင် မူလပြဋ္ဌာန်းချက်မရှိသော၊ ဗီဒီယိုထွက်ရှိမှုအတွက်) GAN သည် မျက်နှာဗီဒီယိုပေါင်းစပ်မှုအတွက် သင်လိုအပ်သမျှ™မဟုတ်ဟု ကောက်ချက်ချခြင်းသည် ယုတ္တိရှိပေမည်။

ထို့ကြောင့် နောက်ဆက်တွဲ ကြိုးပမ်းမှုများ ထွက်ပေါ်လာခဲ့သည်။ တိုးမြှင့်တိုးတက်မှုများ သဘောထားကွဲလွဲမှုများတွင်၊ အခြားသူများသည် 'လမ်းညွှန်အလွှာ' အဖြစ် ကွန်ပြူတာအမြင်ရှိ အခြားသောသဘောတူညီချက်များကို အခိုင်အမာလုပ်ဆောင်နေသော်လည်း၊ 2021 ခုနှစ်နှောင်းပိုင်းတွင် ထိန်းချုပ်မှုယန္တရားအဖြစ် semantic segmentation ကိုအသုံးပြုခြင်းကဲ့သို့သော၊ စက္ကူ SemanticStyleGAN- ထိန်းချုပ်နိုင်သော ရုပ်ပုံပေါင်းစပ်ခြင်းနှင့် တည်းဖြတ်ခြင်းအတွက် ပေါင်းစပ်ဖွဲ့စည်းမှုဆိုင်ရာ မျိုးဆက်သစ်များကို သင်ယူခြင်း.

SemanticStyleGAN တွင် ငုပ်လျှိုးနေသော အာကာသ ကိရိယာ၏ နည်းလမ်းတစ်ခုအဖြစ် အဓိပ္ပါယ်ခွဲဝေခြင်း အရင်းအမြစ်- https://semanticstylegan.github.io/

Parametric လမ်းညွှန်

GAN မျက်နှာပေါင်းစပ်မှုဆိုင်ရာ သုတေသနအသိုက်အဝန်းသည် GAN ၏ ငုပ်လျှိုးနေသောနေရာရှိ အထင်ကြီးလောက်ဖွယ်ကောင်းသော ငုပ်လျှိုးနေသော ကုဒ်များဆီသို့ လမ်းညွှန်ရန်နှင့် ယူဆောင်လာရန် နည်းလမ်းတစ်ခုအနေဖြင့် 'သမားရိုးကျ' parametric CGI မျက်နှာများကို အသုံးပြုခြင်းဆီသို့ ပိုမိုဦးတည်လာပါသည်။

parametric facial primitives များသည် computer vision research အတွက် အဓိက ပင်မဖြစ်သော်လည်း၊ အနှစ်နှစ်ဆယ်ကျော်Skinned Multi-Person Linear Model ကို တိုးမြှင့်အသုံးပြုခြင်းဖြင့် မကြာသေးမီက ဤချဉ်းကပ်မှုကို စိတ်ဝင်စားမှု တိုးပွားလာခဲ့သည်။SMPL) Max Planck Institute နှင့် ILM မှ ရှေ့ဆောင်လုပ်ဆောင်သည့် CGI primitives နှင့် Sparse Trained Articulated Human Body Regressor ဖြင့် တိုးတက်ကောင်းမွန်လာပြီးနောက် (STAR) မူဘောင်

SMPL (ဤကိစ္စတွင် SMPL-X ဟုခေါ်သော မူကွဲတစ်ခု) သည် ပုံတွင်ဖော်ပြထားသော လူ့ခန္ဓာကိုယ်တစ်ခုလုံး၏ ခန့်မှန်းပုံသဏ္ဍာန် (အသုံးအနှုန်းများအပါအဝင် လိုအပ်သလို) နှင့်အညီ CGI parametric mesh ကို ထည့်သွင်းနိုင်ပြီး လုပ်ဆောင်ချက်အသစ်များကို လုပ်ဆောင်နိုင်စေပါသည်။ ပုံသည် volumetric သို့မဟုတ် perceptual guideline အဖြစ် parametric mesh ကို အသုံးပြု၍ ပုံ။ အရင်းအမြစ်- https://arxiv.org/pdf/1904.05866.pdf

SMPL (ဤကိစ္စတွင် မူကွဲဟုခေါ်သည်။ SMPL-Xပုံတွင်ဖော်ပြထားသော လူ့ခန္ဓာကိုယ်တစ်ခုလုံး၏ ခန့်မှန်းပုံသဏ္ဍန် (အသုံးအနှုန်းများအပါအဝင် လိုအပ်သလို) နှင့်ကိုက်ညီသော CGI parametric mesh ကို ထည့်သွင်းနိုင်ပြီး၊ ပုံပေါ်တွင် လုပ်ဆောင်ချက်အသစ်များကို volumetric သို့မဟုတ် perceptual အဖြစ် အသုံးပြု၍ ပုံပေါ်တွင် လုပ်ဆောင်နိုင်သည် လမ်းညွှန်ချက် အရင်းအမြစ်- https://arxiv.org/pdf/1904.05866.pdf

ဤလိုင်းတွင် အထင်ရှားဆုံး တိုးတက်မှုမှာ Disney ၏ 2019 ဖြစ်သည်။ ပုံစံဖြင့်ပုံဖော်ခြင်း။ တိုးတက်ကောင်းမွန်သော 'deepfake-style' ကာတွန်းရုပ်ထွက်ကို ဖန်တီးရန် ကြိုးပမ်းမှုတွင် GAN မှထုတ်လုပ်ထားသော ပုံများနှင့် ရိုးရာအကြမ်းထည်-မြေပုံများအသုံးပြုမှုကို ပေါင်းစပ်ထားသည့် အစပျိုးမှု။

Old သည် GAN မှထုတ်လုပ်ထားသော deepfakes အတွက် Disney ၏ပေါင်းစပ်ချဉ်းကပ်မှုတွင်အသစ်တွေ့ဆုံသည်။ Source: https://www.youtube.com/watch?v=TwpLqTmvqVk

Disney ချဉ်းကပ်မှုသည် အစဉ်အလာအတိုင်း CGI အသွင်အပြင်များကို StyleGAN2 ကွန်ရက်တွင် 'ပြဿနာရှိသောနေရာများ' တွင် 'ပြဿနာရှိသောနေရာများ' တွင် 'ဆေးခြယ်ခြင်း' တွင် ရိုးရာဗီဒီယိုထုတ်လုပ်ခြင်းဆိုင်ရာ ပြဿနာဖြစ်သည့် အရေပြားဖွဲ့စည်းမှုကဲ့သို့သော နယ်ပယ်များဖြစ်သည့် 'ပြဿနာနယ်မြေများ' တွင် ထည့်သွင်းထားသည်။

ပုံစံဖြင့် ပုံဖော်ခြင်း လုပ်ဆောင်မှု။

ဤလုပ်ငန်းစဉ်ကို လမ်းညွှန်သည့် parametric CGI ဦးခေါင်းသည် အသုံးပြုသူနှင့် ကိုက်ညီစေရန် ပြင်ဆင်ပြောင်းလဲနိုင်ပြီး၊ GAN မှထုတ်လုပ်ထားသော မျက်နှာသည် ဦးခေါင်းပုံသဏ္ဍာန်နှင့် အမူအရာပြောင်းလဲမှုများအပါအဝင် အဆိုပါပြောင်းလဲမှုများကို ထင်ဟပ်စေပါသည်။

GAN မျက်နှာများ၏ သဘာဝအတိုင်း လက်တွေ့ဆန်မှုဖြင့် CGI ၏ စွမ်းဆောင်နိုင်ရည်ကို ပေါင်းစပ်ရန် ဒီဇိုင်းထုတ်ထားသော်လည်း၊ နောက်ဆုံးတွင်၊ ရလဒ်များသည် ကမ္ဘာနှစ်ခုစလုံး၏ အဆိုးရွားဆုံးဖြစ်ကြောင်း သက်သေပြခဲ့ပြီး ဆံပင်ပုံစံနှင့် အခြေခံအင်္ဂါရပ်တည်နေရာများကို တသမတ်တည်းထားရန် ပျက်ကွက်နေဆဲဖြစ်သည်-

နိယာမသည် အလားအလာအချို့ရှိနေဆဲဖြစ်သော်လည်း အသွင်အပြင်ဖြင့် ပုံဖော်ခြင်းမှ ထွက်လာသော ချိုင့်ဝှမ်းပုံစံအသစ်တစ်ခု ထွက်ပေါ်လာသည်။

အဆိုပါ 2020 စက္ကူ StyleRig- ပုံတူပုံများပေါ်တွင် 3D ထိန်းချုပ်မှုအတွက် အကြံအဖန်ပြုလုပ်ခြင်း StyleGAN အသုံးပြုမှုနှင့်အတူ ပိုမိုရေပန်းစားသော ချဉ်းကပ်မှုတစ်ရပ်ကို ရယူသည်။ သုံးဖက်မြင် morphable မျက်နှာပုံစံများ (3DMMs) သည် StyleGAN ပတ်၀န်းကျင်ရှိ ဝိသေသလက္ခဏာများ ပြောင်းလဲခြင်းအတွက် proxy အဖြစ်၊ ဤကိစ္စတွင် RigNet ဟုခေါ်သော ဆန်းသစ်သော အကြံအဖန်ကွန်ရက်တစ်ခုမှတဆင့်-

3DMM များသည် StyleRig တွင် ငုပ်လျှိုးနေသော အာကာသအနက်ပြန်ဆိုခြင်းအတွက် ပရောက်စီများအဖြစ် ရပ်တည်ပါသည်။ အရင်းအမြစ်- https://arxiv.org/pdf/2004.00121.pdf

သို့ရာတွင်၊ ဤအစပျိုးမှုများနှင့်အတူ ထုံးစံအတိုင်း၊ ယနေ့အထိ ရလဒ်များသည် အနည်းငယ်မျှသာ ဟန်ဆောင်ခြယ်လှယ်မှုများတွင် ကန့်သတ်ထားပုံရပြီး 'အသိမပေးသော' စကားအသုံးအနှုန်း/ပြောင်းလဲမှုများကို အကျိုးသက်ရောက်စေသည်။

StyleRig သည် ယာယီတသမတ်တည်းရှိသော ဆံပင်များသည် မဖြေရှင်းနိုင်သော စိန်ခေါ်မှုတစ်ခုအဖြစ် ရှိနေသော်လည်း ထိန်းချုပ်မှုအဆင့်ကို တိုးတက်စေသည်။ အရင်းအမြစ်- https://www.youtube.com/watch?v=eaW_P85wQ9k

အလားတူ ထွက်ရှိမှုကို Mitsubishi Research မှ တွေ့ရှိနိုင်သည်။ လူအများစု2021 စက္ကူ ၎င်းသည် disentanglement ဗိသုကာတစ်ခုအနေဖြင့်၊ လိုင်းမဟုတ်သော 3DMM များကိုအသုံးပြုသည်၊ သို့သော်၎င်းလည်းဖြစ်သည်။ ရုန်းကန်မှုများ သွက်လက်ပြီး တသမတ်တည်း ရွေ့လျားမှုကို ရရှိရန်။

နောက်ဆုံးပေါ် သုတေသနပြုချက်သည် တူရိယာစွမ်းရည်နှင့် ရုန်းရင်းဆန်ခတ်ဖြစ်မှုကို ကြိုးပမ်းရန်ဖြစ်သည်။ Megapixels တွင် တစ်ချက်ရိုက်ချက်ဖြင့် မျက်နှာပြန်လည်တုံ့ပြန်ခြင်း။StyleGAN အတွက် ဖော်ရွေသော အင်တာဖေ့စ်အဖြစ် 3DMM parametric ခေါင်းများကို ထပ်မံအသုံးပြုသည်။

One-Shot Face Reenactment ၏ MegaFR လုပ်ငန်းအသွားအလာတွင်၊ ကွန်ရက်သည် ပြန်ဆိုထားသည့် 3DMM မော်ဒယ်မှယူထားသော ဘောင်များနှင့်အတူ ပြောင်းပြန်လှန်ထားသော တကယ့်ကမ္ဘာပုံရိပ်ကို ပေါင်းစပ်ခြင်းဖြင့် မျက်နှာပေါင်းစပ်မှုကို လုပ်ဆောင်သည်။ အရင်းအမြစ်- https://arxiv.org/pdf/2205.13368.pdf

OSFR သည် Photoshop/After Effects စတိုင်လိုင်းရိုးတည်းဖြတ်ခြင်းလုပ်ငန်းအသွားအလာများကို ဖွံ့ဖြိုးတိုးတက်စေရန် ရှာဖွေသည့် GAN မျက်နှာတည်းဖြတ်သူ၏ ကြီးထွားလာသောအတန်းတွင် ရှိပြီး၊ အသုံးပြုသူသည် အသွင်ပြောင်းခြင်းကို အသုံးချနိုင်သည့် အလိုရှိသောပုံတစ်ခုကို ထည့်သွင်းနိုင်သည့်၊ အထောက်အထားတစ်ခု။

တဖန်၊ parametric expression များသည် ကြီးကြီးကျယ်ကျယ်နှင့် စိတ်ကြိုက်မဟုတ်သော စကားရပ်ကို ထိုးသွင်းသည့် နည်းလမ်းကို ကိုယ်စားပြုပြီး အမြဲတမ်း အပြုသဘောဆောင်သည့် နည်းလမ်းမဟုတ်သည့် ၎င်းတို့၏ ကိုယ်ပိုင်ပုံစံဖြင့် 'မိုက်မဲသော' ခြယ်လှယ်မှုများကို ဖြစ်ပေါ်စေသည်။

OSFR တွင် ထည့်သွင်းထားသော အသုံးအနှုန်းများ။

ယခင်အလုပ်ကဲ့သို့ပင်၊ OSFR သည် ပုံတစ်ပုံတည်းမှ မူရင်းအနီးရှိ ကိုယ်ဟန်များကို ကောက်ချက်ချနိုင်ပြီး၊ ဗဟိုမှပုံဆောင်ထားသောပုံတစ်ပုံကို mugshot အဖြစ်ပြန်ဆိုထားသည့် 'ရှေ့ပိုင်းဖြတ်ခြင်း' ကိုလည်း လုပ်ဆောင်နိုင်သည်-

စာတမ်းအသစ်တွင် အသေးစိတ်ဖော်ပြထားသော OSFR ၏အကောင်အထည်ဖော်မှုများထဲမှတစ်ခုမှ မူရင်း (အထက်) နှင့် mugshot ပုံများကို ကောက်ချက်ချထားသည်။

လက်တွေ့တွင်၊ ဤကောက်ချက်မျိုးသည် နောက်ခံပုံသဏ္ဍာန်ဆိုင်ရာ အခြေခံမူအချို့နှင့် ဆင်တူသည်။ Neural Radiance နယ်ပယ်များ (NeRF) မှလွဲ၍ ဤနေရာတွင် ဂျီသြမေတြီကို ဓာတ်ပုံတစ်ပုံတည်းဖြင့် သတ်မှတ်ရမည်ဖြစ်ပြီး NeRF သည် ပျောက်ဆုံးနေသော ကြားဖြတ်ပုံများကို အဓိပ္ပာယ်ဖွင့်ဆိုရန်နှင့် လူသားများပါဝင်သော စူးစမ်းနိုင်သော အာရုံကြော 3D မြင်ကွင်းများကို ဖန်တီးခွင့်ပြုသည့် 4-3 မြင်ကွင်းများထက်၊

(သို့သော်၊ NeRF သည် All You Need™ မဟုတ်ပါ။ လုံးဝခြားနားသော လမ်းပိတ်ဆို့မှုများ မျက်နှာဗီဒီယိုပေါင်းစပ်ထုတ်လုပ်ခြင်းဆိုင်ရာ သတ်မှတ်ချက်အရ GANs သို့)

GAN တွင် Facial Video Synthesis တွင် နေရာရှိပါသလား။

အရင်းအမြစ်ပုံတစ်ခုတည်းမှ ပုံတစ်ပုံတစ်ပုံမှ ရွေ့လျားနေသောအသုံးအနှုန်းများရရှိခြင်းနှင့် ဖြန့်ဝေမှုပြင်ပတွင် ဖြစ်ပေါ်လာခြင်းတို့သည် GAN မျက်နှာပေါင်းစပ်မှုဆိုင်ရာ သုတေသနတွင် ယခုအချိန်တွင် အဂ္ဂိရတ်နှင့်တူသော စွဲလမ်းမှုတစ်ခုဖြစ်ပုံရသည်၊ အဓိကအားဖြင့် GAN များသည် လက်ရှိအချိန်တွင် အတော်လေးမြင့်မားသော ရုပ်ထွက်နှင့်အတော်လေးမြင့်မားသော တစ်ခုတည်းသောနည်းလမ်းဖြစ်သောကြောင့်၊ သစ္စာရှိခြင်းအာရုံကြောမျက်နှာများ- autoencoder deepfake frameworks များသည် real-world poses and expressions အများအပြားကို လေ့ကျင့်ပေးနိုင်သော်လည်း၊ ၎င်းတို့သည် VRAM-restricted input/output resolutions များတွင် လုပ်ဆောင်ရမည်ဖြစ်ပြီး 'host' တစ်ခုလိုအပ်ပါသည်။ NeRF သည် အလားတူ ကန့်သတ်ထားသော်လည်း - အခြားသော ချဉ်းကပ်နည်းနှစ်ခုနှင့် မတူဘဲ - လက်ရှိတွင် မျက်နှာအမူအရာ ပြောင်းလဲခြင်းအတွက် ချမှတ်ထားသော နည်းလမ်းများ မရှိသေးဘဲ ယေဘုယျအားဖြင့် အကန့်အသတ်ဖြင့် တည်းဖြတ်နိုင်မှုအား ကြုံတွေ့နေရသည်။

တိကျသော CGI/GAN မျက်နှာပေါင်းစပ်မှုစနစ်အတွက် ရှေ့သို့ တစ်ခုတည်းသော နည်းလမ်းမှာ လူတစ်ဦး၏ အထောက်အထားအတွက် ငုပ်လျှိုးနေစရာ မလိုသော လျှို့ဝှက်ကုဒ်တစ်ခု မလိုအပ်သည့် ဓာတ်ပုံအစုံလိုက် အထောက်အထားများစွာကို လျှို့ဝှက်နေရာအတွင်း၌ အစုံလိုက်ရှာဖွေရန် အစပျိုးမှုအသစ်အတွက် နည်းလမ်းအသစ်တစ်ခုကို ရှာဖွေရန်ဖြစ်သည် မသက်ဆိုင်သော pose parameters များကို အသုံးချရန် ငုပ်လျှိုးနေသော အာကာသကို ဖြတ်ကျော်ကာ၊ သို့သော် အသွင်ပြောင်းခြင်းအတွက် ရည်ညွှန်းချက်များအဖြစ် ၎င်း၏ ဆက်စပ်နေသော (အစစ်အမှန်ကမ္ဘာ) ပုံများကို ရည်ညွှန်းနိုင်သည်။

ထိုသို့သောအခြေအနေမျိုးတွင်ပင်၊ သို့မဟုတ် StyleGAN ကွန်ရက်တစ်ခုလုံးကို single-identity face-set (autoencoders များအသုံးပြုသည့်လေ့ကျင့်ရေးအစုံနှင့်ဆင်တူသည်) တွင်ပင်၊ ကင်းမဲ့သော semantic logic ကဲ့သို့သော နောက်ဆက်တွဲနည်းပညာများဖြစ်သည့် ဆက်စပ်နည်းပညာများဖြင့် ပံ့ပိုးပေးရန် လိုအပ်နေသေးသည်။ ထိုသို့သောအခြေအနေမျိုးတွင်၊ အနည်းဆုံးအားဖြင့် လုပ်ဆောင်ရန် နောက်ထပ်အကြောင်းအရာများ ရှိစေမည့် အဓိပ္ပါယ်ရှိသော အပိုင်းခွဲခြင်း သို့မဟုတ် parametric 3DMM မျက်နှာများ။

Next ကို up ကို

LXT ၏ “အရည်အသွေးမြင့် AI လေ့ကျင့်ရေးဒေတာ” အစီရင်ခံစာ ROI မှ အဓိက တွေ့ရှိချက်များ

သတိရနေတယ်မနေပါနဲ့

AI နည်းပညာအသစ်သည် တောမီးခန့်မှန်းချက်များကို ပိုမိုကောင်းမွန်စေနိုင်သည်။

မာတင်အန်ဒါဆင်

စက်သင်ယူမှု၊ ဉာဏ်ရည်တုနှင့် ဒေတာကြီးကြီးမားမားဆိုင်ရာ စာရေးဆရာ။
ကိုယ်ပိုင်ဆိုက်- Martinanderson.ai
ဆက်သွယ်ရန်: [အီးမေးလ်ကိုကာကွယ်ထားသည်]
Twitter: @manders_ai