ဉာဏ်ရည်တု

GAN ၏ ငုပ်လျှိုးနေသောနေရာကို 'Blobs' ဖြင့် တည်းဖြတ်ခြင်း

နောက်ဆုံးရေးသားချိန် on ဒီဇင်ဘာလတွင် 9, 2022

UC Berkeley နှင့် Adobe တို့မှ သုတေသနအသစ်သည် Generative Adversarial Network (GAN) မှ ဖန်တီးနိုင်သည့် hyperreal အကြောင်းအရာကို တိုက်ရိုက်တည်းဖြတ်ရန် နည်းလမ်းတစ်ခု ပေးစွမ်းနိုင်သော်လည်း အများအားဖြင့် Photoshop နှင့် ကာလကြာရှည်စွာ အကျွမ်းတဝင်မရှိသော ထိန်းချုပ်မှု၊ ကာတွန်း သို့မဟုတ် လွတ်လွတ်လပ်လပ် ခြယ်လှယ်၍မရသော နည်းလမ်းတစ်ခုဖြစ်သည်။ အသုံးပြုသူများနှင့် CGI ကျွမ်းကျင်သူများ။

ခေါင်းစဉ် BlobGANနည်းလမ်းသည် 'blobs' ၏ဇယားကွက်ဖန်တီးခြင်းပါ၀င်သည် - GAN ၏ ငုပ်လျှိုးနေသောနေရာအတွင်းမှ အကြောင်းအရာနှင့် တိုက်ရိုက်မြေပုံပြုသော သင်္ချာတည်ဆောက်ပုံများ။

blobs များကိုရွှေ့ခြင်းဖြင့်၊ သင်သည် GAN ၏ငုပ်လျှိုးနေသောနေရာကို မြေပုံနှင့်ထိန်းချုပ်ရန် လက်ရှိကြိုးစားမှုများစွာထက် CGI နှင့် CAD နည်းလမ်းများနှင့် ပိုမိုနီးစပ်သည့် အလိုလိုသိမြင်နိုင်သောပုံစံဖြင့် 'အရာဝတ္ထုများ' ကို မြင်ကွင်းတစ်ခုအဖြစ် ရွှေ့နိုင်သည်-

BlobGAN ဖြင့် မြင်ကွင်းကို ခြယ်လှယ်ခြင်း- အသုံးပြုသူမှ 'blobs' များကို ရွှေ့ထားသောကြောင့် GAN အတွင်းရှိ ငုပ်လျှိုးနေသော အရာများနှင့် ပုံစံများကို လိုက်လျောညီထွေ ပြောင်းလဲသွားပါသည်။ နောက်ထပ်ဥပမာများအတွက်၊ ဤဆောင်းပါး၏အဆုံးတွင် ထည့်သွင်းထားသော စာရွက်၏ ပူးတွဲပါဗီဒီယိုကိုကြည့်ပါ သို့မဟုတ် https://www.youtube.com/watch?v=KpUv82VsU5k တွင် ကြည့်ရှုပါ။

blobs များသည် GAN တွင်ဖော်ပြထားသော မြင်ကွင်းရှိ 'အရာဝတ္ထုများ' နှင့် ကိုက်ညီသောကြောင့်ဖြစ်သည်။ ငုပ်လျှိုးနေသောနေရာ၊ အရာဝတ္ထုအားလုံးကို ခွဲထားသည်။ တစ်ဦး၎င်းတို့ကို တစ်ဦးချင်း ပြောင်းလဲရန် ဖြစ်နိုင်စေသည်-

အရာဝတ္ထုများကို အခြားလုပ်ဆောင်ချက်များကြားတွင် အရွယ်အစားပြောင်းလဲခြင်း၊ လျှော့ချခြင်း၊ ပုံတူပွားခြင်းနှင့် ဖယ်ရှားခြင်းတို့ ပြုလုပ်နိုင်သည်။

ဓာတ်ပုံတည်းဖြတ်ခြင်း (သို့မဟုတ် စာသားတည်းဖြတ်ခြင်း) ဆော့ဖ်ဝဲလ်ရှိ မည်သည့်အရာဝတ္တုကဲ့သို့ပင်၊ blob တစ်ခုကို ထပ်ပွားပြီး နောက်ပိုင်းတွင် ခြယ်လှယ်နိုင်သည်-

Blobs များကို အင်တာဖေ့စ်တွင် ထပ်တူပွားနိုင်ပြီး ၎င်းတို့၏ သက်ဆိုင်ရာ ငုပ်လျှိုးနေသော ကိုယ်စားပြုမှုများကိုလည်း 'ကူးယူပြီး ကူးထည့်မည်' ဖြစ်သည်။ အရင်းအမြစ်- https://dave.ml/blobgan/#results

Blobs များကို အင်တာဖေ့စ်တွင် ထပ်ပွားနိုင်ပြီး ၎င်းတို့၏ သက်ဆိုင်ရာ ငုပ်လျှိုးနေသော ကိုယ်စားပြုမှုများကိုလည်း 'ကူးယူပြီး ကူးထည့်သည်' မည်ဖြစ်သည်။ အရင်းအမြစ်- https://dave.ml/blobgan/#results

BlobGAN သည် ဝတ္ထုတို၊ အသုံးပြုသူရွေးချယ်ထားသော ပုံများကို ၎င်း၏ ငုပ်လျှိုးနေသောနေရာအဖြစ် ခွဲခြမ်းစိပ်ဖြာနိုင်သည်-

BlobGAN ဖြင့်၊ သင်သည် လေ့ကျင့်ရေးဒေတာတွင် တိုက်ရိုက်ခြယ်လှယ်လိုသော ပုံများကို ပေါင်းစည်းပြီးနောက် ၎င်းတို့၏ ငုပ်လျှိုးနေသောကုဒ်များကို ရှာဖွေရန် မလိုအပ်ဘဲ ပုံများကို ရွေးချယ်ပြီး ၎င်းတို့ကို စိတ်ကြိုက်ထည့်သွင်းနိုင်သည်။ ဤနေရာတွင် ပြောင်းလဲနေသော ဓာတ်ပုံများသည် post-facto အသုံးပြုသူ ထည့်သွင်းမှုဖြစ်သည်။ အရင်းအမြစ်- https://dave.ml/blobgan/#results

ရလဒ်များကို ပိုမြင်နိုင်သည်။ ဒီမှာနှင့်ပါလာသော ယူကျု့ဗီဒီယို (ဤဆောင်းပါး၏အဆုံးတွင်ထည့်သွင်းထားသည်။) အပြန်အလှန်အကျိုးပြုသော Colab လည်းရှိသည်။ သရုပ်ပြ* နှင့် GitHub တစ်ခု repo**

ဤတူရိယာနှင့် နယ်ပယ်မျိုးသည် Photoshop ခေတ်လွန်ခေတ်တွင် အဆင်အခြင်မဲ့ပုံပေါ်နိုင်ပြီး Cinema4D နှင့် Blender ကဲ့သို့သော parametric ဆော့ဖ်ဝဲလ်ပက်ကေ့ခ်ျများသည် သုံးစွဲသူများအား 3D ကမ္ဘာများကို ဖန်တီးရန်နှင့် စိတ်ကြိုက်ပြင်ဆင်ရန် ဆယ်စုနှစ်များစွာ ခွင့်ပြုထားသည်။ သို့သော်၊ ၎င်းသည် Generative Adversarial Network တွင် ငုပ်လျှိုးနေသောနေရာများ၏ ဆန်းကြယ်သောသဘာဝကို ထိန်းကျောင်းရန် အလားအလာရှိသောချဉ်းကပ်မှုတစ်ရပ်ကို ကိုယ်စားပြုသည်၊၊ ငုပ်လျှိုးနေသော proxy entities များကို အသုံးပြုခြင်းအားဖြင့်၊

စာရေးသူက အခိုင်အမာ

'မိုးလုံလေလုံပြကွက်များ၏ စိန်ခေါ်မှုများစွာသော အမျိုးအစားအစုံလိုက်ဒေတာအတွဲတွင်၊ BlobGAN သည် FID မှတိုင်းတာသည့် ပုံအရည်အသွေးတွင် Style-GAN2 ကို ပိုမိုကောင်းမွန်စေပါသည်။'

အဆိုပါ စက္ကူ ခေါင်းစဉ်ဖြစ်ပါတယ် BlobGAN- နေရာဒေသအလိုက် ကွဲလွဲနေသော မြင်ကွင်း ကိုယ်စားပြုမှုများAdobe Research မှ သုံးဦးနှင့် UC Berkeley မှ သုတေသီ နှစ်ဦးက ရေးသားထားသည်။

လူလတ်

BlobGAN သည် GAN ရုပ်ပုံပေါင်းစပ်မှုတွင် ပါရာဒိုင်းအသစ်ကို ယူဆောင်လာသည်။ ငုပ်လျှိုးနေသောနေရာရှိ သီးခြားအရာများကို ကိုင်တွယ်ဖြေရှင်းရန် ချဉ်းကပ်မှုများမတိုင်မီတွင် စာတမ်းအသစ်က 'အပေါ်မှအောက်သို့' သို့မဟုတ် 'အောက်ခြေအပေါ်' ဟူ၍ဖြစ်သည်။

GAN သို့မဟုတ် ရုပ်ပုံအမျိုးအစားခွဲခြားမှုရှိ အပေါ်မှအောက်မှနည်းလမ်းသည် 'အိပ်ခန်း'၊ 'ဘုရားကျောင်း'၊ 'မျက်နှာ' စသည်ဖြင့် မြင်ကွင်းများကို အတန်းများအဖြစ် ဆက်ဆံသည်။ ဤစာသား/ရုပ်ပုံတွဲချိတ်ခြင်းမျိုးသည် ဘက်စုံသုံးပုံပေါင်းစပ်မှုဘောင်များ၏ မျိုးဆက်သစ်ကို စွမ်းအားပေးသည်။ OpenAI မှ မကြာသေးမီက DALL-E 2 ကဲ့သို့သော၊

အောက်ခြေမှချဉ်းကပ်ပုံများသည် ပုံတစ်ပုံရှိ pixel တစ်ခုစီကို အတန်း၊ အညွှန်း သို့မဟုတ် အမျိုးအစားအဖြစ် ပုံဖော်ပါ။ ထိုသို့သောချဉ်းကပ်နည်းများသည် ကွဲပြားသောနည်းစနစ်များကို အသုံးပြုသော်လည်း semantic segmentation သည် တစ်ခုဖြစ်သည်။ ရေပန်းစားသော လက်ရှိ သုတေသန ကြိုးတန်း.

စာရေးသူမှတ်ချက်။

'လမ်းကြောင်းနှစ်ခုလုံးက မြင်ကွင်းရဲ့အစိတ်အပိုင်းတွေအကြောင်း အလွယ်တကူ ကျိုးကြောင်းဆင်ခြင်နိုင်တဲ့ နည်းလမ်းတွေ မပြနိုင်လို့ လမ်းကြောင်းနှစ်ခုလုံးက အဆင်မပြေဘူးလို့ ထင်ရပါတယ်။ အခင်းအကျင်း အစိတ်အပိုင်းများကို ရောထွေးနေသော ငုပ်လျှိုးနေသော ကွက်လပ်တစ်ခု (အပေါ်မှ အောက်သို့) ဖြင့် ဖုတ်ထားသည် သို့မဟုတ် တစ်ဦးချင်း ပစ်ဇယ် အညွှန်းများ (အောက်ခြေ-အပေါ်) မှ အတူတကွ အုပ်စုဖွဲ့ရန် လိုအပ်သည်။'

ယင်းအစား၊ BlobGAN က ပေးဆောင်သည်။ ကြီးကြပ်မထားသော အလယ်အလတ်အဆင့် ကိုယ်စားပြုမှုသို့မဟုတ် မျိုးဆက်သစ်မော်ဒယ်များအတွက် ပရောက်စီဘောင်။

အပြင်အဆင်ကွန်ရက်သည် ဒေသန္တရ (ထိန်းချုပ်နိုင်သော) 'blob' အရာများကို ငုပ်လျှိုးနေသောကုဒ်များသို့ မြေပုံညွှန်းပေးသည်။ အလယ်ရှိ ရောင်စုံစက်ဝိုင်းများတွင် 'blob map' ပါဝင်သည်။ အရင်းအမြစ်- https://arxiv.org/pdf/2205.02837.pdf

Gaussian (ဆိုလိုသည်မှာ ဆူညံသံအခြေခံ) blobs များသည် နက်ရှိုင်းစွာ စီစဥ်ထားပြီး၊ အဖွဲ့အစည်းတစ်ခုစီအတွက် မြေပုံဆွဲခြင်းကို သတ်မှတ်ပေးသည့် ဗိသုကာတွင် ပိတ်ဆို့မှုကို ကိုယ်စားပြုပြီး GAN အကြောင်းအရာကို ခြယ်လှယ်ခြင်းအတွက် အကြီးမားဆုံးအခက်အခဲကို ဖြေရှင်းနိုင်သည်- disentanglement (လည်း ပြနာတစ်ခု autoencoder-based ဗိသုကာများအတွက်)။ ရလဒ် 'blob map' ကို BlobGAN ၏ ဒီကုဒ်ဒါကို ကိုင်တွယ်ရန် အသုံးပြုသည်။

စနစ်သည် ဇာတ်ကွက်များကို အပြင်အဆင်များနှင့် အစိတ်အပိုင်းများအဖြစ်သို့ ပြိုကွဲစေရန် သင်ယူတတ်ကြောင်း စာရေးဆရာများသည် တိကျပြတ်သားသော အညွှန်းများကို အသုံးမပြုသော စင်ပြင်ပရှိ ခွဲခြားဆက်ဆံမှုဖြင့် သတိပြုမိကြသည်။

ဗိသုကာနှင့်ဒေတာ

blob မြေပုံရှိ အရာများကို ပြန်လည်ပြင်ဆင်ထားသော StyleGAN2 မှတစ်ဆင့် ပုံများအဖြစ်သို့ ပြောင်းလဲပါသည်။ Network ကိုယခင် NVIDIA သုတေသနမှ လှုံ့ဆော်မှုယူသော ချဉ်းကပ်မှုတစ်ခု။

NVIDIA Research မှ ပြန်လည်ပြင်ဆင်ထားသော StyleGAN 2 ဆင်းသက်လာသည်။ ဤလုပ်ငန်းရှိ အခြေခံမူအချို့ကို BlobGAN အတွက် လက်ခံကျင့်သုံးခြင်း သို့မဟုတ် လိုက်လျောညီထွေဖြစ်စေခဲ့သည်။ အရင်းအမြစ်- https://arxiv.org/pdf/1912.04958.pdf

StyleGAN 2 ကို အများအားဖြင့် တူညီသည့်အတိုင်း ကမ္ဘာလုံးဆိုင်ရာ vector တစ်ခုတည်းအစား blob map မှ ထည့်သွင်းမှုကို လက်ခံရန် BlobGAN တွင် ပြင်ဆင်ထားပါသည်။

အိပ်ခန်းမြင်ကွင်းတစ်ခု၏ 'အလိုအလျောက်ဖြည့်သွင်းခြင်း' နှင့် အခန်းအတွင်းရှိ အစိတ်အပိုင်းများ၏ အရွယ်အစားနှင့် နေရာပြောင်းရွှေ့ခြင်းများအပါအဝင် BlobGAN မှ ဖြစ်နိုင်ချေရှိသော စီမံဖန်တီးမှု စီးရီးများ။ အောက်ဖော်ပြပါအတန်းတွင်၊ ၎င်းကိုဖွင့်ပေးနိုင်သည့် အသုံးပြုသူဝင်ရောက်နိုင်သော ကိရိယာကို ကျွန်ုပ်တို့တွေ့မြင်ရသည် - blob map။

BlobGAN မှ ဖြစ်နိုင်ချေရှိသော အတွဲလိုက် စီမံဖန်တီးထားသော အိပ်ခန်းအလွတ်တစ်ခု၏ 'အလိုအလျောက် ဖြည့်သွင်းခြင်း' နှင့် အခန်းအတွင်းရှိ အစိတ်အပိုင်းများကို အရွယ်အစားနှင့် နေရာပြောင်းခြင်း အပါအဝင်။ အောက်ဖော်ပြပါအတန်းတွင်၊ ၎င်းကိုဖွင့်ပေးနိုင်သည့် အသုံးပြုသူဝင်ရောက်နိုင်သော ကိရိယာကို ကျွန်ုပ်တို့တွေ့မြင်ရသည် - blob map။

ဥပမာအားဖြင့်၊ ကျယ်ပြောလှပြီး ရှုပ်ထွေးသော အဆောက်အဦ (ငုပ်လျှိုးနေသောနေရာ) ကို တစ်ချိန်တည်းတွင် တည်ရှိစေမည့်အစား၊ ထို့နောက် ၎င်း၏ အဆုံးမဲ့သောလမ်းများကို စူးစမ်းလေ့လာရန် အစား BlobGAN သည် အစတွင် အစိတ်အပိုင်းတုံးများကို ပေးပို့ပြီး ၎င်းတို့သည် မည်သည့်နေရာတွင် ရှိနေသည်ကို အမြဲသိသည်။ ဤအကြောင်းအရာနှင့် တည်နေရာကို ကွဲလွဲနေခြင်းသည် အလုပ်၏ အဓိက ဆန်းသစ်တီထွင်မှုဖြစ်သည်။

BlobGAN- နေရာဒေသအလိုက် ကွဲလွဲနေသော မြင်ကွင်း ကိုယ်စားပြုမှုများ

BlobGAN: Spatially Disentangled Scene Representations

Watch this video on YouTube

* စာရေးချိန်တွင် အလုပ်မဖြစ်ပါ။
** ကုဒ်ရေးသည့်အချိန်တွင် မထုတ်ဝေရသေးပါ။

8 ခုနှစ် မေလ 2022 ရက်နေ့တွင် ပထမဆုံးထုတ်ဝေခဲ့သည်။

Next ကို up ကို

Machine Learning ဖြင့် ဗီဒီယိုများတွင် မျက်နှာများကို ပြန်လည်ပြင်ဆင်ခြင်း။

သတိရနေတယ်မနေပါနဲ့

သုတေသီများသည် AI “Nanomagnetic” Computing ကို သရုပ်ပြသည်။

မာတင်အန်ဒါဆင်

စက်သင်ယူမှု၊ ဉာဏ်ရည်တုနှင့် ဒေတာကြီးကြီးမားမားဆိုင်ရာ စာရေးဆရာ။
ကိုယ်ပိုင်ဆိုက်- Martinanderson.ai
ဆက်သွယ်ရန်: [အီးမေးလ်ကိုကာကွယ်ထားသည်]
Twitter: @manders_ai