ဉာဏ်ရည်တု
GAN ၏ ငုပ်လျှိုးနေသော အာကာသကို ပုံဖော်ခြင်း၏ မရည်ရွယ်သော အကျိုးကျေးဇူး
AI မှ ဖန်တီးထားသော ပုံများ၏ အရည်အသွေးနှင့် သစ္စာရှိမှုကို မြှင့်တင်ရန် ကြိုးစားနေစဉ်တွင်၊ တရုတ်နှင့် သြစတြေးလျမှ သုတေသီအဖွဲ့တစ်ဖွဲ့သည် ငုပ်လျှိုးနေသော အာကာသကို အပြန်အလှန် ထိန်းချုပ်ရန် နည်းလမ်းတစ်ခုကို အမှတ်မထင် ရှာဖွေတွေ့ရှိခဲ့သည်။ မျိုးရိုးဗီဇဆန့်ကျင်ကွန်ယက် (GAN) - ရုပ်ရှင်များ၊ ဂိမ်းကစားခြင်းနှင့် ဆိုရှယ်မီဒီယာများနှင့် ဖျော်ဖြေရေးနှင့် သုတေသနလုပ်ငန်းများတွင် အခြားသောကဏ္ဍများစွာကို တော်လှန်ပြောင်းလဲပစ်မည့် ရုပ်ပုံပေါင်းစပ်မှုနည်းပညာလှိုင်းသစ်၏ နောက်ကွယ်မှ လျှို့ဝှက်ဆန်းကြယ်သော တွက်ချက်မှုမက်ထရစ်။
ပရောဂျက်၏ ဗဟိုရည်မှန်းချက်၏ ရလဒ်တစ်ခုဖြစ်သည့် ၎င်းတို့၏ရှာဖွေတွေ့ရှိမှုသည် အသုံးပြုသူတစ်ဦးအား ဗီဒီယိုဖြင့် ပွတ်တိုက်ခြင်း သို့မဟုတ် စာအုပ်တစ်အုပ်ကို ရွက်လွှင့်ခြင်းကဲ့သို့ GAN ၏ ငုပ်လျှိုးနေသောနေရာကို မောက်စ်ဖြင့် မထင်သလိုနှင့် အပြန်အလှန် စူးစမ်းလေ့လာနိုင်စေပါသည်။
GAN သည် တူညီသောဒေတာအတွဲကို အကြိမ်ပေါင်း ထောင်ပေါင်းများစွာ (သို့မဟုတ် ရာနှင့်ချီ၍) လည်ပတ်နေသောကြောင့် ပုံတစ်ပုံ၏ မည်သည့်နေရာများကို မြှင့်တင်သင့်သည်ကို ညွှန်ပြရန် နည်းလမ်းသည် 'အပူမြေပုံများ' ကို အသုံးပြုသည်။ အပူမြေပုံများသည် GAN ကို ဘယ်နေရာမှာ မှားသွားသည်ကို ပြောပြခြင်းဖြင့် ရုပ်ပုံအရည်အသွေးကို မြှင့်တင်ရန် ရည်ရွယ်သည်၊ သို့မှသာ ၎င်း၏ နောက်ထပ်ကြိုးစားမှု ပိုကောင်းလာမည်ဖြစ်သည်။ သို့သော် တိုက်ဆိုင်စွာပင်၊ ၎င်းသည် မောက်စ်ရွှေ့ခြင်းဖြင့် ရှာဖွေနိုင်သော ငုပ်လျှိုးနေသောနေရာတစ်ခုလုံး၏ 'မြေပုံ' ကိုလည်း ပေးဆောင်ပေးပါသည်။
အဆိုပါ စက္ကူ ဟုခေါ်သည် Spatial Awareness မြှင့်တင်ခြင်းဖြင့် GAN Equilibrium ကို တိုးတက်စေခြင်း၊ ဟောင်ကောင်ရှိ Chinese University of Hong Kong နှင့် Australian National University တို့မှ သုတေသီများထံမှ လာပါသည်။ စာရွက်အပြင် ဗီဒီယိုနှင့် အခြားပစ္စည်းများကို ပရောဂျက်စာမျက်နှာတွင် တွေ့နိုင်သည်။
၎င်းသည် အခြေတည်ထားပြီး လက်ရှိတွင် ကြည်လင်ပြတ်သားမှုနည်းသော ရုပ်ပုံများ (256×256) တွင်သာ ကန့်သတ်ထားသော်လည်း ငုပ်လျှိုးနေသောနေရာ၏ 'အနက်ရောင်သေတ္တာ' ကို ဖွင့်ဖောက်မည်ဟု ကတိပြုထားသည့် အထောက်အထားတစ်ခုဖြစ်ပြီး သုတေသနပရောဂျက်များစွာကို နှောင့်ယှက်နေသည့်အချိန်တွင် ထွက်ပေါ်လာပါသည်။ ရုပ်ပုံပေါင်းစပ်မှုကို ပိုမိုထိန်းချုပ်ရန် ထိုတံခါးတွင်။
ထိုသို့သောပုံများသည် ဆွဲဆောင်မှုရှိသော်လည်း (ဤဆောင်းပါး၏အဆုံးတွင် ထည့်သွင်းထားသော ဗီဒီယိုတွင် ၎င်းတို့ကို ပိုမိုကြည်လင်ပြတ်သားစွာ မြင်တွေ့နိုင်သည်) ပိုသိသာထင်ရှားသည်မှာ ပရောဂျက်သည် ပိုမိုကောင်းမွန်သော ရုပ်ပုံအရည်အသွေးကို ဖန်တီးရန် နည်းလမ်းရှာတွေ့ထားပြီး ဖြစ်နိုင်ချေရှိသည်၊ လေ့ကျင့်ချိန်အတွင်း မှားယွင်းနေသည့်နေရာကို GAN ကို တိတိကျကျ ပြောပြခြင်းဖြင့် ၎င်းကို ပိုမိုမြန်ဆန်စေရန်။
ဒါပေမယ့်အဖြစ် ဆန့်ကျင်ဘက် GAN သည် တစ်ခုတည်းသော အဖွဲ့အစည်းမဟုတ်သော်လည်း အာဏာပိုင်နှင့် ငတ်မွတ်မှုကြား မညီမျှသော ပဋိပက္ခဖြစ်ခြင်းကို ညွှန်ပြသည်။ ဤကိစ္စနှင့်စပ်လျဉ်း၍ သုတေသီများ မည်သို့တိုးတက်ကောင်းမွန်လာကြောင်းကို နားလည်ရန်၊ ဤစစ်ပွဲသည် ယခုအချိန်အထိ မည်သို့လက္ခဏာရပ်ကို လေ့လာကြည့်ကြပါစို့။
Generator ၏သနားစရာကောင်းသောအခက်အခဲ
သင်ဝယ်ခဲ့သော အဝတ်အစားအသစ်အချို့ကို အမြတ်ထုတ်သည့်နိုင်ငံရှိ ဆွယ်တာဆိုင်တွင် ထုတ်လုပ်ခဲ့သည်၊ သို့မဟုတ် 'နောက်တစ်ကြိမ်လုပ်ပါ' ဟု သူဌေး သို့မဟုတ် ဖောက်သည်တစ်ဦးရှိနေသည်ဟု သင်ထင်မြင်မိပါက သင်အခြောက်ခံရဖူးပါသလား။ မင်းရဲ့နောက်ဆုံးကြိုးစားမှုမှာ ဘာအမှားအယွင်းရှိလဲ မင်းကို ဘယ်တော့မှ မပြောဘဲ၊ မင်းရဲ့ သနားစရာ တစ်နည်းနည်းနဲ့ နှမြောလိုက်ပါ။ ဂျင်နရေတာစက် Generative Adversarial Network ၏ တစ်စိတ်တစ်ပိုင်း။
Generator သည် GAN များကိုဖန်တီးရာတွင်ကူညီခြင်းဖြင့်လွန်ခဲ့သောငါးနှစ်သို့မဟုတ်ထို့ထက်နှစ်များကသင့်အားနှစ်ခြိုက်စွာနှစ်သက်အားပေးခဲ့သောအလုပ်သမား ဓာတ်ပုံအစစ်အမှန်မရှိတဲ့လူတွေအဆင့်မြင့် ဗီဒီယိုဂိမ်းဟောင်းများ 4k ရုပ်ထွက်အထိ၊ ရာစုနှစ် ဟောင်းလေတော့ လှည့်ပါ။ 60fps ဖြင့် full-colour HD output သို့အခြားအံ့ဖွယ် AI အသစ်အဆန်းများကြားတွင်၊
Generator သည် လေ့ကျင့်ရေးဒေတာအားလုံးကို အထပ်ထပ်အခါခါ လုပ်ဆောင်သည် (ဥပမာ- မျက်နှာပုံများ၊ ကျပန်း၊ မရှိသောလူများ၏ ဓာတ်ပုံများကို ဖန်တီးနိုင်သည့် GAN တစ်ခုပြုလုပ်ရန်အတွက်)၊ တစ်ကြိမ်လျှင် ဓာတ်ပုံတစ်ပုံ၊ ရက်ပေါင်းများစွာ သို့မဟုတ် ရက်သတ္တပတ်များအထိ၊ လေ့လာခဲ့သည့် ဓာတ်ပုံအစစ်များကဲ့သို့ ယုံကြည်လောက်သော ပုံများကို ဖန်တီးနိုင်သည်အထိ။
ဒီတော့ Generator က သူ့ရဲ့ယခင်ကြိုးစားမှုထက် ပိုကောင်းတဲ့ပုံတစ်ပုံကို ဖန်တီးဖို့ ကြိုးစားတိုင်း တိုးတက်မှုတစ်ခုခု လုပ်နေတယ်ဆိုတာ ဘယ်လိုသိလဲ။
Generator မှာ ငရဲက သူဌေးတစ်ယောက်ရှိတယ်။
ခွဲခြားဆက်ဆံသူ၏ သနားညှာတာမှုကင်းသော ပွင့်လင်းမှု
၏အလုပ် ခွဲခြားဆက်ဆံသည်။ မူရင်းဒေတာနဲ့ စစ်မှန်တဲ့ ရုပ်ပုံတစ်ပုံကို ဖန်တီးရာမှာ ကောင်းကောင်းမလုပ်နိုင်ဘူးလို့ Generator ကို ပြောပြရမှာဖြစ်ပြီး၊ ထပ်လုပ်ပါ။. Discriminator က Generator ကို မပြောပါဘူး။ ဘာ Generator ၏ နောက်ဆုံးကြိုးစားမှုမှာ မှားယွင်းခဲ့သည်။ ၎င်းကို သီးသန့်ကြည့်ရှုရုံသာဖြစ်ပြီး ထုတ်လုပ်ထားသောပုံအား အရင်းအမြစ်ပုံများနှင့် နှိုင်းယှဉ်ကာ (တစ်ဖန်၊ သီးသန့်)၊ ပုံအား အမှတ်တစ်ခု သတ်မှတ်ပေးသည်။
ရမှတ်က ဘယ်တော့မှ လုံလောက်ပါတယ်။ ခွဲခြားဆက်ဆံသူသည် စကားရပ်မည်မဟုတ်ပေ။ 'ထပ်လုပ်ပါ' သုတေသန သိပ္ပံပညာရှင်များက ၎င်းကို မပိတ်မချင်း (နောက်ထပ် လေ့ကျင့်မှု ရလဒ်သည် နောက်ထပ် တိုးတက်မည်မဟုတ်ဟု ဆုံးဖြတ်သောအခါ)။
ဤနည်းအားဖြင့်၊ အပြုသဘောဆောင်သောဝေဖန်မှုတစ်စုံတစ်ရာမရှိဘဲ၊ မက်ထရစ်သည် ပဟေဠိတစ်ခုဖြစ်သော ရမှတ်တစ်ခုဖြင့်သာ လက်နက်တပ်ဆင်ခြင်းဖြင့်၊ Generator သည် မည်သည့်အပိုင်းများ သို့မဟုတ် ရှုထောင့်မှ ယခင်ထက် ရမှတ်ပိုမိုမြင့်မားစေသည့် ပုံ၏အစိတ်အပိုင်းများကို ကျပန်းခန့်မှန်းရမည်ဖြစ်ပါသည်။ ၎င်းသည် ပိုမိုမြင့်မားသောရမှတ်များရရှိရန် လုံလောက်သော အပြုသဘောဆောင်သည့်အရာတစ်ခုကို မပြောင်းလဲမီ ၎င်းအား ကျေနပ်ဖွယ်မရှိသောလမ်းကြောင်းများစွာကို ပို့ဆောင်ပေးမည်ဖြစ်သည်။
Tutor နှင့် Mentor အဖြစ် ခွဲခြားဆက်ဆံသည်။
သုတေသနအသစ်မှ ပံ့ပိုးပေးသော ဆန်းသစ်တီထွင်မှုသည် အဓိကအားဖြင့် ခွဲခြားဆက်ဆံသူသည် Generator သို့ ညွှန်ပြနေခြင်းဖြစ်သည်။ ရုပ်ပုံ၏ အစိတ်အပိုင်းများသည် အဆင်မပြေပါ။ထို့ကြောင့် Generator သည် ၎င်း၏ နောက်တစ်ကြိမ် ထပ်လုပ်မည့် နယ်ပယ်များကို အာရုံစိုက်နိုင်ပြီး မြင့်မားသော အဆင့်သတ်မှတ်ထားသော အပိုင်းများကို စွန့်ပစ်ခြင်း မပြုရန်၊ ပေါင်းသင်းဆက်ဆံရေး၏ သဘောသဘာဝသည် ဆန့်ကျင်ဘက်အဖြစ်မှ ပူးပေါင်းဆောင်ရွက်မှုသို့ ပြောင်းလဲသွားခဲ့သည်။
Discriminator နှင့် Generator အကြား ထိုးထွင်းသိမြင်မှု ကွာဟမှုကို ကုစားရန် သုတေသီများက အသုံးပြုခဲ့သည်။ GradCAM Generator ၏နောက်ထပ်ကြိုးစားမှုအတွက် အမြင်ဆိုင်ရာတုံ့ပြန်ချက်အကူအညီတစ်ခုအဖြစ် ခွဲခြားဆက်ဆံသူ၏ထိုးထွင်းသိမြင်မှုကို ပုံဖော်နိုင်စွမ်းရှိသော ယန္တရားတစ်ခုဖြစ်သည်။
'မျှခြေ' လေ့ကျင့်ရေးနည်းလမ်းသစ်ကို EqGAN ဟုခေါ်သည်။ အများဆုံးပြန်ပွားနိုင်စေရန်အတွက်၊ သုတေသီများသည် အသုံးပြုမှုအပါအဝင် မူလဆက်တင်များတွင် ရှိပြီးသားနည်းပညာများနှင့် နည်းလမ်းများကို ပေါင်းစပ်ထည့်သွင်းထားသည်။ StyleGan2 ဗိသုကာ။
GradCAM သည် နောက်ဆုံးပေါ်ထပ်ခြင်းအတွက် ခွဲခြားဆက်ဆံသူ၏ ဝေဖန်မှုကို ထင်ဟပ်စေသည့် အပူမြေပုံများကို ထုတ်လုပ်ပေးကာ ၎င်းကို Generator တွင် ရရှိစေပါသည်။
မော်ဒယ်ကို လေ့ကျင့်သင်ကြားပြီးသည်နှင့်၊ မြေပုံဆွဲခြင်းကို ဤပူးပေါင်းဆောင်ရွက်ရေးလုပ်ငန်းစဉ်၏ ရှေးဟောင်းပစ္စည်းအဖြစ် ဆက်လက်တည်ရှိနေသော်လည်း သုတေသီများ၏ ပရောဂျက်ဗီဒီယိုတွင် သရုပ်ပြထားသည့် အပြန်အလှန်တုံ့ပြန်မှုနည်းလမ်းဖြင့် နောက်ဆုံး ငုပ်လျှိုးနေသောကုဒ်ကို ရှာဖွေရန်လည်း အသုံးပြုနိုင်သည်။
EqGAN
ပရောဂျက်သည် LSUN Cat နှင့် Churches ဒေတာအတွဲများအပါအဝင် ရေပန်းစားသောဒေတာအစုံများကို အသုံးပြုခဲ့သည်။ FFHQ ဒေတာအစုံ။ အောက်ဖော်ပြပါဗီဒီယိုတွင် EqGAN ကို အသုံးပြု၍ မျက်နှာနှင့် ကြောင်လေးများကို ခြယ်လှယ်ခြင်းဆိုင်ရာ နမူနာများပါရှိသည်။
StyleGAN256 ၏တရားဝင်အကောင်အထည်ဖော်မှုနှင့်ပတ်သက်၍ EqGAN သင်တန်းမစမီ ပုံအားလုံးကို 256×2 သို့ အရွယ်အစားပြောင်းထားသည်။ မော်ဒယ်သည် ရုပ်ပုံပေါင်း 64 သန်းကျော်ကို Discriminator မှ မထိတွေ့မချင်း GPU 8 ခုကျော် အသုတ်အရွယ်အစား 25 ခုတွင် လေ့ကျင့်ထားသည်။
Frechet Inception Distance ဖြင့် ရွေးချယ်ထားသော နမူနာများတွင် စနစ်၏ရလဒ်များကို စမ်းသပ်ခြင်း (FID) စာရေးဆရာများသည် Disequilibrium Indicator (DI) ဟုခေါ်သော မက်ထရစ်ကို ခွဲခြားသတ်မှတ်ပေးသည့် Generator ထက် ၎င်း၏ အသိပညာ အားသာချက်ကို ဆက်လက်ထိန်းသိမ်းထားနိုင်သည့် အတိုင်းအတာ၊ ထိုကွာဟချက်ကို ကျဉ်းမြောင်းစေရန် ရည်ရွယ်ချက်ဖြင့် တည်ထောင်ခဲ့သည်။
လေ့ကျင့်သင်ကြားထားသည့် ဒေတာအတွဲသုံးခုကျော်တွင် FID နှင့် DI နှစ်ခုစလုံးမှ ပိုမိုကောင်းမွန်သော မျှခြေကို သရုပ်ပြခြင်းဖြင့် Generator တွင် spatial awareness ကို encoding လုပ်ပြီးနောက် အသုံးဝင်သောကျဆင်းမှုကို ပြသခဲ့သည်။
သုတေသီများက ကောက်ချက်ချသည်-
'ဤအလုပ်သည် GAN မျှခြေကို ပြန်လည်ကြည့်ရှုခြင်း၏ နောက်ထပ်လက်ရာများကို လှုံ့ဆော်ပေးနိုင်ပြီး GAN မျှခြေကို ထိန်းကျောင်းခြင်းဖြင့် ရုပ်ပုံပေါင်းစပ်မှုအရည်အသွေးကို မြှင့်တင်ရန် ဆန်းသစ်သောနည်းလမ်းများကို တီထွင်နိုင်မည်ဟု ကျွန်ုပ်တို့ မျှော်လင့်ပါသည်။ အနာဂတ်လုပ်ငန်းခွင်တွင်လည်း ဤပြဿနာနှင့်ပတ်သက်၍ သီအိုရီပိုင်းအရ စုံစမ်းစစ်ဆေးမှုများ ထပ်မံပြုလုပ်သွားပါမည်။'
ဆက်လက်ပြီး-
'Qualitative ရလဒ်များက ကျွန်ုပ်တို့၏နည်းလမ်းသည် [Generator] အား သီးခြားဒေသများပေါ်တွင် အာရုံစိုက်ရန် အောင်မြင်ကြောင်း ပြသပါသည်။ ကျွန်ုပ်တို့၏နည်းလမ်းသည် GAN လေ့ကျင့်ရေးတွင် မညီမျှမှုများကို လျော့ပါးသက်သာစေပြီး အလုံးစုံပုံပေါင်းစပ်မှုအရည်အသွေးကို သိသိသာသာ တိုးတက်ကောင်းမွန်စေကြောင်း ဒေတာအတွဲအမျိုးမျိုးရှိ စမ်းသပ်မှုများမှ အတည်ပြုသည်။ spatial awareness ဖြင့် ထွက်ပေါ်လာသော model သည် output image ၏ အပြန်အလှန်အကျိုးသက်ရောက်မှုကို ခြယ်လှယ်နိုင်စေပါသည်။'
ပရောဂျက်အကြောင်းအသေးစိတ်အချက်အလက်များနှင့် GAN အတွင်းရှိ ငုပ်လျှိုးနေသောနေရာအား တက်ကြွပြီး အပြန်အလှန်အကျိုးပြုသော စူးစမ်းရှာဖွေမှု၏ နောက်ထပ်ဥပမာများကို သိရှိရန် အောက်ပါဗီဒီယိုကို ကြည့်ပါ။
11:12am 4th December 2021 - GradCAM အတွက် ပြင်ထားသော URL နှင့် အနီးနားရှိ ကိုးကားချက်များကို သပ်ရပ်စွာ ပြုလုပ်ထားပါသည်။