ဆောင်းပါးတို နက်ရှိုင်းသောအားဖြည့်သင်ကြားမှုကို အသုံးပြု၍ အပိုဒ်ခွဲမျိုးဆက် - အတွေးခေါင်းဆောင်များ - Unite.AI
ကြှနျုပျတို့နှငျ့အတူချိတ်ဆက်ပါ

ဉာဏ်ရည်တု

နက်ရှိုင်းသောအားဖြည့်သင်ယူမှု- တွေးခေါ်မှုခေါင်းဆောင်များကို အသုံးပြု၍ စကားရပ်များ မျိုးဆက်

mm
နောက်ဆုံးရေးသားချိန် on

စာရေးခြင်း သို့မဟုတ် စကားပြောသည့်အခါတွင် အခြားသူများထံ အကြံဥာဏ်တစ်ခု ပိုမိုကောင်းမွန်စွာ ပြောဆိုနိုင်မှု ရှိမရှိ အားလုံး သိချင်ကြသည်။ ဘယ်စကားလုံးတွေသုံးရမလဲ။ အတွေးကို ဘယ်လိုတည်ဆောက်ရမလဲ။ သူတို့ ဘယ်လိုတုံ့ပြန်နိုင်မလဲ။ မှာ စကားစု၊ ဘယ်အရာက အလုပ်မဖြစ်သလဲ ဆိုတာကို ဘာသာစကားအကြောင်း တွေးတောရင်း အချိန်အများကြီး ဖြုန်းပါတယ်။

စိတ်ကူးယဉ်လက်ပ်တော့အသစ်တစ်လုံးကို 10% လျှော့စျေးမြှင့်တင်ပေးမယ့် သင့်စာရင်းထဲက လူ 20 သန်းဆီရောက်သွားမယ့် အီးမေးလ်ကမ်ပိန်းအတွက် အကြောင်းအရာလိုင်းကို ရေးနေတယ်လို့ မြင်ယောင်ကြည့်ပါ။

ဘယ်လိုင်းကို ရွေးမလဲ

  • ယခုသင်သည် သင်၏နောက်ထပ်မှာယူမှုတွင် 20% အပိုလျှော့စျေးကို ရယူနိုင်ပါသည်။
  • ပြင်ဆင်ပါ - အပို 20% လျှော့စျေး

၎င်းတို့သည် တူညီသောအချက်အလက်များကို ထုတ်လွှင့်နေစဉ်တွင်၊ တစ်ခုသည် အခြားတစ်ခုထက် 15% ပိုမိုမြင့်မားသောအဖွင့်နှုန်းကို ရရှိခဲ့သည် (ကျွန်ုပ်တို့၏မော်ဒယ်သည် မည်သည့်အရာကိုမှန်းဆ၍မရနိုင်ကြောင်း လောင်းကြေးထပ်ပါသည်။) ဘာသာစကားအားဖြင့် မကြာခဏ စမ်းသပ်နိုင်သည်။ A / B စမ်းသပ်ခြင်း or လက်နက်ကိုင်အဖွဲ့ပေါင်းစုံ၊စာပိုဒ်များကို အလိုအလျောက်ထုတ်ပေးခြင်းသည် တကယ်ကို စိန်ခေါ်သည့် သုတေသနပြဿနာတစ်ခုအဖြစ် ရှိနေသေးသည်။

စာကြောင်းနှစ်ကြောင်းသည် တူညီသောအဓိပ္ပါယ်နှင့် အပြန်အလှန်အသုံးပြုနိုင်ပါက တစ်ခုနှင့်တစ်ခု စကားစုများအဖြစ် ယူဆပါသည်။ နောက်ထပ်အရေးကြီးတဲ့အချက်ကတော့ စက်ကထုတ်ပေးတဲ့ဝါကျကို ကျွမ်းကျင်မှုရှိ၊မရှိ၊

ကြီးကြပ်ထားသော သင်ယူမှုနှင့် မတူဘဲ၊ အားဖြည့်သင်ယူခြင်း (RL) အေးဂျင့်များသည် ၎င်းတို့၏ ပတ်ဝန်းကျင်နှင့် အပြန်အလှန် ဆက်ဆံပြီး ရလဒ်အဖြစ် ရရှိသည့် ဆုလာဘ်များကို စောင့်ကြည့်လေ့လာခြင်းဖြင့် သင်ယူကြသည်။ ဤအနည်းအကျဉ်း ကွာခြားချက်သည် အယ်လဂိုရီသမ်များ မည်သို့အလုပ်လုပ်ပုံနှင့် မော်ဒယ်များကို လေ့ကျင့်သင်ကြားပုံအတွက် ကြီးမားသော သက်ရောက်မှုရှိသည်။ နက်ရှိုင်းသောအားဖြည့်သင်ယူမှု အာရုံကြောကွန်ရက်များကို လုပ်ဆောင်ချက်အနီးစပ်ဆုံးအဖြစ် အသုံးပြု၍ အေးဂျင့်ကဲ့သို့သော ရှုပ်ထွေးသောပတ်ဝန်းကျင်များတွင် လူသားများကို စွမ်းဆောင်ရည်ထက် သာလွန်အောင်ပြုလုပ်နည်းကို လေ့လာခွင့်ပြုရန်၊ Go, Atari , နှင့် StarCraft II ကို.

ဤအောင်မြင်ခဲ့သော်လည်း၊ အားဖြည့်သင်ကြားမှုကို သဘာဝဘာသာစကားလုပ်ဆောင်ခြင်း (NLP) အပါအဝင် လက်တွေ့ကမ္ဘာပြဿနာများတွင် ကျယ်ကျယ်ပြန့်ပြန့် အသုံးချနိုင်ခြင်းမရှိသေးပါ။

ငါ့ရဲ့တစ်စိတ်တစ်ပိုင်းအနေနဲ့ ဒေတာသိပ္ပံအတွက် MSc စာတမ်းInput text ၏ paraphrases များကို အလိုအလျောက်ထုတ်ပေးရာတွင် ကြီးကြပ်ထားသော သင်ယူမှုနည်းလမ်းများကို ပိုမိုကောင်းမွန်စေရန် Deep RL ကို မည်ကဲ့သို့အသုံးပြုနိုင်သည်ကို ကျွန်ုပ်တို့ သရုပ်ပြပါသည်။ အထွက်ကို သွက်လက်စွာ ထိန်းသိမ်းထားစဉ်တွင် စာကြောင်းများကြားတွင် ဝေါဟာရတူညီမှုကို အမြင့်ဆုံးဖြစ်စေသော စကားလုံးအတွဲလိုက်များကို ရှာဖွေခြင်းတွင် အကောင်းဆုံးစကားရပ်ကို ဖန်တီးခြင်း၏ ပြဿနာကို ရှုမြင်နိုင်သည်။ RL အေးဂျင့်များသည် ထိန်းချုပ်မှုပတ်ဝန်းကျင်တွင် အမြင့်ဆုံးမျှော်လင့်ထားသောဆုလာဘ်ကိုရရှိရန် အကောင်းဆုံးလုပ်ဆောင်ချက်အစုံကိုရှာဖွေရန်အတွက် သင့်လျော်ပါသည်။

စက်သင်ယူမှုတွင် ပြဿနာအများစုနှင့် ဆန့်ကျင်ဘက်အနေနှင့်၊ Natural Language Generation (NLG) အပလီကေးရှင်းအများစုတွင် အကြီးဆုံးပြဿနာမှာ မော်ဒယ်ပုံစံတွင်သာ မဟုတ်ဘဲ အကဲဖြတ်မှုတွင်သာ သက်ရောက်မှုရှိသည်။ လူအကဲဖြတ်ခြင်းကို NLG အကဲဖြတ်မှုတွင် ရွှေစံနှုန်းအဖြစ် လက်ရှိသတ်မှတ်ထားသော်လည်း၊ ၎င်းသည် စျေးကြီးခြင်း၊ အချိန်ကုန်ခြင်း၊ ညှိရန်ခက်ခဲခြင်းနှင့် စမ်းသပ်မှုများနှင့် ဒေတာအတွဲများတစ်လျှောက် မျိုးပွားနိုင်စွမ်းမရှိခြင်းအပါအဝင် သိသာထင်ရှားသောအားနည်းချက်များကို ကြုံတွေ့နေရပါသည်။ (ဟန်၊ ၂၀၁၆). ရလဒ်အနေဖြင့်၊ သုတေသီများသည် ရိုးရှင်းသော၊ ယေဘူယျအားဖြင့် သိမြင်နိုင်သော၊ လူသား၏တရားစီရင်မှုကို ထင်ဟပ်စေသည့် အလိုအလျောက်တိုင်းတာမှုများကို ကာလရှည်ကြာစွာ ရှာဖွေနေခဲ့သည်။ (Papineni et al., 2002).

စက်မှထုတ်ပေးသော ပုံစာတန်းများကို အကဲဖြတ်ရာတွင် အသုံးအများဆုံး အလိုအလျောက် အကဲဖြတ်ခြင်းနည်းလမ်းများကို ၎င်းတို့၏ အားသာချက်များနှင့် အားနည်းချက်များဖြင့် အောက်တွင် အကျဉ်းချုံးဖော်ပြထားသည်-

Reinforcement Learning Pipeline ကို အသုံးပြု၍ စကားရပ် မျိုးဆက်

ကျွန်ုပ်တို့သည် အရည်အသွေးမြင့် စာပိုဒ်များကို ထုတ်ပေးသည့် ParaPhrasee အမည်ရှိ စနစ်တစ်ခုကို တီထွင်ခဲ့သည်။ စနစ်တွင် အားဖြည့်သင်ကြားမှုကို ကွန်ပြူတာထိရောက်သောနည်းလမ်းဖြင့် အသုံးချနိုင်ရန် အဆင့်များစွာ ပါဝင်သည်။ မြင့်မားသော ပိုက်လိုင်း၏ အကျဉ်းချုပ်ကို အောက်ဖော်ပြပါ တွင်ပါရှိသော နောက်ထပ်အသေးစိတ်ဖြင့် ပြထားသည်။ စစ်တမ်း.

datasets

သုတေသနတွင် အသုံးပြုသည့် စကားစုများ အများအပြားရှိပါသည်- အပါအဝင် Microsoft Paraphrase corpus, ACL ၏ Semantic Text Similarity ပြိုင်ပွဲ, Quora ပွားနေသောမေးခွန်းများနှင့် Twitter မှ မျှဝေထားသော လင့်ခ်များ. ကျွန်တော်တို့ ရွေးထားပါတယ်။ MS-COCO ၎င်း၏ အရွယ်အစား၊ သန့်ရှင်းမှုနှင့် မှတ်သားဖွယ် စကားပုံများ မျိုးဆက်စာတမ်းနှစ်ခုအတွက် စံမှတ်တစ်ခုအဖြစ် အသုံးပြုထားသည်။ MS-COCO တွင် မတူညီသော လူသား မှတ်ချက်ပေးသူ 120 ဦးမှ ပံ့ပိုးပေးသည့် ပုံတစ်ပုံလျှင် ပုံတစ်ပုံလျှင် ပုံစာတန်းများ 5 ခုပါသည့် သာမန်မြင်ကွင်းများ၏ 5k ပုံများ ပါရှိသည်။

၎င်းကို ကွန်ပြူတာအမြင် သုတေသနအတွက် အဓိက ဒီဇိုင်းထုတ်ထားသော်လည်း စာတန်းများသည် အဓိပ္ပာယ်မြင့်မားသော ဆင်တူယိုးမှားများရှိပြီး စိတ်ဝင်စားစရာ စကားစုများဖြစ်သည်။ ပုံစာတန်းများကို မတူညီသောလူများက ပေးဆောင်ထားသောကြောင့် ၎င်းတို့သည် မြင်ကွင်းတွင် အသေးစိတ်ဖော်ပြထားသော ကွဲလွဲမှုအနည်းငယ်ရှိတတ်သောကြောင့် ထုတ်လုပ်လိုက်သောစာကြောင်းများသည် အသေးစိတ်များကို ယောင်ယောင်ထင်ယောင်ထင်မှားဖြစ်စေတတ်သည်။

ကြီးကြပ်မှုပုံစံ

အားဖြည့်သင်ကြားမှုသည် နမူနာစွမ်းဆောင်ရည်၊ လေ့ကျင့်ချိန်နှင့် အလုံးစုံအကောင်းဆုံးအလေ့အကျင့်များတွင် သိသိသာသာတိုးတက်လာသော်လည်း၊ လေ့ကျင့်ရေး RL မော်ဒယ်များသည် အစမှအဆုံးနှင့် နှိုင်းယှဉ်ပါက အလွန်နှေးကွေးပြီး မတည်ငြိမ်သေးပါ။ (Arulkumaran et al.၊ 2017). ထို့ကြောင့်၊ အစမှနေ၍ လေ့ကျင့်မည့်အစား၊ ကျွန်ုပ်တို့သည် ကြီးကြပ်ထားသော မော်ဒယ်ကို ဦးစွာလေ့ကျင့်ပြီးနောက် RL ကို အသုံးပြု၍ ချိန်ညှိပါ။

ကျွန်တော်တို့က တစ်ခုသုံးတယ်။ Encoder-Decoder မော်ဒယ်မူဘောင်နှင့် အခြေခံကြီးကြပ်ထားသော မော်ဒယ်အများအပြား၏ စွမ်းဆောင်ရည်ကို အကဲဖြတ်ပါ။ RL ကို အသုံးပြု၍ မော်ဒယ်ကို ကောင်းစွာချိန်ညှိသည့်အခါ၊ ကျွန်ုပ်တို့သည် ဒီကုဒ်ဒါကွန်ရက်ကို ကောင်းစွာချိန်ညှိပြီး ကုဒ်ဒါကွန်ရက်ကို တည်ငြိမ်မှုအဖြစ် သတ်မှတ်သည်။ ထို့ကြောင့် ကျွန်ုပ်တို့သည် အဓိက မူဘောင်နှစ်ခုကို သုံးသပ်ပါသည်။

  • GRU များဖြင့် စံ/ဗန်နီလာ ကုဒ်ကုဒ်ဒီကုဒ်ဒါကို အသုံးပြု၍ ကြီးကြပ်ထားသော မော်ဒယ်ကို အစမှ လေ့ကျင့်ပါ။
  • ပါဝင်သော ကုဒ်ဒါအတွက် ကြိုတင်လေ့ကျင့်ထားသော ဝါကျပုံစံများကို အသုံးပြုခြင်း- ပေါင်းစပ်ထားသော စကားလုံး မြှုပ်နှံမှုများ (GloVe)၊ InferSent နှင့် BERT

ကြီးကြပ်ထားသော မော်ဒယ်များသည် BERT နှင့် အကောင်းဆုံး စွမ်းဆောင်ရည်ကို ရရှိသည့် vanilla ကုဒ်ဒါကုဒ်ဒါဖြင့် မော်ဒယ်များတစ်လျှောက် မျှတစွာ အလားတူ လုပ်ဆောင်လေ့ရှိပါသည်။

စွမ်းဆောင်ရည်သည် ကျိုးကြောင်းဆီလျော်ဖွယ်ရှိသော်လည်း၊ စကားထစ်ခြင်း၊ စာကြောင်းအပိုင်းအစများ ဖန်တီးခြင်းနှင့် အမြင်မှားခြင်း၏ ဘုံအရင်းအမြစ် သုံးခုရှိပါသည်။ ဤအရာများသည် RL ကိုအသုံးပြု၍ ဖြေရှင်းရန် ရည်ရွယ်သော အဓိကပြဿနာများဖြစ်သည်။

အားဖြည့်သင်ကြားမှုပုံစံ

အထူးသဖြင့် RL algorithms များကို အကောင်အထည်ဖော်ခြင်းသည် ပြဿနာကို ဖြေရှင်းနိုင်မလားမသိသောအခါတွင် အလွန်စိန်ခေါ်မှုဖြစ်သည်။ သင့်ပတ်ဝန်းကျင်၊ သင့်အေးဂျင့်များ၊ သင်၏ hyperparameters၊ သင့်ဆုလာဘ်လုပ်ဆောင်ချက်၊ သို့မဟုတ် အထက်ပါအရာအားလုံးကို ပေါင်းစပ်ရာတွင် ပြဿနာများရှိနိုင်သည်။ နက်နဲသော RL ၏ ထပ်လောင်းရှုပ်ထွေးမှုကို လှောင်ပြောင်ခြင်းခံရသည့်အခါ ဤပြဿနာများသည် ပိုမိုဆိုးရွားလာပါသည်။ အာရုံကြောကွန်ရက်များကို အမှားရှာခြင်း။.

အမှားရှာပြင်ခြင်းအားလုံးကဲ့သို့ပင်၊ ၎င်းသည် အရေးကြီးပါသည်။ ရိုးရှင်းစွာစတင်ပါ။ ကျွန်ုပ်တို့သည် RL အယ်လ်ဂိုရီသမ်များကို စမ်းသပ်ရန်နှင့် ကြီးကြပ်ထားသော မော်ဒယ်မှ အသိပညာလွှဲပြောင်းခြင်းအတွက် ထပ်ခါတလဲလဲလုပ်နိုင်သော နည်းဗျူဟာကို ရှာဖွေရန်အတွက် နားလည်သဘောပေါက်သော အရုပ် RL ပတ်ဝန်းကျင် (CartPole နှင့် FrozenLake) နှစ်ခုကို အကောင်အထည်ဖော်ခဲ့သည်။

သုံးနေတာတွေ့တယ်။ သရုပ်ဆောင်-ဝေဖန်ရေးစနစ် REINFORCE သည် ဤပတ်ဝန်းကျင်တွင် စွမ်းဆောင်ရည်ထက် သာလွန်သည်။ သရုပ်ဆောင်ဝေဖန်ရေးမော်ဒယ်ထံ အသိပညာ လွှဲပြောင်းပေးခြင်းနှင့် ပတ်သက်၍ လေ့ကျင့်ထားသော ကြီးကြပ်ထားသော မော်ဒယ်ဖြင့် သရုပ်ဆောင်၏ အလေးများကို အစပြုကာ ဝေဖန်သူကို ကြိုတင်လေ့ကျင့်ခြင်းသည် အကောင်းဆုံးစွမ်းဆောင်ရည်ကို ရရှိခဲ့ကြောင်း ကျွန်ုပ်တို့ တွေ့ရှိရပါသည်။ ၎င်းတို့သည် အလုပ်လုပ်ရန် ချိန်ညှိရန် လိုအပ်သည့် ဟိုက်ပါပါရာမီတာအသစ်များစွာကို မိတ်ဆက်ပေးသောကြောင့် ပတ်ဝန်းကျင်အသစ်တွင် ခေတ်မီသောမူဝါဒပေါင်းခံခြင်းဆိုင်ရာချဉ်းကပ်မှုများကို ယေဘူယျလုပ်ဆောင်ရန် စိန်ခေါ်မှုရှိကြောင်း တွေ့ရှိရပါသည်။

ဤထိုးထွင်းသိမြင်မှုများကြောင့် ကျွန်ုပ်တို့သည် စကားစုမျိုးဆက်လုပ်ငန်းတာဝန်အတွက် ချဉ်းကပ်မှုတစ်ခုကို ဖော်ဆောင်ရန် လှည့်သွားပါသည်။ ပထမဆုံး ပတ်ဝန်းကျင်တစ်ခုကို ဖန်တီးဖို့ လိုပါတယ်။

ပတ်ဝန်းကျင်သည် ကျွန်ုပ်တို့အား ဆုပေးသည့်လုပ်ဆောင်ချက်များအဖြစ် မတူညီသော အကဲဖြတ်မက်ထရစ်များကို အသုံးပြုခြင်း၏အကျိုးသက်ရောက်မှုကို အလွယ်တကူစမ်းသပ်နိုင်စေပါသည်။

ထို့နောက် ကျွန်ုပ်တို့သည် ၎င်း၏ အားသာချက်များစွာဖြင့် သရုပ်ဆောင်ဝေဖန်သူ ဗိသုကာလက်ရာကို အသုံးပြု၍ အေးဂျင့်ကို သတ်မှတ်ဖော်ပြပါသည်။ မင်းသားသည် အစီအစဥ်ရှိ နောက်စကားလုံးကို ရွေးချယ်ရန် အသုံးပြုပြီး ကြီးကြပ်ထားသော ပုံစံကို အသုံးပြု၍ ၎င်း၏ အလေးများကို အစပြုထားသည်။ ဝေဖန်ရေးဆရာသည် သရုပ်ဆောင်ပညာကို သင်ယူရာတွင် အထောက်အကူဖြစ်စေမည့် ပြည်နယ်တစ်ခု၏ မျှော်လင့်ထားသည့် ဆုလာဘ်ကို ခန့်မှန်းပေးသည်။

မှန်ကန်သောဆုပေးသည့်လုပ်ဆောင်ချက်ကို ဒီဇိုင်းဆွဲခြင်း။

RL စနစ်တစ်ခုကို ဒီဇိုင်းဆွဲခြင်း၏ အရေးအကြီးဆုံး အစိတ်အပိုင်းမှာ RL အေးဂျင့်က အကောင်းဆုံးဖြစ်အောင် ကြိုးစားနေသောကြောင့် ဆုပေးသည့်လုပ်ဆောင်ချက်ဖြစ်သည်။ ဆုပေးသည့်လုပ်ဆောင်ချက် မမှန်ကန်ပါက၊ စနစ်၏ အခြားအစိတ်အပိုင်းတိုင်း အလုပ်လုပ်နေသော်လည်း ရလဒ်များ ဒုက္ခရောက်မည်ဖြစ်သည်။

ဤသည်၏ဂန္ထဝင်ဥပမာတစ်ခုဖြစ်သည်။ CoastRunners OpenAI သုတေသီများသည် ပြိုင်ပွဲကိုအနိုင်ရမည့်အစား စုစုပေါင်းရမှတ်ကို အမြင့်ဆုံးအဖြစ် ဆုပေးသည့်လုပ်ဆောင်ချက်ကို သတ်မှတ်ပေးပါသည်။ ဤရလဒ်သည် ပြိုင်ပွဲမပြီးပြတ်ဘဲ တာဘိုများကို နှိပ်ခြင်းဖြင့် အမြင့်ဆုံးရမှတ်ကို အေးဂျင့်က ရှာဖွေတွေ့ရှိခဲ့သည်။

စာပိုဒ်များ၏ အရည်အသွေးကို အကဲဖြတ်ခြင်းသည် ၎င်းကိုယ်တိုင် မဖြေရှင်းနိုင်သော ပြဿနာဖြစ်သောကြောင့်၊ ဤရည်မှန်းချက်ကို အလိုအလျောက်ဖမ်းယူနိုင်သည့် ဆုလာဘ်လုပ်ဆောင်ချက်ကို ဒီဇိုင်းထုတ်ခြင်းသည် ပို၍ပင်ခက်ခဲသည်။ ဘာသာစကား၏ ကဏ္ဍအများစုသည် မျဉ်းဖြောင့်မက်ထရစ်များအဖြစ် ကောင်းစွာ မပြိုကွဲဘဲ အလုပ်အပေါ် မူတည်ပါသည်။ (Novikova et al.၊ 2017).

RL အေးဂျင့်သည် အရည်အသွေးမြင့် စာသားများကို ထုတ်လုပ်မည့်အစား အကဲဖြတ်မက်ထရစ်ရှိ အားနည်းချက်များကို အသုံးချကာ ဆုလာဘ်များ အများဆုံးရရှိရန် စိတ်ဝင်စားစရာကောင်းသော ဗျူဟာတစ်ခုကို ရှာဖွေတွေ့ရှိလေ့ရှိသည်။ ၎င်းသည် အေးဂျင့်မှ တိုက်ရိုက်ပိုကောင်းအောင်မလုပ်သည့် မက်ထရစ်များပေါ်တွင် စွမ်းဆောင်ရည် ညံ့ဖျင်းမှုကို ဖြစ်ပေါ်စေပါသည်။

ကျွန်ုပ်တို့သည် အဓိက ချဉ်းကပ်မှု သုံးခုကို သုံးသပ်ပါသည်။

  1. စကားလုံးထပ်နေသော မက်ထရစ်များ

အသုံးများသော NLP အကဲဖြတ်မှု မက်ထရစ်များသည် ထုတ်လုပ်ထားသော စာပိုဒ်များနှင့် အကဲဖြတ်ဝါကျများကြားတွင် စကားလုံးထပ်နေသော အချိုးအစားကို ထည့်သွင်းစဉ်းစားသည်။ ထပ်တူကျလေလေ ဆုလာဘ်ကြီးလေပါပဲ။ စကားလုံးအဆင့် ချဉ်းကပ်မှုများနှင့်အတူ စိန်ခေါ်မှုမှာ အေးဂျင့်သည် “a is on” ကဲ့သို့သော ချိတ်ဆက်စကားလုံးများ အများအပြားပါဝင်ပြီး သွက်လက်မှုအတိုင်းအတာမရှိပေ။ ၎င်းသည် အလွန်အရည်အသွေးနိမ့်သော စကားစုများကို ဖြစ်ပေါ်စေသည်။

  1. စာကြောင်းအဆင့် တူညီမှုနှင့် ကျွမ်းကျင်မှု မက်ထရစ်များ

ထုတ်လုပ်လိုက်သော စကားစုတစ်ခု၏ အဓိကဂုဏ်သတ္တိများမှာ ထည့်သွင်းဝါကျနှင့် သွက်လက်ပြီး ဝေါဟာရအလားတူ ဖြစ်ရပါမည်။ ထို့ကြောင့်၊ ကျွန်ုပ်တို့သည် ၎င်းတို့ကို တစ်ဦးချင်း အမှတ်ပေးပြီးနောက် မက်ထရစ်များကို ပေါင်းစပ်ရန် ကြိုးစားသည်။ ဝေါဟာရဆင်တူခြင်းအတွက်၊ ကျွန်ုပ်တို့သည် BERT အပါအဝင် ကြိုတင်လေ့ကျင့်ထားသော မော်ဒယ်များမှ ဝါကျထည့်သွင်းခြင်းကြားတွင် cosine တူညီမှုကို အသုံးပြုပါသည်။ သွက်လက်စေရန်၊ ကျွန်ုပ်တို့သည် GPT-2 မှ ဝါကျတစ်ခု၏ ရှုပ်ထွေးမှုကို အခြေခံ၍ ရမှတ်ကို အသုံးပြုသည်။ cosine တူညီမှုနှင့် ကျွမ်းကျင်မှုရမှတ်များ ကြီးမားလေ ဆုလာဘ်ကြီးလေဖြစ်သည်။

ကျွန်ုပ်တို့သည် ဝါကျထည့်သွင်းခြင်းပုံစံများနှင့် သွက်လက်မှုပုံစံများ ပေါင်းစပ်မှုများစွာကို ကြိုးပမ်းခဲ့ပြီး စွမ်းဆောင်ရည်မှာ ကျိုးကြောင်းဆီလျော်သော်လည်း၊ အေးဂျင့်ကြုံတွေ့ရသည့် အဓိကပြဿနာမှာ ဝေါဟာရအလားသဏ္ဍာန်တူမှုကို ကျွမ်းကျင်စွာ ဟန်ချက်ညီအောင် လုံလောက်စွာမချိန်ဆနိုင်ပါ။ ဖွဲ့စည်းမှုအများစုအတွက်၊ အေးဂျင့်သည် အသေးစိတ်အချက်အလက်များကို ဖယ်ရှားရာတွင် ချောမွေ့မှုကို ဦးစားပေးပြီး အရာအများစုကို တစ်စုံတစ်ခု၏ "အလယ်တွင်" နေရာချထားခြင်း သို့မဟုတ် "စားပွဲတစ်ခုပေါ်" သို့မဟုတ် "လမ်းဘေးဘက်" သို့ ရွှေ့ခြင်းခံရသည်။

Multi-objective reinforcement learning သည် ပွင့်လင်းသော သုတေသနမေးခွန်းဖြစ်ပြီး ဤကိစ္စတွင် အလွန်စိန်ခေါ်မှုဖြစ်သည်။

  1. Reward Function အဖြစ် Adversarial Model ကို အသုံးပြုခြင်း။

လူသားများကို အကဲဖြတ်ရာတွင် ရွှေစံနှုန်းအဖြစ် သတ်မှတ်ပေးထားသော စာကြောင်းနှစ်ကြောင်းသည် တစ်ခုနှင့်တစ်ခု ဆက်စပ်မှု ရှိ၊ မရှိ ခန့်မှန်းရန် (လူသားတစ်ဦး၏ အကဲဖြတ်ပုံနှင့် ဆင်တူသည်) ခွဲခြားသတ်မှတ်သူဟုခေါ်သော သီးခြားပုံစံတစ်ခုကို လေ့ကျင့်ပေးပါသည်။ ထို့နောက် RL မော်ဒယ်၏ ရည်မှန်းချက်မှာ ထုတ်ပေးထားသော စာကြောင်းသည် ထည့်သွင်းမှု၏ အပိုဒ်တစ်ခုဖြစ်ကြောင်း ယုံကြည်စေရန်ဖြစ်သည်။ ခွဲခြားဆက်ဆံသူသည် ကိုယ်စားလှယ်အား လေ့ကျင့်ရန် ဆုလာဘ်အဖြစ် အသုံးပြုသည့် စာကြောင်းနှစ်ကြောင်း၏ တစ်ခုနှင့်တစ်ခု စကားပုံများဖြစ်နိုင်ချေကို အမှတ်တစ်ခုထုတ်ပေးသည်။

ခန့်မှန်းချက် 5,000 တိုင်းတွင် ခွဲခြားဆက်ဆံသူသည် ဒေတာအတွဲမှ မည်သည့်စကားစုမှ ထွက်လာကြောင်းနှင့် ၎င်းသည် ၎င်း၏အနာဂတ်မှန်းဆချက်များကို ပိုမိုကောင်းမွန်လာစေရန်အတွက် ထုတ်ပေးလိုက်ကြောင်း ပြောကြားခဲ့သည်။ ခွဲခြားဆက်ဆံသူကို အရူးလုပ်ရန်နှင့် ဒေတာအတွဲမှ အကဲဖြတ်သည့်စာပိုဒ်များအကြား ခွဲခြားသတ်မှတ်ရန် ကြိုးစားနေသည့် အေးဂျင့်သည် လှည့်ပတ်မှုများစွာဖြင့် လုပ်ငန်းစဉ်ကို ဆက်လက်လုပ်ဆောင်သည်။

အကြိမ်ပေါင်းများစွာ လေ့ကျင့်ပြီးနောက်၊ ကိုယ်စားလှယ်သည် ကြီးကြပ်ထားသော မော်ဒယ်များနှင့် အခြားဆုကြေးပေးသည့် လုပ်ဆောင်ချက်များကို ပိုမိုကောင်းမွန်စေသည့် စာပိုဒ်များကို ထုတ်ပေးပါသည်။

နိဂုံးနှင့် ကန့်သတ်ချက်များ

ဆန့်ကျင်ဘက်ချဉ်းကပ်မှုများ (ဂိမ်းများအတွက် ကိုယ်တိုင်ကစားခြင်းအပါအဝင်) သည် အချို့သောအလုပ်များတွင် လူသားအဆင့်စွမ်းဆောင်ရည်ထက် ကျော်လွန်စေရန် လေ့ကျင့်ပေးခြင်းအတွက် အလွန်အလားအလာကောင်းသော ချဉ်းကပ်မှုကို ပေးပါသည်။

ဤဥပမာတွင် RL သည် ကြီးကြပ်သင်ကြားမှုကို သာလွန်အောင် လုပ်ဆောင်နိုင်ခဲ့သော်လည်း၊ ကုဒ်၊ တွက်ချက်မှုနှင့် ရှုပ်ထွေးမှုဆိုင်ရာ အပိုဆောင်းအပိုပမာဏသည် အပလီကေးရှင်းအများစုအတွက် စွမ်းဆောင်ရည်နှင့် မထိုက်တန်ပါ။ RL သည် ကြီးကြပ်သင်ကြားမှုကို အလွယ်တကူ အသုံးချ၍မရသည့် အခြေအနေများအတွက် အကောင်းဆုံးဖြစ်ပြီး ဆုပေးသည့်လုပ်ဆောင်ချက်ကို သတ်မှတ်ရန် လွယ်ကူသည် (Atari ဂိမ်းများကဲ့သို့)။ ချဉ်းကပ်မှုများနှင့် အယ်လဂိုရီသမ်များသည် ကြီးကြပ်သင်ကြားမှုတွင် ပိုမိုရင့်ကျက်ပြီး အမှားအယွင်းအချက်ပြမှုသည် ပိုမိုအားကောင်းသောကြောင့် ပိုမိုမြန်ဆန်ပြီး တည်ငြိမ်သောလေ့ကျင့်မှုကို ရရှိစေသည်။

အခြားထည့်သွင်းစဉ်းစားရမည့်အချက်မှာ၊ အခြားအာရုံကြောချဉ်းကပ်နည်းများကဲ့သို့ပင်၊ သွင်းအားသည်ယခင်ကမြင်ခဲ့သောသွင်းအားစုများနှင့်မတူသည့်ကိစ္စများတွင် အေးဂျင့်သည် သိသိသာသာကျရှုံးနိုင်သည်၊ ထုတ်လုပ်မှုအသုံးချမှုအတွက် ထပ်လောင်းစစ်ဆေးမှုများလိုအပ်ပါသည်။

ပြီးခဲ့သည့်နှစ်အနည်းငယ်အတွင်း RL ချဉ်းကပ်မှုများနှင့် တွက်ချက်မှုဆိုင်ရာ အခြေခံအဆောက်အအုံများတွင် တိုးတက်လာမှုများအပေါ် စိတ်ဝင်စားမှုများ ပေါက်ကွဲလာခြင်းသည် အထူးသဖြင့် NLP အတွင်းရှိ လုပ်ငန်းနယ်ပယ်တွင် RL အသုံးချခြင်းအတွက် ကြီးမားသောအခွင့်အလမ်းများကို ဖွင့်ပေးမည်ဖြစ်သည်။

Andrew Gibbs-Bravo သည် Data Scientist တစ်ဦးဖြစ်သည်။ စကားစု Phrasee ၏ကမ္ဘာ့ထိပ်တန်း AI-Powered Copywriting နောက်ကွယ်မှနည်းပညာကိုတိုးတက်စေရန်အာရုံစိုက်ခဲ့သည်။ သူသည် London Reinforcement Learning Community Meetup ၏ ပူးတွဲစီစဉ်သူဖြစ်ပြီး RL၊ NLP နှင့် machine learning အားလုံးကို စိတ်ဝင်စားသည်။