ກ້ານໃບ Paraphrase Generation ການ​ນໍາ​ໃຊ້​ການ​ຮຽນ​ຮູ້​ເສີມ​ເລິກ - ຜູ້​ນໍາ​ຄວາມ​ຄິດ - Unite.AI
ເຊື່ອມຕໍ່ກັບພວກເຮົາ

ປັນຍາປະດິດ

ການສ້າງ Paraphrase ໂດຍໃຊ້ການຮຽນຮູ້ການເສີມສ້າງຢ່າງເລິກເຊິ່ງ – ຜູ້ນໍາຄວາມຄິດ

mm
ການປັບປຸງ on

ໃນເວລາຂຽນ ຫຼືເວົ້າ, ພວກເຮົາທຸກຄົນສົງໄສວ່າມີວິທີທີ່ດີກວ່າໃນການສື່ສານຄວາມຄິດກັບຄົນອື່ນ. ຂ້ອຍຄວນໃຊ້ຄໍາໃດ? ຂ້ອຍຄວນສ້າງຄວາມຄິດແນວໃດ? ພວກເຂົາເຈົ້າມີແນວໂນ້ມທີ່ຈະຕອບສະຫນອງແນວໃດ? ທີ່ ພະເຈົ້າ, ພວກເຮົາໃຊ້ເວລາຫຼາຍຄິດກ່ຽວກັບພາສາ - ສິ່ງທີ່ເຮັດວຽກແລະສິ່ງທີ່ບໍ່ໄດ້.

ຈິນຕະນາການວ່າທ່ານກໍາລັງຂຽນຫົວຂໍ້ສໍາລັບແຄມເປນອີເມລ໌ທີ່ຈະໄປຫາ 10 ລ້ານຄົນໃນບັນຊີລາຍຊື່ຂອງເຈົ້າທີ່ສົ່ງເສີມ 20% ຈາກຄອມພິວເຕີ້ຄອມພິວເຕີໃຫມ່.

ເຈົ້າຈະເລືອກສາຍໃດ:

  • ດຽວນີ້ທ່ານສາມາດເອົາສ່ວນຫຼຸດພິເສດ 20% ໄປສັ່ງຊື້ຄັ້ງຕໍ່ໄປໄດ້
  • ກຽມພ້ອມ - ສ່ວນຫຼຸດພິເສດ 20%.

ໃນຂະນະທີ່ພວກເຂົາຖ່າຍທອດຂໍ້ມູນດຽວກັນ, ຄົນຫນຶ່ງໄດ້ບັນລຸອັດຕາການເປີດສູງກວ່າເກືອບ 15% (ແລະຂ້ອຍເດີມພັນວ່າທ່ານບໍ່ສາມາດຕີຕົວແບບຂອງພວກເຮົາໃນການຄາດຄະເນວ່າອັນໃດ?). ໃນຂະນະທີ່ພາສາມັກຈະຖືກທົດສອບຜ່ານ A ການທົດສອບ / B or ພວກ​ຫົວ​ຮຸນ​ແຮງ​ຫຼາຍ​ຄົນ, ການສ້າງ paraphrases ອັດຕະໂນມັດຍັງຄົງເປັນບັນຫາການຄົ້ນຄວ້າທີ່ທ້າທາຍແທ້ໆ.

ສອງປະໂຫຍກແມ່ນຖືວ່າເປັນ paraphrases ຂອງກັນແລະກັນຖ້າພວກເຂົາມີຄວາມ ໝາຍ ດຽວກັນແລະສາມາດໃຊ້ແລກປ່ຽນກັນໄດ້. ສິ່ງທີ່ສໍາຄັນອີກອັນຫນຶ່ງທີ່ມັກຈະຖືກພິຈາລະນາແມ່ນວ່າປະໂຫຍກທີ່ສ້າງຂຶ້ນດ້ວຍເຄື່ອງຈັກແມ່ນມີຄວາມຄ່ອງແຄ້ວ.

ບໍ່ເຫມືອນກັບການຮຽນຮູ້ທີ່ມີການເບິ່ງແຍງ, ຕົວແທນການຮຽນຮູ້ເສີມ (RL) ຮຽນຮູ້ໂດຍຜ່ານການພົວພັນກັບສະພາບແວດລ້ອມຂອງພວກເຂົາແລະການສັງເກດເບິ່ງລາງວັນທີ່ພວກເຂົາໄດ້ຮັບຜົນ. ຄວາມແຕກຕ່າງທີ່ແປກປະຫຼາດນີ້ມີຜົນກະທົບອັນໃຫຍ່ຫຼວງຕໍ່ວິທີການເຮັດວຽກຂອງ algorithms ແລະວິທີການຝຶກອົບຮົມແບບຈໍາລອງ. ການຮຽນຮູ້ການເສີມສ້າງແບບເລິກເຊິ່ງ ໃຊ້ເຄືອຂ່າຍ neural ເປັນຕົວປະມານການທໍາງານເພື່ອໃຫ້ຕົວແທນສາມາດຮຽນຮູ້ວິທີການປະຕິບັດຂອງມະນຸດໃນສະພາບແວດລ້ອມທີ່ສັບສົນເຊັ່ນ: Go, Atari, ແລະ StarCraft II.

ເຖິງວ່າຈະມີຜົນສໍາເລັດນີ້, ການຮຽນຮູ້ເສີມຍັງບໍ່ໄດ້ຖືກນໍາໃຊ້ຢ່າງກວ້າງຂວາງກັບບັນຫາທີ່ແທ້ຈິງຂອງໂລກລວມທັງການປຸງແຕ່ງພາສາທໍາມະຊາດ (NLP).

ເປັນສ່ວນຫນຶ່ງຂອງຂ້ອຍ ຫຼັກສູດ MSc ໃນວິທະຍາສາດຂໍ້ມູນ, ພວກເຮົາສະແດງໃຫ້ເຫັນວິທີການ Deep RL ສາມາດນໍາໃຊ້ໄດ້ດີກວ່າວິທີການຮຽນຮູ້ທີ່ມີການຄວບຄຸມດູແລໃນການສ້າງ paraphrases ຂອງຂໍ້ຄວາມປ້ອນຂໍ້ມູນອັດຕະໂນມັດ. ບັນຫາຂອງການສ້າງ paraphrase ທີ່ດີທີ່ສຸດສາມາດເບິ່ງໄດ້ວ່າການຊອກຫາຊຸດຂອງຄໍາສັບຕ່າງໆທີ່ເຮັດໃຫ້ຄວາມຄ້າຍຄືກັນທາງ semantic ສູງສຸດລະຫວ່າງປະໂຫຍກໃນຂະນະທີ່ຮັກສາຄວາມຄ່ອງແຄ້ວໃນຜົນໄດ້ຮັບ. ຕົວແທນ RL ແມ່ນເຫມາະສົມດີສໍາລັບການຊອກຫາຊຸດການປະຕິບັດທີ່ດີທີ່ສຸດເພື່ອບັນລຸລາງວັນສູງສຸດທີ່ຄາດວ່າຈະຢູ່ໃນສະພາບແວດລ້ອມການຄວບຄຸມ.

ໃນທາງກົງກັນຂ້າມກັບບັນຫາສ່ວນໃຫຍ່ໃນການຮຽນຮູ້ເຄື່ອງຈັກ, ບັນຫາທີ່ໃຫຍ່ທີ່ສຸດໃນຄໍາຮ້ອງສະຫມັກ Natural Language Generation (NLG) ສ່ວນໃຫຍ່ບໍ່ໄດ້ຢູ່ໃນການສ້າງແບບຈໍາລອງແຕ່ແທນທີ່ຈະຢູ່ໃນການປະເມີນຜົນ. ໃນຂະນະທີ່ການປະເມີນຜົນຂອງມະນຸດປະຈຸບັນຖືວ່າເປັນມາດຕະຖານຄໍາໃນການປະເມີນ NLG, ມັນປະສົບກັບຂໍ້ເສຍທີ່ສໍາຄັນລວມທັງລາຄາແພງ, ໃຊ້ເວລາຫຼາຍ, ສິ່ງທ້າທາຍທີ່ຈະປບັ, ແລະຂາດການສືບພັນໃນການທົດລອງແລະຊຸດຂໍ້ມູນ. (ຮັນ, 2016). ດັ່ງນັ້ນ, ນັກຄົ້ນຄວ້າໄດ້ຊອກຫາຕົວຊີ້ວັດອັດຕະໂນມັດເປັນເວລາດົນນານ, ເຊິ່ງແມ່ນງ່າຍດາຍ, ໂດຍທົ່ວໄປ, ແລະສະທ້ອນໃຫ້ເຫັນເຖິງການຕັດສິນຂອງມະນຸດ. (Papineni et al., 2002).

ວິທີການປະເມີນອັດຕະໂນມັດທົ່ວໄປທີ່ສຸດໃນການປະເມີນຄໍາບັນຍາຍຮູບພາບທີ່ຜະລິດໂດຍເຄື່ອງຈັກໄດ້ຖືກສະຫຼຸບຂ້າງລຸ່ມນີ້ດ້ວຍຂໍ້ດີແລະຂໍ້ເສຍຂອງພວກມັນ:

ການສ້າງ Paraphrase ໂດຍໃຊ້ທໍ່ການຮຽນຮູ້ການເສີມສ້າງ

ພວກເຮົາໄດ້ພັດທະນາລະບົບທີ່ມີຊື່ ParaPhrasee ເຊິ່ງສ້າງ paraphrases ທີ່ມີຄຸນນະພາບສູງ. ລະບົບປະກອບດ້ວຍຫຼາຍຂັ້ນຕອນເພື່ອນໍາໃຊ້ການຮຽນຮູ້ເສີມໃນວິທີການຄອມພິວເຕີທີ່ມີປະສິດທິພາບ. ບົດສະຫຼຸບສັ້ນໆຂອງທໍ່ລະດັບສູງແມ່ນສະແດງໃຫ້ເຫັນຂ້າງລຸ່ມນີ້ໂດຍມີລາຍລະອຽດເພີ່ມເຕີມທີ່ມີຢູ່ໃນ thesis.

Dataset

ມີຫຼາຍຊຸດຂໍ້ມູນ paraphrase ທີ່ມີຢູ່ທີ່ຖືກນໍາໃຊ້ໃນການຄົ້ນຄວ້າລວມທັງ: ໄດ້ Microsoft Paraphrase corpus, ການແຂ່ງຂັນຄວາມຄ້າຍຄືກັນຂອງຂໍ້ຄວາມ Semantic ຂອງ ACL, Quora ຄໍາຖາມຊ້ໍາກັນ, ແລະ Twitter ແບ່ງປັນລິ້ງຄ໌. ພວກເຮົາໄດ້ເລືອກ MS-COCO ໂດຍໃຫ້ຂະຫນາດ, ຄວາມສະອາດ, ແລະນໍາໃຊ້ເປັນມາດຕະຖານສໍາລັບສອງເອກະສານການຜະລິດ paraphrase ທີ່ຫນ້າສັງເກດ. MS-COCO ປະກອບມີ 120k ຮູບພາບຂອງ scenes ທົ່ວໄປທີ່ມີ 5 ຄໍາບັນຍາຍຮູບພາບຕໍ່ຮູບພາບທີ່ສະຫນອງໃຫ້ໂດຍ 5 ຄໍາບັນຍາຍຂອງມະນຸດທີ່ແຕກຕ່າງກັນ.

ໃນຂະນະທີ່ມັນຖືກອອກແບບມາເປັນຕົ້ນຕໍສໍາລັບການຄົ້ນຄ້ວາວິໄສທັດຄອມພິວເຕີ, ຄໍາບັນຍາຍມີແນວໂນ້ມທີ່ຈະມີຄວາມຄ້າຍຄືກັນ semantic ສູງແລະເປັນ paraphrases ທີ່ຫນ້າສົນໃຈ. ເນື່ອງຈາກຄໍາບັນຍາຍຮູບພາບແມ່ນສະຫນອງໃຫ້ໂດຍຄົນທີ່ແຕກຕ່າງກັນ, ພວກເຂົາເຈົ້າມີແນວໂນ້ມທີ່ຈະມີການປ່ຽນແປງເລັກນ້ອຍໃນລາຍລະອຽດສະຫນອງໃຫ້ຢູ່ໃນ scene ດັ່ງນັ້ນປະໂຫຍກທີ່ສ້າງຂຶ້ນມີແນວໂນ້ມທີ່ຈະໃຫ້ລາຍລະອຽດ hallucinate.

ຕົວແບບຄວບຄຸມ

ໃນຂະນະທີ່ການຮຽນຮູ້ການເສີມກໍາລັງໄດ້ຮັບການປັບປຸງຢ່າງຫຼວງຫຼາຍໃນແງ່ຂອງປະສິດທິພາບຕົວຢ່າງ, ເວລາການຝຶກອົບຮົມ, ແລະການປະຕິບັດທີ່ດີທີ່ສຸດໂດຍລວມ, ການຝຶກອົບຮົມແບບ RL ຈາກຈຸດເລີ່ມຕົ້ນແມ່ນຍັງຊ້າຫຼາຍແລະບໍ່ຫມັ້ນຄົງ. (Arulkumaran et al., 2017). ເພາະສະນັ້ນ, ແທນທີ່ຈະຝຶກອົບຮົມຈາກຈຸດເລີ່ມຕົ້ນ, ພວກເຮົາທໍາອິດຝຶກອົບຮົມຮູບແບບທີ່ມີການເບິ່ງແຍງແລະຫຼັງຈາກນັ້ນປັບມັນໂດຍໃຊ້ RL.

ພວກເຮົາໃຊ້ an ຕົວເຂົ້າລະຫັດ-ຖອດລະຫັດ ໂຄງຮ່າງການຕົວແບບ ແລະ ປະເມີນຜົນການປະຕິບັດຂອງຫຼາຍຕົວແບບທີ່ຄວບຄຸມໂດຍພື້ນຖານ. ເມື່ອປັບຕົວແບບໂດຍໃຊ້ RL, ພວກເຮົາພຽງແຕ່ປັບເຄືອຂ່າຍຕົວຖອດລະຫັດ ແລະປະຕິບັດຕໍ່ເຄືອຂ່າຍຕົວເຂົ້າລະຫັດແບບຄົງທີ່. ດັ່ງນັ້ນ, ພວກເຮົາພິຈາລະນາສອງກອບຕົ້ນຕໍ:

  • ຝຶກ​ອົບ​ຮົມ​ຮູບ​ແບບ​ການ​ຄວບ​ຄຸມ​ແຕ່​ຕົ້ນ​ໂດຍ​ການ​ນໍາ​ໃຊ້​ມາດ​ຕະ​ຖານ / ການ​ເຂົ້າ​ລະ​ຫັດ vanilla encoder ກັບ GRUs​
  • ການ​ນໍາ​ໃຊ້​ຕົວ​ແບບ​ການ​ຝັງ​ປະ​ໂຫຍກ​ທີ່​ໄດ້​ຮັບ​ການ​ຝຶກ​ອົບ​ຮົມ​ສໍາ​ລັບ​ການ​ເຂົ້າ​ລະ​ຫັດ​ລວມ​ມີ​: ການ​ຝັງ​ຄໍາ​ລວມ (GloVe​)​, InferSent​, ແລະ BERT

ຮູບແບບທີ່ມີການເບິ່ງແຍງມີແນວໂນ້ມທີ່ຈະປະຕິບັດຄ້າຍຄືກັນໃນທົ່ວຕົວແບບທີ່ມີ BERT ແລະຕົວຖອດລະຫັດ vanilla ເພື່ອບັນລຸປະສິດທິພາບທີ່ດີທີ່ສຸດ.

ໃນຂະນະທີ່ການປະຕິບັດມີແນວໂນ້ມທີ່ຈະສົມເຫດສົມຜົນ, ມີສາມແຫຼ່ງຄວາມຜິດພາດທົ່ວໄປ: stuttering, ການສ້າງຊິ້ນປະໂຫຍກ, ແລະ hallucinations. ເຫຼົ່ານີ້ແມ່ນບັນຫາຕົ້ນຕໍທີ່ການນໍາໃຊ້ RL ມີຈຸດປະສົງເພື່ອແກ້ໄຂ.

ຮູບແບບການຮຽນຮູ້ເສີມ

ການປະຕິບັດ RL algorithms ແມ່ນສິ່ງທ້າທາຍຫຼາຍໂດຍສະເພາະໃນເວລາທີ່ທ່ານບໍ່ຮູ້ວ່າບັນຫາສາມາດແກ້ໄຂໄດ້. ອາດຈະມີບັນຫາໃນການປະຕິບັດສະພາບແວດລ້ອມຂອງທ່ານ, ຕົວແທນຂອງທ່ານ, hyperparameters ຂອງທ່ານ, ຫນ້າທີ່ລາງວັນຂອງທ່ານ, ຫຼືການປະສົມປະສານຂອງສິ່ງຂ້າງເທິງທັງຫມົດ! ບັນຫາເຫຼົ່ານີ້ແມ່ນ exacerbated ໃນເວລາທີ່ເຮັດ RL ເລິກຕາມທີ່ທ່ານໄດ້ຮັບຄວາມມ່ວນຂອງຄວາມສັບສົນເພີ່ມເຕີມຂອງ debugging ເຄືອຂ່າຍ neural.

ເຊັ່ນດຽວກັນກັບການດີບັກທັງຫມົດ, ມັນເປັນສິ່ງສໍາຄັນທີ່ຈະ ເລີ່ມງ່າຍດາຍ. ພວກເຮົາໄດ້ປະຕິບັດການປ່ຽນແປງຂອງສອງສະພາບແວດລ້ອມ RL ຂອງຫຼິ້ນທີ່ເຂົ້າໃຈດີ (CartPole ແລະ FrozenLake) ເພື່ອທົດສອບ RL algorithms ແລະຊອກຫາກົນລະຍຸດທີ່ສາມາດເຮັດຊ້ໍາໄດ້ສໍາລັບການໂອນຄວາມຮູ້ຈາກຕົວແບບທີ່ມີການເບິ່ງແຍງ.

ພວກເຮົາພົບເຫັນວ່າການນໍາໃຊ້ ຂັ້ນຕອນການວິຈານນັກສະແດງ ປະສິດທິພາບດີກວ່າ REINFORCE ໃນສະພາບແວດລ້ອມເຫຼົ່ານີ້. ໃນແງ່ຂອງການຖ່າຍທອດຄວາມຮູ້ໃຫ້ແກ່ຕົວແບບນັກສະແດງ-ນັກວິຈານ, ພວກເຮົາພົບເຫັນວ່າການເລີ່ມຕົ້ນນ້ໍາຫນັກຂອງນັກສະແດງດ້ວຍແບບຈໍາລອງທີ່ໄດ້ຮັບການຝຶກອົບຮົມແລະ pretraining ນັກວິພາກວິຈານບັນລຸຜົນທີ່ດີທີ່ສຸດ. ພວກເຮົາພົບວ່າມັນມີຄວາມທ້າທາຍທີ່ຈະໂດຍທົ່ວໄປວິທີການກັ່ນທາດນະໂຍບາຍທີ່ຊັບຊ້ອນກັບສະພາບແວດລ້ອມໃຫມ່ຍ້ອນວ່າພວກເຂົາແນະນໍາ hyperparameters ໃຫມ່ຈໍານວນຫຼາຍທີ່ຮຽກຮ້ອງໃຫ້ມີການປັບແຕ່ງເພື່ອເຮັດວຽກ.

ໄດ້ຮັບການສະຫນັບສະຫນູນຈາກຄວາມເຂົ້າໃຈເຫຼົ່ານີ້, ຫຼັງຈາກນັ້ນພວກເຮົາຫັນໄປຫາການພັດທະນາວິທີການສໍາລັບວຽກງານການຜະລິດ paraphrase. ກ່ອນອື່ນ ໝົດ ພວກເຮົາຕ້ອງສ້າງສະພາບແວດລ້ອມ.

ສະພາບແວດລ້ອມອະນຸຍາດໃຫ້ພວກເຮົາໄດ້ຢ່າງງ່າຍດາຍທົດສອບຜົນກະທົບຂອງການນໍາໃຊ້ metrics ການປະເມີນຜົນທີ່ແຕກຕ່າງກັນເປັນຫນ້າທີ່ລາງວັນ.

ຫຼັງຈາກນັ້ນ, ພວກເຮົາກໍານົດຕົວແທນ, ເນື່ອງຈາກຂໍ້ໄດ້ປຽບຫຼາຍຂອງມັນທີ່ພວກເຮົາໃຊ້ສະຖາປັດຕະຍະກໍານັກສະແດງ-ນັກວິຈານ. ນັກສະແດງຖືກນໍາໃຊ້ເພື່ອເລືອກຄໍາຕໍ່ໄປໃນລໍາດັບແລະມີນ້ໍາຫນັກຂອງມັນໃນເບື້ອງຕົ້ນໂດຍໃຊ້ຕົວແບບທີ່ມີການເບິ່ງແຍງ. ນັກວິຈານໃຫ້ການຄາດຄະເນກ່ຽວກັບລາງວັນທີ່ຄາດໄວ້ທີ່ລັດມີແນວໂນ້ມທີ່ຈະໄດ້ຮັບເພື່ອຊ່ວຍໃຫ້ນັກສະແດງຮຽນຮູ້.

ການອອກແບບຫນ້າທີ່ລາງວັນທີ່ເຫມາະສົມ

ອົງປະກອບທີ່ສໍາຄັນທີ່ສຸດຂອງການອອກແບບລະບົບ RL ແມ່ນຫນ້າທີ່ຂອງລາງວັນເພາະວ່ານີ້ແມ່ນສິ່ງທີ່ຕົວແທນ RL ກໍາລັງພະຍາຍາມເພີ່ມປະສິດທິພາບ. ຖ້າການທໍາງານຂອງລາງວັນບໍ່ຖືກຕ້ອງ, ຜົນໄດ້ຮັບຈະທົນທຸກເຖິງແມ່ນວ່າທຸກພາກສ່ວນອື່ນໆຂອງລະບົບຈະເຮັດວຽກ!

ຕົວຢ່າງຄລາສສິກຂອງເລື່ອງນີ້ແມ່ນ CoastRunners ບ່ອນທີ່ນັກຄົ້ນຄວ້າ OpenAI ກໍານົດຫນ້າທີ່ລາງວັນເປັນການເພີ່ມຄະແນນລວມສູງສຸດແທນທີ່ຈະຊະນະການແຂ່ງຂັນ. ຜົນໄດ້ຮັບຂອງການນີ້ແມ່ນຕົວແທນໄດ້ຄົ້ນພົບ loop ບ່ອນທີ່ມັນສາມາດໄດ້ຮັບຄະແນນສູງສຸດໂດຍການກົດແປ້ນພິມ turbos ໂດຍບໍ່ເຄີຍສໍາເລັດການແຂ່ງຂັນ.

ເນື່ອງຈາກການປະເມີນຄຸນນະພາບຂອງ paraphrases ແມ່ນຕົວຂອງມັນເອງເປັນບັນຫາທີ່ບໍ່ໄດ້ຮັບການແກ້ໄຂ, ການອອກແບບຫນ້າທີ່ໃຫ້ລາງວັນທີ່ອັດຕະໂນມັດຈັບຈຸດປະສົງນີ້ແມ່ນຍາກກວ່າ. ລັກສະນະສ່ວນໃຫຍ່ຂອງພາສາບໍ່ໄດ້ decompose ງາມເຂົ້າໄປໃນ metrics ເສັ້ນແລະແມ່ນຂຶ້ນກັບວຽກງານ (Novikova et al., 2017).

ຕົວແທນ RL ມັກຈະຄົ້ນພົບກົນລະຍຸດທີ່ຫນ້າສົນໃຈເພື່ອເພີ່ມລາງວັນທີ່ຂຸດຄົ້ນຈຸດອ່ອນໃນ metric ການປະເມີນຜົນແທນທີ່ຈະສ້າງຂໍ້ຄວາມທີ່ມີຄຸນນະພາບສູງ. ນີ້ມີແນວໂນ້ມທີ່ຈະສົ່ງຜົນໃຫ້ການປະຕິບັດທີ່ບໍ່ດີຕໍ່ metrics ທີ່ຕົວແທນບໍ່ໄດ້ເພີ່ມປະສິດທິພາບໂດຍກົງ.

ພວກເຮົາພິຈາລະນາສາມວິທີການຕົ້ນຕໍ:

  1. ຕົວວັດແທກການທັບຊ້ອນກັນຂອງຄຳ

metrics ການປະເມີນຜົນ NLP ທົ່ວໄປພິຈາລະນາອັດຕາສ່ວນຂອງຄໍາທີ່ທັບຊ້ອນກັນລະຫວ່າງ paraphrase ທີ່ສ້າງຂຶ້ນແລະປະໂຫຍກການປະເມີນຜົນ. ການ​ທັບ​ຊ້ອນ​ກັນ​ຫຼາຍ​ຂຶ້ນ​ກໍ​ໄດ້​ຮັບ​ລາງ​ວັນ​ຫຼາຍ​ຂຶ້ນ. ສິ່ງທ້າທາຍກັບວິທີການລະດັບຄໍາສັບແມ່ນຕົວແທນປະກອບມີຄໍາສັບທີ່ເຊື່ອມຕໍ່ຫຼາຍເກີນໄປເຊັ່ນ "a is on" ແລະບໍ່ມີການວັດແທກຄວາມຄ່ອງແຄ້ວ. ອັນນີ້ສົ່ງຜົນໃຫ້ມີຄໍາຫຍໍ້ທີ່ມີຄຸນນະພາບຕໍ່າຫຼາຍ.

  1. ຄວາມຄ້າຍຄືກັນໃນລະດັບປະໂຫຍກ ແລະ ວັດແທກຄວາມຄ່ອງແຄ້ວ

ຄຸນສົມບັດຕົ້ນຕໍຂອງ paraphrase ທີ່ສ້າງຂຶ້ນແມ່ນວ່າມັນຕ້ອງມີຄວາມຄ່ອງແຄ້ວແລະມີຄວາມຄ້າຍຄືກັນກັບປະໂຫຍກທີ່ປ້ອນເຂົ້າ. ດັ່ງນັ້ນ, ພວກເຮົາພະຍາຍາມໃຫ້ຄະແນນເຫຼົ່ານີ້ເປັນສ່ວນບຸກຄົນຢ່າງຈະແຈ້ງແລ້ວສົມທົບການວັດແທກ. ສໍາລັບຄວາມຄ້າຍຄືກັນ semantic, ພວກເຮົາໃຊ້ຄວາມຄ້າຍຄືກັນຂອງ cosine ລະຫວ່າງການຝັງປະໂຫຍກຈາກແບບຈໍາລອງທີ່ໄດ້ຝຶກອົບຮົມລວມທັງ BERT. ເພື່ອຄວາມຄ່ອງແຄ້ວ, ພວກເຮົາໃຊ້ຄະແນນໂດຍອີງໃສ່ຄວາມສັບສົນຂອງປະໂຫຍກຈາກ GPT-2. ຄວາມຄ້າຍຄືກັນຂອງ cosine ແລະຄວາມຄ່ອງແຄ້ວຫຼາຍຍິ່ງເຮັດໃຫ້ລາງວັນຫຼາຍຂື້ນ.

ພວກເຮົາໄດ້ພະຍາຍາມປະສົມປະສານທີ່ແຕກຕ່າງກັນຫຼາຍຂອງແບບຈໍາລອງການຝັງຕົວຂອງປະໂຫຍກແລະແບບຈໍາລອງຄວາມຄ່ອງແຄ້ວແລະໃນຂະນະທີ່ການປະຕິບັດແມ່ນສົມເຫດສົມຜົນ, ບັນຫາຕົ້ນຕໍທີ່ຕົວແທນປະເຊີນຫນ້າແມ່ນບໍ່ມີການດຸ່ນດ່ຽງຄວາມຄ້າຍຄືກັນຂອງ semantic ຢ່າງພຽງພໍກັບຄວາມຄ່ອງແຄ້ວ. ສໍາລັບການຕັ້ງຄ່າສ່ວນໃຫຍ່, ຕົວແທນໄດ້ຈັດລໍາດັບຄວາມສໍາຄັນຂອງຄວາມຄ່ອງແຄ້ວທີ່ເຮັດໃຫ້ເກີດການຖອນລາຍລະອຽດແລະຫນ່ວຍງານສ່ວນໃຫຍ່ຖືກວາງໄວ້ "ກາງ" ຂອງບາງສິ່ງບາງຢ່າງຫຼືຖືກຍ້າຍໄປ "ຢູ່ເທິງໂຕະ" ຫຼື "ຂ້າງຖະຫນົນ".

ການຮຽນຮູ້ການເສີມສ້າງຫຼາຍຈຸດປະສົງແມ່ນເປັນຄໍາຖາມການຄົ້ນຄວ້າທີ່ເປີດກວ້າງ ແລະມີຄວາມທ້າທາຍຫຼາຍໃນກໍລະນີນີ້.

  1. ການ​ນໍາ​ໃຊ້​ຕົວ​ແບບ​ການ​ປົກ​ຄອງ​ເປັນ​ຫນ້າ​ທີ່​ຂອງ​ລາງ​ວັນ​

ເນື່ອງຈາກມະນຸດຖືວ່າເປັນມາດຕະຖານຄໍາໃນການປະເມີນ, ພວກເຮົາຝຶກອົບຮົມຮູບແບບແຍກຕ່າງຫາກທີ່ເອີ້ນວ່າຜູ້ຈໍາແນກເພື່ອຄາດຄະເນວ່າສອງປະໂຫຍກແມ່ນຄໍາຫຍໍ້ຂອງກັນແລະກັນ (ຄ້າຍຄືກັນກັບວິທີທີ່ມະນຸດຈະປະເມີນ). ເປົ້າໝາຍຂອງແບບຈຳລອງ RL ແມ່ນເພື່ອຊັກຊວນໃຫ້ຕົວແບບນີ້ວ່າປະໂຫຍກທີ່ສ້າງຂຶ້ນແມ່ນເປັນຄຳຫຍໍ້ຂອງການປ້ອນຂໍ້ມູນ. ຜູ້ຈໍາແນກສ້າງຄະແນນວ່າທັງສອງປະໂຫຍກຈະເປັນຕົວຫຍໍ້ຂອງກັນແລະກັນທີ່ຖືກນໍາໃຊ້ເປັນລາງວັນໃນການຝຶກອົບຮົມຕົວແທນ.

ທຸກໆ 5,000 ການຄາດເດົາຜູ້ຈໍາແນກໄດ້ຖືກບອກວ່າຄໍາຫຍໍ້ມາຈາກຊຸດຂໍ້ມູນໃດແລະອັນໃດຖືກສ້າງຂື້ນເພື່ອໃຫ້ມັນສາມາດປັບປຸງການຄາດເດົາໃນອະນາຄົດຂອງມັນ. ຂະບວນການດັ່ງກ່າວຍັງສືບຕໍ່ຫຼາຍຮອບກັບຕົວແທນທີ່ພະຍາຍາມຫຼອກລວງຜູ້ຈໍາແນກແລະຜູ້ຈໍາແນກທີ່ພະຍາຍາມແຍກຄວາມແຕກຕ່າງລະຫວ່າງຄໍາອຸປະມາທີ່ສ້າງຂຶ້ນແລະຄໍາບັນຍາຍການປະເມີນຜົນຈາກຊຸດຂໍ້ມູນ.

ຫຼັງຈາກການຝຶກອົບຮົມຫຼາຍໆຮອບ, ຕົວແທນຈະສ້າງຄໍາຫຍໍ້ທີ່ປະຕິບັດໄດ້ດີກວ່າແບບຈໍາລອງທີ່ມີການເບິ່ງແຍງແລະຫນ້າທີ່ລາງວັນອື່ນໆ.

ສະຫຼຸບແລະຂໍ້ຈໍາກັດ

ວິທີການທີ່ເປັນສັດຕູ (ລວມທັງການຫຼິ້ນດ້ວຍຕົນເອງສໍາລັບເກມ) ສະຫນອງວິທີການທີ່ມີທ່າແຮງທີ່ສຸດສໍາລັບການຝຶກອົບຮົມ RL algorithms ໃຫ້ເກີນການປະຕິບັດລະດັບຂອງມະນຸດໃນບາງວຽກງານໂດຍບໍ່ມີການກໍານົດຫນ້າທີ່ລາງວັນຢ່າງຊັດເຈນ.

ໃນຂະນະທີ່ RL ສາມາດປະຕິບັດໄດ້ດີກວ່າການຮຽນຮູ້ທີ່ມີການຊີ້ນໍາໃນຕົວຢ່າງນີ້, ຈໍານວນສ່ວນເກີນພິເສດໃນຂໍ້ກໍານົດຂອງລະຫັດ, ຄອມພິວເຕີ້, ແລະຄວາມຊັບຊ້ອນແມ່ນບໍ່ຄຸ້ມຄ່າກັບການປະຕິບັດສໍາລັບຄໍາຮ້ອງສະຫມັກສ່ວນໃຫຍ່. RL ຖືກປະໄວ້ດີທີ່ສຸດໃນສະຖານະການທີ່ການຮຽນຮູ້ທີ່ມີການເບິ່ງແຍງບໍ່ສາມາດຖືກນໍາໃຊ້ໄດ້ງ່າຍ, ແລະຟັງຊັນລາງວັນແມ່ນງ່າຍທີ່ຈະກໍານົດ (ເຊັ່ນ: ເກມ Atari). ວິທີການແລະສູດການຄິດໄລ່ແມ່ນມີຄວາມແກ່ຍາວຫຼາຍໃນການຮຽນຮູ້ທີ່ມີການເບິ່ງແຍງແລະສັນຍານຄວາມຜິດພາດແມ່ນເຂັ້ມແຂງຫຼາຍເຊິ່ງສົ່ງຜົນໃຫ້ການຝຶກອົບຮົມໄວແລະມີຄວາມຫມັ້ນຄົງຫຼາຍ.

ການພິຈາລະນາອີກຢ່າງຫນຶ່ງແມ່ນ, ເຊັ່ນດຽວກັນກັບວິທີການ neural ອື່ນໆ, ທີ່ຕົວແທນສາມາດລົ້ມເຫລວຢ່າງຫຼວງຫຼາຍໃນກໍລະນີທີ່ວັດສະດຸປ້ອນແຕກຕ່າງຈາກວັດສະດຸປ້ອນທີ່ມັນເຄີຍເຫັນກ່ອນຫນ້ານີ້, ຮຽກຮ້ອງໃຫ້ມີການກວດສອບສຸຂະພາບເພີ່ມເຕີມສໍາລັບການນໍາໃຊ້ການຜະລິດ.

ການລະເບີດຂອງຄວາມສົນໃຈໃນວິທີການ RL ແລະຄວາມກ້າວຫນ້າໃນໂຄງສ້າງພື້ນຖານຂອງຄອມພິວເຕີ້ໃນສອງສາມປີຜ່ານມາຈະປົດລັອກໂອກາດອັນໃຫຍ່ຫຼວງສໍາລັບການນໍາໃຊ້ RL ໃນອຸດສາຫະກໍາ, ໂດຍສະເພາະພາຍໃນ NLP.

Andrew Gibbs-Bravo ເປັນນັກວິທະຍາສາດຂໍ້ມູນຢູ່ ພະເຈົ້າ ໄດ້ສຸມໃສ່ການປັບປຸງເຕັກໂນໂລຢີທີ່ຢູ່ເບື້ອງຫຼັງການຂຽນສໍາເນົາ AI-Powered ຊັ້ນນໍາຂອງໂລກຂອງ Phrasee. ລາວຍັງເປັນຜູ້ຮ່ວມຈັດກອງປະຊຸມການເສີມສ້າງການຮຽນຮູ້ຊຸມຊົນໃນລອນດອນ ແລະມີຄວາມສົນໃຈໃນທຸກສິ່ງຂອງ RL, NLP, ແລະການຮຽນຮູ້ເຄື່ອງຈັກ.