ປັນຍາປະດິດ

ການຕໍ່ສູ້ເພື່ອຢຸດ AI ຈາກການຫຼອກລວງໃນການທົດສອບ

ການປັບປຸງ on ເດືອນທັນວາ 9, 2022

ຜົນການວິໄຈໃໝ່ຈາກມະຫາວິທະຍາໄລແຫ່ງໜຶ່ງຂອງຈີນ ສະເໜີໃຫ້ຄວາມເຂົ້າໃຈວ່າເປັນຫຍັງຕົວແບບການປຸງແຕ່ງພາສາທຳມະຊາດເຊັ່ນ GPT-3 ມັກຈະ “ຫຼອກລວງ” ເມື່ອຖືກຖາມຄຳຖາມທີ່ຍາກ, ຜະລິດຄຳຕອບທີ່ອາດຈະຖືກຕ້ອງທາງເທັກນິກ, ແຕ່ບໍ່ມີຄວາມເຂົ້າໃຈແທ້ໆ. ເປັນຫຍັງ ຄໍາຕອບແມ່ນຖືກຕ້ອງ; ແລະເປັນຫຍັງພວກເຂົາຈຶ່ງສະແດງໃຫ້ເຫັນຄວາມສາມາດພຽງເລັກນ້ອຍຫຼືບໍ່ມີເຫດຜົນເພື່ອອະທິບາຍເຫດຜົນທີ່ຢູ່ເບື້ອງຫຼັງຄໍາຕອບ 'ງ່າຍ' ຂອງພວກເຂົາ. ນັກຄົ້ນຄວ້າຍັງໄດ້ສະເຫນີວິທີການໃຫມ່ບາງຢ່າງເພື່ອເຮັດໃຫ້ລະບົບ "ສຶກສາຍາກ" ໃນໄລຍະການຝຶກອົບຮົມ.

ບັນຫາມີສອງຢ່າງ: ກ່ອນອື່ນໝົດ, ພວກເຮົາອອກແບບລະບົບທີ່ພະຍາຍາມບັນລຸຜົນໄດ້ໄວ ແລະ ນຳໃຊ້ຊັບພະຍາກອນໃຫ້ເໝາະສົມ. ເຖິງແມ່ນວ່າ, ເຊັ່ນດຽວກັນກັບ GPT-3, ຊັບພະຍາກອນອາດຈະຫຼາຍກ່ວາໂຄງການຄົ້ນຄ້ວາ NLP ໂດຍສະເລ່ຍສາມາດເກັບກໍາໄດ້, ວັດທະນະທໍາຂອງການເພີ່ມປະສິດທິພາບທີ່ຂັບເຄື່ອນໂດຍຜົນໄດ້ຮັບນີ້ຍັງແຜ່ຂະຫຍາຍວິທີການ, ເນື່ອງຈາກວ່າມັນໄດ້ມາຄອບຄຸມສົນທິສັນຍາທາງວິຊາການ.

ດັ່ງນັ້ນ, ສະຖາປັດຕະຍະກໍາການຝຶກອົບຮົມຂອງພວກເຮົາໃຫ້ລາງວັນແບບຈໍາລອງທີ່ປະສົມປະສານຢ່າງໄວວາແລະຜະລິດຄໍາຕອບທີ່ເຫມາະສົມກັບຄໍາຖາມ, ເຖິງແມ່ນວ່າຮູບແບບ NLP ຕໍ່ມາບໍ່ສາມາດແກ້ໄຂການຕອບສະຫນອງຂອງມັນໄດ້, ຫຼືສະແດງໃຫ້ເຫັນວ່າມັນມາຮອດບົດສະຫຼຸບຂອງມັນໄດ້ແນວໃດ.

ເປັນການຕັ້ງໃຈຕົ້ນທີ່ຈະໂກງ

ອັນນີ້ເກີດຂຶ້ນຍ້ອນວ່າຕົວແບບຮຽນຮູ້ 'ການຕອບໂຕ້ທາງລັດ' ໃນໄລຍະການຝຶກອົບຮົມໄວກວ່າທີ່ມັນຮຽນຮູ້ປະເພດທີ່ຊັບຊ້ອນຂອງຄວາມຮູ້. ເນື່ອງຈາກຄວາມຖືກຕ້ອງເພີ່ມຂຶ້ນມັກຈະໄດ້ຮັບລາງວັນຢ່າງບໍ່ຢຸດຢັ້ງຕະຫຼອດການຝຶກອົບຮົມ, ຮູບແບບດັ່ງກ່າວຈຶ່ງຈັດລໍາດັບຄວາມສໍາຄັນຂອງວິທີການທີ່ຈະໃຫ້ມັນຕອບຄໍາຖາມ 'glibly', ແລະບໍ່ມີຄວາມເຂົ້າໃຈທີ່ແທ້ຈິງ.

ນັບຕັ້ງແຕ່ການຮຽນຮູ້ທາງລັດ inevitably ຈະເປັນຕົວແທນຂອງ ຄັ້ງທໍາອິດ ຜົນສໍາເລັດໃນໄລຍະການຝຶກອົບຮົມ, ໂດຍທໍາມະຊາດມີແນວໂນ້ມທີ່ຈະຢູ່ຫ່າງຈາກວຽກງານທີ່ມີຄວາມຫຍຸ້ງຍາກຫຼາຍຂອງການໄດ້ຮັບທັດສະນະ epistemological ທີ່ເປັນປະໂຫຍດແລະຄົບຖ້ວນສົມບູນ, ເຊິ່ງອາດຈະປະກອບດ້ວຍຊັ້ນສູງແລະຄວາມເຂົ້າໃຈຫຼາຍຂອງເຫດຜົນແລະເຫດຜົນ.

ການໃຫ້ອາຫານ AI ຄໍາຕອບ 'ງ່າຍ'

ບັນຫາທີສອງແມ່ນວ່າເຖິງແມ່ນວ່າການລິເລີ່ມການຄົ້ນຄວ້າທີ່ຜ່ານມາມີ ໄດ້ສຶກສາ ແນວໂນ້ມຂອງ AI ທີ່ຈະ 'ໂກງ' ໃນທາງນີ້, ແລະໄດ້ກໍານົດປະກົດການຂອງ 'ທາງລັດ', ມາຮອດປັດຈຸບັນບໍ່ມີຄວາມພະຍາຍາມທີ່ຈະຈັດປະເພດ 'ທາງລັດ'- ວັດສະດຸທີ່ອະນຸຍາດໃຫ້ຢູ່ໃນຊຸດຂໍ້ມູນປະກອບສ່ວນ, ເຊິ່ງຈະເປັນຂັ້ນຕອນທໍາອິດທີ່ມີເຫດຜົນໃນການແກ້ໄຂສິ່ງທີ່. ອາດຈະເປັນຂໍ້ບົກພ່ອງທາງຖາປັດຕະຍະພື້ນຖານໃນລະບົບການອ່ານຄວາມເຂົ້າໃຈຂອງເຄື່ອງຈັກ (MRC).

ໃຫມ່ ເຈ້ຍການຮ່ວມມືລະຫວ່າງສະຖາບັນເຕັກໂນໂລຊີຄອມພິວເຕີ Wangxuan ແລະຫ້ອງທົດລອງຫຼັກ MOE ຂອງພາສາຄອມພິວເຕີຂອງມະຫາວິທະຍາໄລປັກກິ່ງ, ການທົດສອບຮູບແບບພາສາທີ່ແຕກຕ່າງກັນ. ຊຸດຂໍ້ມູນປະກອບໃໝ່ ເຊິ່ງປະກອບມີການຈັດປະເພດສໍາລັບການແກ້ໄຂ 'ງ່າຍ' ແລະ 'ຍາກ' ຕໍ່ຄໍາຖາມທີ່ເປັນໄປໄດ້.

ທີ່ມາ: https://arxiv.org/pdf/2106.01024.pdf

ຊຸດຂໍ້ມູນໃຊ້ paraphrasing ເປັນເງື່ອນໄຂສໍາລັບຄໍາຕອບທີ່ສັບສົນແລະເລິກເຊິ່ງ, ເນື່ອງຈາກວ່າຄວາມເຂົ້າໃຈ semantic ແມ່ນມີຄວາມຈໍາເປັນເພື່ອປະຕິຮູບຄວາມຮູ້ທີ່ໄດ້ຮັບ. ໃນທາງກົງກັນຂ້າມ, ຄໍາຕອບ 'ທາງລັດ' ສາມາດໃຊ້ tokens ເຊັ່ນ: ວັນທີ, ແລະຄໍາ encapsulating ອື່ນໆ, ເພື່ອຜະລິດຄໍາຕອບທີ່ຖືກຕ້ອງຕາມຄວາມເປັນຈິງ, ແຕ່ບໍ່ມີສະພາບການຫຼືເຫດຜົນໃດໆ.

ອົງປະກອບທາງລັດຂອງຄໍາບັນຍາຍມີລັກສະນະການຈັບຄູ່ຄໍາຄໍາຖາມ (QWM) ແລະການຈັບຄູ່ແບບງ່າຍດາຍ (SpM). ສໍາລັບ QWM, ຮູບແບບດັ່ງກ່າວນໍາໃຊ້ຫນ່ວຍງານທີ່ສະກັດຈາກຂໍ້ມູນຂໍ້ຄວາມທີ່ສະຫນອງແລະສະພາບການ jettisons; ສໍາລັບ SpM, ຮູບແບບການກໍານົດການຊ້ອນກັນລະຫວ່າງປະໂຫຍກຕອບແລະຄໍາຖາມ, ທັງສອງແມ່ນສະຫນອງໃຫ້ຢູ່ໃນຂໍ້ມູນການຝຶກອົບຮົມ.

ຂໍ້ມູນທາງລັດເກືອບ 'Viral' ມີອິດທິພົນໃນຊຸດຂໍ້ມູນ

ນັກຄົ້ນຄວ້າໄດ້ໂຕ້ຖຽງວ່າຊຸດຂໍ້ມູນມີແນວໂນ້ມທີ່ຈະມີອັດຕາສ່ວນສູງຂອງຄໍາຖາມທາງລັດ, ເຊິ່ງເຮັດໃຫ້ແບບຈໍາລອງທີ່ໄດ້ຮັບການຝຶກອົບຮົມອີງໃສ່ tricks ທາງລັດ.

ສອງຕົວແບບທີ່ໃຊ້ໃນການທົດລອງແມ່ນ BiDAF ແລະຂອງກູໂກ ເບີ- ຖານ. ນັກຄົ້ນຄວ້າສັງເກດເຫັນວ່າເຖິງແມ່ນວ່າໃນເວລາທີ່ໄດ້ຮັບການຝຶກອົບຮົມກ່ຽວກັບການປ່ຽນແປງຊຸດຂໍ້ມູນທີ່ມີອັດຕາສ່ວນສູງກວ່າຄໍາຖາມ 'ຍາກ', ທັງສອງແບບຍັງປະຕິບັດໄດ້ດີກວ່າຄໍາຖາມທາງລັດກ່ວາຄໍາຖາມທີ່ຍາກກວ່າ, ເຖິງວ່າຈະມີຕົວຢ່າງຈໍານວນຫນ້ອຍໃນຊຸດຂໍ້ມູນ.

ນີ້ນໍາສະເຫນີ 'ຂໍ້ມູນທາງລັດ' ເກືອບຢູ່ໃນສະພາບການຂອງເຊື້ອໄວຣັສ - ວ່າມັນຈໍາເປັນຕ້ອງມີຢູ່ໃນຊຸດຂໍ້ມູນຫນ້ອຍຫຼາຍເພື່ອໃຫ້ມັນຖືກຮັບຮອງເອົາແລະຈັດລໍາດັບຄວາມສໍາຄັນໃນການຝຶກອົບຮົມ, ພາຍໃຕ້ມາດຕະຖານແລະການປະຕິບັດແບບດັ້ງເດີມໃນ NLP.

ພິສູດ Cheat ໄດ້

ວິທີການຫນຶ່ງທີ່ການຄົ້ນຄວ້າໃຊ້ເພື່ອພິສູດວ່າຄວາມອ່ອນແອຂອງຄໍາຕອບທາງລັດແມ່ນການທົດແທນຄໍາທີ່ 'ງ່າຍ' ສໍາລັບຄໍາທີ່ຜິດປົກກະຕິ. ບ່ອນທີ່ວິທີການທາງລັດໄດ້ຖືກນໍາໃຊ້, ເຫດຜົນຂອງການຕອບໂຕ້ 'ໂກງ' ບໍ່ສາມາດສະຫນອງໃຫ້; ແຕ່ບ່ອນທີ່ຄໍາຕອບໄດ້ຖືກສະຫນອງຈາກສະພາບການທີ່ເລິກເຊິ່ງແລະການປະເມີນຄວາມຫມາຍຂອງຂໍ້ຄວາມທີ່ກວ້າງຂວາງ, ມັນເປັນໄປໄດ້ສໍາລັບລະບົບທີ່ຈະທໍາລາຍຄວາມຜິດພາດແລະສ້າງຄໍາຕອບທີ່ຖືກຕ້ອງຄືນໃຫມ່.

ການປ່ຽນແທນ 'Beyoncé' (ຄົນ) ສໍາລັບ 'America' (ສະຖານທີ່), ເປີດເຜີຍວ່າຕົວແບບມີເຫດຜົນໃດໆສໍາລັບຄໍາຕອບຂອງມັນ.

ທາງລັດຍ້ອນຄວາມຈຳເປັນທາງເສດຖະກິດ

ກ່ຽວກັບເຫດຜົນທາງສະຖາປັດຕະຍະກໍາບາງອັນວ່າເປັນຫຍັງທາງລັດຈຶ່ງຖືກຈັດລໍາດັບຄວາມສໍາຄັນໃນຂະບວນການຝຶກອົບຮົມ NLP, ຜູ້ຂຽນຄໍາເຫັນ. 'ຕົວແບບ MRC ອາດຈະຮຽນຮູ້ວິທີທາງລັດ, ເຊັ່ນ QWM, ທີ່ມີຊັບພະຍາກອນການຄໍານວນຫນ້ອຍກວ່າຄວາມທ້າທາຍໃນຄວາມເຂົ້າໃຈ, ເຊັ່ນ: ການກໍານົດຕົວແປ'.

ດັ່ງນັ້ນ, ນີ້ອາດຈະເປັນຜົນມາຈາກການເພີ່ມປະສິດທິພາບມາດຕະຖານແລະປັດຊະຍາການຮັກສາຊັບພະຍາກອນທີ່ບໍ່ໄດ້ຕັ້ງໃຈໃນວິທີການຄວາມເຂົ້າໃຈໃນການອ່ານຂອງເຄື່ອງຈັກ, ແລະຄວາມກົດດັນທີ່ຈະໄດ້ຮັບຜົນໄດ້ຮັບທີ່ມີຊັບພະຍາກອນຈໍາກັດໃນຂອບເຂດເວລາທີ່ເຄັ່ງຄັດ.

ນັກຄົ້ນຄວ້າຍັງສັງເກດວ່າ:

'[ນັບຕັ້ງແຕ່] ເຄັດລັບທາງລັດສາມາດນໍາໃຊ້ເພື່ອຕອບຄໍາຖາມການຝຶກອົບຮົມສ່ວນໃຫຍ່ຢ່າງຖືກຕ້ອງ, ຄໍາຖາມທີ່ບໍ່ມີການແກ້ໄຂທີ່ຈໍາກັດທີ່ຍັງຄົງຢູ່ອາດຈະບໍ່ກະຕຸ້ນຕົວແບບເພື່ອຄົ້ນຫາວິທີແກ້ໄຂທີ່ຊັບຊ້ອນທີ່ຕ້ອງການທັກສະທີ່ທ້າທາຍ.'

ຖ້າຜົນໄດ້ຮັບຂອງເອກະສານຕໍ່ມາ, ມັນຈະປາກົດວ່າຂະແຫນງການການປຸງແຕ່ງຂໍ້ມູນທີ່ກວ້າງຂວາງແລະຂະຫຍາຍຕົວຢ່າງຕໍ່ເນື່ອງອາດຈະຕ້ອງພິຈາລະນາ 'cribs ທີ່ເຊື່ອງໄວ້' ໃນຂໍ້ມູນເປັນບັນຫາທີ່ຈະແກ້ໄຂໃນໄລຍະຍາວ, ຫຼືອື່ນ ໆ ປັບປຸງສະຖາປັດຕະຍະກໍາ NLP. ເພື່ອຈັດລໍາດັບຄວາມສໍາຄັນຂອງກິດຈະວັດທີ່ທ້າທາຍຫຼາຍຂຶ້ນສໍາລັບການນໍາເຂົ້າຂໍ້ມູນ.