ປັນຍາປະດິດ
ການສ້າງ Turks ກົນຈັກທຽມກັບຕົວແບບພາສາທີ່ໄດ້ຝຶກອົບຮົມ
ສ່ວນໃຫຍ່ຂອງການພັດທະນາລະບົບການຮຽນຮູ້ເຄື່ອງຈັກແມ່ນຂຶ້ນກັບການຕິດສະຫຼາກຂອງຂໍ້ມູນ, ບ່ອນທີ່ຫຼາຍຮ້ອຍຄົນ, ເຖິງແມ່ນວ່າຫຼາຍພັນຄໍາຖາມ (ເຊັ່ນ: ນີ້ແມ່ນຮູບແມວບໍ? ແລະ ຂໍ້ຄວາມນີ້ບໍ່ເໝາະສົມບໍ?) ຕ້ອງໄດ້ຮັບການແກ້ໄຂເພື່ອພັດທະນາຊຸດຂໍ້ມູນທີ່ມີອໍານາດທີ່ລະບົບ AI ຈະໄດ້ຮັບການຝຶກອົບຮົມ.
ເຖິງແມ່ນວ່າ ພວກເຮົາທຸກຄົນປະກອບສ່ວນ ຕໍ່ກັບຂະບວນການນີ້ໃນບາງຈຸດ, ວຽກງານການຕິດສະຫຼາກສ່ວນຫຼາຍແມ່ນ ປະຕິບັດສໍາລັບການເງິນ ໂດຍພະນັກງານຂອງມະນຸດຢູ່ໃນກອບເຊັ່ນ Amazon Mechanical Turk, ບ່ອນທີ່ຜູ້ບັນຍາຍເຮັດສໍາເລັດວຽກງານການຈັດປະເພດເລັກນ້ອຍໃນ ເສດຖະກິດສິ້ນ.
ການພັດທະນາແບບຈໍາລອງຈະມີລາຄາຖືກກວ່າຖ້າຕົວແບບພາສາທີ່ໄດ້ຝຶກອົບຮົມ (PLMs) ຢູ່ໃນຕົວຂອງມັນເອງສາມາດປະຕິບັດບາງວຽກງານຄວາມຮູ້ພື້ນຖານຂອງມະນຸດ (HITs) ໃນປະຈຸບັນກໍາລັງຖືກລວບລວມຢູ່ AMT ແລະ ເວທີທີ່ຄ້າຍຄືກັນ.
ການຄົ້ນຄວ້າທີ່ຜ່ານມາຈາກເຢຍລະມັນແລະ Huawei ສະເຫນີນີ້, ໃນ ເຈ້ຍ LMTurk: ນັກຮຽນທີ່ຖືກຍິງບໍ່ຫຼາຍປານໃດເປັນພະນັກງານທີ່ລະດົມແຫຼ່ງທຶນ.
ຮູບແບບພາສາທີ່ປະຕິບັດການຮຽນຮູ້ການຍິງບໍ່ຫຼາຍປານໃດ
ຜູ້ຂຽນແນະນໍາວ່າວຽກງານທີ່ງ່າຍດາຍກວ່າປົກກະຕິແນໃສ່ (ມະນຸດ) ຄົນງານ Turk ແມ່ນຄ້າຍຄືກັນກັບ. ການຮຽນຮູ້ການສັກຢາບໍ່ຫຼາຍປານໃດ, ບ່ອນທີ່ກອບອັດຕະໂນມັດຕ້ອງຕັດສິນໃຈ mini-task ໂດຍອີງໃສ່ຕົວຢ່າງຈໍານວນຫນ້ອຍທີ່ໃຫ້ມັນ.
ດັ່ງນັ້ນ, ພວກເຂົາຈຶ່ງສະເໜີໃຫ້ລະບົບ AI ສາມາດຮຽນຮູ້ໄດ້ຢ່າງມີປະສິດທິພາບຈາກ PLMs ທີ່ມີຢູ່ແລ້ວ ເຊິ່ງໄດ້ຮັບການຝຶກອົບຮົມຈາກຄົນງານຝູງຊົນໃນເບື້ອງຕົ້ນ - ວ່າຄວາມຮູ້ຫຼັກໆຈາກຄົນໄປສູ່ເຄື່ອງຈັກໄດ້ສຳເລັດຜົນແລ້ວ, ແລະວ່າຄວາມຮູ້ດັ່ງກ່າວຂ້ອນຂ້າງບໍ່ປ່ຽນແປງ ຫຼື ເຫັນໄດ້ຊັດເຈນໃນບາງທາງ, ພາສາອັດຕະໂນມັດ. ກອບຮູບແບບສາມາດປະຕິບັດວຽກງານເຫຼົ່ານີ້ຢູ່ໃນຕົວຂອງມັນເອງ.
'ແນວຄວາມຄິດພື້ນຖານຂອງພວກເຮົາແມ່ນວ່າ, ສໍາລັບວຽກງານ NLP T, ພວກເຮົາປະຕິບັດຕໍ່ຜູ້ຮຽນທີ່ຖືກຍິງບໍ່ຫຼາຍປານໃດເປັນພະນັກງານທີ່ບໍ່ແມ່ນຜູ້ຊ່ຽວຊານ, ຄ້າຍຄືກັບພະນັກງານທີ່ເກັບກໍາຂໍ້ມູນຈໍານວນຫລາຍທີ່ອະທິບາຍຊັບພະຍາກອນສໍາລັບເຕັກໂນໂລຢີພາສາຂອງມະນຸດ. ພວກເຮົາໄດ້ຮັບແຮງບັນດານໃຈຈາກຄວາມຈິງທີ່ວ່າພວກເຮົາສາມາດເບິ່ງຄົນງານທີ່ເກັບຂໍ້ມູນຈາກກຸ່ມຄົນເປັນປະເພດຂອງຜູ້ຮຽນຍິງບໍ່ຫຼາຍປານໃດ.'
ຜົນສະທ້ອນລວມເຖິງຄວາມເປັນໄປໄດ້ທີ່ຄວາມຈິງພື້ນຖານຫຼາຍຢ່າງທີ່ລະບົບ AI ຂອງອະນາຄົດແມ່ນໄດ້ມາຈາກມະນຸດໃນບາງປີກ່ອນ, ຫຼັງຈາກນັ້ນຖືກປະຕິບັດເປັນຂໍ້ມູນເບື້ອງຕົ້ນແລະສາມາດຂຸດຄົ້ນໄດ້ທີ່ບໍ່ຮຽກຮ້ອງໃຫ້ມີການແຊກແຊງຂອງມະນຸດອີກຕໍ່ໄປ.
ວຽກສຳລັບຕົວແບບພາສາລະດັບກາງ, ເຄິ່ງປະສິດທິພາບ
ນອກເໜືອໄປຈາກແຮງຈູງໃຈໃນການຫຼຸດຄ່າໃຊ້ຈ່າຍຂອງຄົນໃນວົງຈອນແລ້ວ, ນັກຄົ້ນຄວ້າແນະນຳວ່າການນຳໃຊ້ PLMs 'ລະດັບກາງ' ເປັນ ຈິງໆ Mechanical Turks ສະຫນອງການເຮັດວຽກທີ່ເປັນປະໂຫຍດສໍາລັບລະບົບ 'ຍັງແລ່ນ' ເຫຼົ່ານີ້, ເຊິ່ງນັບມື້ນັບຖືກມອງຂ້າມໂດຍຫົວຂໍ້ຂ່າວ, hyperscale ແລະແບບຈໍາລອງພາສາທີ່ມີລາຄາແພງເຊັ່ນ GPT-3, ເຊິ່ງລາຄາແພງເກີນໄປແລະເກີນຂອບເຂດສໍາລັບວຽກງານດັ່ງກ່າວ.
'ເປົ້າໝາຍຂອງພວກເຮົາໃນເອກະສານນີ້ແມ່ນເພື່ອສ້າງວິທີການທີ່ເຮັດໃຫ້ມີປະສິດທິຜົນຫຼາຍຂຶ້ນໃນການນໍາໃຊ້ຜູ້ຮຽນທີ່ບໍ່ຫຼາຍປານໃດໃນປັດຈຸບັນ. ນີ້ແມ່ນສິ່ງສໍາຄັນເພາະວ່າຈໍານວນຜູ້ຮຽນການສັກຢາຈໍານວນຫນ້ອຍທີ່ໃຫຍ່ຫຼວງໄດ້ຖືກຝຶກອົບຮົມ; ວິທີການນໍາໃຊ້ພວກມັນຢ່າງມີປະສິດທິພາບແມ່ນເປັນຄໍາຖາມທີ່ສໍາຄັນ. ໂດຍສະເພາະ, ພວກເຮົາຕ້ອງການທາງເລືອກທີ່ຍາກທີ່ຈະໃຊ້ຕົວແບບຂະຫນາດໃຫຍ່.
'ໃນເວລາດຽວກັນ, ພວກເຮົາຕ້ອງການໃຊ້ປະໂຫຍດຢ່າງເຕັມທີ່ຈາກຈຸດແຂງຂອງ PLMs: ຄວາມຍືດຫຍຸ່ນຂອງພວກເຂົາຮັບປະກັນການນໍາໃຊ້ຢ່າງກວ້າງຂວາງໃນທົ່ວວຽກງານ; ເກັບຮັກສາຄວາມຮູ້ອັນໃຫຍ່ຫຼວງຂອງເຂົາເຈົ້າກ່ຽວກັບພາສາແລະໂລກ (ຮຽນຮູ້ໃນ pretraining) manifests ໃນປະສິດທິພາບຂໍ້ມູນຂອງຜູ້ຮຽນການສັກຢາຈໍານວນຫນ້ອຍ, ການຫຼຸດຜ່ອນແຮງງານແລະການໃຊ້ເວລາໃນຄໍາບັນຍາຍຂໍ້ມູນ.'
ມາຮອດປະຈຸ, ຜູ້ຂຽນໄດ້ໂຕ້ຖຽງ, ນັກຮຽນທີ່ຖືກຍິງບໍ່ຫຼາຍປານໃດໃນ NLP ໄດ້ຖືກປະຕິບັດເປັນໄລຍະ interstitial ທີ່ຖືກຖິ້ມຢູ່ໃນເສັ້ນທາງໄປສູ່ລະບົບພາສາທໍາມະຊາດລະດັບສູງທີ່ມີຊັບພະຍາກອນຫຼາຍ, ແລະວຽກງານດັ່ງກ່າວໄດ້ຖືກປະຕິບັດຢ່າງບໍ່ມີຕົວຕົນແລະບໍ່ມີການພິຈາລະນາສໍາລັບ. ຜົນປະໂຫຍດທີ່ເປັນໄປໄດ້ຂອງລະບົບເຫຼົ່ານີ້.
ວິທີການ
ການສະເຫນີຂອງຜູ້ຂຽນ LMTurk (ຕົວແບບພາສາເປັນ Turk ກົນຈັກ), ໃນຂັ້ນຕອນການເຮັດວຽກທີ່ວັດສະດຸປ້ອນຈາກ HIT ອັດຕະໂນມັດນີ້ໃຫ້ປ້າຍກຳກັບສຳລັບຮູບແບບ NLP ລະດັບກາງ.
ການຢັ່ງຫາງສຽງຄັ້ງທຳອິດນີ້ແມ່ນອີງໃສ່ຂໍ້ມູນ 'ຄຳ' ທີ່ມີປ້າຍກຳກັບຂອງມະນຸດໜ້ອຍໜຶ່ງ, ບ່ອນທີ່ເຄື່ອງຊີ້ນ Turks ມີປ້າຍອະທິບາຍສຳລັບວຽກທີ່ຈຳກັດຈຳນວນໜຶ່ງ, ແລະ ປ້າຍກຳກັບໄດ້ຮັບຄະແນນດີ, ໂດຍຜ່ານການກວດສອບໂດຍກົງຈາກມະນຸດ ຫຼື ຜ່ານການລົງຄະແນນສຽງເຫັນດີນຳ. ຄວາມຫມາຍສໍາລັບ schema ນີ້ແມ່ນວ່າ fork ຫຼືການພັດທະນາຈາກຈຸດເລີ່ມຕົ້ນທີ່ມີພື້ນຖານຂອງມະນຸດນີ້ອາດຈະບໍ່ຕ້ອງການການປ້ອນຂໍ້ມູນຂອງມະນຸດເພີ່ມເຕີມລົງໃນຖະຫນົນຫົນທາງ.
ເຖິງແມ່ນວ່າຜູ້ຂຽນແນະນໍາການທົດລອງຕື່ມອີກກັບຮູບແບບປະສົມຕໍ່ມາ (ບ່ອນທີ່ການປ້ອນຂໍ້ມູນຂອງມະນຸດຈະມີຢູ່, ແຕ່ຫຼຸດລົງຢ່າງຫຼວງຫຼາຍ), ພວກເຂົາບໍ່ໄດ້, ສໍາລັບຈຸດປະສົງຂອງການຄົ້ນຄວ້າຂອງພວກເຂົາ, ຮູບແບບ LMTurk ຕໍ່ກັບຜົນໄດ້ຮັບທຽບເທົ່າຈາກພະນັກງານ HIT ທີ່ສ້າງຂຶ້ນໂດຍມະນຸດ, ພິຈາລະນາວ່າ ຂໍ້ມູນທີ່ມີປ້າຍຊື່ຄໍາແມ່ນ "ການປ້ອນຂໍ້ມູນຂອງມະນຸດ".
PLM ທີ່ຖືກອອກແບບເພື່ອປະຕິບັດການດໍາເນີນງານ Turk ໄດ້ຖືກດັດແປງສໍາລັບວຽກງານໂດຍ P-tuning, ເປັນວິທີການຈັດພີມມາໂດຍນັກຄົ້ນຄວ້າຈາກປະເທດຈີນໃນປີ 2021, ເຊິ່ງສະເຫນີການຝຶກອົບຮົມຢ່າງຕໍ່ເນື່ອງ ການຝັງຕົວດ່ວນ ເພື່ອປັບປຸງການປະຕິບັດແບບຈໍາລອງແບບ GPT-3 ໃນວຽກງານຄວາມເຂົ້າໃຈພາສາທໍາມະຊາດ (NLU).
ຂໍ້ມູນ ແລະສະຖາປັດຕະຍະກຳ
LMTurk ໄດ້ຖືກປະເມີນຢູ່ໃນຫ້າຊຸດຂໍ້ມູນ: ສອງຈາກ Stanford Sentiment Treebank; AG ຂອງ ຂ່າວສານ; ການຮັບຮູ້ຂໍ້ຄວາມປະກອບ (RTE); ແລະ Corpus ຂອງການຍອມຮັບທາງດ້ານພາສາສາດ (ໂຄລາ).
ສໍາລັບຮູບແບບຂະຫນາດໃຫຍ່ຂອງມັນ, LMTurk ໃຊ້ PLMs ທີ່ມີຢູ່ສາທາລະນະ ALBERT-XXLarge-v2 (AXLV2) ເປັນຕົວແບບແຫຼ່ງສໍາລັບການປ່ຽນເປັນ Turk ອັດຕະໂນມັດ. ຮູບແບບດັ່ງກ່າວມີ 223 ລ້ານຕົວກໍານົດການ (ກົງກັນຂ້າມກັບ 175 ຕື້ພາລາມິເຕີ ໃນ GPT-3). AXLV2, ຜູ້ຂຽນສັງເກດເຫັນ, ໄດ້ພິສູດຕົວເອງວ່າມີຄວາມສາມາດດີກວ່າຮູບແບບຂະຫນາດທີ່ສູງກວ່າເຊັ່ນ 334M. BERT-ໃຫຍ່.
ສໍາລັບຮູບແບບທີ່ວ່ອງໄວ, ນໍ້າໜັກເບົາ ແລະ ສາມາດນຳໃຊ້ໄດ້ຕາມຂອບ, ໂຄງການໃຊ້ TinyBERT-General-4L-312D (TBG), ເຊິ່ງມີລັກສະນະ 14.5 ລ້ານພາລາມິເຕີທີ່ມີການປະຕິບັດທຽບກັບ BERT-base (ເຊິ່ງມີ 110 ລ້ານພາລາມິເຕີ).
ການຝຶກອົບຮົມແບບເລັ່ງດ່ວນໄດ້ຈັດຂຶ້ນໃນ PyTorch ແລະ HuggingFace ສໍາລັບ AXLV2 ໃນໄລຍະ 100 batch ຂັ້ນຕອນໃນ batch ຂະຫນາດຂອງ 13, ໃນອັດຕາການຮຽນຮູ້ຂອງ 5e-4, ການນໍາໃຊ້ເສັ້ນຊື່ການທໍາລາຍ. ການທົດລອງແຕ່ລະຄົນແມ່ນມີຕົ້ນກໍາເນີດໂດຍສາມເມັດທີ່ແຕກຕ່າງກັນ Random.
ຜົນການຄົ້ນຫາ
ໂຄງການ LMTurk ດໍາເນີນແບບຈໍາລອງທີ່ຫຼາກຫຼາຍຕໍ່ກັບຫຼາຍພາກສ່ວນຍ່ອຍສະເພາະຂອງ NLP ທີ່ຜົນໄດ້ຮັບທີ່ສະລັບສັບຊ້ອນຂອງການທົດລອງຂອງນັກຄົ້ນຄວ້າບໍ່ແມ່ນເລື່ອງງ່າຍທີ່ຈະຫຼຸດຜ່ອນຫຼັກຖານທາງປະຫວັດສາດທີ່ LMTurk ສະເຫນີໃນຕົວຂອງມັນເອງເປັນວິທີການທີ່ມີປະສິດຕິພາບໃນການນໍາໃຊ້ປະຫວັດສາດ, ຂອງມະນຸດຄືນໃຫມ່. ມີຕົ້ນກຳເນີດມາຈາກສະຖານະການຮຽນຮູ້ການສັກຢາໜ້ອຍໜຶ່ງຂອງຮູບແບບ HIT.
ຢ່າງໃດກໍຕາມ, ສໍາລັບຈຸດປະສົງການປະເມີນຜົນ, ຜູ້ຂຽນປຽບທຽບວິທີການຂອງເຂົາເຈົ້າກັບສອງວຽກງານທີ່ຜ່ານມາ: ການຂຸດຄົ້ນຄໍາຖາມ Cloze ສໍາລັບການຈັດປະເພດຂໍ້ຄວາມ Shot ຈໍານວນຫນ້ອຍແລະການອ້າງອີງພາສາທໍາມະຊາດ ໂດຍນັກຄົ້ນຄວ້າເຢຍລະມັນ Timo Schick ແລະ Hinrich Schutze; ແລະຜົນໄດ້ຮັບຈາກ ອັດຕະໂນມັດໂດຍອີງໃສ່ການເຕືອນ, ສະແດງໃຫ້ເຫັນໃນ ການສ້າງແບບຈໍາລອງພາສາທີ່ໄດ້ຝຶກອົບຮົມໄວ້ລ່ວງໜ້າໃຫ້ຜູ້ຮຽນຍິງໜ້ອຍກວ່າ ໂດຍ Gao, Chen ແລະ Fisch (ຕາມລໍາດັບຈາກ Princeton ແລະ MIT).
ໃນສັ້ນ, LMTurk ສະເຫນີການສອບຖາມທີ່ຂ້ອນຂ້າງດີສໍາລັບນັກຄົ້ນຄວ້າທີ່ຊອກຫາການຝັງແລະເອົາຂໍ້ມູນຂອງມະນຸດທີ່ມີປ້າຍຄໍາທີ່ມາຈາກຄໍາເຂົ້າໄປໃນການພັດທະນາ, ຮູບແບບພາສາທີ່ມີຄວາມຊັບຊ້ອນກາງທີ່ລະບົບອັດຕະໂນມັດຢືນຢູ່ໃນການປ້ອນຂໍ້ມູນຂອງມະນຸດ.
ເຊັ່ນດຽວກັນກັບວຽກງານທີ່ຜ່ານມາໃນຂະແຫນງການນີ້, ແນວຄວາມຄິດສູນກາງແມ່ນອີງໃສ່ຄວາມບໍ່ປ່ຽນແປງຂອງຂໍ້ມູນຂອງມະນຸດຕົ້ນສະບັບ, ແລະການສົມມຸດຕິຖານວ່າປັດໃຈຊົ່ວຄາວ - ເຊິ່ງສາມາດສະແດງເຖິງອຸປະສັກທີ່ສໍາຄັນຕໍ່ການພັດທະນາ NLP - ຈະບໍ່ຮຽກຮ້ອງໃຫ້ມີການແຊກແຊງຂອງມະນຸດຕື່ມອີກ. ເຊື້ອສາຍຂອງເຄື່ອງຈັກເທົ່ານັ້ນພັດທະນາ.
ພິມຈຳໜ່າຍຄັ້ງທຳອິດໃນວັນທີ 30 ທັນວາ 2022