ປັນຍາປະດິດ

ການສ້າງ Turks ກົນຈັກທຽມກັບຕົວແບບພາສາທີ່ໄດ້ຝຶກອົບຮົມ

ການປັບປຸງ on ເດືອນທັນວາ 9, 2022

ສ່ວນໃຫຍ່ຂອງການພັດທະນາລະບົບການຮຽນຮູ້ເຄື່ອງຈັກແມ່ນຂຶ້ນກັບການຕິດສະຫຼາກຂອງຂໍ້ມູນ, ບ່ອນທີ່ຫຼາຍຮ້ອຍຄົນ, ເຖິງແມ່ນວ່າຫຼາຍພັນຄໍາຖາມ (ເຊັ່ນ: ນີ້ແມ່ນຮູບແມວບໍ? ແລະ ຂໍ້ຄວາມນີ້ບໍ່ເໝາະສົມບໍ?) ຕ້ອງໄດ້ຮັບການແກ້ໄຂເພື່ອພັດທະນາຊຸດຂໍ້ມູນທີ່ມີອໍານາດທີ່ລະບົບ AI ຈະໄດ້ຮັບການຝຶກອົບຮົມ.

ເຖິງແມ່ນວ່າ ພວກເຮົາທຸກຄົນປະກອບສ່ວນ ຕໍ່ກັບຂະບວນການນີ້ໃນບາງຈຸດ, ວຽກງານການຕິດສະຫຼາກສ່ວນຫຼາຍແມ່ນ ປະຕິບັດສໍາລັບການເງິນ ໂດຍພະນັກງານຂອງມະນຸດຢູ່ໃນກອບເຊັ່ນ Amazon Mechanical Turk, ບ່ອນທີ່ຜູ້ບັນຍາຍເຮັດສໍາເລັດວຽກງານການຈັດປະເພດເລັກນ້ອຍໃນ ເສດຖະກິດສິ້ນ.

ການພັດທະນາແບບຈໍາລອງຈະມີລາຄາຖືກກວ່າຖ້າຕົວແບບພາສາທີ່ໄດ້ຝຶກອົບຮົມ (PLMs) ຢູ່ໃນຕົວຂອງມັນເອງສາມາດປະຕິບັດບາງວຽກງານຄວາມຮູ້ພື້ນຖານຂອງມະນຸດ (HITs) ໃນປະຈຸບັນກໍາລັງຖືກລວບລວມຢູ່ AMT ແລະ ເວທີທີ່ຄ້າຍຄືກັນ.

ການຄົ້ນຄວ້າທີ່ຜ່ານມາຈາກເຢຍລະມັນແລະ Huawei ສະເຫນີນີ້, ໃນ ເຈ້ຍ LMTurk: ນັກຮຽນທີ່ຖືກຍິງບໍ່ຫຼາຍປານໃດເປັນພະນັກງານທີ່ລະດົມແຫຼ່ງທຶນ.

ຮູບແບບພາສາທີ່ປະຕິບັດການຮຽນຮູ້ການຍິງບໍ່ຫຼາຍປານໃດ

ຜູ້ຂຽນແນະນໍາວ່າວຽກງານທີ່ງ່າຍດາຍກວ່າປົກກະຕິແນໃສ່ (ມະນຸດ) ຄົນງານ Turk ແມ່ນຄ້າຍຄືກັນກັບ. ການຮຽນຮູ້ການສັກຢາບໍ່ຫຼາຍປານໃດ, ບ່ອນທີ່ກອບອັດຕະໂນມັດຕ້ອງຕັດສິນໃຈ mini-task ໂດຍອີງໃສ່ຕົວຢ່າງຈໍານວນຫນ້ອຍທີ່ໃຫ້ມັນ.

ດັ່ງນັ້ນ, ພວກເຂົາຈຶ່ງສະເໜີໃຫ້ລະບົບ AI ສາມາດຮຽນຮູ້ໄດ້ຢ່າງມີປະສິດທິພາບຈາກ PLMs ທີ່ມີຢູ່ແລ້ວ ເຊິ່ງໄດ້ຮັບການຝຶກອົບຮົມຈາກຄົນງານຝູງຊົນໃນເບື້ອງຕົ້ນ - ວ່າຄວາມຮູ້ຫຼັກໆຈາກຄົນໄປສູ່ເຄື່ອງຈັກໄດ້ສຳເລັດຜົນແລ້ວ, ແລະວ່າຄວາມຮູ້ດັ່ງກ່າວຂ້ອນຂ້າງບໍ່ປ່ຽນແປງ ຫຼື ເຫັນໄດ້ຊັດເຈນໃນບາງທາງ, ພາສາອັດຕະໂນມັດ. ກອບຮູບແບບສາມາດປະຕິບັດວຽກງານເຫຼົ່ານີ້ຢູ່ໃນຕົວຂອງມັນເອງ.

'ແນວຄວາມຄິດພື້ນຖານຂອງພວກເຮົາແມ່ນວ່າ, ສໍາລັບວຽກງານ NLP T, ພວກເຮົາປະຕິບັດຕໍ່ຜູ້ຮຽນທີ່ຖືກຍິງບໍ່ຫຼາຍປານໃດເປັນພະນັກງານທີ່ບໍ່ແມ່ນຜູ້ຊ່ຽວຊານ, ຄ້າຍຄືກັບພະນັກງານທີ່ເກັບກໍາຂໍ້ມູນຈໍານວນຫລາຍທີ່ອະທິບາຍຊັບພະຍາກອນສໍາລັບເຕັກໂນໂລຢີພາສາຂອງມະນຸດ. ພວກເຮົາໄດ້ຮັບແຮງບັນດານໃຈຈາກຄວາມຈິງທີ່ວ່າພວກເຮົາສາມາດເບິ່ງຄົນງານທີ່ເກັບຂໍ້ມູນຈາກກຸ່ມຄົນເປັນປະເພດຂອງຜູ້ຮຽນຍິງບໍ່ຫຼາຍປານໃດ.'

ຜົນສະທ້ອນລວມເຖິງຄວາມເປັນໄປໄດ້ທີ່ຄວາມຈິງພື້ນຖານຫຼາຍຢ່າງທີ່ລະບົບ AI ຂອງອະນາຄົດແມ່ນໄດ້ມາຈາກມະນຸດໃນບາງປີກ່ອນ, ຫຼັງຈາກນັ້ນຖືກປະຕິບັດເປັນຂໍ້ມູນເບື້ອງຕົ້ນແລະສາມາດຂຸດຄົ້ນໄດ້ທີ່ບໍ່ຮຽກຮ້ອງໃຫ້ມີການແຊກແຊງຂອງມະນຸດອີກຕໍ່ໄປ.

ວຽກສຳລັບຕົວແບບພາສາລະດັບກາງ, ເຄິ່ງປະສິດທິພາບ

ນອກເໜືອໄປຈາກແຮງຈູງໃຈໃນການຫຼຸດຄ່າໃຊ້ຈ່າຍຂອງຄົນໃນວົງຈອນແລ້ວ, ນັກຄົ້ນຄວ້າແນະນຳວ່າການນຳໃຊ້ PLMs 'ລະດັບກາງ' ເປັນ ຈິງໆ Mechanical Turks ສະຫນອງການເຮັດວຽກທີ່ເປັນປະໂຫຍດສໍາລັບລະບົບ 'ຍັງແລ່ນ' ເຫຼົ່ານີ້, ເຊິ່ງນັບມື້ນັບຖືກມອງຂ້າມໂດຍຫົວຂໍ້ຂ່າວ, hyperscale ແລະແບບຈໍາລອງພາສາທີ່ມີລາຄາແພງເຊັ່ນ GPT-3, ເຊິ່ງລາຄາແພງເກີນໄປແລະເກີນຂອບເຂດສໍາລັບວຽກງານດັ່ງກ່າວ.

'ເປົ້າໝາຍຂອງພວກເຮົາໃນເອກະສານນີ້ແມ່ນເພື່ອສ້າງວິທີການທີ່ເຮັດໃຫ້ມີປະສິດທິຜົນຫຼາຍຂຶ້ນໃນການນໍາໃຊ້ຜູ້ຮຽນທີ່ບໍ່ຫຼາຍປານໃດໃນປັດຈຸບັນ. ນີ້ແມ່ນສິ່ງສໍາຄັນເພາະວ່າຈໍານວນຜູ້ຮຽນການສັກຢາຈໍານວນຫນ້ອຍທີ່ໃຫຍ່ຫຼວງໄດ້ຖືກຝຶກອົບຮົມ; ວິທີການນໍາໃຊ້ພວກມັນຢ່າງມີປະສິດທິພາບແມ່ນເປັນຄໍາຖາມທີ່ສໍາຄັນ. ໂດຍສະເພາະ, ພວກເຮົາຕ້ອງການທາງເລືອກທີ່ຍາກທີ່ຈະໃຊ້ຕົວແບບຂະຫນາດໃຫຍ່.

'ໃນເວລາດຽວກັນ, ພວກເຮົາຕ້ອງການໃຊ້ປະໂຫຍດຢ່າງເຕັມທີ່ຈາກຈຸດແຂງຂອງ PLMs: ຄວາມຍືດຫຍຸ່ນຂອງພວກເຂົາຮັບປະກັນການນໍາໃຊ້ຢ່າງກວ້າງຂວາງໃນທົ່ວວຽກງານ; ເກັບຮັກສາຄວາມຮູ້ອັນໃຫຍ່ຫຼວງຂອງເຂົາເຈົ້າກ່ຽວກັບພາສາແລະໂລກ (ຮຽນຮູ້ໃນ pretraining) manifests ໃນປະສິດທິພາບຂໍ້ມູນຂອງຜູ້ຮຽນການສັກຢາຈໍານວນຫນ້ອຍ, ການຫຼຸດຜ່ອນແຮງງານແລະການໃຊ້ເວລາໃນຄໍາບັນຍາຍຂໍ້ມູນ.'

ມາຮອດປະຈຸ, ຜູ້ຂຽນໄດ້ໂຕ້ຖຽງ, ນັກຮຽນທີ່ຖືກຍິງບໍ່ຫຼາຍປານໃດໃນ NLP ໄດ້ຖືກປະຕິບັດເປັນໄລຍະ interstitial ທີ່ຖືກຖິ້ມຢູ່ໃນເສັ້ນທາງໄປສູ່ລະບົບພາສາທໍາມະຊາດລະດັບສູງທີ່ມີຊັບພະຍາກອນຫຼາຍ, ແລະວຽກງານດັ່ງກ່າວໄດ້ຖືກປະຕິບັດຢ່າງບໍ່ມີຕົວຕົນແລະບໍ່ມີການພິຈາລະນາສໍາລັບ. ຜົນປະໂຫຍດທີ່ເປັນໄປໄດ້ຂອງລະບົບເຫຼົ່ານີ້.

ວິທີການ

ການສະເຫນີຂອງຜູ້ຂຽນ LMTurk (ຕົວແບບພາສາເປັນ Turk ກົນຈັກ), ໃນຂັ້ນຕອນການເຮັດວຽກທີ່ວັດສະດຸປ້ອນຈາກ HIT ອັດຕະໂນມັດນີ້ໃຫ້ປ້າຍກຳກັບສຳລັບຮູບແບບ NLP ລະດັບກາງ.

ຮູບແບບແນວຄວາມຄິດພື້ນຖານສໍາລັບ LMTurk. ທີ່ມາ: https://arxiv.org/pdf/2112.07522.pdf

ການຢັ່ງຫາງສຽງຄັ້ງທຳອິດນີ້ແມ່ນອີງໃສ່ຂໍ້ມູນ 'ຄຳ' ທີ່ມີປ້າຍກຳກັບຂອງມະນຸດໜ້ອຍໜຶ່ງ, ບ່ອນທີ່ເຄື່ອງຊີ້ນ Turks ມີປ້າຍອະທິບາຍສຳລັບວຽກທີ່ຈຳກັດຈຳນວນໜຶ່ງ, ແລະ ປ້າຍກຳກັບໄດ້ຮັບຄະແນນດີ, ໂດຍຜ່ານການກວດສອບໂດຍກົງຈາກມະນຸດ ຫຼື ຜ່ານການລົງຄະແນນສຽງເຫັນດີນຳ. ຄວາມຫມາຍສໍາລັບ schema ນີ້ແມ່ນວ່າ fork ຫຼືການພັດທະນາຈາກຈຸດເລີ່ມຕົ້ນທີ່ມີພື້ນຖານຂອງມະນຸດນີ້ອາດຈະບໍ່ຕ້ອງການການປ້ອນຂໍ້ມູນຂອງມະນຸດເພີ່ມເຕີມລົງໃນຖະຫນົນຫົນທາງ.

ເຖິງແມ່ນວ່າຜູ້ຂຽນແນະນໍາການທົດລອງຕື່ມອີກກັບຮູບແບບປະສົມຕໍ່ມາ (ບ່ອນທີ່ການປ້ອນຂໍ້ມູນຂອງມະນຸດຈະມີຢູ່, ແຕ່ຫຼຸດລົງຢ່າງຫຼວງຫຼາຍ), ພວກເຂົາບໍ່ໄດ້, ສໍາລັບຈຸດປະສົງຂອງການຄົ້ນຄວ້າຂອງພວກເຂົາ, ຮູບແບບ LMTurk ຕໍ່ກັບຜົນໄດ້ຮັບທຽບເທົ່າຈາກພະນັກງານ HIT ທີ່ສ້າງຂຶ້ນໂດຍມະນຸດ, ພິຈາລະນາວ່າ ຂໍ້ມູນທີ່ມີປ້າຍຊື່ຄໍາແມ່ນ "ການປ້ອນຂໍ້ມູນຂອງມະນຸດ".

PLM ທີ່ຖືກອອກແບບເພື່ອປະຕິບັດການດໍາເນີນງານ Turk ໄດ້ຖືກດັດແປງສໍາລັບວຽກງານໂດຍ P-tuning, ເປັນວິທີການຈັດພີມມາໂດຍນັກຄົ້ນຄວ້າຈາກປະເທດຈີນໃນປີ 2021, ເຊິ່ງສະເຫນີການຝຶກອົບຮົມຢ່າງຕໍ່ເນື່ອງ ການຝັງຕົວດ່ວນ ເພື່ອປັບປຸງການປະຕິບັດແບບຈໍາລອງແບບ GPT-3 ໃນວຽກງານຄວາມເຂົ້າໃຈພາສາທໍາມະຊາດ (NLU).

P-Tuning ພະຍາຍາມເຮັດໃຫ້ການຄາດເດົາຂອງແບບຈໍາລອງແບບ GPT ເລິກເຊິ່ງ, ແລະລັກສະນະຂອງຄວາມເຂົ້າໃຈຂອງພາສາ, ໂດຍການລວມເອົາການກະຕຸ້ນເຕືອນທີ່ຝັງໄວ້. ໃນກໍລະນີນີ້, ຄໍາຖາມເລີ່ມຕົ້ນແມ່ນ 'ນະຄອນຫຼວງຂອງອັງກິດເປັນ [x]'. ທີ່ມາ: https://arxiv.org/pdf/2103.10385.pdf

ຂໍ້ມູນ ແລະສະຖາປັດຕະຍະກຳ

LMTurk ໄດ້ຖືກປະເມີນຢູ່ໃນຫ້າຊຸດຂໍ້ມູນ: ສອງຈາກ Stanford Sentiment Treebank; AG ຂອງ ຂ່າວສານ; ການຮັບຮູ້ຂໍ້ຄວາມປະກອບ (RTE); ແລະ Corpus ຂອງການຍອມຮັບທາງດ້ານພາສາສາດ (ໂຄລາ).

ສໍາລັບຮູບແບບຂະຫນາດໃຫຍ່ຂອງມັນ, LMTurk ໃຊ້ PLMs ທີ່ມີຢູ່ສາທາລະນະ ALBERT-XXLarge-v2 (AXLV2) ເປັນຕົວແບບແຫຼ່ງສໍາລັບການປ່ຽນເປັນ Turk ອັດຕະໂນມັດ. ຮູບແບບດັ່ງກ່າວມີ 223 ລ້ານຕົວກໍານົດການ (ກົງກັນຂ້າມກັບ 175 ຕື້ພາລາມິເຕີ ໃນ GPT-3). AXLV2, ຜູ້ຂຽນສັງເກດເຫັນ, ໄດ້ພິສູດຕົວເອງວ່າມີຄວາມສາມາດດີກວ່າຮູບແບບຂະຫນາດທີ່ສູງກວ່າເຊັ່ນ 334M. BERT-ໃຫຍ່.

ສໍາລັບຮູບແບບທີ່ວ່ອງໄວ, ນໍ້າໜັກເບົາ ແລະ ສາມາດນຳໃຊ້ໄດ້ຕາມຂອບ, ໂຄງການໃຊ້ TinyBERT-General-4L-312D (TBG), ເຊິ່ງມີລັກສະນະ 14.5 ລ້ານພາລາມິເຕີທີ່ມີການປະຕິບັດທຽບກັບ BERT-base (ເຊິ່ງມີ 110 ລ້ານພາລາມິເຕີ).

ການຝຶກອົບຮົມແບບເລັ່ງດ່ວນໄດ້ຈັດຂຶ້ນໃນ PyTorch ແລະ HuggingFace ສໍາລັບ AXLV2 ໃນໄລຍະ 100 batch ຂັ້ນຕອນໃນ batch ຂະຫນາດຂອງ 13, ໃນອັດຕາການຮຽນຮູ້ຂອງ 5e-4, ການນໍາໃຊ້ເສັ້ນຊື່ການທໍາລາຍ. ການທົດລອງແຕ່ລະຄົນແມ່ນມີຕົ້ນກໍາເນີດໂດຍສາມເມັດທີ່ແຕກຕ່າງກັນ Random.

ຜົນການຄົ້ນຫາ

ໂຄງການ LMTurk ດໍາເນີນແບບຈໍາລອງທີ່ຫຼາກຫຼາຍຕໍ່ກັບຫຼາຍພາກສ່ວນຍ່ອຍສະເພາະຂອງ NLP ທີ່ຜົນໄດ້ຮັບທີ່ສະລັບສັບຊ້ອນຂອງການທົດລອງຂອງນັກຄົ້ນຄວ້າບໍ່ແມ່ນເລື່ອງງ່າຍທີ່ຈະຫຼຸດຜ່ອນຫຼັກຖານທາງປະຫວັດສາດທີ່ LMTurk ສະເຫນີໃນຕົວຂອງມັນເອງເປັນວິທີການທີ່ມີປະສິດຕິພາບໃນການນໍາໃຊ້ປະຫວັດສາດ, ຂອງມະນຸດຄືນໃຫມ່. ມີຕົ້ນກຳເນີດມາຈາກສະຖານະການຮຽນຮູ້ການສັກຢາໜ້ອຍໜຶ່ງຂອງຮູບແບບ HIT.

ຢ່າງໃດກໍຕາມ, ສໍາລັບຈຸດປະສົງການປະເມີນຜົນ, ຜູ້ຂຽນປຽບທຽບວິທີການຂອງເຂົາເຈົ້າກັບສອງວຽກງານທີ່ຜ່ານມາ: ການຂຸດຄົ້ນຄໍາຖາມ Cloze ສໍາລັບການຈັດປະເພດຂໍ້ຄວາມ Shot ຈໍານວນຫນ້ອຍແລະການອ້າງອີງພາສາທໍາມະຊາດ ໂດຍນັກຄົ້ນຄວ້າເຢຍລະມັນ Timo Schick ແລະ Hinrich Schutze; ແລະຜົນໄດ້ຮັບຈາກ ອັດຕະໂນມັດໂດຍອີງໃສ່ການເຕືອນ, ສະແດງໃຫ້ເຫັນໃນ ການສ້າງແບບຈໍາລອງພາສາທີ່ໄດ້ຝຶກອົບຮົມໄວ້ລ່ວງໜ້າໃຫ້ຜູ້ຮຽນຍິງໜ້ອຍກວ່າ ໂດຍ Gao, Chen ແລະ Fisch (ຕາມລໍາດັບຈາກ Princeton ແລະ MIT).

ຜົນໄດ້ຮັບຈາກການທົດລອງ LMTurk, ກັບນັກຄົ້ນຄວ້າລາຍງານການປະຕິບັດ 'ປຽບທຽບ'.

ໃນສັ້ນ, LMTurk ສະເຫນີການສອບຖາມທີ່ຂ້ອນຂ້າງດີສໍາລັບນັກຄົ້ນຄວ້າທີ່ຊອກຫາການຝັງແລະເອົາຂໍ້ມູນຂອງມະນຸດທີ່ມີປ້າຍຄໍາທີ່ມາຈາກຄໍາເຂົ້າໄປໃນການພັດທະນາ, ຮູບແບບພາສາທີ່ມີຄວາມຊັບຊ້ອນກາງທີ່ລະບົບອັດຕະໂນມັດຢືນຢູ່ໃນການປ້ອນຂໍ້ມູນຂອງມະນຸດ.

ເຊັ່ນດຽວກັນກັບວຽກງານທີ່ຜ່ານມາໃນຂະແຫນງການນີ້, ແນວຄວາມຄິດສູນກາງແມ່ນອີງໃສ່ຄວາມບໍ່ປ່ຽນແປງຂອງຂໍ້ມູນຂອງມະນຸດຕົ້ນສະບັບ, ແລະການສົມມຸດຕິຖານວ່າປັດໃຈຊົ່ວຄາວ - ເຊິ່ງສາມາດສະແດງເຖິງອຸປະສັກທີ່ສໍາຄັນຕໍ່ການພັດທະນາ NLP - ຈະບໍ່ຮຽກຮ້ອງໃຫ້ມີການແຊກແຊງຂອງມະນຸດຕື່ມອີກ. ເຊື້ອສາຍຂອງເຄື່ອງຈັກເທົ່ານັ້ນພັດທະນາ.

ພິມຈຳໜ່າຍຄັ້ງທຳອິດໃນວັນທີ 30 ທັນວາ 2022