ກ້ານໃບ ການສ້າງ Turks ກົນຈັກທຽມກັບຕົວແບບພາສາທີ່ໄດ້ຝຶກອົບຮົມ - Unite.AI
ເຊື່ອມຕໍ່ກັບພວກເຮົາ

ປັນຍາປະດິດ

ການສ້າງ Turks ກົນຈັກທຽມກັບຕົວແບບພາສາທີ່ໄດ້ຝຶກອົບຮົມ

mm
ການປັບປຸງ on

ສ່ວນໃຫຍ່ຂອງການພັດທະນາລະບົບການຮຽນຮູ້ເຄື່ອງຈັກແມ່ນຂຶ້ນກັບການຕິດສະຫຼາກຂອງຂໍ້ມູນ, ບ່ອນທີ່ຫຼາຍຮ້ອຍຄົນ, ເຖິງແມ່ນວ່າຫຼາຍພັນຄໍາຖາມ (ເຊັ່ນ: ນີ້ແມ່ນຮູບແມວບໍ? ແລະ ຂໍ້ຄວາມນີ້ບໍ່ເໝາະສົມບໍ?) ຕ້ອງ​ໄດ້​ຮັບ​ການ​ແກ້​ໄຂ​ເພື່ອ​ພັດ​ທະ​ນາ​ຊຸດ​ຂໍ້​ມູນ​ທີ່​ມີ​ອໍາ​ນາດ​ທີ່​ລະ​ບົບ AI ຈະ​ໄດ້​ຮັບ​ການ​ຝຶກ​ອົບ​ຮົມ​.

ເຖິງແມ່ນວ່າ ພວກເຮົາທຸກຄົນປະກອບສ່ວນ ຕໍ່ກັບຂະບວນການນີ້ໃນບາງຈຸດ, ວຽກງານການຕິດສະຫຼາກສ່ວນຫຼາຍແມ່ນ ປະຕິບັດສໍາລັບການເງິນ ໂດຍພະນັກງານຂອງມະນຸດຢູ່ໃນກອບເຊັ່ນ Amazon Mechanical Turk, ບ່ອນທີ່ຜູ້ບັນຍາຍເຮັດສໍາເລັດວຽກງານການຈັດປະເພດເລັກນ້ອຍໃນ ເສດຖະກິດສິ້ນ.

ການພັດທະນາແບບຈໍາລອງຈະມີລາຄາຖືກກວ່າຖ້າຕົວແບບພາສາທີ່ໄດ້ຝຶກອົບຮົມ (PLMs) ຢູ່ໃນຕົວຂອງມັນເອງສາມາດປະຕິບັດບາງວຽກງານຄວາມຮູ້ພື້ນຖານຂອງມະນຸດ (HITs) ໃນປະຈຸບັນກໍາລັງຖືກລວບລວມຢູ່ AMT ແລະ ເວທີທີ່ຄ້າຍຄືກັນ.

ການຄົ້ນຄວ້າທີ່ຜ່ານມາຈາກເຢຍລະມັນແລະ Huawei ສະເຫນີນີ້, ໃນ ເຈ້ຍ LMTurk: ນັກຮຽນທີ່ຖືກຍິງບໍ່ຫຼາຍປານໃດເປັນພະນັກງານທີ່ລະດົມແຫຼ່ງທຶນ.

ຮູບແບບພາສາທີ່ປະຕິບັດການຮຽນຮູ້ການຍິງບໍ່ຫຼາຍປານໃດ

ຜູ້ຂຽນແນະນໍາວ່າວຽກງານທີ່ງ່າຍດາຍກວ່າປົກກະຕິແນໃສ່ (ມະນຸດ) ຄົນງານ Turk ແມ່ນຄ້າຍຄືກັນກັບ. ການຮຽນຮູ້ການສັກຢາບໍ່ຫຼາຍປານໃດ, ບ່ອນທີ່ກອບອັດຕະໂນມັດຕ້ອງຕັດສິນໃຈ mini-task ໂດຍອີງໃສ່ຕົວຢ່າງຈໍານວນຫນ້ອຍທີ່ໃຫ້ມັນ.

ດັ່ງນັ້ນ, ພວກເຂົາຈຶ່ງສະເໜີໃຫ້ລະບົບ AI ສາມາດຮຽນຮູ້ໄດ້ຢ່າງມີປະສິດທິພາບຈາກ PLMs ທີ່ມີຢູ່ແລ້ວ ເຊິ່ງໄດ້ຮັບການຝຶກອົບຮົມຈາກຄົນງານຝູງຊົນໃນເບື້ອງຕົ້ນ - ວ່າຄວາມຮູ້ຫຼັກໆຈາກຄົນໄປສູ່ເຄື່ອງຈັກໄດ້ສຳເລັດຜົນແລ້ວ, ແລະວ່າຄວາມຮູ້ດັ່ງກ່າວຂ້ອນຂ້າງບໍ່ປ່ຽນແປງ ຫຼື ເຫັນໄດ້ຊັດເຈນໃນບາງທາງ, ພາສາອັດຕະໂນມັດ. ກອບຮູບແບບສາມາດປະຕິບັດວຽກງານເຫຼົ່ານີ້ຢູ່ໃນຕົວຂອງມັນເອງ.

'ແນວຄວາມຄິດພື້ນຖານຂອງພວກເຮົາແມ່ນວ່າ, ສໍາລັບວຽກງານ NLP T, ພວກເຮົາປະຕິບັດຕໍ່ຜູ້ຮຽນທີ່ຖືກຍິງບໍ່ຫຼາຍປານໃດເປັນພະນັກງານທີ່ບໍ່ແມ່ນຜູ້ຊ່ຽວຊານ, ຄ້າຍຄືກັບພະນັກງານທີ່ເກັບກໍາຂໍ້ມູນຈໍານວນຫລາຍທີ່ອະທິບາຍຊັບພະຍາກອນສໍາລັບເຕັກໂນໂລຢີພາສາຂອງມະນຸດ. ພວກເຮົາໄດ້ຮັບແຮງບັນດານໃຈຈາກຄວາມຈິງທີ່ວ່າພວກເຮົາສາມາດເບິ່ງຄົນງານທີ່ເກັບຂໍ້ມູນຈາກກຸ່ມຄົນເປັນປະເພດຂອງຜູ້ຮຽນຍິງບໍ່ຫຼາຍປານໃດ.'

ຜົນສະທ້ອນລວມເຖິງຄວາມເປັນໄປໄດ້ທີ່ຄວາມຈິງພື້ນຖານຫຼາຍຢ່າງທີ່ລະບົບ AI ຂອງອະນາຄົດແມ່ນໄດ້ມາຈາກມະນຸດໃນບາງປີກ່ອນ, ຫຼັງຈາກນັ້ນຖືກປະຕິບັດເປັນຂໍ້ມູນເບື້ອງຕົ້ນແລະສາມາດຂຸດຄົ້ນໄດ້ທີ່ບໍ່ຮຽກຮ້ອງໃຫ້ມີການແຊກແຊງຂອງມະນຸດອີກຕໍ່ໄປ.

ວຽກສຳລັບຕົວແບບພາສາລະດັບກາງ, ເຄິ່ງປະສິດທິພາບ

ນອກ​ເໜືອ​ໄປ​ຈາກ​ແຮງ​ຈູງ​ໃຈ​ໃນ​ການ​ຫຼຸດ​ຄ່າ​ໃຊ້​ຈ່າຍ​ຂອງ​ຄົນ​ໃນ​ວົງ​ຈອນ​ແລ້ວ, ນັກ​ຄົ້ນ​ຄວ້າ​ແນະ​ນຳ​ວ່າ​ການ​ນຳ​ໃຊ້ PLMs 'ລະ​ດັບ​ກາງ' ເປັນ ຈິງໆ Mechanical Turks ສະຫນອງການເຮັດວຽກທີ່ເປັນປະໂຫຍດສໍາລັບລະບົບ 'ຍັງແລ່ນ' ເຫຼົ່ານີ້, ເຊິ່ງນັບມື້ນັບຖືກມອງຂ້າມໂດຍຫົວຂໍ້ຂ່າວ, hyperscale ແລະແບບຈໍາລອງພາສາທີ່ມີລາຄາແພງເຊັ່ນ GPT-3, ເຊິ່ງລາຄາແພງເກີນໄປແລະເກີນຂອບເຂດສໍາລັບວຽກງານດັ່ງກ່າວ.

'ເປົ້າ​ໝາຍ​ຂອງ​ພວກ​ເຮົາ​ໃນ​ເອ​ກະ​ສານ​ນີ້​ແມ່ນ​ເພື່ອ​ສ້າງ​ວິ​ທີ​ການ​ທີ່​ເຮັດ​ໃຫ້​ມີ​ປະ​ສິດ​ທິ​ຜົນ​ຫຼາຍ​ຂຶ້ນ​ໃນ​ການ​ນໍາ​ໃຊ້​ຜູ້​ຮຽນ​ທີ່​ບໍ່​ຫຼາຍ​ປານ​ໃດ​ໃນ​ປັດ​ຈຸ​ບັນ. ນີ້ແມ່ນສິ່ງສໍາຄັນເພາະວ່າຈໍານວນຜູ້ຮຽນການສັກຢາຈໍານວນຫນ້ອຍທີ່ໃຫຍ່ຫຼວງໄດ້ຖືກຝຶກອົບຮົມ; ວິທີການນໍາໃຊ້ພວກມັນຢ່າງມີປະສິດທິພາບແມ່ນເປັນຄໍາຖາມທີ່ສໍາຄັນ. ໂດຍສະເພາະ, ພວກເຮົາຕ້ອງການທາງເລືອກທີ່ຍາກທີ່ຈະໃຊ້ຕົວແບບຂະຫນາດໃຫຍ່.

'ໃນເວລາດຽວກັນ, ພວກເຮົາຕ້ອງການໃຊ້ປະໂຫຍດຢ່າງເຕັມທີ່ຈາກຈຸດແຂງຂອງ PLMs: ຄວາມຍືດຫຍຸ່ນຂອງພວກເຂົາຮັບປະກັນການນໍາໃຊ້ຢ່າງກວ້າງຂວາງໃນທົ່ວວຽກງານ; ເກັບຮັກສາຄວາມຮູ້ອັນໃຫຍ່ຫຼວງຂອງເຂົາເຈົ້າກ່ຽວກັບພາສາແລະໂລກ (ຮຽນຮູ້ໃນ pretraining) manifests ໃນປະສິດທິພາບຂໍ້ມູນຂອງຜູ້ຮຽນການສັກຢາຈໍານວນຫນ້ອຍ, ການຫຼຸດຜ່ອນແຮງງານແລະການໃຊ້ເວລາໃນຄໍາບັນຍາຍຂໍ້ມູນ.'

ມາຮອດປະຈຸ, ຜູ້ຂຽນໄດ້ໂຕ້ຖຽງ, ນັກຮຽນທີ່ຖືກຍິງບໍ່ຫຼາຍປານໃດໃນ NLP ໄດ້ຖືກປະຕິບັດເປັນໄລຍະ interstitial ທີ່ຖືກຖິ້ມຢູ່ໃນເສັ້ນທາງໄປສູ່ລະບົບພາສາທໍາມະຊາດລະດັບສູງທີ່ມີຊັບພະຍາກອນຫຼາຍ, ແລະວຽກງານດັ່ງກ່າວໄດ້ຖືກປະຕິບັດຢ່າງບໍ່ມີຕົວຕົນແລະບໍ່ມີການພິຈາລະນາສໍາລັບ. ຜົນປະໂຫຍດທີ່ເປັນໄປໄດ້ຂອງລະບົບເຫຼົ່ານີ້.

ວິທີການ

ການສະເຫນີຂອງຜູ້ຂຽນ LMTurk (ຕົວແບບພາສາເປັນ Turk ກົນຈັກ), ໃນຂັ້ນຕອນການເຮັດວຽກທີ່ວັດສະດຸປ້ອນຈາກ HIT ອັດຕະໂນມັດນີ້ໃຫ້ປ້າຍກຳກັບສຳລັບຮູບແບບ NLP ລະດັບກາງ.

ຮູບແບບແນວຄວາມຄິດພື້ນຖານສໍາລັບ LMTurk. ທີ່ມາ: https://arxiv.org/pdf/2112.07522.pdf

ຮູບແບບແນວຄວາມຄິດພື້ນຖານສໍາລັບ LMTurk. ທີ່ມາ: https://arxiv.org/pdf/2112.07522.pdf

ການຢັ່ງຫາງສຽງຄັ້ງທຳອິດນີ້ແມ່ນອີງໃສ່ຂໍ້ມູນ 'ຄຳ' ທີ່ມີປ້າຍກຳກັບຂອງມະນຸດໜ້ອຍໜຶ່ງ, ບ່ອນທີ່ເຄື່ອງຊີ້ນ Turks ມີປ້າຍອະທິບາຍສຳລັບວຽກທີ່ຈຳກັດຈຳນວນໜຶ່ງ, ແລະ ປ້າຍກຳກັບໄດ້ຮັບຄະແນນດີ, ໂດຍຜ່ານການກວດສອບໂດຍກົງຈາກມະນຸດ ຫຼື ຜ່ານການລົງຄະແນນສຽງເຫັນດີນຳ. ຄວາມຫມາຍສໍາລັບ schema ນີ້ແມ່ນວ່າ fork ຫຼືການພັດທະນາຈາກຈຸດເລີ່ມຕົ້ນທີ່ມີພື້ນຖານຂອງມະນຸດນີ້ອາດຈະບໍ່ຕ້ອງການການປ້ອນຂໍ້ມູນຂອງມະນຸດເພີ່ມເຕີມລົງໃນຖະຫນົນຫົນທາງ.

ເຖິງແມ່ນວ່າຜູ້ຂຽນແນະນໍາການທົດລອງຕື່ມອີກກັບຮູບແບບປະສົມຕໍ່ມາ (ບ່ອນທີ່ການປ້ອນຂໍ້ມູນຂອງມະນຸດຈະມີຢູ່, ແຕ່ຫຼຸດລົງຢ່າງຫຼວງຫຼາຍ), ພວກເຂົາບໍ່ໄດ້, ສໍາລັບຈຸດປະສົງຂອງການຄົ້ນຄວ້າຂອງພວກເຂົາ, ຮູບແບບ LMTurk ຕໍ່ກັບຜົນໄດ້ຮັບທຽບເທົ່າຈາກພະນັກງານ HIT ທີ່ສ້າງຂຶ້ນໂດຍມະນຸດ, ພິຈາລະນາວ່າ ຂໍ້ມູນທີ່ມີປ້າຍຊື່ຄໍາແມ່ນ "ການປ້ອນຂໍ້ມູນຂອງມະນຸດ".

PLM ທີ່ຖືກອອກແບບເພື່ອປະຕິບັດການດໍາເນີນງານ Turk ໄດ້ຖືກດັດແປງສໍາລັບວຽກງານໂດຍ P-tuning, ເປັນວິທີການຈັດພີມມາໂດຍນັກຄົ້ນຄວ້າຈາກປະເທດຈີນໃນປີ 2021, ເຊິ່ງສະເຫນີການຝຶກອົບຮົມຢ່າງຕໍ່ເນື່ອງ ການຝັງຕົວດ່ວນ ເພື່ອປັບປຸງການປະຕິບັດແບບຈໍາລອງແບບ GPT-3 ໃນວຽກງານຄວາມເຂົ້າໃຈພາສາທໍາມະຊາດ (NLU).

P-Tuning ພະຍາຍາມເຮັດໃຫ້ການຄາດເດົາຂອງແບບຈໍາລອງແບບ GPT ເລິກເຊິ່ງ, ແລະລັກສະນະຂອງຄວາມເຂົ້າໃຈຂອງພາສາ, ໂດຍການລວມເອົາການກະຕຸ້ນເຕືອນທີ່ຝັງໄວ້. ໃນກໍລະນີນີ້, ຄໍາຖາມເລີ່ມຕົ້ນແມ່ນ 'ນະຄອນຫຼວງຂອງອັງກິດເປັນ [x]'. ທີ່ມາ: https://arxiv.org/pdf/2103.10385.pdf

P-Tuning ພະຍາຍາມເຮັດໃຫ້ການຄາດເດົາຂອງແບບຈໍາລອງແບບ GPT ເລິກເຊິ່ງ, ແລະລັກສະນະຂອງຄວາມເຂົ້າໃຈຂອງພາສາ, ໂດຍການລວມເອົາການກະຕຸ້ນເຕືອນທີ່ຝັງໄວ້. ໃນກໍລະນີນີ້, ຄໍາຖາມເລີ່ມຕົ້ນແມ່ນ 'ນະຄອນຫຼວງຂອງອັງກິດເປັນ [x]'.  ທີ່ມາ: https://arxiv.org/pdf/2103.10385.pdf

ຂໍ້ມູນ ແລະສະຖາປັດຕະຍະກຳ

LMTurk ໄດ້ຖືກປະເມີນຢູ່ໃນຫ້າຊຸດຂໍ້ມູນ: ສອງຈາກ Stanford Sentiment Treebank; AG ຂອງ ຂ່າວສານ; ການຮັບຮູ້ຂໍ້ຄວາມປະກອບ (RTE); ແລະ Corpus ຂອງການຍອມຮັບທາງດ້ານພາສາສາດ (ໂຄລາ).

ສໍາລັບຮູບແບບຂະຫນາດໃຫຍ່ຂອງມັນ, LMTurk ໃຊ້ PLMs ທີ່ມີຢູ່ສາທາລະນະ ALBERT-XXLarge-v2 (AXLV2) ເປັນຕົວແບບແຫຼ່ງສໍາລັບການປ່ຽນເປັນ Turk ອັດຕະໂນມັດ. ຮູບແບບດັ່ງກ່າວມີ 223 ລ້ານຕົວກໍານົດການ (ກົງກັນຂ້າມກັບ 175 ຕື້ພາລາມິເຕີ ໃນ GPT-3). AXLV2, ຜູ້ຂຽນສັງເກດເຫັນ, ໄດ້ພິສູດຕົວເອງວ່າມີຄວາມສາມາດດີກວ່າຮູບແບບຂະຫນາດທີ່ສູງກວ່າເຊັ່ນ 334M. BERT-ໃຫຍ່.

ສໍາລັບຮູບແບບທີ່ວ່ອງໄວ, ນໍ້າໜັກເບົາ ແລະ ສາມາດນຳໃຊ້ໄດ້ຕາມຂອບ, ໂຄງການໃຊ້ TinyBERT-General-4L-312D (TBG), ເຊິ່ງມີລັກສະນະ 14.5 ລ້ານພາລາມິເຕີທີ່ມີການປະຕິບັດທຽບກັບ BERT-base (ເຊິ່ງມີ 110 ລ້ານພາລາມິເຕີ).

ການຝຶກອົບຮົມແບບເລັ່ງດ່ວນໄດ້ຈັດຂຶ້ນໃນ PyTorch ແລະ HuggingFace ສໍາລັບ AXLV2 ໃນໄລຍະ 100 batch ຂັ້ນຕອນໃນ batch ຂະຫນາດຂອງ 13, ໃນອັດຕາການຮຽນຮູ້ຂອງ 5e-4, ການນໍາໃຊ້ເສັ້ນຊື່ການທໍາລາຍ. ການ​ທົດ​ລອງ​ແຕ່​ລະ​ຄົນ​ແມ່ນ​ມີ​ຕົ້ນ​ກໍາ​ເນີດ​ໂດຍ​ສາມ​ເມັດ​ທີ່​ແຕກ​ຕ່າງ​ກັນ Random​.

ຜົນການຄົ້ນຫາ

ໂຄງການ LMTurk ດໍາເນີນແບບຈໍາລອງທີ່ຫຼາກຫຼາຍຕໍ່ກັບຫຼາຍພາກສ່ວນຍ່ອຍສະເພາະຂອງ NLP ທີ່ຜົນໄດ້ຮັບທີ່ສະລັບສັບຊ້ອນຂອງການທົດລອງຂອງນັກຄົ້ນຄວ້າບໍ່ແມ່ນເລື່ອງງ່າຍທີ່ຈະຫຼຸດຜ່ອນຫຼັກຖານທາງປະຫວັດສາດທີ່ LMTurk ສະເຫນີໃນຕົວຂອງມັນເອງເປັນວິທີການທີ່ມີປະສິດຕິພາບໃນການນໍາໃຊ້ປະຫວັດສາດ, ຂອງມະນຸດຄືນໃຫມ່. ມີຕົ້ນກຳເນີດມາຈາກສະຖານະການຮຽນຮູ້ການສັກຢາໜ້ອຍໜຶ່ງຂອງຮູບແບບ HIT.

ຢ່າງໃດກໍຕາມ, ສໍາລັບຈຸດປະສົງການປະເມີນຜົນ, ຜູ້ຂຽນປຽບທຽບວິທີການຂອງເຂົາເຈົ້າກັບສອງວຽກງານທີ່ຜ່ານມາ: ການຂຸດຄົ້ນຄໍາຖາມ Cloze ສໍາລັບການຈັດປະເພດຂໍ້ຄວາມ Shot ຈໍານວນຫນ້ອຍແລະການອ້າງອີງພາສາທໍາມະຊາດ ໂດຍນັກຄົ້ນຄວ້າເຢຍລະມັນ Timo Schick ແລະ Hinrich Schutze; ແລະຜົນໄດ້ຮັບຈາກ ອັດຕະໂນມັດໂດຍອີງໃສ່ການເຕືອນ, ສະແດງໃຫ້ເຫັນໃນ ການສ້າງແບບຈໍາລອງພາສາທີ່ໄດ້ຝຶກອົບຮົມໄວ້ລ່ວງໜ້າໃຫ້ຜູ້ຮຽນຍິງໜ້ອຍກວ່າ ໂດຍ Gao, Chen ແລະ Fisch (ຕາມລໍາດັບຈາກ Princeton ແລະ MIT).

ຜົນໄດ້ຮັບຈາກການທົດລອງ LMTurk, ກັບນັກຄົ້ນຄວ້າລາຍງານການປະຕິບັດ 'ປຽບທຽບ'.

ຜົນໄດ້ຮັບຈາກການທົດລອງ LMTurk, ກັບນັກຄົ້ນຄວ້າລາຍງານການປະຕິບັດ 'ປຽບທຽບ'.

ໃນສັ້ນ, LMTurk ສະເຫນີການສອບຖາມທີ່ຂ້ອນຂ້າງດີສໍາລັບນັກຄົ້ນຄວ້າທີ່ຊອກຫາການຝັງແລະເອົາຂໍ້ມູນຂອງມະນຸດທີ່ມີປ້າຍຄໍາທີ່ມາຈາກຄໍາເຂົ້າໄປໃນການພັດທະນາ, ຮູບແບບພາສາທີ່ມີຄວາມຊັບຊ້ອນກາງທີ່ລະບົບອັດຕະໂນມັດຢືນຢູ່ໃນການປ້ອນຂໍ້ມູນຂອງມະນຸດ.

ເຊັ່ນດຽວກັນກັບວຽກງານທີ່ຜ່ານມາໃນຂະແຫນງການນີ້, ແນວຄວາມຄິດສູນກາງແມ່ນອີງໃສ່ຄວາມບໍ່ປ່ຽນແປງຂອງຂໍ້ມູນຂອງມະນຸດຕົ້ນສະບັບ, ແລະການສົມມຸດຕິຖານວ່າປັດໃຈຊົ່ວຄາວ - ເຊິ່ງສາມາດສະແດງເຖິງອຸປະສັກທີ່ສໍາຄັນຕໍ່ການພັດທະນາ NLP - ຈະບໍ່ຮຽກຮ້ອງໃຫ້ມີການແຊກແຊງຂອງມະນຸດຕື່ມອີກ. ເຊື້ອສາຍຂອງເຄື່ອງຈັກເທົ່ານັ້ນພັດທະນາ.

 

ພິມຈຳໜ່າຍຄັ້ງທຳອິດໃນວັນທີ 30 ທັນວາ 2022