ປັນຍາປະດິດ
ຕົວແບບພາສາຂະໜາດໃຫຍ່ທີ່ໃຊ້ຕົວຖອດລະຫັດ: ຄູ່ມືຄົບຖ້ວນ
ຮູບແບບພາສາຂະຫນາດໃຫຍ່ (LLMs) ໄດ້ປະຕິວັດຂະແຫນງການປຸງແຕ່ງພາສາທໍາມະຊາດ (NLP) ໂດຍສະແດງໃຫ້ເຫັນຄວາມສາມາດທີ່ໂດດເດັ່ນໃນການສ້າງຂໍ້ຄວາມທີ່ຄ້າຍຄືກັບມະນຸດ, ການຕອບຄໍາຖາມ, ແລະການຊ່ວຍເຫຼືອວຽກງານທີ່ກ່ຽວຂ້ອງກັບພາສາທີ່ກວ້າງຂວາງ. ຫຼັກໆຂອງຕົວແບບທີ່ມີປະສິດທິພາບເຫຼົ່ານີ້ຈະເຣັດໄດ້ ສະຖາປັດຕະຍະກຳຕົວແປງສັນຍານຕົວຖອດລະຫັດເທົ່ານັ້ນ, ການປ່ຽນແປງຂອງຖາປັດຕະຍະການຫັນເປັນຕົ້ນສະບັບສະເຫນີໃນເອກະສານ seminal "ເອົາ ໃຈ ໃສ່ ແມ່ນ ທັງ ຫມົດ ທີ່ ທ່ານ ຕ້ອງ ການ” ໂດຍ Vaswani et al.
ໃນຄູ່ມືທີ່ສົມບູນແບບນີ້, ພວກເຮົາຈະຄົ້ນຫາການເຮັດວຽກພາຍໃນຂອງ LLMs ທີ່ອີງໃສ່ຕົວຖອດລະຫັດ, ເຈາະເລິກເຂົ້າໄປໃນໂຄງສ້າງພື້ນຖານ, ການປະດິດສ້າງສະຖາປັດຕະຍະກໍາ, ແລະລາຍລະອຽດການປະຕິບັດທີ່ໄດ້ນໍາຕົວແບບເຫຼົ່ານີ້ໄປສູ່ການຄົ້ນຄ້ວາແລະຄໍາຮ້ອງສະຫມັກຂອງ NLP.
ຖາປັດຕະຍະການຫັນເປັນ: ປັບປຸງໃຫມ່
ກ່ອນທີ່ຈະເຂົ້າໄປໃນຈຸດສະເພາະຂອງ LLMs ທີ່ອີງໃສ່ຕົວຖອດລະຫັດ, ມັນເປັນສິ່ງຈໍາເປັນທີ່ຈະຕ້ອງທົບທວນຄືນສະຖາປັດຕະຍະກໍາຂອງຫມໍ້ແປງ, ພື້ນຖານທີ່ຕົວແບບເຫຼົ່ານີ້ຖືກສ້າງຂຶ້ນ. ການຫັນເປັນໄດ້ນໍາສະເຫນີວິທີການໃຫມ່ໆຂອງການສ້າງແບບຈໍາລອງລໍາດັບ, ອີງໃສ່ພຽງແຕ່ກົນໄກການເອົາໃຈໃສ່ເພື່ອເກັບກໍາການເພິ່ງພາອາໄສໃນໄລຍະຍາວໃນຂໍ້ມູນ, ບໍ່ຈໍາເປັນຕ້ອງມີຊັ້ນ recurrent ຫຼື convolutional.
ສະຖາປັດຕະຍະກໍາຂອງຫມໍ້ແປງຕົ້ນສະບັບປະກອບດ້ວຍສອງອົງປະກອບຕົ້ນຕໍ: ຕົວເຂົ້າລະຫັດແລະຕົວຖອດລະຫັດ. ຕົວເຂົ້າລະຫັດຈະປະມວນຜົນລຳດັບການປ້ອນຂໍ້ມູນ ແລະສ້າງການເປັນຕົວແທນຕາມບໍລິບົດ, ເຊິ່ງຫຼັງຈາກນັ້ນຕົວຖອດລະຫັດຈະຖືກບໍລິໂພກເພື່ອຜະລິດລຳດັບຜົນຜະລິດ. ສະຖາປັດຕະຍະກໍານີ້ໄດ້ຖືກອອກແບບໃນເບື້ອງຕົ້ນສໍາລັບວຽກງານການແປພາສາຂອງເຄື່ອງຈັກ, ບ່ອນທີ່ຕົວເຂົ້າລະຫັດປະມວນຜົນປະໂຫຍກປ້ອນຂໍ້ມູນໃນພາສາຕົ້ນສະບັບ, ແລະຕົວຖອດລະຫັດຈະສ້າງປະໂຫຍກທີ່ສອດຄ້ອງກັນໃນພາສາເປົ້າຫມາຍ.
ການໃສ່ໃຈຕົນເອງ: ກຸນແຈສູ່ຄວາມສໍາເລັດຂອງ Transformer
ໃນຈຸດໃຈກາງຂອງ ການຫັນເປັນ ແມ່ນກົນໄກການເອົາໃຈໃສ່ຕົນເອງ, ເຕັກນິກທີ່ມີປະສິດທິພາບທີ່ຊ່ວຍໃຫ້ຕົວແບບສາມາດຊັ່ງນໍ້າຫນັກແລະລວບລວມຂໍ້ມູນຈາກຕໍາແຫນ່ງທີ່ແຕກຕ່າງກັນໃນລໍາດັບການປ້ອນຂໍ້ມູນ. ບໍ່ເຫມືອນກັບຕົວແບບລໍາດັບແບບດັ້ງເດີມ, ເຊິ່ງປະມວນຜົນ tokens ການປ້ອນຂໍ້ມູນຕາມລໍາດັບ, ການເອົາໃຈໃສ່ຕົນເອງເຮັດໃຫ້ຕົວແບບສາມາດເກັບກໍາຄວາມເພິ່ງພາອາໄສລະຫວ່າງຄູ່ຂອງ tokens, ໂດຍບໍ່ຄໍານຶງເຖິງຕໍາແຫນ່ງຂອງພວກເຂົາໃນລໍາດັບ.
ການປະຕິບັດການເອົາໃຈໃສ່ຕົນເອງສາມາດແບ່ງອອກເປັນສາມຂັ້ນຕອນຕົ້ນຕໍ:
- Query, Key, ແລະການຄາດຄະເນມູນຄ່າ: ລຳດັບການປ້ອນຂໍ້ມູນຖືກຄາດຄະເນອອກເປັນສາມຕົວແທນແຍກຕ່າງຫາກ: ການສອບຖາມ (ຖາມ), ໃຊ້ (K), ແລະ ຄ່າ (ວ). ການຄາດຄະເນເຫຼົ່ານີ້ແມ່ນໄດ້ມາຈາກການຄູນການປ້ອນຂໍ້ມູນກັບ matrices ນ້ໍາຫນັກທີ່ໄດ້ຮຽນຮູ້.
- ການຄິດໄລ່ຄະແນນຄວາມສົນໃຈ: ສໍາລັບແຕ່ລະຕໍາແໜ່ງໃນລໍາດັບການປ້ອນຂໍ້ມູນ, ຄະແນນຄວາມສົນໃຈແມ່ນຄິດໄລ່ໂດຍການເອົາຜະລິດຕະພັນຈຸດລະຫວ່າງ vector ສອບຖາມທີ່ສອດຄ້ອງກັນແລະ vector ທີ່ສໍາຄັນທັງຫມົດ. ຄະແນນເຫຼົ່ານີ້ສະແດງເຖິງຄວາມກ່ຽວຂ້ອງຂອງແຕ່ລະຕໍາແໜ່ງຕໍ່ກັບຕໍາແໜ່ງປັດຈຸບັນທີ່ກໍາລັງດໍາເນີນຢູ່.
- ຜົນລວມຂອງມູນຄ່າ: ຄະແນນຄວາມສົນໃຈແມ່ນຖືກປັບໃຫ້ເປັນປົກກະຕິໂດຍໃຊ້ຟັງຊັນ softmax, ແລະນໍ້າໜັກຄວາມສົນໃຈທີ່ໄດ້ຮັບແມ່ນໃຊ້ເພື່ອຄິດໄລ່ຜົນລວມຂອງນໍ້າໜັກຂອງ vectors ມູນຄ່າ, ຜະລິດການສະແດງຜົນອອກມາສໍາລັບຕໍາແຫນ່ງປັດຈຸບັນ.
ຄວາມສົນໃຈຫຼາຍຫົວ, ການປ່ຽນແປງຂອງກົນໄກການເອົາໃຈໃສ່ຕົນເອງ, ອະນຸຍາດໃຫ້ຕົວແບບເພື່ອເກັບກໍາປະເພດຕ່າງໆຂອງການພົວພັນໂດຍການຄິດໄລ່ຄະແນນຄວາມສົນໃຈໃນທົ່ວຫຼາຍ ".ຫົວຫນ້າ” ໃນຂະຫນານ, ແຕ່ລະຄົນມີຊຸດຄໍາຖາມຂອງຕົນເອງ, ທີ່ສໍາຄັນ, ແລະການຄາດຄະເນມູນຄ່າ.
ຕົວແປ ແລະການຕັ້ງຄ່າສະຖາປັດຕະຍະກຳ
ໃນຂະນະທີ່ຫຼັກການຫຼັກຂອງ LLMs ທີ່ອີງໃສ່ຕົວຖອດລະຫັດຍັງຄົງສອດຄ່ອງ, ນັກຄົ້ນຄວ້າໄດ້ຄົ້ນຫາຕົວແປແລະການຕັ້ງຄ່າສະຖາປັດຕະຍະກໍາຕ່າງໆເພື່ອປັບປຸງການປະຕິບັດ, ປະສິດທິພາບ, ແລະຄວາມສາມາດທົ່ວໄປ. ໃນພາກນີ້, ພວກເຮົາຈະເຈາະເລິກເຖິງທາງເລືອກສະຖາປັດຕະຍະກໍາທີ່ແຕກຕ່າງກັນແລະຜົນສະທ້ອນຂອງມັນ.
ປະເພດສະຖາປັດຕະຍະກໍາ
LLMs ທີ່ອີງໃສ່ຕົວຖອດລະຫັດສາມາດຖືກຈັດປະເພດຢ່າງກວ້າງຂວາງເປັນສາມປະເພດຕົ້ນຕໍ: ຕົວຖອດລະຫັດ - ຕົວຖອດລະຫັດ, ຕົວຖອດລະຫັດສາເຫດ, ແລະຕົວຖອດລະຫັດຄໍານໍາຫນ້າ. ແຕ່ລະປະເພດສະຖາປັດຕະຍະກໍາສະແດງໃຫ້ເຫັນຮູບແບບຄວາມສົນໃຈທີ່ແຕກຕ່າງກັນ.
ສະຖາປັດຕະຍະກຳຕົວເຂົ້າລະຫັດ-ຖອດລະຫັດ
ອີງຕາມຕົວແບບຂອງ vanilla Transformer, ສະຖາປັດຕະຍະກໍາຕົວເຂົ້າລະຫັດ - ຕົວຖອດລະຫັດປະກອບດ້ວຍສອງ stacks: ຕົວເຂົ້າລະຫັດແລະຕົວຖອດລະຫັດ. ຕົວເຂົ້າລະຫັດຈະໃຊ້ຊັ້ນການໃສ່ໃຈຕົນເອງຫຼາຍຫົວແບບຊ້ອນກັນເພື່ອເຂົ້າລະຫັດລໍາດັບການປ້ອນຂໍ້ມູນ ແລະສ້າງຕົວແທນທີ່ແຝງ. ຫຼັງຈາກນັ້ນ, ຕົວຖອດລະຫັດປະຕິບັດການເອົາໃຈໃສ່ຂ້າມກັບຕົວແທນເຫຼົ່ານີ້ເພື່ອສ້າງລໍາດັບເປົ້າຫມາຍ. ໃນຂະນະທີ່ມີປະສິດທິພາບໃນວຽກງານ NLP ຕ່າງໆ, LLMs ຈໍານວນຫນ້ອຍ, ເຊັ່ນ: Flan-T5, ຮັບຮອງເອົາສະຖາປັດຕະຍະກໍານີ້.
ສະຖາປັດຕະຍະກຳຕົວຖອດລະຫັດສາເຫດ
ສະຖາປັດຕະຍະກຳຕົວຖອດລະຫັດສາເຫດລວມເອົາໜ້າກາກໃສ່ໃຈ unidirectional, ອະນຸຍາດໃຫ້ແຕ່ລະ token ປ້ອນເຂົ້າເຂົ້າກັບ tokens ທີ່ຜ່ານມາ ແລະຕົວມັນເອງເທົ່ານັ້ນ. ທັງ input ແລະ output tokens ຖືກປະມວນຜົນພາຍໃນຕົວຖອດລະຫັດດຽວກັນ. ຮູບແບບທີ່ໂດດເດັ່ນເຊັ່ນ GPT-1, GPT-2, ແລະ GPT-3 ຖືກສ້າງຂຶ້ນໃນສະຖາປັດຕະຍະກໍານີ້, ດ້ວຍ GPT-3 ສະແດງໃຫ້ເຫັນຄວາມສາມາດໃນການຮຽນຮູ້ໃນສະພາບການທີ່ໂດດເດັ່ນ. LLMs ຈໍານວນຫຼາຍ, ລວມທັງ OPT, BLOOM, ແລະ Gopher, ໄດ້ຮັບຮອງເອົາການຖອດລະຫັດເຫດຜົນຢ່າງກວ້າງຂວາງ.
ສະຖາປັດຕະຍະກຳຕົວຖອດລະຫັດຄຳນຳໜ້າ
ເຊິ່ງເອີ້ນກັນວ່າຕົວຖອດລະຫັດທີ່ບໍ່ເປັນສາເຫດ, ສະຖາປັດຕະຍະກຳຕົວຖອດລະຫັດຄຳນຳໜ້າຈະປັບປ່ຽນກົນໄກການປິດບັງຂອງຕົວຖອດລະຫັດສາເຫດເພື່ອໃຫ້ຄວາມສົນໃຈ bidirectional ຫຼາຍກວ່າ tokens ຄຳນຳໜ້າ ແລະຄວາມສົນໃຈ unidirectional ກ່ຽວກັບ tokens ທີ່ສ້າງຂຶ້ນ. ເຊັ່ນດຽວກັນກັບສະຖາປັດຕະຍະກໍາ encoder-decoder, ຕົວຖອດລະຫັດ prefix ສາມາດເຂົ້າລະຫັດລໍາດັບ prefix bidirectionally ແລະຄາດຄະເນ tokens ຜົນຜະລິດ autoregressively ໂດຍໃຊ້ພາລາມິເຕີທີ່ແບ່ງປັນ. LLMs ໂດຍອີງໃສ່ຕົວຖອດລະຫັດຄໍານໍາຫນ້າປະກອບມີ GLM130B ແລະ U-PaLM.
ທັງສາມປະເພດສະຖາປັດຕະຍະສາມາດຂະຫຍາຍໄດ້ໂດຍໃຊ້ ຜູ້ຊ່ຽວຊານປະສົມ (MoE) ເຕັກນິກການປັບຂະ ໜາດ, ເຊິ່ງກະຕຸ້ນຊຸດຍ່ອຍຂອງນ້ ຳ ໜັກ ເຄືອຂ່າຍ neural ເລັກນ້ອຍ ສຳ ລັບແຕ່ລະວັດສະດຸປ້ອນ. ວິທີການນີ້ໄດ້ຖືກໃຊ້ໃນແບບຈໍາລອງເຊັ່ນ Switch Transformer ແລະ GLaM, ດ້ວຍການເພີ່ມຈໍານວນຜູ້ຊ່ຽວຊານຫຼືຂະຫນາດພາລາມິເຕີທັງຫມົດສະແດງໃຫ້ເຫັນເຖິງການປັບປຸງປະສິດທິພາບທີ່ສໍາຄັນ.
ຕົວຖອດລະຫັດ-ການຫັນປ່ຽນເທົ່ານັ້ນ: ຮັບເອົາລັກສະນະການຖອຍຫຼັງແບບອັດຕະໂນມັດ
ໃນຂະນະທີ່ສະຖາປັດຕະຍະກໍາຕົ້ນສະບັບໄດ້ຖືກອອກແບບສໍາລັບວຽກງານລໍາດັບຕໍ່ລໍາດັບເຊັ່ນການແປພາສາເຄື່ອງຈັກ, ວຽກງານ NLP ຈໍານວນຫຼາຍ, ເຊັ່ນ: ການສ້າງແບບຈໍາລອງພາສາແລະການສ້າງຂໍ້ຄວາມ, ສາມາດຖືກກອບເປັນບັນຫາ autoregressive, ບ່ອນທີ່ຕົວແບບຈະສ້າງຫນຶ່ງ token ໃນເວລານັ້ນ, ເງື່ອນໄຂໃນ. tokens ທີ່ສ້າງຂຶ້ນກ່ອນຫນ້ານີ້.
ໃສ່ຕົວແປງສັນຍານຕົວຖອດລະຫັດເທົ່ານັ້ນ, ເປັນຕົວແປທີ່ງ່າຍຂອງສະຖາປັດຕະຍະກຳຂອງຕົວແປງສັນຍານທີ່ຮັກສາອົງປະກອບຕົວຖອດລະຫັດເທົ່ານັ້ນ. ສະຖາປັດຕະຍະກໍານີ້ແມ່ນເຫມາະສົມໂດຍສະເພາະສໍາລັບວຽກງານ autoregressive, ຍ້ອນວ່າມັນສ້າງ tokens ຜົນຜະລິດຫນຶ່ງຕໍ່ຫນຶ່ງ, ນໍາໃຊ້ tokens ທີ່ສ້າງຂຶ້ນໃນເມື່ອກ່ອນເປັນສະພາບການປ້ອນຂໍ້ມູນ.
ຄວາມແຕກຕ່າງທີ່ ສຳ ຄັນລະຫວ່າງຕົວຖອດລະຫັດການຫັນປ່ຽນເທົ່ານັ້ນແລະຕົວຖອດລະຫັດການຫັນປ່ຽນຕົ້ນສະບັບແມ່ນຢູ່ໃນກົນໄກການເອົາໃຈໃສ່ຕົນເອງ. ໃນການຕັ້ງຄ່າຕົວຖອດລະຫັດເທົ່ານັ້ນ, ການປະຕິບັດການເອົາໃຈໃສ່ຕົນເອງຖືກແກ້ໄຂເພື່ອປ້ອງກັນບໍ່ໃຫ້ຕົວແບບຈາກການເຂົ້າຮ່ວມກັບ tokens ໃນອະນາຄົດ, ຊັບສິນທີ່ເອີ້ນວ່າ causality. ນີ້ແມ່ນບັນລຸໄດ້ໂດຍຜ່ານເຕັກນິກທີ່ເອີ້ນວ່າ "ການໃສ່ໃຈຕົນເອງໃສ່ຜ້າອັດດັງ", ບ່ອນທີ່ຄະແນນຄວາມສົນໃຈທີ່ສອດຄ້ອງກັນກັບຕໍາແຫນ່ງໃນອະນາຄົດແມ່ນຖືກກໍານົດເປັນ infinity ລົບ, ປະສິດທິຜົນເຮັດໃຫ້ພວກເຂົາປິດບັງໃນລະຫວ່າງຂັ້ນຕອນການປົກກະຕິຂອງ softmax.
ອົງປະກອບສະຖາປັດຕະຍະກໍາຂອງ LLMs ທີ່ອີງໃສ່ຕົວຖອດລະຫັດ
ໃນຂະນະທີ່ຫຼັກການຫຼັກຂອງການໃສ່ໃຈຕົນເອງແລະການໃສ່ຜ້າອັດດັງຍັງຄົງຢູ່ຄືກັນ, LLMs ທີ່ອີງໃສ່ຕົວຖອດລະຫັດທີ່ທັນສະໄຫມໄດ້ນໍາສະເຫນີການປະດິດສ້າງສະຖາປັດຕະຍະກໍາຫຼາຍຢ່າງເພື່ອປັບປຸງປະສິດທິພາບ, ປະສິດທິພາບແລະຄວາມສາມາດທົ່ວໄປ. ມາສຳຫຼວດບາງອົງປະກອບ ແລະເຕັກນິກຫຼັກທີ່ໃຊ້ໃນ LLMs ທີ່ທັນສະໄໝ.
ການນໍາເຂົ້າຕົວແທນ
ກ່ອນທີ່ຈະປະມວນຜົນລໍາດັບການປ້ອນຂໍ້ມູນ, LLMs ທີ່ອີງໃສ່ຕົວຖອດລະຫັດໃຊ້ tokenization ແລະ embedding ເຕັກນິກການປ່ຽນຂໍ້ຄວາມດິບເປັນຕົວເລກທີ່ເຫມາະສົມສໍາລັບຮູບແບບ.
Tokenization: ຂະບວນການ tokenization ປ່ຽນຂໍ້ຄວາມທີ່ປ້ອນເຂົ້າໄປໃນລໍາດັບຂອງ tokens, ເຊິ່ງສາມາດເປັນຄໍາສັບ, ຄໍາຍ່ອຍ, ຫຼືແມ້ກະທັ້ງຕົວລະຄອນສ່ວນບຸກຄົນ, ຂຶ້ນກັບກົນລະຍຸດ tokenization ທີ່ໃຊ້. ເທັກນິກການຕັ້ງ tokenization ທີ່ນິຍົມສຳລັບ LLMs ລວມມີ Byte-Pair Encoding (BPE), SentencePiece, ແລະ WordPiece. ວິທີການເຫຼົ່ານີ້ມີຈຸດປະສົງເພື່ອເຮັດໃຫ້ຄວາມສົມດູນລະຫວ່າງຂະຫນາດຄໍາສັບແລະ granularity ເປັນຕົວແທນ, ອະນຸຍາດໃຫ້ຕົວແບບເພື່ອຈັດການກັບຄໍາສັບທີ່ຫາຍາກຫຼືນອກຄໍາສັບຕ່າງໆໄດ້ປະສິດທິພາບ.
ການຝັງໂທເຄັນ: ຫຼັງຈາກ tokenization, ແຕ່ລະ token ຈະຖືກແຜນທີ່ເປັນຕົວແທນ vector ທີ່ຫນາແຫນ້ນທີ່ເອີ້ນວ່າ token embedding. ການຝັງເຫຼົ່ານີ້ແມ່ນໄດ້ຮຽນຮູ້ໃນລະຫວ່າງຂະບວນການຝຶກອົບຮົມແລະເກັບກໍາຄວາມສໍາພັນ semantic ແລະ syntactic ລະຫວ່າງ tokens.
ການຝັງຕໍາແຫນ່ງ: ຕົວແບບການຫັນປ່ຽນປະມວນຜົນລໍາດັບການປ້ອນຂໍ້ມູນທັງໝົດພ້ອມກັນ, ຂາດແນວຄິດທີ່ປະກົດຂຶ້ນຂອງຕຳແໜ່ງໂທເຄັນທີ່ມີຢູ່ໃນຕົວແບບທີ່ເກີດຂຶ້ນຊ້ຳໆ. ເພື່ອລວມເອົາຂໍ້ມູນຕໍາແຫນ່ງ, ການຝັງຕໍາແຫນ່ງແມ່ນຖືກເພີ່ມໃສ່ການຝັງຕົວຂອງ token, ໃຫ້ຕົວແບບຈໍາແນກລະຫວ່າງ tokens ໂດຍອີງໃສ່ຕໍາແຫນ່ງຂອງພວກເຂົາໃນລໍາດັບ. LLMs ໃນຕົ້ນໆໄດ້ໃຊ້ການຝັງຕໍາແຫນ່ງຄົງທີ່ໂດຍອີງໃສ່ຫນ້າທີ່ sinusoidal, ໃນຂະນະທີ່ຮູບແບບທີ່ຜ່ານມາໄດ້ຄົ້ນຫາການຝັງຕົວຕໍາແຫນ່ງທີ່ສາມາດຮຽນຮູ້ໄດ້ຫຼືເຕັກນິກການເຂົ້າລະຫັດຕໍາແຫນ່ງທາງເລືອກເຊັ່ນ: ການຝັງຕໍາແຫນ່ງ rotary.
ບລັອກການໃສ່ໃຈຫຼາຍຫົວ
ໂຄງສ້າງຫຼັກຂອງ LLMs ທີ່ອີງໃສ່ຕົວຖອດລະຫັດແມ່ນຊັ້ນຄວາມສົນໃຈຫຼາຍຫົວ, ເຊິ່ງປະຕິບັດການປະຕິບັດການໃສ່ໃຈຕົນເອງແບບໜ້າກາກທີ່ໄດ້ອະທິບາຍໄວ້ກ່ອນໜ້ານີ້. ຊັ້ນເຫຼົ່ານີ້ຖືກ stacked ຫຼາຍຄັ້ງ, ໂດຍແຕ່ລະຊັ້ນເຂົ້າຮ່ວມກັບຜົນຜະລິດຂອງຊັ້ນກ່ອນຫນ້າ, ອະນຸຍາດໃຫ້ຕົວແບບສາມາດເກັບກໍາການເພິ່ງພາອາໄສແລະການເປັນຕົວແທນທີ່ສັບສົນຫຼາຍຂຶ້ນ.
ຫົວຫນ້າເອົາໃຈໃສ່: ແຕ່ລະຊັ້ນຄວາມສົນໃຈຫຼາຍຫົວປະກອບດ້ວຍຫຼາຍ “ຫົວຄວາມສົນໃຈ”, ແຕ່ລະຄົນມີຊຸດຄໍາຖາມ, ລະຫັດ, ແລະການຄາດຄະເນມູນຄ່າຂອງຕົນເອງ. ນີ້ອະນຸຍາດໃຫ້ຕົວແບບເຂົ້າຮ່ວມໃນລັກສະນະທີ່ແຕກຕ່າງກັນຂອງວັດສະດຸປ້ອນພ້ອມໆກັນ, ເກັບກໍາຄວາມສໍາພັນແລະຮູບແບບທີ່ຫຼາກຫຼາຍ.
ການເຊື່ອມຕໍ່ທີ່ເຫຼືອແລະການປົກກະຕິຊັ້ນ: ເພື່ອອໍານວຍຄວາມສະດວກໃນການຝຶກອົບຮົມຂອງເຄືອຂ່າຍເລິກແລະຫຼຸດຜ່ອນບັນຫາ gradient ທີ່ຫາຍໄປ, LLMs ທີ່ໃຊ້ຕົວຖອດລະຫັດໃຊ້ການເຊື່ອມຕໍ່ທີ່ຕົກຄ້າງແລະເຕັກນິກການປົກກະຕິຊັ້ນ. ການເຊື່ອມຕໍ່ທີ່ຕົກຄ້າງຈະເພີ່ມການປ້ອນຂໍ້ມູນຂອງຊັ້ນໃສ່ກັບຜົນຜະລິດຂອງມັນ, ອະນຸຍາດໃຫ້ gradients ໄຫຼໄດ້ງ່າຍກວ່າໃນລະຫວ່າງການຂະຫຍາຍພັນຄືນ. Layer normalization ຈະຊ່ວຍໃຫ້ສະຖຽນລະພາບການກະຕຸ້ນແລະການ gradients, ປັບປຸງຄວາມຫມັ້ນຄົງຂອງການຝຶກອົບຮົມແລະການປະຕິບັດ.
Feed-Forward Layers
ນອກເໜືອໄປຈາກຊັ້ນການໃສ່ໃຈຫຼາຍຫົວແລ້ວ, LLMs ທີ່ອີງໃສ່ຕົວຖອດລະຫັດຈະລວມເອົາຊັ້ນການສົ່ງຕໍ່, ເຊິ່ງນຳໃຊ້ເຄືອຂ່າຍ neural feed-forward ງ່າຍໆກັບແຕ່ລະຕຳແໜ່ງໃນລຳດັບ. ຊັ້ນຂໍ້ມູນເຫຼົ່ານີ້ແນະນຳຄວາມບໍ່ເປັນເສັ້ນ ແລະ ເຮັດໃຫ້ຕົວແບບສາມາດຮຽນຮູ້ການເປັນຕົວແທນທີ່ຊັບຊ້ອນຫຼາຍຂຶ້ນ.
ຟັງຊັນການເປີດໃຊ້ງານ: ການເລືອກຟັງຊັນການເປີດໃຊ້ງານໃນຊັ້ນຂໍ້ມູນສົ່ງຕໍ່ສາມາດສົ່ງຜົນກະທົບຢ່າງຫຼວງຫຼາຍຕໍ່ປະສິດທິພາບຂອງຕົວແບບ. ໃນຂະນະທີ່ LLMs ກ່ອນຫນ້ານີ້ແມ່ນອີງໃສ່ການເປີດໃຊ້ ReLU ທີ່ໃຊ້ຢ່າງກວ້າງຂວາງ, ຮູບແບບທີ່ຜ່ານມາຫຼາຍໄດ້ຮັບຮອງເອົາຫນ້າທີ່ການກະຕຸ້ນທີ່ຊັບຊ້ອນຫຼາຍເຊັ່ນ Gaussian Error Linear Unit (GELU) ຫຼືການເປີດໃຊ້ງານ SwiGLU, ເຊິ່ງໄດ້ສະແດງໃຫ້ເຫັນການປັບປຸງປະສິດທິພາບ.
ການຫັນເປັນຄວາມເອົາໃຈໃສ່ ແລະປະສິດທິພາບ
ໃນຂະນະທີ່ກົນໄກການເອົາໃຈໃສ່ຕົນເອງແມ່ນມີອໍານາດ, ມັນມາພ້ອມກັບຄວາມສັບສົນຂອງຄອມພິວເຕີ້ສີ່ຫລ່ຽມກ່ຽວກັບຄວາມຍາວຂອງລໍາດັບ, ເຮັດໃຫ້ມັນມີລາຄາແພງໃນຄອມພິວເຕີ້ສໍາລັບລໍາດັບຍາວ. ເພື່ອແກ້ໄຂສິ່ງທ້າທາຍນີ້, ເຕັກນິກຈໍານວນຫນຶ່ງໄດ້ຖືກສະເຫນີເພື່ອຫຼຸດຜ່ອນຄວາມຕ້ອງການຄອມພິວເຕີ້ແລະຄວາມຊົງຈໍາຂອງຄວາມສົນໃຈຂອງຕົນເອງ, ຊ່ວຍໃຫ້ການປຸງແຕ່ງທີ່ມີປະສິດທິພາບຂອງລໍາດັບທີ່ຍາວກວ່າ.
ເອົາໃຈໃສ່ເລັກນ້ອຍ: ເຕັກນິກການໃສ່ໃຈແບບກະແຈກກະຈາຍ, ເຊັ່ນວ່າຈ້າງໃນແບບຈໍາລອງ GPT-3, ຄັດເລືອກເອົາຕໍາແໜ່ງຍ່ອຍໃນລໍາດັບການປ້ອນຂໍ້ມູນ, ແທນທີ່ຈະຄິດໄລ່ຄະແນນຄວາມສົນໃຈສໍາລັບທຸກຕໍາແໜ່ງ. ນີ້ສາມາດຫຼຸດຜ່ອນຄວາມສັບສົນຂອງຄອມພິວເຕີ້ຢ່າງຫຼວງຫຼາຍໃນຂະນະທີ່ຮັກສາປະສິດທິພາບທີ່ສົມເຫດສົມຜົນ.
Sliding Window ເອົາໃຈໃສ່: ແນະນໍາໃນຮູບແບບ Mistral 7B , ເລື່ອນຄວາມສົນໃຈຂອງປ່ອງຢ້ຽມ (SWA) ແມ່ນເຕັກນິກທີ່ງ່າຍດາຍແຕ່ມີປະສິດທິພາບທີ່ຈໍາກັດຂອບເຂດຄວາມສົນໃຈຂອງແຕ່ລະ token ກັບຂະຫນາດປ່ອງຢ້ຽມຄົງທີ່. ວິທີການນີ້ leverages ຄວາມສາມາດຂອງຊັ້ນການຫັນເປັນເພື່ອສົ່ງຂໍ້ມູນຂ່າວສານໃນທົ່ວຫຼາຍຊັ້ນ, ປະສິດທິຜົນເພີ່ມທະວີການ span ຄວາມສົນໃຈໂດຍບໍ່ມີການສະລັບສັບຊ້ອນສີ່ຫລ່ຽມຂອງການເອົາໃຈໃສ່ຕົນເອງຢ່າງເຕັມທີ່.
Rolling Buffer Cache: ເພື່ອຫຼຸດຜ່ອນຄວາມຕ້ອງການຄວາມຊົງຈໍາຕື່ມອີກ, ໂດຍສະເພາະສໍາລັບລໍາດັບຍາວ, ຮູບແບບ Mistral 7B ໃຊ້ cache buffer ມ້ວນ. ເທກນິກນີ້ເກັບຮັກສາ ແລະນໍາໃຊ້ຄືນຄ່າຂອງຄີຄໍານວນ ແລະ vectors ສໍາລັບຂະຫນາດຫນ້າຕ່າງຄົງທີ່, ຫຼີກເວັ້ນການຄໍານວນຊ້ໍາຊ້ອນແລະການຫຼຸດຜ່ອນການນໍາໃຊ້ຫນ່ວຍຄວາມຈໍາ.
ເອົາໃຈໃສ່ແບບສອບຖາມເປັນກຸ່ມ: ແນະນໍາໃນຮູບແບບ LLaMA 2, grouped query attention (GQA) is a variant of the multi-query attention mechanisms that divides attention heads into group, each group share a common key and value matrix. ວິທີການນີ້ເຮັດໃຫ້ຄວາມສົມດູນລະຫວ່າງປະສິດທິພາບຂອງຄວາມສົນໃຈຫຼາຍຄໍາຖາມແລະການປະຕິບັດການເອົາໃຈໃສ່ຕົນເອງມາດຕະຖານ, ສະຫນອງການປັບປຸງເວລາ inference ໃນຂະນະທີ່ຮັກສາຜົນໄດ້ຮັບທີ່ມີຄຸນນະພາບສູງ.