ປັນຍາປະດິດ

ຕົວແບບພາສາຂະໜາດໃຫຍ່ທີ່ໃຊ້ຕົວຖອດລະຫັດ: ຄູ່ມືຄົບຖ້ວນ

ການປັບປຸງ on ເມສາ 27, 2024

ຕົວແບບພາສາຂະໜາດໃຫຍ່ທີ່ໃຊ້ຕົວຖອດລະຫັດ: ຄູ່ມືຄົບຖ້ວນ

ຮູບແບບພາສາຂະຫນາດໃຫຍ່ (LLMs) ໄດ້ປະຕິວັດຂະແຫນງການປຸງແຕ່ງພາສາທໍາມະຊາດ (NLP) ໂດຍສະແດງໃຫ້ເຫັນຄວາມສາມາດທີ່ໂດດເດັ່ນໃນການສ້າງຂໍ້ຄວາມທີ່ຄ້າຍຄືກັບມະນຸດ, ການຕອບຄໍາຖາມ, ແລະການຊ່ວຍເຫຼືອວຽກງານທີ່ກ່ຽວຂ້ອງກັບພາສາທີ່ກວ້າງຂວາງ. ຫຼັກໆຂອງຕົວແບບທີ່ມີປະສິດທິພາບເຫຼົ່ານີ້ຈະເຣັດໄດ້ ສະຖາປັດຕະຍະກຳຕົວແປງສັນຍານຕົວຖອດລະຫັດເທົ່ານັ້ນ, ການປ່ຽນແປງຂອງຖາປັດຕະຍະການຫັນເປັນຕົ້ນສະບັບສະເຫນີໃນເອກະສານ seminal "ເອົາ ໃຈ ໃສ່ ແມ່ນ ທັງ ຫມົດ ທີ່ ທ່ານ ຕ້ອງ ການ” ໂດຍ Vaswani et al.

ໃນຄູ່ມືທີ່ສົມບູນແບບນີ້, ພວກເຮົາຈະຄົ້ນຫາການເຮັດວຽກພາຍໃນຂອງ LLMs ທີ່ອີງໃສ່ຕົວຖອດລະຫັດ, ເຈາະເລິກເຂົ້າໄປໃນໂຄງສ້າງພື້ນຖານ, ການປະດິດສ້າງສະຖາປັດຕະຍະກໍາ, ແລະລາຍລະອຽດການປະຕິບັດທີ່ໄດ້ນໍາຕົວແບບເຫຼົ່ານີ້ໄປສູ່ການຄົ້ນຄ້ວາແລະຄໍາຮ້ອງສະຫມັກຂອງ NLP.

ຖາປັດຕະຍະການຫັນເປັນ: ປັບປຸງໃຫມ່

ກ່ອນທີ່ຈະເຂົ້າໄປໃນຈຸດສະເພາະຂອງ LLMs ທີ່ອີງໃສ່ຕົວຖອດລະຫັດ, ມັນເປັນສິ່ງຈໍາເປັນທີ່ຈະຕ້ອງທົບທວນຄືນສະຖາປັດຕະຍະກໍາຂອງຫມໍ້ແປງ, ພື້ນຖານທີ່ຕົວແບບເຫຼົ່ານີ້ຖືກສ້າງຂຶ້ນ. ການຫັນເປັນໄດ້ນໍາສະເຫນີວິທີການໃຫມ່ໆຂອງການສ້າງແບບຈໍາລອງລໍາດັບ, ອີງໃສ່ພຽງແຕ່ກົນໄກການເອົາໃຈໃສ່ເພື່ອເກັບກໍາການເພິ່ງພາອາໄສໃນໄລຍະຍາວໃນຂໍ້ມູນ, ບໍ່ຈໍາເປັນຕ້ອງມີຊັ້ນ recurrent ຫຼື convolutional.

ສະຖາປັດຕະຍະກຳ Transformers

ສະຖາປັດຕະຍະກໍາຂອງຫມໍ້ແປງຕົ້ນສະບັບປະກອບດ້ວຍສອງອົງປະກອບຕົ້ນຕໍ: ຕົວເຂົ້າລະຫັດແລະຕົວຖອດລະຫັດ. ຕົວເຂົ້າລະຫັດຈະປະມວນຜົນລຳດັບການປ້ອນຂໍ້ມູນ ແລະສ້າງການເປັນຕົວແທນຕາມບໍລິບົດ, ເຊິ່ງຫຼັງຈາກນັ້ນຕົວຖອດລະຫັດຈະຖືກບໍລິໂພກເພື່ອຜະລິດລຳດັບຜົນຜະລິດ. ສະຖາປັດຕະຍະກໍານີ້ໄດ້ຖືກອອກແບບໃນເບື້ອງຕົ້ນສໍາລັບວຽກງານການແປພາສາຂອງເຄື່ອງຈັກ, ບ່ອນທີ່ຕົວເຂົ້າລະຫັດປະມວນຜົນປະໂຫຍກປ້ອນຂໍ້ມູນໃນພາສາຕົ້ນສະບັບ, ແລະຕົວຖອດລະຫັດຈະສ້າງປະໂຫຍກທີ່ສອດຄ້ອງກັນໃນພາສາເປົ້າຫມາຍ.

ການໃສ່ໃຈຕົນເອງ: ກຸນແຈສູ່ຄວາມສໍາເລັດຂອງ Transformer

ໃນຈຸດໃຈກາງຂອງ ການຫັນເປັນ ແມ່ນກົນໄກການເອົາໃຈໃສ່ຕົນເອງ, ເຕັກນິກທີ່ມີປະສິດທິພາບທີ່ຊ່ວຍໃຫ້ຕົວແບບສາມາດຊັ່ງນໍ້າຫນັກແລະລວບລວມຂໍ້ມູນຈາກຕໍາແຫນ່ງທີ່ແຕກຕ່າງກັນໃນລໍາດັບການປ້ອນຂໍ້ມູນ. ບໍ່ເຫມືອນກັບຕົວແບບລໍາດັບແບບດັ້ງເດີມ, ເຊິ່ງປະມວນຜົນ tokens ການປ້ອນຂໍ້ມູນຕາມລໍາດັບ, ການເອົາໃຈໃສ່ຕົນເອງເຮັດໃຫ້ຕົວແບບສາມາດເກັບກໍາຄວາມເພິ່ງພາອາໄສລະຫວ່າງຄູ່ຂອງ tokens, ໂດຍບໍ່ຄໍານຶງເຖິງຕໍາແຫນ່ງຂອງພວກເຂົາໃນລໍາດັບ.

ຄວາມສົນໃຈ Multiquery

ການປະຕິບັດການເອົາໃຈໃສ່ຕົນເອງສາມາດແບ່ງອອກເປັນສາມຂັ້ນຕອນຕົ້ນຕໍ:

Query, Key, ແລະການຄາດຄະເນມູນຄ່າ: ລຳດັບການປ້ອນຂໍ້ມູນຖືກຄາດຄະເນອອກເປັນສາມຕົວແທນແຍກຕ່າງຫາກ: ການສອບຖາມ (ຖາມ), ໃຊ້ (K), ແລະ ຄ່າ (ວ). ການຄາດຄະເນເຫຼົ່ານີ້ແມ່ນໄດ້ມາຈາກການຄູນການປ້ອນຂໍ້ມູນກັບ matrices ນ້ໍາຫນັກທີ່ໄດ້ຮຽນຮູ້.
ການຄິດໄລ່ຄະແນນຄວາມສົນໃຈ: ສໍາລັບແຕ່ລະຕໍາແໜ່ງໃນລໍາດັບການປ້ອນຂໍ້ມູນ, ຄະແນນຄວາມສົນໃຈແມ່ນຄິດໄລ່ໂດຍການເອົາຜະລິດຕະພັນຈຸດລະຫວ່າງ vector ສອບຖາມທີ່ສອດຄ້ອງກັນແລະ vector ທີ່ສໍາຄັນທັງຫມົດ. ຄະແນນເຫຼົ່ານີ້ສະແດງເຖິງຄວາມກ່ຽວຂ້ອງຂອງແຕ່ລະຕໍາແໜ່ງຕໍ່ກັບຕໍາແໜ່ງປັດຈຸບັນທີ່ກໍາລັງດໍາເນີນຢູ່.
ຜົນລວມຂອງມູນຄ່າ: ຄະແນນຄວາມສົນໃຈແມ່ນຖືກປັບໃຫ້ເປັນປົກກະຕິໂດຍໃຊ້ຟັງຊັນ softmax, ແລະນໍ້າໜັກຄວາມສົນໃຈທີ່ໄດ້ຮັບແມ່ນໃຊ້ເພື່ອຄິດໄລ່ຜົນລວມຂອງນໍ້າໜັກຂອງ vectors ມູນຄ່າ, ຜະລິດການສະແດງຜົນອອກມາສໍາລັບຕໍາແຫນ່ງປັດຈຸບັນ.

ຄວາມສົນໃຈຫຼາຍຫົວ, ການປ່ຽນແປງຂອງກົນໄກການເອົາໃຈໃສ່ຕົນເອງ, ອະນຸຍາດໃຫ້ຕົວແບບເພື່ອເກັບກໍາປະເພດຕ່າງໆຂອງການພົວພັນໂດຍການຄິດໄລ່ຄະແນນຄວາມສົນໃຈໃນທົ່ວຫຼາຍ ".ຫົວຫນ້າ” ໃນຂະຫນານ, ແຕ່ລະຄົນມີຊຸດຄໍາຖາມຂອງຕົນເອງ, ທີ່ສໍາຄັນ, ແລະການຄາດຄະເນມູນຄ່າ.

ຕົວແປ ແລະການຕັ້ງຄ່າສະຖາປັດຕະຍະກຳ

ໃນຂະນະທີ່ຫຼັກການຫຼັກຂອງ LLMs ທີ່ອີງໃສ່ຕົວຖອດລະຫັດຍັງຄົງສອດຄ່ອງ, ນັກຄົ້ນຄວ້າໄດ້ຄົ້ນຫາຕົວແປແລະການຕັ້ງຄ່າສະຖາປັດຕະຍະກໍາຕ່າງໆເພື່ອປັບປຸງການປະຕິບັດ, ປະສິດທິພາບ, ແລະຄວາມສາມາດທົ່ວໄປ. ໃນພາກນີ້, ພວກເຮົາຈະເຈາະເລິກເຖິງທາງເລືອກສະຖາປັດຕະຍະກໍາທີ່ແຕກຕ່າງກັນແລະຜົນສະທ້ອນຂອງມັນ.

ປະເພດສະຖາປັດຕະຍະກໍາ

LLMs ທີ່ອີງໃສ່ຕົວຖອດລະຫັດສາມາດຖືກຈັດປະເພດຢ່າງກວ້າງຂວາງເປັນສາມປະເພດຕົ້ນຕໍ: ຕົວຖອດລະຫັດ - ຕົວຖອດລະຫັດ, ຕົວຖອດລະຫັດສາເຫດ, ແລະຕົວຖອດລະຫັດຄໍານໍາຫນ້າ. ແຕ່ລະປະເພດສະຖາປັດຕະຍະກໍາສະແດງໃຫ້ເຫັນຮູບແບບຄວາມສົນໃຈທີ່ແຕກຕ່າງກັນ.

ສະຖາປັດຕະຍະກຳຕົວເຂົ້າລະຫັດ-ຖອດລະຫັດ

ອີງຕາມຕົວແບບຂອງ vanilla Transformer, ສະຖາປັດຕະຍະກໍາຕົວເຂົ້າລະຫັດ - ຕົວຖອດລະຫັດປະກອບດ້ວຍສອງ stacks: ຕົວເຂົ້າລະຫັດແລະຕົວຖອດລະຫັດ. ຕົວເຂົ້າລະຫັດຈະໃຊ້ຊັ້ນການໃສ່ໃຈຕົນເອງຫຼາຍຫົວແບບຊ້ອນກັນເພື່ອເຂົ້າລະຫັດລໍາດັບການປ້ອນຂໍ້ມູນ ແລະສ້າງຕົວແທນທີ່ແຝງ. ຫຼັງຈາກນັ້ນ, ຕົວຖອດລະຫັດປະຕິບັດການເອົາໃຈໃສ່ຂ້າມກັບຕົວແທນເຫຼົ່ານີ້ເພື່ອສ້າງລໍາດັບເປົ້າຫມາຍ. ໃນຂະນະທີ່ມີປະສິດທິພາບໃນວຽກງານ NLP ຕ່າງໆ, LLMs ຈໍານວນຫນ້ອຍ, ເຊັ່ນ: Flan-T5, ຮັບຮອງເອົາສະຖາປັດຕະຍະກໍານີ້.

ສະຖາປັດຕະຍະກຳຕົວຖອດລະຫັດສາເຫດ

ສະຖາປັດຕະຍະກຳຕົວຖອດລະຫັດສາເຫດລວມເອົາໜ້າກາກໃສ່ໃຈ unidirectional, ອະນຸຍາດໃຫ້ແຕ່ລະ token ປ້ອນເຂົ້າເຂົ້າກັບ tokens ທີ່ຜ່ານມາ ແລະຕົວມັນເອງເທົ່ານັ້ນ. ທັງ input ແລະ output tokens ຖືກປະມວນຜົນພາຍໃນຕົວຖອດລະຫັດດຽວກັນ. ຮູບແບບທີ່ໂດດເດັ່ນເຊັ່ນ GPT-1, GPT-2, ແລະ GPT-3 ຖືກສ້າງຂຶ້ນໃນສະຖາປັດຕະຍະກໍານີ້, ດ້ວຍ GPT-3 ສະແດງໃຫ້ເຫັນຄວາມສາມາດໃນການຮຽນຮູ້ໃນສະພາບການທີ່ໂດດເດັ່ນ. LLMs ຈໍານວນຫຼາຍ, ລວມທັງ OPT, BLOOM, ແລະ Gopher, ໄດ້ຮັບຮອງເອົາການຖອດລະຫັດເຫດຜົນຢ່າງກວ້າງຂວາງ.

ສະຖາປັດຕະຍະກຳຕົວຖອດລະຫັດຄຳນຳໜ້າ

ເຊິ່ງເອີ້ນກັນວ່າຕົວຖອດລະຫັດທີ່ບໍ່ເປັນສາເຫດ, ສະຖາປັດຕະຍະກຳຕົວຖອດລະຫັດຄຳນຳໜ້າຈະປັບປ່ຽນກົນໄກການປິດບັງຂອງຕົວຖອດລະຫັດສາເຫດເພື່ອໃຫ້ຄວາມສົນໃຈ bidirectional ຫຼາຍກວ່າ tokens ຄຳນຳໜ້າ ແລະຄວາມສົນໃຈ unidirectional ກ່ຽວກັບ tokens ທີ່ສ້າງຂຶ້ນ. ເຊັ່ນດຽວກັນກັບສະຖາປັດຕະຍະກໍາ encoder-decoder, ຕົວຖອດລະຫັດ prefix ສາມາດເຂົ້າລະຫັດລໍາດັບ prefix bidirectionally ແລະຄາດຄະເນ tokens ຜົນຜະລິດ autoregressively ໂດຍໃຊ້ພາລາມິເຕີທີ່ແບ່ງປັນ. LLMs ໂດຍອີງໃສ່ຕົວຖອດລະຫັດຄໍານໍາຫນ້າປະກອບມີ GLM130B ແລະ U-PaLM.

ທັງສາມປະເພດສະຖາປັດຕະຍະສາມາດຂະຫຍາຍໄດ້ໂດຍໃຊ້ ຜູ້ຊ່ຽວຊານປະສົມ (MoE) ເຕັກນິກການປັບຂະ ໜາດ, ເຊິ່ງກະຕຸ້ນຊຸດຍ່ອຍຂອງນ້ ຳ ໜັກ ເຄືອຂ່າຍ neural ເລັກນ້ອຍ ສຳ ລັບແຕ່ລະວັດສະດຸປ້ອນ. ວິທີການນີ້ໄດ້ຖືກໃຊ້ໃນແບບຈໍາລອງເຊັ່ນ Switch Transformer ແລະ GLaM, ດ້ວຍການເພີ່ມຈໍານວນຜູ້ຊ່ຽວຊານຫຼືຂະຫນາດພາລາມິເຕີທັງຫມົດສະແດງໃຫ້ເຫັນເຖິງການປັບປຸງປະສິດທິພາບທີ່ສໍາຄັນ.

ຕົວຖອດລະຫັດ-ການຫັນປ່ຽນເທົ່ານັ້ນ: ຮັບເອົາລັກສະນະການຖອຍຫຼັງແບບອັດຕະໂນມັດ

ໃນຂະນະທີ່ສະຖາປັດຕະຍະກໍາຕົ້ນສະບັບໄດ້ຖືກອອກແບບສໍາລັບວຽກງານລໍາດັບຕໍ່ລໍາດັບເຊັ່ນການແປພາສາເຄື່ອງຈັກ, ວຽກງານ NLP ຈໍານວນຫຼາຍ, ເຊັ່ນ: ການສ້າງແບບຈໍາລອງພາສາແລະການສ້າງຂໍ້ຄວາມ, ສາມາດຖືກກອບເປັນບັນຫາ autoregressive, ບ່ອນທີ່ຕົວແບບຈະສ້າງຫນຶ່ງ token ໃນເວລານັ້ນ, ເງື່ອນໄຂໃນ. tokens ທີ່ສ້າງຂຶ້ນກ່ອນຫນ້ານີ້.

ໃສ່ຕົວແປງສັນຍານຕົວຖອດລະຫັດເທົ່ານັ້ນ, ເປັນຕົວແປທີ່ງ່າຍຂອງສະຖາປັດຕະຍະກຳຂອງຕົວແປງສັນຍານທີ່ຮັກສາອົງປະກອບຕົວຖອດລະຫັດເທົ່ານັ້ນ. ສະຖາປັດຕະຍະກໍານີ້ແມ່ນເຫມາະສົມໂດຍສະເພາະສໍາລັບວຽກງານ autoregressive, ຍ້ອນວ່າມັນສ້າງ tokens ຜົນຜະລິດຫນຶ່ງຕໍ່ຫນຶ່ງ, ນໍາໃຊ້ tokens ທີ່ສ້າງຂຶ້ນໃນເມື່ອກ່ອນເປັນສະພາບການປ້ອນຂໍ້ມູນ.

ຄວາມແຕກຕ່າງທີ່ ສຳ ຄັນລະຫວ່າງຕົວຖອດລະຫັດການຫັນປ່ຽນເທົ່ານັ້ນແລະຕົວຖອດລະຫັດການຫັນປ່ຽນຕົ້ນສະບັບແມ່ນຢູ່ໃນກົນໄກການເອົາໃຈໃສ່ຕົນເອງ. ໃນການຕັ້ງຄ່າຕົວຖອດລະຫັດເທົ່ານັ້ນ, ການປະຕິບັດການເອົາໃຈໃສ່ຕົນເອງຖືກແກ້ໄຂເພື່ອປ້ອງກັນບໍ່ໃຫ້ຕົວແບບຈາກການເຂົ້າຮ່ວມກັບ tokens ໃນອະນາຄົດ, ຊັບສິນທີ່ເອີ້ນວ່າ causality. ນີ້ແມ່ນບັນລຸໄດ້ໂດຍຜ່ານເຕັກນິກທີ່ເອີ້ນວ່າ "ການໃສ່ໃຈຕົນເອງໃສ່ຜ້າອັດດັງ", ບ່ອນທີ່ຄະແນນຄວາມສົນໃຈທີ່ສອດຄ້ອງກັນກັບຕໍາແຫນ່ງໃນອະນາຄົດແມ່ນຖືກກໍານົດເປັນ infinity ລົບ, ປະສິດທິຜົນເຮັດໃຫ້ພວກເຂົາປິດບັງໃນລະຫວ່າງຂັ້ນຕອນການປົກກະຕິຂອງ softmax.

ອົງປະກອບສະຖາປັດຕະຍະກໍາຂອງ LLMs ທີ່ອີງໃສ່ຕົວຖອດລະຫັດ

ໃນຂະນະທີ່ຫຼັກການຫຼັກຂອງການໃສ່ໃຈຕົນເອງແລະການໃສ່ຜ້າອັດດັງຍັງຄົງຢູ່ຄືກັນ, LLMs ທີ່ອີງໃສ່ຕົວຖອດລະຫັດທີ່ທັນສະໄຫມໄດ້ນໍາສະເຫນີການປະດິດສ້າງສະຖາປັດຕະຍະກໍາຫຼາຍຢ່າງເພື່ອປັບປຸງປະສິດທິພາບ, ປະສິດທິພາບແລະຄວາມສາມາດທົ່ວໄປ. ມາສຳຫຼວດບາງອົງປະກອບ ແລະເຕັກນິກຫຼັກທີ່ໃຊ້ໃນ LLMs ທີ່ທັນສະໄໝ.

ການນໍາເຂົ້າຕົວແທນ

ກ່ອນທີ່ຈະປະມວນຜົນລໍາດັບການປ້ອນຂໍ້ມູນ, LLMs ທີ່ອີງໃສ່ຕົວຖອດລະຫັດໃຊ້ tokenization ແລະ embedding ເຕັກນິກການປ່ຽນຂໍ້ຄວາມດິບເປັນຕົວເລກທີ່ເຫມາະສົມສໍາລັບຮູບແບບ.

ການຝັງ vector

Tokenization: ຂະບວນການ tokenization ປ່ຽນຂໍ້ຄວາມທີ່ປ້ອນເຂົ້າໄປໃນລໍາດັບຂອງ tokens, ເຊິ່ງສາມາດເປັນຄໍາສັບ, ຄໍາຍ່ອຍ, ຫຼືແມ້ກະທັ້ງຕົວລະຄອນສ່ວນບຸກຄົນ, ຂຶ້ນກັບກົນລະຍຸດ tokenization ທີ່ໃຊ້. ເທັກນິກການຕັ້ງ tokenization ທີ່ນິຍົມສຳລັບ LLMs ລວມມີ Byte-Pair Encoding (BPE), SentencePiece, ແລະ WordPiece. ວິທີການເຫຼົ່ານີ້ມີຈຸດປະສົງເພື່ອເຮັດໃຫ້ຄວາມສົມດູນລະຫວ່າງຂະຫນາດຄໍາສັບແລະ granularity ເປັນຕົວແທນ, ອະນຸຍາດໃຫ້ຕົວແບບເພື່ອຈັດການກັບຄໍາສັບທີ່ຫາຍາກຫຼືນອກຄໍາສັບຕ່າງໆໄດ້ປະສິດທິພາບ.

ການຝັງໂທເຄັນ: ຫຼັງຈາກ tokenization, ແຕ່ລະ token ຈະຖືກແຜນທີ່ເປັນຕົວແທນ vector ທີ່ຫນາແຫນ້ນທີ່ເອີ້ນວ່າ token embedding. ການຝັງເຫຼົ່ານີ້ແມ່ນໄດ້ຮຽນຮູ້ໃນລະຫວ່າງຂະບວນການຝຶກອົບຮົມແລະເກັບກໍາຄວາມສໍາພັນ semantic ແລະ syntactic ລະຫວ່າງ tokens.

ການຝັງຕໍາແຫນ່ງ: ຕົວແບບການຫັນປ່ຽນປະມວນຜົນລໍາດັບການປ້ອນຂໍ້ມູນທັງໝົດພ້ອມກັນ, ຂາດແນວຄິດທີ່ປະກົດຂຶ້ນຂອງຕຳແໜ່ງໂທເຄັນທີ່ມີຢູ່ໃນຕົວແບບທີ່ເກີດຂຶ້ນຊ້ຳໆ. ເພື່ອລວມເອົາຂໍ້ມູນຕໍາແຫນ່ງ, ການຝັງຕໍາແຫນ່ງແມ່ນຖືກເພີ່ມໃສ່ການຝັງຕົວຂອງ token, ໃຫ້ຕົວແບບຈໍາແນກລະຫວ່າງ tokens ໂດຍອີງໃສ່ຕໍາແຫນ່ງຂອງພວກເຂົາໃນລໍາດັບ. LLMs ໃນຕົ້ນໆໄດ້ໃຊ້ການຝັງຕໍາແຫນ່ງຄົງທີ່ໂດຍອີງໃສ່ຫນ້າທີ່ sinusoidal, ໃນຂະນະທີ່ຮູບແບບທີ່ຜ່ານມາໄດ້ຄົ້ນຫາການຝັງຕົວຕໍາແຫນ່ງທີ່ສາມາດຮຽນຮູ້ໄດ້ຫຼືເຕັກນິກການເຂົ້າລະຫັດຕໍາແຫນ່ງທາງເລືອກເຊັ່ນ: ການຝັງຕໍາແຫນ່ງ rotary.

ບລັອກການໃສ່ໃຈຫຼາຍຫົວ

ໂຄງສ້າງຫຼັກຂອງ LLMs ທີ່ອີງໃສ່ຕົວຖອດລະຫັດແມ່ນຊັ້ນຄວາມສົນໃຈຫຼາຍຫົວ, ເຊິ່ງປະຕິບັດການປະຕິບັດການໃສ່ໃຈຕົນເອງແບບໜ້າກາກທີ່ໄດ້ອະທິບາຍໄວ້ກ່ອນໜ້ານີ້. ຊັ້ນເຫຼົ່ານີ້ຖືກ stacked ຫຼາຍຄັ້ງ, ໂດຍແຕ່ລະຊັ້ນເຂົ້າຮ່ວມກັບຜົນຜະລິດຂອງຊັ້ນກ່ອນຫນ້າ, ອະນຸຍາດໃຫ້ຕົວແບບສາມາດເກັບກໍາການເພິ່ງພາອາໄສແລະການເປັນຕົວແທນທີ່ສັບສົນຫຼາຍຂຶ້ນ.

ຫົວຫນ້າເອົາໃຈໃສ່: ແຕ່ລະຊັ້ນຄວາມສົນໃຈຫຼາຍຫົວປະກອບດ້ວຍຫຼາຍ “ຫົວຄວາມສົນໃຈ”, ແຕ່ລະຄົນມີຊຸດຄໍາຖາມ, ລະຫັດ, ແລະການຄາດຄະເນມູນຄ່າຂອງຕົນເອງ. ນີ້ອະນຸຍາດໃຫ້ຕົວແບບເຂົ້າຮ່ວມໃນລັກສະນະທີ່ແຕກຕ່າງກັນຂອງວັດສະດຸປ້ອນພ້ອມໆກັນ, ເກັບກໍາຄວາມສໍາພັນແລະຮູບແບບທີ່ຫຼາກຫຼາຍ.

ການເຊື່ອມຕໍ່ທີ່ເຫຼືອແລະການປົກກະຕິຊັ້ນ: ເພື່ອອໍານວຍຄວາມສະດວກໃນການຝຶກອົບຮົມຂອງເຄືອຂ່າຍເລິກແລະຫຼຸດຜ່ອນບັນຫາ gradient ທີ່ຫາຍໄປ, LLMs ທີ່ໃຊ້ຕົວຖອດລະຫັດໃຊ້ການເຊື່ອມຕໍ່ທີ່ຕົກຄ້າງແລະເຕັກນິກການປົກກະຕິຊັ້ນ. ການເຊື່ອມຕໍ່ທີ່ຕົກຄ້າງຈະເພີ່ມການປ້ອນຂໍ້ມູນຂອງຊັ້ນໃສ່ກັບຜົນຜະລິດຂອງມັນ, ອະນຸຍາດໃຫ້ gradients ໄຫຼໄດ້ງ່າຍກວ່າໃນລະຫວ່າງການຂະຫຍາຍພັນຄືນ. Layer normalization ຈະຊ່ວຍໃຫ້ສະຖຽນລະພາບການກະຕຸ້ນແລະການ gradients, ປັບປຸງຄວາມຫມັ້ນຄົງຂອງການຝຶກອົບຮົມແລະການປະຕິບັດ.

Feed-Forward Layers

ນອກເໜືອໄປຈາກຊັ້ນການໃສ່ໃຈຫຼາຍຫົວແລ້ວ, LLMs ທີ່ອີງໃສ່ຕົວຖອດລະຫັດຈະລວມເອົາຊັ້ນການສົ່ງຕໍ່, ເຊິ່ງນຳໃຊ້ເຄືອຂ່າຍ neural feed-forward ງ່າຍໆກັບແຕ່ລະຕຳແໜ່ງໃນລຳດັບ. ຊັ້ນຂໍ້ມູນເຫຼົ່ານີ້ແນະນຳຄວາມບໍ່ເປັນເສັ້ນ ແລະ ເຮັດໃຫ້ຕົວແບບສາມາດຮຽນຮູ້ການເປັນຕົວແທນທີ່ຊັບຊ້ອນຫຼາຍຂຶ້ນ.

ຟັງຊັນການເປີດໃຊ້ງານ: ການເລືອກຟັງຊັນການເປີດໃຊ້ງານໃນຊັ້ນຂໍ້ມູນສົ່ງຕໍ່ສາມາດສົ່ງຜົນກະທົບຢ່າງຫຼວງຫຼາຍຕໍ່ປະສິດທິພາບຂອງຕົວແບບ. ໃນຂະນະທີ່ LLMs ກ່ອນຫນ້ານີ້ແມ່ນອີງໃສ່ການເປີດໃຊ້ ReLU ທີ່ໃຊ້ຢ່າງກວ້າງຂວາງ, ຮູບແບບທີ່ຜ່ານມາຫຼາຍໄດ້ຮັບຮອງເອົາຫນ້າທີ່ການກະຕຸ້ນທີ່ຊັບຊ້ອນຫຼາຍເຊັ່ນ Gaussian Error Linear Unit (GELU) ຫຼືການເປີດໃຊ້ງານ SwiGLU, ເຊິ່ງໄດ້ສະແດງໃຫ້ເຫັນການປັບປຸງປະສິດທິພາບ.

ການຫັນເປັນຄວາມເອົາໃຈໃສ່ ແລະປະສິດທິພາບ

ໃນຂະນະທີ່ກົນໄກການເອົາໃຈໃສ່ຕົນເອງແມ່ນມີອໍານາດ, ມັນມາພ້ອມກັບຄວາມສັບສົນຂອງຄອມພິວເຕີ້ສີ່ຫລ່ຽມກ່ຽວກັບຄວາມຍາວຂອງລໍາດັບ, ເຮັດໃຫ້ມັນມີລາຄາແພງໃນຄອມພິວເຕີ້ສໍາລັບລໍາດັບຍາວ. ເພື່ອແກ້ໄຂສິ່ງທ້າທາຍນີ້, ເຕັກນິກຈໍານວນຫນຶ່ງໄດ້ຖືກສະເຫນີເພື່ອຫຼຸດຜ່ອນຄວາມຕ້ອງການຄອມພິວເຕີ້ແລະຄວາມຊົງຈໍາຂອງຄວາມສົນໃຈຂອງຕົນເອງ, ຊ່ວຍໃຫ້ການປຸງແຕ່ງທີ່ມີປະສິດທິພາບຂອງລໍາດັບທີ່ຍາວກວ່າ.

ເອົາໃຈໃສ່ເລັກນ້ອຍ: ເຕັກນິກການໃສ່ໃຈແບບກະແຈກກະຈາຍ, ເຊັ່ນວ່າຈ້າງໃນແບບຈໍາລອງ GPT-3, ຄັດເລືອກເອົາຕໍາແໜ່ງຍ່ອຍໃນລໍາດັບການປ້ອນຂໍ້ມູນ, ແທນທີ່ຈະຄິດໄລ່ຄະແນນຄວາມສົນໃຈສໍາລັບທຸກຕໍາແໜ່ງ. ນີ້ສາມາດຫຼຸດຜ່ອນຄວາມສັບສົນຂອງຄອມພິວເຕີ້ຢ່າງຫຼວງຫຼາຍໃນຂະນະທີ່ຮັກສາປະສິດທິພາບທີ່ສົມເຫດສົມຜົນ.

Sliding Window ເອົາໃຈໃສ່: ແນະນໍາໃນຮູບແບບ Mistral 7B , ເລື່ອນຄວາມສົນໃຈຂອງປ່ອງຢ້ຽມ (SWA) ແມ່ນເຕັກນິກທີ່ງ່າຍດາຍແຕ່ມີປະສິດທິພາບທີ່ຈໍາກັດຂອບເຂດຄວາມສົນໃຈຂອງແຕ່ລະ token ກັບຂະຫນາດປ່ອງຢ້ຽມຄົງທີ່. ວິທີການນີ້ leverages ຄວາມສາມາດຂອງຊັ້ນການຫັນເປັນເພື່ອສົ່ງຂໍ້ມູນຂ່າວສານໃນທົ່ວຫຼາຍຊັ້ນ, ປະສິດທິຜົນເພີ່ມທະວີການ span ຄວາມສົນໃຈໂດຍບໍ່ມີການສະລັບສັບຊ້ອນສີ່ຫລ່ຽມຂອງການເອົາໃຈໃສ່ຕົນເອງຢ່າງເຕັມທີ່.

Rolling Buffer Cache: ເພື່ອຫຼຸດຜ່ອນຄວາມຕ້ອງການຄວາມຊົງຈໍາຕື່ມອີກ, ໂດຍສະເພາະສໍາລັບລໍາດັບຍາວ, ຮູບແບບ Mistral 7B ໃຊ້ cache buffer ມ້ວນ. ເທກນິກນີ້ເກັບຮັກສາ ແລະນໍາໃຊ້ຄືນຄ່າຂອງຄີຄໍານວນ ແລະ vectors ສໍາລັບຂະຫນາດຫນ້າຕ່າງຄົງທີ່, ຫຼີກເວັ້ນການຄໍານວນຊ້ໍາຊ້ອນແລະການຫຼຸດຜ່ອນການນໍາໃຊ້ຫນ່ວຍຄວາມຈໍາ.

ເອົາໃຈໃສ່ແບບສອບຖາມເປັນກຸ່ມ: ແນະນໍາໃນຮູບແບບ LLaMA 2, grouped query attention (GQA) is a variant of the multi-query attention mechanisms that divides attention heads into group, each group share a common key and value matrix. ວິທີການນີ້ເຮັດໃຫ້ຄວາມສົມດູນລະຫວ່າງປະສິດທິພາບຂອງຄວາມສົນໃຈຫຼາຍຄໍາຖາມແລະການປະຕິບັດການເອົາໃຈໃສ່ຕົນເອງມາດຕະຖານ, ສະຫນອງການປັບປຸງເວລາ inference ໃນຂະນະທີ່ຮັກສາຜົນໄດ້ຮັບທີ່ມີຄຸນນະພາບສູງ.

ຄວາມສົນໃຈແບບສອບຖາມເປັນກຸ່ມ

ຂະຫນາດຕົວແບບແລະຂະຫນາດ

ຫນຶ່ງໃນລັກສະນະການກໍານົດຂອງ LLMs ທີ່ທັນສະໄຫມແມ່ນຂະຫນາດຂອງເຂົາເຈົ້າ, ມີຈໍານວນຕົວກໍານົດການຕັ້ງແຕ່ຫຼາຍຕື້ຫາຫຼາຍຮ້ອຍຕື້. ການເພີ່ມຂະຫນາດຂອງຕົວແບບໄດ້ເປັນປັດໃຈສໍາຄັນໃນການບັນລຸການປະຕິບັດທີ່ທັນສະໄຫມ, ຍ້ອນວ່າຕົວແບບຂະຫນາດໃຫຍ່ສາມາດເກັບກໍາຮູບແບບທີ່ສັບສົນແລະຄວາມສໍາພັນໃນຂໍ້ມູນ.

ການນັບພາລາມິເຕີ: ຈຳນວນພາຣາມິເຕີໃນ LLM ທີ່ອີງໃສ່ຕົວຖອດລະຫັດແມ່ນກຳນົດຕົ້ນຕໍໂດຍມິຕິການຝັງ (d_model), ຈຳນວນຫົວຄວາມສົນໃຈ (n_heads), ຈຳນວນຊັ້ນຂໍ້ມູນ (n_layers), ແລະຂະໜາດຄຳສັບ (vocab_size). ຕົວຢ່າງ, ຮູບແບບ GPT-3 ມີ 175 ຕື້ພາລາມິເຕີ, ມີ d_model = 12288, n_heads = 96, n_layers = 96, ແລະ vocab_size = 50257.

ການຂະຫນານຕົວແບບ: ການຝຶກອົບຮົມ ແລະ ການນຳໃຊ້ຕົວແບບຂະໜາດໃຫຍ່ດັ່ງກ່າວ ຕ້ອງການຊັບພະຍາກອນຄອມພິວເຕີ ແລະ ຮາດແວທີ່ຊ່ຽວຊານສະເພາະ. ເພື່ອເອົາຊະນະສິ່ງທ້າທາຍນີ້, ເຕັກນິກການຂະຫນານຕົວແບບໄດ້ຖືກຈ້າງງານ, ບ່ອນທີ່ຕົວແບບໄດ້ຖືກແບ່ງອອກໃນທົ່ວ GPUs ຫຼື TPUs ຫຼາຍ, ໂດຍແຕ່ລະອຸປະກອນທີ່ຮັບຜິດຊອບສໍາລັບສ່ວນຫນຶ່ງຂອງການຄິດໄລ່.

ການປະສົມຂອງຜູ້ຊ່ຽວຊານ: ອີກວິທີໜຶ່ງໃນການຂະຫຍາຍ LLMs ແມ່ນສະຖາປັດຕະຍະກຳຂອງຜູ້ຊ່ຽວຊານ (MoE), ເຊິ່ງລວມຕົວແບບຜູ້ຊ່ຽວຊານຫຼາຍດ້ານ, ແຕ່ລະຄົນມີຄວາມຊ່ຽວຊານໃນຊຸດຍ່ອຍສະເພາະຂອງຂໍ້ມູນ ຫຼືໜ້າວຽກ. ຮູບແບບ Mixtral 8x7B ແມ່ນຕົວຢ່າງຂອງຕົວແບບ MoE ທີ່ນໍາໃຊ້ Mistral 7B ເປັນຕົວແບບພື້ນຖານຂອງມັນ, ບັນລຸການປະຕິບັດທີ່ເຫນືອກວ່າໃນຂະນະທີ່ຮັກສາປະສິດທິພາບຄອມພິວເຕີ້.

Inference ແລະການສ້າງຂໍ້ຄວາມ

ຫນຶ່ງໃນກໍລະນີການນໍາໃຊ້ຕົ້ນຕໍຂອງ LLMs ທີ່ອີງໃສ່ຕົວຖອດລະຫັດແມ່ນການສ້າງຂໍ້ຄວາມ, ບ່ອນທີ່ຕົວແບບສ້າງຂໍ້ຄວາມທີ່ສອດຄ່ອງກັນແລະເປັນທໍາມະຊາດໂດຍອີງໃສ່ການກະຕຸ້ນເຕືອນຫຼືບໍລິບົດ.

Autoregressive ການຖອດລະຫັດ: ໃນລະຫວ່າງການອະພິປາຍ, LLMs ທີ່ອີງໃສ່ການຖອດລະຫັດຈະສ້າງຂໍ້ຄວາມໃນລັກສະນະ autoregressive, ການຄາດຄະເນຫນຶ່ງ token ໃນເວລາໂດຍອີງໃສ່ tokens ທີ່ສ້າງຂຶ້ນກ່ອນຫນ້ານີ້ແລະການກະຕຸ້ນປ້ອນຂໍ້ມູນ. ຂະບວນການນີ້ສືບຕໍ່ໄປຈົນກວ່າຈະບັນລຸເກນການຢຸດທີ່ກຳນົດໄວ້ລ່ວງໜ້າ, ເຊັ່ນວ່າເຖິງຄວາມຍາວຂອງລຳດັບສູງສຸດ ຫຼື ສ້າງໂທເຄັນຂອງລຳດັບທ້າຍ.

ຍຸດທະສາດການເກັບຕົວຢ່າງ: ເພື່ອສ້າງຂໍ້ຄວາມທີ່ມີຄວາມຫຼາກຫຼາຍ ແລະເປັນຈິງ, ສາມາດນຳໃຊ້ກົນລະຍຸດການເກັບຕົວຢ່າງຕ່າງໆ ເຊັ່ນ: ການເກັບຕົວຢ່າງເທິງ-k, ການເກັບຕົວຢ່າງເທິງ-p (ຍັງເອີ້ນວ່າການເກັບຕົວຢ່າງນິວເຄລຍ), ຫຼືການວັດແທກອຸນຫະພູມ. ເຕັກນິກເຫຼົ່ານີ້ຄວບຄຸມການຄ້າລະຫວ່າງຄວາມຫຼາກຫຼາຍແລະຄວາມສອດຄ່ອງຂອງຂໍ້ຄວາມທີ່ສ້າງຂຶ້ນໂດຍການປັບການແຈກຢາຍຄວາມເປັນໄປໄດ້ຂອງຄໍາສັບ.

ວິສະວະກໍາດ່ວນ: ຄຸນນະພາບ ແລະສະເພາະຂອງການກະຕຸ້ນການປ້ອນຂໍ້ມູນສາມາດສົ່ງຜົນກະທົບຢ່າງຫຼວງຫຼາຍຕໍ່ຂໍ້ຄວາມທີ່ສ້າງຂຶ້ນ. ວິສະວະກໍາທັນທີ, ສິລະປະຂອງການສ້າງການກະຕຸ້ນເຕືອນທີ່ມີປະສິດທິພາບ, ໄດ້ກາຍເປັນລັກສະນະທີ່ສໍາຄັນຂອງການໃຊ້ LLMs ສໍາລັບວຽກງານຕ່າງໆ, ຊ່ວຍໃຫ້ຜູ້ໃຊ້ສາມາດນໍາພາຂະບວນການສ້າງແບບຈໍາລອງແລະບັນລຸຜົນໄດ້ຮັບທີ່ຕ້ອງການ.

ການຖອດລະຫັດຂອງມະນຸດໃນວົງ: ເພື່ອປັບປຸງຄຸນນະພາບແລະຄວາມສອດຄ່ອງຂອງຂໍ້ຄວາມທີ່ສ້າງຂຶ້ນ, ເຕັກນິກເຊັ່ນ: ການເສີມສ້າງການຮຽນຮູ້ຈາກຄວາມຄິດເຫັນຂອງມະນຸດ (RLHF) ໄດ້ຮັບການຈ້າງງານ. ໃນວິທີການນີ້, ຜູ້ປະເມີນມະນຸດໃຫ້ຄໍາຄິດເຫັນກ່ຽວກັບຂໍ້ຄວາມທີ່ສ້າງຂຶ້ນຂອງຕົວແບບ, ເຊິ່ງຫຼັງຈາກນັ້ນຖືກນໍາໃຊ້ເພື່ອປັບຕົວແບບຢ່າງ, ສອດຄ່ອງກັບຄວາມມັກຂອງມະນຸດແລະປັບປຸງຜົນໄດ້ຮັບຂອງມັນ.

ຄວາມກ້າວຫນ້າແລະທິດທາງໃນອະນາຄົດ

ພາກສະຫນາມຂອງ LLMs ທີ່ໃຊ້ຕົວຖອດລະຫັດແມ່ນພັດທະນາຢ່າງໄວວາ, ດ້ວຍການຄົ້ນຄວ້າໃຫມ່ແລະການທໍາລາຍຢ່າງຕໍ່ເນື່ອງຊຸກຍູ້ຂອບເຂດຂອງສິ່ງທີ່ຕົວແບບເຫຼົ່ານີ້ສາມາດບັນລຸໄດ້. ນີ້ແມ່ນບາງຄວາມກ້າວໜ້າທີ່ໂດດເດັ່ນ ແລະທິດທາງໃນອະນາຄົດທີ່ອາດມີ:

ຕົວແປການຫັນເປັນປະສິດທິພາບ: ໃນຂະນະທີ່ຄວາມສົນໃຈເລັກນ້ອຍແລະຄວາມສົນໃຈຂອງປ່ອງຢ້ຽມເລື່ອນໄດ້ມີຄວາມກ້າວຫນ້າທີ່ສໍາຄັນໃນການປັບປຸງປະສິດທິພາບຂອງ LLMs ທີ່ອີງໃສ່ຕົວຖອດລະຫັດ, ນັກຄົ້ນຄວ້າກໍາລັງຄົ້ນຫາສະຖາປັດຕະຍະກໍາຕົວປ່ຽນທາງເລືອກແລະກົນໄກການເອົາໃຈໃສ່ຢ່າງຈິງຈັງເພື່ອຫຼຸດຜ່ອນຄວາມຕ້ອງການຄອມພິວເຕີ້ໃນຂະນະທີ່ຮັກສາຫຼືປັບປຸງການປະຕິບັດ.

Multimodal LLMs: ການຂະຫຍາຍຄວາມສາມາດຂອງ LLMs ເກີນກວ່າຂໍ້ຄວາມ, ແບບ multimodal ມີຈຸດປະສົງເພື່ອປະສົມປະສານຫຼາຍ modalities, ເຊັ່ນ: ຮູບພາບ, ສຽງ, ຫຼືວິດີໂອ, ເຂົ້າໄປໃນກອບດຽວ. ນີ້ເປີດຄວາມເປັນໄປໄດ້ທີ່ຫນ້າຕື່ນເຕັ້ນສໍາລັບແອັບພລິເຄຊັນຕ່າງໆເຊັ່ນ: ການບັນຍາຍຮູບພາບ, ການຕອບຄໍາຖາມດ້ວຍສາຍຕາ, ແລະການສ້າງເນື້ອຫາມັນຕິມີເດຍ.

ການຜະລິດທີ່ສາມາດຄວບຄຸມໄດ້: ການເປີດໃຊ້ການຄວບຄຸມແບບລະອຽດຕໍ່ກັບຂໍ້ຄວາມທີ່ສ້າງຂຶ້ນແມ່ນເປັນທິດທາງທີ່ທ້າທາຍແຕ່ສໍາຄັນສໍາລັບ LLMs. ເທັກນິກຕ່າງໆ ເຊັ່ນ: ການສ້າງຂໍ້ຄວາມທີ່ມີການຄວບຄຸມ ແລະ ການປັບແຕ່ງແບບເລັ່ງດ່ວນ ມີຈຸດປະສົງເພື່ອໃຫ້ຜູ້ໃຊ້ສາມາດຄວບຄຸມໄດ້ລະອຽດຫຼາຍຂຶ້ນຕໍ່ກັບຄຸນລັກສະນະຕ່າງໆຂອງຂໍ້ຄວາມທີ່ສ້າງຂຶ້ນ, ເຊັ່ນ: ຮູບແບບ, ໂຕນ ຫຼື ຄວາມຕ້ອງການເນື້ອຫາສະເພາະ.

ສະຫຼຸບ

LLMs ທີ່ອີງໃສ່ຕົວຖອດລະຫັດໄດ້ອອກມາເປັນກໍາລັງການຫັນປ່ຽນໃນຂົງເຂດການປຸງແຕ່ງພາສາທໍາມະຊາດ, ຊຸກຍູ້ຂອບເຂດຂອງສິ່ງທີ່ເປັນໄປໄດ້ກັບການສ້າງພາສາແລະຄວາມເຂົ້າໃຈ. ຈາກການເລີ່ມຕົ້ນທີ່ຖ່ອມຕົວຂອງເຂົາເຈົ້າເປັນຕົວແປທີ່ງ່າຍດາຍຂອງຖາປັດຕະຍະການຫັນເປັນ, ແບບຈໍາລອງເຫຼົ່ານີ້ໄດ້ພັດທະນາໄປສູ່ລະບົບທີ່ຊັບຊ້ອນແລະມີອໍານາດສູງ, ນໍາໃຊ້ເຕັກນິກທີ່ທັນສະໄຫມແລະການປະດິດສ້າງສະຖາປັດຕະຍະກໍາ.

ໃນຂະນະທີ່ພວກເຮົາສືບຕໍ່ຄົ້ນຫາແລະກ້າວຫນ້າ LLMs ທີ່ອີງໃສ່ຕົວຖອດລະຫັດ, ພວກເຮົາສາມາດຄາດຫວັງວ່າຈະເປັນພະຍານເຖິງຜົນສໍາເລັດທີ່ໂດດເດັ່ນໃນຫນ້າວຽກທີ່ກ່ຽວຂ້ອງກັບພາສາ, ເຊັ່ນດຽວກັນກັບການລວມເອົາຕົວແບບເຫຼົ່ານີ້ເຂົ້າໄປໃນຄໍາຮ້ອງສະຫມັກແລະໂດເມນທີ່ຫລາກຫລາຍ. ຢ່າງໃດກໍ່ຕາມ, ມັນເປັນສິ່ງສໍາຄັນທີ່ຈະແກ້ໄຂການພິຈາລະນາດ້ານຈັນຍາບັນ, ສິ່ງທ້າທາຍໃນການຕີຄວາມຫມາຍ, ແລະຄວາມລໍາອຽງທີ່ອາດຈະເກີດຂື້ນຈາກການນໍາໃຊ້ຢ່າງກວ້າງຂວາງຂອງຮູບແບບທີ່ມີປະສິດທິພາບເຫຼົ່ານີ້.

ໂດຍການຢູ່ແຖວຫນ້າຂອງການຄົ້ນຄວ້າ, ຊຸກຍູ້ການຮ່ວມມືແບບເປີດ, ແລະຮັກສາຄໍາຫມັ້ນສັນຍາທີ່ເຂັ້ມແຂງໃນການພັດທະນາ AI ທີ່ມີຄວາມຮັບຜິດຊອບ, ພວກເຮົາສາມາດປົດລັອກທ່າແຮງອັນເຕັມທີ່ຂອງ LLMs ທີ່ອີງໃສ່ຕົວຖອດລະຫັດໃນຂະນະທີ່ຮັບປະກັນວ່າພວກມັນຖືກພັດທະນາແລະນໍາໃຊ້ຢ່າງປອດໄພ, ມີຈັນຍາບັນ, ແລະເປັນປະໂຫຍດສໍາລັບ ສັງຄົມ.

ຫົວຂໍ້ທີ່ກ່ຽວຂ້ອງ:ດອກໄມ້ບານ decoder GPT-3 LLM ປລ ກະຕຸ້ນວິສະວະກໍາ ເອົາໃຈໃສ່ຕົນເອງ transformers

ຂຶ້ນຕໍ່ໄປ

Pocket-Sized Powerhouse: ເປີດຕົວ Phi-3 ຂອງ Microsoft, ຮູບແບບພາສາທີ່ເຫມາະກັບໂທລະສັບຂອງທ່ານ

ຢ່າພາດ

Mini-Gemini: ການຂຸດຄົ້ນທ່າແຮງຂອງ Multi-modality Vision Language Models

Aayush Mittal

ຂ້ອຍໄດ້ໃຊ້ເວລາ 50 ປີທີ່ຜ່ານມາເພື່ອເຂົ້າໄປໃນໂລກທີ່ໜ້າສົນໃຈຂອງການຮຽນຮູ້ເຄື່ອງຈັກ ແລະການຮຽນຮູ້ຢ່າງເລິກເຊິ່ງ. ຄວາມກະຕືລືລົ້ນແລະຄວາມຊໍານານຂອງຂ້ອຍໄດ້ເຮັດໃຫ້ຂ້ອຍປະກອບສ່ວນເຂົ້າໃນໂຄງການວິສະວະກໍາຊອບແວທີ່ຫຼາກຫຼາຍຊະນິດຫຼາຍກວ່າ XNUMX ໂຄງການ, ໂດຍເນັ້ນໃສ່ສະເພາະກັບ AI/ML. ຄວາມຢາກຮູ້ຢາກເຫັນຢ່າງຕໍ່ເນື່ອງຂອງຂ້ອຍຍັງໄດ້ດຶງຂ້ອຍໄປສູ່ການປຸງແຕ່ງພາສາທໍາມະຊາດ, ເຊິ່ງຂ້ອຍກະຕືລືລົ້ນທີ່ຈະຄົ້ນຫາຕື່ມອີກ.