ກ້ານໃບ ຜົນກະທົບທີ່ເພີ່ມຂຶ້ນຂອງຕົວແບບພາສາຂະຫນາດນ້ອຍ - Unite.AI
ເຊື່ອມຕໍ່ກັບພວກເຮົາ

ປັນຍາປະດິດ

ຜົນກະທົບທີ່ເພີ່ມຂຶ້ນຂອງຕົວແບບພາສາຂະຫນາດນ້ອຍ

mm

ຈັດພີມມາ

 on

ຮູບແບບພາສາຂະຫນາດນ້ອຍ

ການປະກົດຕົວຂອງຕົວແບບພາສາຂະຫນາດນ້ອຍ

ໃນໂລກທີ່ພັດທະນາຢ່າງໄວວາຂອງປັນຍາປະດິດ, ຂະຫນາດຂອງຕົວແບບພາສາມັກຈະມີຄວາມຄ້າຍຄືກັນກັບຄວາມສາມາດຂອງມັນ. ຮູບແບບພາສາຂະຫນາດໃຫຍ່ (LLMs) ເຊັ່ນ GPT-4 ໄດ້ຄອບງໍາພູມສັນຖານ AI, ສະແດງໃຫ້ເຫັນຄວາມສາມາດທີ່ໂດດເດັ່ນໃນຄວາມເຂົ້າໃຈພາສາທໍາມະຊາດແລະການຜະລິດ. ​ເຖິງ​ຢ່າງ​ໃດ​ກໍ​ຕາມ, ການ​ປ່ຽນ​ແປງ​ທີ່​ລະອຽດ​ອ່ອນ​ແຕ່​ສຳຄັນ​ພວມ​ດຳ​ເນີນ​ຢູ່. ຮູບແບບພາສາຂະຫນາດນ້ອຍກວ່າ, ເມື່ອຖືກປົກຄຸມໂດຍຄູ່ຮ່ວມງານຂະຫນາດໃຫຍ່ຂອງພວກເຂົາ, ກໍາລັງກາຍເປັນເຄື່ອງມືທີ່ມີທ່າແຮງໃນຄໍາຮ້ອງສະຫມັກ AI ຕ່າງໆ. ການປ່ຽນແປງນີ້ເປັນຈຸດສໍາຄັນໃນການພັດທະນາ AI, ທ້າທາຍແນວຄິດທີ່ຖືມາດົນນານວ່າໃຫຍ່ກວ່າແມ່ນດີກວ່າສະເຫມີ.

ການວິວັດທະນາການ ແລະຂໍ້ຈຳກັດຂອງຮູບແບບພາສາຂະໜາດໃຫຍ່

ການພັດທະນາລະບົບ AI ທີ່ສາມາດເຂົ້າໃຈ ແລະສ້າງພາສາທີ່ຄ້າຍຄືກັບມະນຸດໄດ້ເນັ້ນໃສ່ LLMs ຕົ້ນຕໍ. ຮູບແບບເຫຼົ່ານີ້ໄດ້ດີເລີດໃນຂົງເຂດຕ່າງໆເຊັ່ນ: ການແປ, ການສະຫຼຸບ, ແລະການຕອບຄໍາຖາມ, ມັກຈະປະຕິບັດໄດ້ດີກວ່າແບບຈໍາລອງທີ່ນ້ອຍກວ່າກ່ອນຫນ້ານີ້. ຢ່າງໃດກໍ່ຕາມ, ຄວາມສໍາເລັດຂອງ LLMs ມາໃນລາຄາ. ການບໍລິໂພກພະລັງງານສູງຂອງພວກເຂົາ, ຄວາມຕ້ອງການຄວາມຈໍາຢ່າງຫຼວງຫຼາຍ, ແລະຄ່າໃຊ້ຈ່າຍໃນຄອມພິວເຕີ້ຫຼາຍເຮັດໃຫ້ຄວາມກັງວົນ. ສິ່ງທ້າທາຍເຫຼົ່ານີ້ແມ່ນປະສົມປະສານໂດຍຈັງຫວະທີ່ຊັກຊ້າຂອງນະວັດຕະກໍາ GPU ທຽບກັບຂະຫນາດທີ່ເພີ່ມຂຶ້ນຂອງຕົວແບບເຫຼົ່ານີ້, ຊີ້ໃຫ້ເຫັນເຖິງເພດານທີ່ເປັນໄປໄດ້ສໍາລັບການຂະຫຍາຍ.

ນັກຄົ້ນຄວ້າກໍາລັງຫັນຄວາມສົນໃຈຂອງເຂົາເຈົ້າຫຼາຍຂຶ້ນຕໍ່ກັບແບບຈໍາລອງພາສາທີ່ນ້ອຍກວ່າ, ເຊິ່ງສະເຫນີທາງເລືອກທີ່ມີປະສິດທິພາບແລະຫລາກຫລາຍໃນບາງສະຖານະການ. ຕົວຢ່າງ, ການສຶກສາໂດຍ Turc et al. (2019) ສະແດງໃຫ້ເຫັນວ່າຄວາມຮູ້ທີ່ກັ່ນຈາກ LLMs ເຂົ້າໄປໃນແບບຈໍາລອງຂະຫນາດນ້ອຍເຮັດໃຫ້ປະສິດທິພາບທີ່ຄ້າຍຄືກັນກັບຄວາມຕ້ອງການຄອມພິວເຕີຫຼຸດລົງຢ່າງຫຼວງຫຼາຍ. ນອກຈາກນັ້ນ, ການນໍາໃຊ້ເຕັກນິກເຊັ່ນ: ການໂອນຍ້າຍການຮຽນຮູ້ໄດ້ເຮັດໃຫ້ຕົວແບບເຫຼົ່ານີ້ສາມາດປັບຕົວເຂົ້າກັບວຽກງານສະເພາະ, ບັນລຸຜົນໄດ້ຮັບທີ່ສົມທຽບຫຼືດີກວ່າໃນຂົງເຂດຕ່າງໆເຊັ່ນການວິເຄາະຄວາມຮູ້ສຶກແລະການແປພາສາ.

ຄວາມກ້າວຫນ້າທີ່ຜ່ານມາໄດ້ຊີ້ໃຫ້ເຫັນທ່າແຮງຂອງຕົວແບບຂະຫນາດນ້ອຍກວ່າ. Chinchilla ຂອງ DeepMind, Meta ຂອງ LLaMa ແບບຈໍາລອງ, Alpaca ຂອງ Stanford, ແລະຊຸດ StableLM ຂອງ Stability AI ແມ່ນຕົວຢ່າງທີ່ໂດດເດັ່ນ. ຮູບແບບເຫຼົ່ານີ້, ເຖິງວ່າຈະມີຂະຫນາດນ້ອຍກວ່າ, ຄູ່ແຂ່ງຫຼືແມ້ກະທັ້ງຫຼາຍກວ່າການປະຕິບັດຂອງຕົວແບບຂະຫນາດໃຫຍ່ເຊັ່ນ GPT-3.5 ໃນບາງວຽກງານ. ສໍາລັບຕົວຢ່າງ, ຮູບແບບ Alpaca, ເມື່ອປັບລະອຽດກ່ຽວກັບການຕອບຄໍາຖາມ GPT-3.5, ກົງກັບປະສິດທິພາບຂອງມັນໃນຄ່າໃຊ້ຈ່າຍທີ່ຫຼຸດລົງຢ່າງຫຼວງຫຼາຍ. ການພັດທະນາດັ່ງກ່າວຊີ້ໃຫ້ເຫັນວ່າປະສິດທິພາບແລະປະສິດຕິຜົນຂອງຕົວແບບຂະຫນາດນ້ອຍແມ່ນໄດ້ຮັບພື້ນຖານໃນເວທີ AI.

ຄວາມກ້າວຫນ້າທາງດ້ານເຕັກໂນໂລຢີແລະຜົນສະທ້ອນຂອງພວກເຂົາ

ເຕັກນິກທີ່ພົ້ນເດັ່ນຂື້ນໃນການພັດທະນາຕົວແບບພາສາຂະຫນາດນ້ອຍ

ການຄົ້ນຄວ້າທີ່ຜ່ານມາໄດ້ຍົກໃຫ້ເຫັນເຕັກນິກການປະດິດສ້າງຈໍານວນຫນຶ່ງທີ່ເສີມຂະຫຍາຍປະສິດທິພາບຂອງຮູບແບບພາສາຂະຫນາດນ້ອຍ. ວິທີການ UL2R ແລະ Flan ຂອງ Google ແມ່ນຕົວຢ່າງທີ່ສໍາຄັນ. UL2R, ຫຼື "ການສ້ອມແປງທີ່ມີນ້ໍາຫນັກເບົາພິເສດ 2," ແນະນໍາຈຸດປະສົງຂອງເຄື່ອງປະສົມຂອງ denoisers ໃນການສືບຕໍ່ການຝຶກອົບຮົມກ່ອນ, ປັບປຸງການປະຕິບັດຂອງຕົວແບບໃນທົ່ວວຽກງານຕ່າງໆ. ໃນທາງກົງກັນຂ້າມ, Flan ກ່ຽວຂ້ອງກັບແບບຈໍາລອງການປັບໄຫມໃນຫຼາຍຫນ້າວຽກທີ່ລະບຸໄວ້ເປັນຄໍາແນະນໍາ, ເສີມຂະຫຍາຍທັງປະສິດທິພາບແລະການນໍາໃຊ້.

ຍິ່ງໄປກວ່ານັ້ນ, ເອກະສານໂດຍ Yao Fu et al. ໄດ້ສະແດງໃຫ້ເຫັນວ່າຕົວແບບຂະຫນາດນ້ອຍສາມາດດີເລີດໃນວຽກງານສະເພາະເຊັ່ນ: ການໃຫ້ເຫດຜົນທາງຄະນິດສາດເມື່ອໄດ້ຮັບການຝຶກອົບຮົມຢ່າງເຫມາະສົມແລະຖືກປັບ. ການຄົ້ນພົບເຫຼົ່ານີ້ຊີ້ໃຫ້ເຫັນທ່າແຮງຂອງຕົວແບບຂະຫນາດນ້ອຍໃນຄໍາຮ້ອງສະຫມັກພິເສດ, ທ້າທາຍຄວາມສາມາດທົ່ວໄປຂອງຕົວແບບຂະຫນາດໃຫຍ່.

ຄວາມສໍາຄັນຂອງການນໍາໃຊ້ຂໍ້ມູນທີ່ມີປະສິດທິພາບ

ການ​ນໍາ​ໃຊ້​ຂໍ້​ມູນ​ທີ່​ມີ​ປະ​ສິດ​ທິ​ພາບ​ໄດ້​ກາຍ​ເປັນ​ຫົວ​ຂໍ້​ທີ່​ສໍາ​ຄັນ​ໃນ​ຂົງ​ເຂດ​ຂອງ​ຕົວ​ແບບ​ພາ​ສາ​ຂະ​ຫນາດ​ນ້ອຍ​. ເຈ້ຍ “ແບບຈໍາລອງພາສາຂະຫນາດນ້ອຍກໍ່ແມ່ນຜູ້ຮຽນຍິງຈໍານວນຫນ້ອຍ” ໂດຍ Timo Schick et al. ສະເໜີເຕັກນິກການໃສ່ໜ້າກາກພິເສດລວມກັບຊຸດຂໍ້ມູນທີ່ບໍ່ສົມດຸນກັນເພື່ອເພີ່ມປະສິດທິພາບຂອງຕົວແບບນ້ອຍກວ່າ. ຍຸດທະສາດດັ່ງກ່າວຊີ້ໃຫ້ເຫັນເຖິງການເນັ້ນຫນັກໃສ່ການຂະຫຍາຍຕົວຂອງວິທີການປະດິດສ້າງເພື່ອເພີ່ມປະສິດທິພາບສູງສຸດຂອງຮູບແບບພາສາຂະຫນາດນ້ອຍ.

ຂໍ້ໄດ້ປຽບຂອງຕົວແບບພາສາຂະຫນາດນ້ອຍກວ່າ

ການອຸທອນຂອງແບບຈໍາລອງພາສາທີ່ນ້ອຍກວ່າແມ່ນຢູ່ໃນປະສິດທິພາບແລະຄວາມຍືດຫຍຸ່ນຂອງມັນ. ພວກເຂົາເຈົ້າສະຫນອງການຝຶກອົບຮົມໄວຂຶ້ນແລະເວລາ inference, ຫຼຸດຜ່ອນການປ່ອຍອາຍຄາບອນແລະຮອຍຕີນນ້ໍາ, ແລະແມ່ນເຫມາະສົມຫຼາຍສໍາລັບການນໍາໃຊ້ໃນອຸປະກອນຈໍາກັດຊັບພະຍາກອນເຊັ່ນ: ໂທລະສັບມືຖື. ການປັບຕົວນີ້ແມ່ນມີຄວາມສຳຄັນຫຼາຍຂຶ້ນໃນອຸດສາຫະກຳທີ່ໃຫ້ຄວາມສຳຄັນໃນການເຂົ້າເຖິງ ແລະ ປະສິດທິພາບຂອງ AI ໃນທົ່ວອຸປະກອນທີ່ຫຼາກຫຼາຍ.

ນະວັດຕະກໍາ ແລະ ການພັດທະນາອຸດສາຫະກໍາ

ການປ່ຽນແປງຂອງອຸດສາຫະກໍາໄປສູ່ແບບຈໍາລອງຂະຫນາດນ້ອຍກວ່າ, ມີປະສິດທິພາບຫຼາຍແມ່ນເປັນຕົວຢ່າງໂດຍການພັດທະນາທີ່ຜ່ານມາ. Mistral's Mixtral 8x7B, ການປະສົມຂອງຕົວແບບຜູ້ຊ່ຽວຊານ, ແລະ Phi-2 ຂອງ Microsoft ແມ່ນຄວາມກ້າວຫນ້າໃນດ້ານນີ້. Mixtral 8x7B, ເຖິງວ່າຈະມີຂະ ໜາດ ນ້ອຍກວ່າ, ແຕ່ກົງກັບຄຸນນະພາບຂອງ GPT-3.5 ໃນບາງມາດຕະຖານ. Phi-2 ກ້າວໄປອີກຂັ້ນໜຶ່ງ, ແລ່ນໃນໂທລະສັບມືຖືດ້ວຍຕົວກໍານົດການພຽງແຕ່ 2.7 ຕື້. ຮູບແບບເຫຼົ່ານີ້ຊີ້ໃຫ້ເຫັນເຖິງການຂະຫຍາຍຕົວຂອງອຸດສາຫະກໍາທີ່ສຸມໃສ່ການບັນລຸຜົນສໍາເລັດຫຼາຍດ້ວຍຫນ້ອຍ.

Microsoft ຂອງ ອໍກາ 2 ສະແດງໃຫ້ເຫັນແນວໂນ້ມນີ້ຕື່ມອີກ. ການກໍ່ສ້າງຮູບແບບ Orca ຕົ້ນສະບັບ, Orca 2 ເສີມຂະຫຍາຍຄວາມສາມາດໃນການສົມເຫດສົມຜົນໃນຮູບແບບພາສາຂະຫນາດນ້ອຍ, ຊຸກຍູ້ຂອບເຂດຂອງການຄົ້ນຄວ້າ AI.

ສະຫລຸບລວມແລ້ວ, ການເພີ່ມຂຶ້ນຂອງຕົວແບບພາສາຂະຫນາດນ້ອຍເປັນຕົວແທນຂອງການປ່ຽນແປງແບບແຜນພູມສັນຖານ AI. ໃນຂະນະທີ່ຕົວແບບເຫຼົ່ານີ້ສືບຕໍ່ພັດທະນາແລະສະແດງໃຫ້ເຫັນເຖິງຄວາມສາມາດຂອງພວກເຂົາ, ພວກມັນບໍ່ພຽງແຕ່ທ້າທາຍຄວາມເດັ່ນຂອງຕົວແບບຂະຫນາດໃຫຍ່ເທົ່ານັ້ນ, ແຕ່ຍັງສ້າງຄວາມເຂົ້າໃຈຂອງພວກເຮົາກ່ຽວກັບສິ່ງທີ່ເປັນໄປໄດ້ໃນພາກສະຫນາມຂອງ AI.

ແຮງຈູງໃຈສໍາລັບການຮັບຮອງເອົາຮູບແບບພາສາຂະຫນາດນ້ອຍ

ຄວາມ​ສົນ​ໃຈ​ທີ່​ເພີ່ມ​ຂຶ້ນ​ໃນ​ຕົວ​ແບບ​ພາ​ສາ​ນ້ອຍ (SLMs) ແມ່ນ​ໄດ້​ຮັບ​ການ​ຊຸກ​ຍູ້​ໂດຍ​ປັດ​ໄຈ​ທີ່​ສໍາ​ຄັນ​ຈໍາ​ນວນ​ຫນຶ່ງ​, ປະ​ສິດ​ທິ​ພາບ​ຕົ້ນ​ຕໍ​, ຄ່າ​ໃຊ້​ຈ່າຍ​, ແລະ​ການ​ປັບ​ແຕ່ງ​. ລັກສະນະເຫຼົ່ານີ້ຈັດຕໍາແຫນ່ງ SLMs ເປັນທາງເລືອກທີ່ຫນ້າສົນໃຈສໍາລັບຄູ່ຮ່ວມງານຂະຫນາດໃຫຍ່ຂອງພວກເຂົາໃນຄໍາຮ້ອງສະຫມັກຕ່າງໆ.

ປະສິດທິພາບ: ໄດເວີທີ່ສໍາຄັນ

SLMs, ເນື່ອງຈາກຕົວກໍານົດການຫນ້ອຍຂອງພວກເຂົາ, ສະເຫນີປະສິດທິພາບການຄິດໄລ່ທີ່ສໍາຄັນເມື່ອທຽບກັບຕົວແບບຂະຫນາດໃຫຍ່. ປະສິດທິພາບເຫຼົ່ານີ້ລວມເຖິງຄວາມໄວການສະຫຼຸບທີ່ໄວຂຶ້ນ, ຄວາມຕ້ອງການຄວາມຊົງຈໍາ ແລະບ່ອນເກັບມ້ຽນທີ່ຫຼຸດລົງ, ແລະຄວາມຕ້ອງການຂໍ້ມູນໜ້ອຍລົງສໍາລັບການຝຶກອົບຮົມ. ດັ່ງນັ້ນ, ຮູບແບບເຫຼົ່ານີ້ບໍ່ພຽງແຕ່ໄວເທົ່ານັ້ນ, ແຕ່ຍັງມີປະສິດທິພາບທາງດ້ານຊັບພະຍາກອນ, ເຊິ່ງໂດຍສະເພາະແມ່ນຜົນປະໂຫຍດໃນຄໍາຮ້ອງສະຫມັກທີ່ຄວາມໄວແລະການນໍາໃຊ້ຊັບພະຍາກອນມີຄວາມສໍາຄັນ.

ຄ່າໃຊ້ຈ່າຍ - ປະສິດທິຜົນ

ຊັບພະຍາກອນຄອມພິວເຕີສູງທີ່ຕ້ອງການເພື່ອຝຶກອົບຮົມ ແລະນຳໃຊ້ຮູບແບບພາສາຂະໜາດໃຫຍ່ (LLMs) ເຊັ່ນ GPT-4 ແປເປັນຄ່າໃຊ້ຈ່າຍຢ່າງຫຼວງຫຼາຍ. ໃນທາງກົງກັນຂ້າມ, SLMs ສາມາດໄດ້ຮັບການຝຶກອົບຮົມແລະດໍາເນີນການໃນຮາດແວທີ່ມີໃຫ້ກວ້າງຂວາງກວ່າ, ເຮັດໃຫ້ມັນສາມາດເຂົ້າເຖິງໄດ້ຫຼາຍຂຶ້ນແລະເປັນໄປໄດ້ທາງດ້ານການເງິນສໍາລັບທຸລະກິດທີ່ກວ້າງຂວາງ. ຄວາມຕ້ອງການຊັບພະຍາກອນທີ່ຫຼຸດລົງຂອງພວກເຂົາຍັງເປີດຄວາມເປັນໄປໄດ້ໃນຄອມພິວເຕີ້ຂອບ, ບ່ອນທີ່ຕົວແບບຕ້ອງດໍາເນີນການຢ່າງມີປະສິດທິພາບໃນອຸປະກອນທີ່ມີພະລັງງານຕ່ໍາ.

ປັບແຕ່ງໄດ້: ຄວາມໄດ້ປຽບທາງຍຸດທະສາດ

ຫນຶ່ງໃນຂໍ້ໄດ້ປຽບທີ່ສໍາຄັນທີ່ສຸດຂອງ SLMs ຫຼາຍກວ່າ LLMs ແມ່ນການປັບແຕ່ງຂອງພວກເຂົາ. ບໍ່ເຫມືອນກັບ LLMs, ເຊິ່ງສະເຫນີຄວາມສາມາດຢ່າງກວ້າງຂວາງແຕ່ໂດຍທົ່ວໄປ, SLMs ສາມາດຖືກປັບແຕ່ງສໍາລັບໂດເມນແລະຄໍາຮ້ອງສະຫມັກສະເພາະ. ການປັບຕົວແບບນີ້ແມ່ນອຳນວຍຄວາມສະດວກໂດຍຮອບວຽນການຊໍ້າຄືນທີ່ໄວກວ່າ ແລະຄວາມສາມາດໃນການປັບຕົວແບບໃຫ້ເໝາະສົມກັບວຽກງານສະເພາະ. ຄວາມຍືດຫຍຸ່ນນີ້ເຮັດໃຫ້ SLMs ເປັນປະໂຫຍດໂດຍສະເພາະສໍາລັບຄໍາຮ້ອງສະຫມັກ niche ທີ່ສະເພາະ, ການປະຕິບັດເປົ້າຫມາຍແມ່ນມີຄຸນຄ່າຫຼາຍກ່ວາຄວາມສາມາດທົ່ວໄປ.

ການຂະຫຍາຍຕົວແບບພາສາລົງໂດຍບໍ່ມີຄວາມສາມາດຫຼຸດຫນ້ອຍລົງ

ການຄົ້ນຫາເພື່ອຫຼຸດຜ່ອນຂະຫນາດຕົວແບບພາສາໂດຍບໍ່ມີການເສຍສະລະຄວາມສາມາດແມ່ນຫົວຂໍ້ສູນກາງໃນການຄົ້ນຄວ້າ AI ໃນປັດຈຸບັນ. ຄໍາຖາມແມ່ນ, ຮູບແບບພາສາຂະຫນາດນ້ອຍສາມາດເຮັດໄດ້ແນວໃດໃນຂະນະທີ່ຍັງຮັກສາປະສິດທິຜົນຂອງມັນ?

ການສ້າງຕັ້ງຂອບເຂດຕ່ໍາຂອງຂະຫນາດຕົວແບບ

ການສຶກສາທີ່ຜ່ານມາໄດ້ສະແດງໃຫ້ເຫັນວ່າຕົວແບບທີ່ມີຈໍານວນຫນ້ອຍເຖິງ 1-10 ລ້ານພາລາມິເຕີສາມາດໄດ້ຮັບຄວາມສາມາດດ້ານພາສາພື້ນຖານ. ຕົວຢ່າງ, ຮູບແບບທີ່ມີພຽງແຕ່ 8 ລ້ານພາລາມິເຕີທີ່ບັນລຸຄວາມຖືກຕ້ອງປະມານ 59% ໃນດັດຊະນີ GLUE ໃນປີ 2023. ການຄົ້ນພົບເຫຼົ່ານີ້ຊີ້ໃຫ້ເຫັນວ່າແມ້ແຕ່ຕົວແບບທີ່ຂ້ອນຂ້າງນ້ອຍກໍ່ສາມາດມີປະສິດທິພາບໃນວຽກງານການປຸງແຕ່ງພາສາບາງຢ່າງ.

ການປະຕິບັດປະກົດວ່າພູພຽງຫຼັງຈາກບັນລຸລະດັບໃດຫນຶ່ງ, ປະມານ 200-300 ລ້ານຕົວກໍານົດການ, ສະແດງໃຫ້ເຫັນວ່າການເພີ່ມຂຶ້ນໃນຂະຫນາດຂອງຜົນຜະລິດໄດ້ຫຼຸດລົງ. ພູພຽງນີ້ສະແດງເຖິງຈຸດທີ່ຫວານຊື່ນສຳລັບ SLMs ທີ່ສາມາດນຳໃຊ້ໄດ້ໃນການຄ້າ, ດຸ່ນດ່ຽງຄວາມສາມາດກັບປະສິດທິພາບ.

ການຝຶກອົບຮົມຕົວແບບພາສາຂະຫນາດນ້ອຍທີ່ມີປະສິດທິພາບ

ວິທີການຝຶກອົບຮົມຫຼາຍຢ່າງໄດ້ເປັນຈຸດສໍາຄັນໃນການພັດທະນາ SLMs ທີ່ມີຄວາມຊໍານານ. ການຮຽນຮູ້ການໂອນອະນຸຍາດໃຫ້ຕົວແບບທີ່ຈະໄດ້ຮັບຄວາມສາມາດຢ່າງກວ້າງຂວາງໃນລະຫວ່າງການ pretraining, ເຊິ່ງຫຼັງຈາກນັ້ນສາມາດໄດ້ຮັບການປັບປຸງໃຫມ່ສໍາລັບຄໍາຮ້ອງສະຫມັກສະເພາະ. ການຮຽນຮູ້ແບບຄວບຄຸມຕົນເອງ, ໂດຍສະເພາະຢ່າງມີປະສິດທິພາບສໍາລັບຕົວແບບຂະຫນາດນ້ອຍ, ບັງຄັບໃຫ້ພວກເຂົາເຂົ້າໃຈໂດຍທົ່ວໄປຢ່າງເລິກເຊິ່ງຈາກແຕ່ລະຕົວຢ່າງຂໍ້ມູນ, ມີສ່ວນຮ່ວມໃນຄວາມສາມາດຂອງຕົວແບບຢ່າງເຕັມທີ່ໃນລະຫວ່າງການຝຶກອົບຮົມ.

ການເລືອກສະຖາປັດຕະຍະກໍາຍັງມີບົດບາດສໍາຄັນ. ຍົກຕົວຢ່າງ, ເຄື່ອງຫັນປ່ຽນທີ່ມີປະສິດທິພາບ, ບັນລຸປະສິດທິພາບທຽບເທົ່າກັບຕົວແບບພື້ນຖານທີ່ມີຕົວກໍານົດການຫນ້ອຍລົງ. ເຕັກນິກເຫຼົ່ານີ້ລວມເອົາການສ້າງແບບຈໍາລອງພາສາຂະຫນາດນ້ອຍແຕ່ມີຄວາມສາມາດທີ່ເຫມາະສົມກັບຄໍາຮ້ອງສະຫມັກຕ່າງໆ.

ຄວາມກ້າວ ໜ້າ ທີ່ຜ່ານມາໃນຂົງເຂດນີ້ແມ່ນການແນະ ນຳ ຂອງ "ການກັ່ນເທື່ອລະຂັ້ນຕອນ"ກົນໄກ. ວິທີການໃຫມ່ນີ້ສະຫນອງການເພີ່ມປະສິດທິພາບທີ່ມີຄວາມຕ້ອງການຂໍ້ມູນຫຼຸດລົງ.

ວິທີການການກັ່ນເປັນຂັ້ນຕອນໂດຍຂັ້ນຕອນນໍາໃຊ້ LLMs ບໍ່ພຽງແຕ່ເປັນແຫຼ່ງຂອງປ້າຍທີ່ບໍ່ມີສຽງແຕ່ເປັນຕົວແທນທີ່ມີຄວາມສາມາດໃນການສົມເຫດສົມຜົນ. ວິທີການນີ້ໃຊ້ເຫດຜົນທາງພາສາທໍາມະຊາດທີ່ສ້າງຂຶ້ນໂດຍ LLMs ເພື່ອຊີ້ໃຫ້ເຫັນການຄາດຄະເນຂອງເຂົາເຈົ້າ, ນໍາໃຊ້ພວກມັນເປັນການຊີ້ນໍາເພີ່ມເຕີມສໍາລັບການຝຶກອົບຮົມແບບຈໍາລອງຂະຫນາດນ້ອຍ. ໂດຍການລວມເອົາເຫດຜົນເຫຼົ່ານີ້, ຕົວແບບຂະຫນາດນ້ອຍສາມາດຮຽນຮູ້ຄວາມຮູ້ກ່ຽວກັບວຽກງານທີ່ກ່ຽວຂ້ອງຢ່າງມີປະສິດທິພາບ, ຫຼຸດຜ່ອນຄວາມຕ້ອງການຂໍ້ມູນການຝຶກອົບຮົມຢ່າງກວ້າງຂວາງ.

Developer Frameworks ແລະ Domain-Specific Models

ກອບວຽກເຊັ່ນ: Hugging Face Hub, Anthropic Claude, Cohere for AI, ແລະ Assembler ແມ່ນເຮັດໃຫ້ມັນງ່າຍຂຶ້ນສໍາລັບນັກພັດທະນາໃນການສ້າງ SLMs ທີ່ກໍາຫນົດເອງ. ແພລະຕະຟອມເຫຼົ່ານີ້ສະເຫນີເຄື່ອງມືສໍາລັບການຝຶກອົບຮົມ, ການປະຕິບັດແລະການຕິດຕາມ SLMs, ເຮັດໃຫ້ພາສາ AI ສາມາດເຂົ້າເຖິງອຸດສາຫະກໍາທີ່ກວ້າງຂວາງ.

SLMs ສະເພາະໂດເມນແມ່ນໄດ້ປຽບໂດຍສະເພາະໃນອຸດສາຫະກໍາເຊັ່ນ: ການເງິນ, ບ່ອນທີ່ຄວາມຖືກຕ້ອງ, ຄວາມລັບ, ແລະການຕອບສະຫນອງແມ່ນສໍາຄັນທີ່ສຸດ. ຮູບແບບເຫຼົ່ານີ້ສາມາດຖືກປັບໃຫ້ເຫມາະສົມກັບວຽກງານສະເພາະແລະມັກຈະມີປະສິດທິພາບແລະປອດໄພກວ່າຄູ່ຮ່ວມງານຂະຫນາດໃຫຍ່ຂອງພວກເຂົາ.

Looking Forward

ການຂຸດຄົ້ນ SLMs ບໍ່ພຽງແຕ່ເປັນຄວາມພະຍາຍາມທາງດ້ານເຕັກນິກເທົ່ານັ້ນ ແຕ່ຍັງເປັນການເຄື່ອນໄຫວຍຸດທະສາດໄປສູ່ການແກ້ໄຂບັນຫາ AI ທີ່ຍືນຍົງ, ມີປະສິດທິພາບ ແລະສາມາດປັບແຕ່ງໄດ້. ໃນຂະນະທີ່ AI ສືບຕໍ່ພັດທະນາ, ການສຸມໃສ່ຮູບແບບທີ່ນ້ອຍກວ່າ, ພິເສດກວ່າຈະເຕີບໂຕ, ສະເຫນີໂອກາດແລະສິ່ງທ້າທາຍໃຫມ່ໃນການພັດທະນາແລະການນໍາໃຊ້ເຕັກໂນໂລຢີ AI.

ຂ້ອຍໄດ້ໃຊ້ເວລາ 50 ປີທີ່ຜ່ານມາເພື່ອເຂົ້າໄປໃນໂລກທີ່ໜ້າສົນໃຈຂອງການຮຽນຮູ້ເຄື່ອງຈັກ ແລະການຮຽນຮູ້ຢ່າງເລິກເຊິ່ງ. ຄວາມກະຕືລືລົ້ນແລະຄວາມຊໍານານຂອງຂ້ອຍໄດ້ເຮັດໃຫ້ຂ້ອຍປະກອບສ່ວນເຂົ້າໃນໂຄງການວິສະວະກໍາຊອບແວທີ່ຫຼາກຫຼາຍຊະນິດຫຼາຍກວ່າ XNUMX ໂຄງການ, ໂດຍເນັ້ນໃສ່ສະເພາະກັບ AI/ML. ຄວາມຢາກຮູ້ຢາກເຫັນຢ່າງຕໍ່ເນື່ອງຂອງຂ້ອຍຍັງໄດ້ດຶງຂ້ອຍໄປສູ່ການປຸງແຕ່ງພາສາທໍາມະຊາດ, ເຊິ່ງຂ້ອຍກະຕືລືລົ້ນທີ່ຈະຄົ້ນຫາຕື່ມອີກ.