ປັນຍາປະດິດ

ທ່ານສາມາດສ້າງແບບຈໍາລອງພາສາຂະຫນາດໃຫຍ່ເຊັ່ນ ChatGPT ດ້ວຍຄ່າໃຊ້ຈ່າຍເຄິ່ງຫນຶ່ງບໍ?

ຈັດພີມມາ

12 ເດືອນທີ່ແລ້ວ

ອາດ 11, 2023

ຮູບແບບພາສາຂະຫນາດໃຫຍ່ (LLMs) ເຊັ່ນ GPT-3 ແລະ ChatGPT ໄດ້ປະຕິວັດ AI ໂດຍສະເຫນີຄວາມເຂົ້າໃຈພາສາທໍາມະຊາດແລະຄວາມສາມາດໃນການສ້າງເນື້ອຫາ. ແຕ່ການພັດທະນາຂອງພວກເຂົາມາໃນລາຄາທີ່ຈໍາກັດການເຂົ້າເຖິງແລະການຄົ້ນຄວ້າຕື່ມອີກ. ນັກຄົ້ນຄວ້າຄາດຄະເນວ່າການຝຶກອົບຮົມ GPT-3 ຄ່າໃຊ້ຈ່າຍ OpenAI ປະມານ 5 $ ລ້ານ. ຢ່າງໃດກໍຕາມ, Microsoft ໄດ້ຮັບຮູ້ທ່າແຮງແລະການລົງທຶນ 1 $ ພັນລ້ານ ໃນ 2019 ແລະ 10 $ ພັນລ້ານ ໃນປີ 2023 ໃນບໍລິສັດ OpenAI ຂອງ GPT-3 ແລະບໍລິສັດ ChatGPT.

LLMs ແມ່ນຕົວແບບການຮຽນຮູ້ເຄື່ອງຈັກທີ່ໄດ້ຮັບການຝຶກອົບຮົມກ່ຽວກັບຂໍ້ມູນຂໍ້ຄວາມຢ່າງກວ້າງຂວາງສໍາລັບຄໍາຮ້ອງສະຫມັກ NLP. ພວກເຂົາເຈົ້າແມ່ນອີງໃສ່ຖາປັດຕະຍະການຫັນເປັນແລະນໍາໃຊ້ກົນໄກຄວາມສົນໃຈສໍາລັບວຽກງານ NLP ເຊັ່ນ: ການຕອບຄໍາຖາມ, ການແປພາສາເຄື່ອງຈັກ, ການວິເຄາະຄວາມຮູ້ສຶກ, ແລະອື່ນໆ.

ຄໍາຖາມທີ່ເກີດຂື້ນ: ປະສິດທິພາບຂອງແບບຈໍາລອງຂະຫນາດໃຫຍ່ເຫຼົ່ານີ້ສາມາດເພີ່ມຂຶ້ນໃນຂະນະທີ່ການຫຼຸດຜ່ອນຄ່າໃຊ້ຈ່າຍໃນຄອມພິວເຕີ້ແລະເວລາການຝຶກອົບຮົມໃນເວລາດຽວກັນບໍ?

ວິທີການຫຼາຍເຊັ່ນ: Progressive Neural Networks, ເຄືອຂ່າຍ Morphism, ຄວາມຂະໜານຕົວແບບພາຍໃນຊັ້ນ, ການສືບທອດຄວາມຮູ້, ແລະອື່ນໆ, ໄດ້ຖືກພັດທະນາເພື່ອຫຼຸດຜ່ອນຄ່າໃຊ້ຈ່າຍຄອມພິວເຕີຂອງການຝຶກອົບຮົມເຄືອຂ່າຍ neural. ນະວະນິຍາຍ LiGO ວິທີການ (ຜູ້ປະຕິບັດການຂະຫຍາຍຕົວ Linear) ທີ່ພວກເຮົາຈະປຶກສາຫາລືແມ່ນກໍານົດມາດຕະຖານໃຫມ່. ມັນເຄິ່ງຄ່າໃຊ້ຈ່າຍໃນຄອມພິວເຕີ້ຂອງການຝຶກອົບຮົມ LLMs.

ກ່ອນທີ່ຈະປຶກສາຫາລືກ່ຽວກັບເຕັກນິກນີ້, ການກວດສອບປັດໃຈທີ່ປະກອບສ່ວນເຮັດໃຫ້ລາຄາສູງຂອງ LLMs ແມ່ນມີຄວາມຈໍາເປັນ.

ຄ່າໃຊ້ຈ່າຍໃນການກໍ່ສ້າງແບບຈໍາລອງພາສາຂະຫນາດໃຫຍ່

ສາມຄ່າໃຊ້ຈ່າຍຕົ້ນຕໍສໍາລັບການພັດທະນາ LLMs ມີດັ່ງນີ້:

1. ຊັບພະຍາກອນຄອມພິວເຕີ

ການສ້າງ LLMs ຕ້ອງການຊັບພະຍາກອນຄອມພິວເຕີ້ຂະຫນາດໃຫຍ່ເພື່ອຝຶກອົບຮົມກ່ຽວກັບຊຸດຂໍ້ມູນຂະຫນາດໃຫຍ່. ພວກເຂົາຕ້ອງປະມວນຜົນຫຼາຍຕື້ຕົວກໍານົດການແລະຮຽນຮູ້ຮູບແບບສະລັບສັບຊ້ອນຈາກຂໍ້ມູນຂໍ້ຄວາມຂະຫນາດໃຫຍ່.

ການລົງທຶນໃນຮາດແວພິເສດເຊັ່ນ: ຫນ່ວຍປະມວນຜົນຮູບພາບ (GPUs) ແລະຫນ່ວຍປະມວນຜົນ Tensor (TPUs) ແມ່ນຈໍາເປັນສໍາລັບການກໍ່ສ້າງແລະການຝຶກອົບຮົມ LLMs ເພື່ອບັນລຸການປະຕິບັດທີ່ທັນສະໄຫມ.

ສໍາລັບຕົວຢ່າງ, GPT-3 ໄດ້ຮັບການຝຶກອົບຮົມກ່ຽວກັບ a supercomputer ດ້ວຍ 10000 GPU ລະດັບວິສາຫະກິດ (H100 ແລະ A100) ແລະ 285,000 CPU cores.

2. ການບໍລິໂພກພະລັງງານ

ຊັບພະຍາກອນຄອມພິວເຕີທີ່ເຂັ້ມຂຸ້ນທີ່ຈໍາເປັນສໍາລັບການກໍ່ສ້າງ LLMs ສົ່ງຜົນໃຫ້ມີການໃຊ້ພະລັງງານຢ່າງຫຼວງຫຼາຍ. ສໍາລັບຕົວຢ່າງ, ການຝຶກອົບຮົມ 175 ຕື້ຕົວກໍານົດການ GPT-3 ໄດ້ 14.8 ວັນ ໃຊ້ 10,000 V100 GPUs, ເທົ່າກັບ 3.55 ລ້ານ GPU ຊົ່ວໂມງ. ການບໍລິໂພກພະລັງງານໃນລະດັບສູງດັ່ງກ່າວກໍ່ມີຜົນກະທົບດ້ານສິ່ງແວດລ້ອມຢ່າງຫຼວງຫຼາຍ.

3. ການເກັບຮັກສາຂໍ້ມູນ & ການຄຸ້ມຄອງ

LLMs ໄດ້ຮັບການຝຶກອົບຮົມກ່ຽວກັບຊຸດຂໍ້ມູນຂະຫນາດໃຫຍ່. ສໍາລັບຕົວຢ່າງ, GPT-3 ໄດ້ຖືກຝຶກອົບຮົມຢູ່ໃນໂຄງສ້າງທີ່ກວ້າງຂວາງ ຂໍ້ມູນ, ລວມທັງການລວບລວມຂໍ້ມູນທົ່ວໄປ, WebText2, Books1, Books2, ແລະ Wikipedia, ໃນບັນດາແຫຼ່ງອື່ນໆ. ການລົງທຶນພື້ນຖານໂຄງລ່າງທີ່ສໍາຄັນແມ່ນຈໍາເປັນເພື່ອເກັບກໍາ, ຈັດການແລະເກັບຮັກສາຊຸດຂໍ້ມູນເຫຼົ່ານີ້.

ນອກຈາກນີ້, ການເກັບຮັກສາຟັງແມ່ນຈໍາເປັນສໍາລັບການເກັບຮັກສາຂໍ້ມູນ, ແລະຄວາມຊໍານານຂອງມະນຸດສໍາລັບການປະມວນຜົນຂໍ້ມູນກ່ອນແລະການຄວບຄຸມສະບັບ. ຍິ່ງໄປກວ່ານັ້ນ, ການຮັບປະກັນວ່າຍຸດທະສາດຂໍ້ມູນຂອງທ່ານປະຕິບັດຕາມກົດລະບຽບເຊັ່ນ GDPR ຍັງເພີ່ມຄ່າໃຊ້ຈ່າຍ.

ເຕັກນິກ LiGO: ຫຼຸດຜ່ອນຄ່າໃຊ້ຈ່າຍໃນການກໍ່ສ້າງຕົວແບບພາສາຂະຫນາດໃຫຍ່ລົງເຄິ່ງຫນຶ່ງ

LiGO (Linear Growth Operator) ແມ່ນເຕັກນິກການປະດິດສ້າງໂດຍນັກຄົ້ນຄວ້າຢູ່ MIT ເພື່ອຫຼຸດຜ່ອນຄ່າໃຊ້ຈ່າຍໃນຄອມພິວເຕີ້ຂອງການຝຶກອົບຮົມ LLMs ໂດຍ 50%. ວິທີການດັ່ງກ່າວປະກອບດ້ວຍການເລີ່ມຕົ້ນການນ້ໍາຫນັກຂອງຕົວແບບຂະຫນາດໃຫຍ່ຈາກແບບຈໍາລອງທີ່ນ້ອຍກ່ອນການຝຶກອົບຮົມ, ເຮັດໃຫ້ການຂະຫຍາຍເຄືອຂ່າຍ neural ທີ່ມີປະສິດທິພາບ.

ຮູບພາບຈາກເຈ້ຍ: ການຮຽນຮູ້ທີ່ຈະເຕີບໂຕຕົວແບບທີ່ໄດ້ຝຶກອົບຮົມໄວ້ສໍາລັບການຝຶກອົບຮົມການຫັນເປັນປະສິດທິພາບ

Yoon Kim, ຜູ້ຂຽນອາວຸໂສຂອງເອກະສານ, ເວົ້າວ່າ:

"ມັນໄດ້ຖືກຄາດຄະເນວ່າຮູບແບບການຝຶກອົບຮົມໃນລະດັບຂອງສິ່ງທີ່ ChatGPT ຖືກສົມມຸດຕິຖານທີ່ຈະດໍາເນີນການສາມາດໃຊ້ເວລາຫຼາຍລ້ານໂດລາສໍາລັບການແລ່ນການຝຶກອົບຮົມຄັ້ງດຽວ. ພວກເຮົາສາມາດປັບປຸງປະສິດທິພາບຂອງວິທີການຝຶກອົບຮົມເຫຼົ່ານີ້, ດັ່ງນັ້ນພວກເຮົາຍັງສາມາດໄດ້ຮັບຮູບແບບທີ່ດີໃນເວລາຫນ້ອຍແລະເງິນຫນ້ອຍ? ພວກເຮົາສະເໜີໃຫ້ເຮັດສິ່ງນີ້ໂດຍການນຳໃຊ້ຕົວແບບພາສາຂະຫນາດນ້ອຍທີ່ໄດ້ຮັບການຝຶກອົບຮົມມາກ່ອນ.”

ວິທີການນີ້ຮັກສາຜົນປະໂຫຍດດ້ານການປະຕິບັດຂອງຕົວແບບຂະຫນາດໃຫຍ່ທີ່ມີຄ່າໃຊ້ຈ່າຍໃນຄອມພິວເຕີ້ຫຼຸດລົງແລະເວລາການຝຶກອົບຮົມເມື່ອທຽບກັບການຝຶກອົບຮົມແບບຈໍາລອງຂະຫນາດໃຫຍ່ຈາກ scratch. LiGO ນໍາໃຊ້ຕົວປະຕິບັດການການຂະຫຍາຍຕົວເສັ້ນທີ່ຂັບເຄື່ອນດ້ວຍຂໍ້ມູນເຊິ່ງລວມຕົວປະຕິບັດການຄວາມເລິກແລະຄວາມກວ້າງສໍາລັບການປະຕິບັດທີ່ດີທີ່ສຸດ.

ເອກະສານດັ່ງກ່າວໄດ້ນໍາໃຊ້ຊຸດຂໍ້ມູນຕ່າງໆເພື່ອດໍາເນີນການທົດລອງທີ່ອີງໃສ່ຂໍ້ຄວາມ, ລວມທັງພາສາອັງກິດ Wikipedia corpus ສໍາລັບການຝຶກອົບຮົມແບບຈໍາລອງ BERT ແລະ RoBERTa ແລະຊຸດຂໍ້ມູນ C4 ສໍາລັບການຝຶກອົບຮົມ GPT2.

ການທົດລອງເຕັກນິກ LiGO ລວມມີການຂະຫຍາຍຕົວຂອງ BERT-Small ຫາ BERT-Base, BERT-Base to BERT-Large, RoBERTaSmall to RoBERTa-Base, GPT2-Base to GPT2-Medium, ແລະ CaiT-XS to CaiT-S.

ນັກຄົ້ນຄວ້າໄດ້ປຽບທຽບວິທີການຂອງເຂົາເຈົ້າກັບພື້ນຖານອື່ນໆຈໍານວນຫນຶ່ງ, ລວມທັງການຝຶກອົບຮົມຈາກ scratch, ການຝຶກອົບຮົມກ້າວຫນ້າ, bert2BERT, ແລະ KI.

ເຕັກນິກ LiGO ສະຫນອງການປະຫຍັດ 44.7% ໃນ FLOPs (ການດໍາເນີນງານຈຸດລອຍຕໍ່ວິນາທີ) ແລະປະຫຍັດເວລາກໍາແພງ 40.7% ເມື່ອທຽບກັບການຝຶກອົບຮົມ BERT-Base ຈາກຈຸດເລີ່ມຕົ້ນໂດຍການນໍາໃຊ້ຮູບແບບ BERT-Small ຄືນໃໝ່. ຜູ້ປະກອບການການເຕີບໂຕຂອງ LiGO ດີກວ່າ StackBERT, MSLT, bert2BERT, ແລະ KI ໃນການຝຶກອົບຮົມທີ່ມີປະສິດທິພາບ.

ຜົນປະໂຫຍດຂອງການນໍາໃຊ້ເຕັກນິກການເພີ່ມປະສິດທິພາບການຝຶກອົບຮົມຄືກັບ LiGO

LiGO ແມ່ນວິທີການຝຶກອົບຮົມເຄືອຂ່າຍ neural ທີ່ມີປະສິດທິພາບທີ່ມີຜົນປະໂຫຍດຕ່າງໆທີ່ມີລາຍຊື່ດັ່ງຕໍ່ໄປນີ້:

1. ການຝຶກອົບຮົມໄວຂຶ້ນ

ດັ່ງທີ່ໄດ້ກ່າວກ່ອນຫນ້ານີ້, ການຝຶກອົບຮົມໄວແມ່ນປະໂຫຍດຕົ້ນຕໍຂອງເຕັກນິກ LiGO. ມັນຝຶກອົບຮົມ LLMs ໃນເຄິ່ງເວລາ, ເພີ່ມຜົນຜະລິດແລະການຫຼຸດຜ່ອນຄ່າໃຊ້ຈ່າຍ.

2. ຊັບພະຍາກອນທີ່ມີປະສິດທິພາບ

LiGO ແມ່ນຊັບພະຍາກອນທີ່ມີປະສິດທິພາບເນື່ອງຈາກມັນຫຼຸດຜ່ອນເວລາກໍາແພງຫີນແລະ FLOPs, ນໍາໄປສູ່ວິທີການທີ່ມີປະສິດທິພາບດ້ານຄ່າໃຊ້ຈ່າຍແລະເປັນມິດກັບສິ່ງແວດລ້ອມໃນການຝຶກອົບຮົມຕົວແບບການຫັນປ່ຽນຂະຫນາດໃຫຍ່.

3. ໂດຍທົ່ວໄປ

ເຕັກນິກ LiGO ໄດ້ປັບປຸງການປະຕິບັດຂອງທັງສອງພາສາແລະວິໄສທັດ transformers ແນະນໍາວ່າມັນເປັນເຕັກນິກທົ່ວໄປທີ່ສາມາດຖືກນໍາໃຊ້ກັບວຽກງານຕ່າງໆ.

ການສ້າງຜະລິດຕະພັນ AI ທາງດ້ານການຄ້າແມ່ນພຽງແຕ່ຫນຶ່ງດ້ານຂອງຄ່າໃຊ້ຈ່າຍລວມທີ່ກ່ຽວຂ້ອງກັບລະບົບ AI. ອົງປະກອບທີ່ສໍາຄັນອີກອັນຫນຶ່ງຂອງຄ່າໃຊ້ຈ່າຍແມ່ນມາຈາກການດໍາເນີນງານປະຈໍາວັນ. ສໍາລັບຕົວຢ່າງ, ມັນມີມູນຄ່າ OpenAI ກ່ຽວກັບ $700,000 ທຸກໆມື້ເພື່ອຕອບຄໍາຖາມໂດຍໃຊ້ ChatGPT. ນັກຄົ້ນຄວ້າຄາດວ່າຈະສືບຕໍ່ຂຸດຄົ້ນວິທີການທີ່ເຮັດໃຫ້ LLMs ມີຄ່າໃຊ້ຈ່າຍທີ່ມີປະສິດທິພາບໃນລະຫວ່າງການຝຶກອົບຮົມແລະສາມາດເຂົ້າເຖິງໄດ້ຫຼາຍຂຶ້ນໃນເວລາແລ່ນ.

ສໍາລັບເນື້ອຫາທີ່ກ່ຽວຂ້ອງກັບ AI ເພີ່ມເຕີມ, ເຂົ້າໄປເບິ່ງ unite.ai.