ປັນຍາປະດິດ

ການຮຽນຮູ້ຕະຫຼອດຊີວິດໃນອຸປະກອນໃກ້ຊິດກັບເຕັກນິກການຝຶກອົບຮົມໃຫມ່

ການປັບປຸງ on ເດືອນທັນວາ 9, 2022

MIT/MIT-IBM Watson AI Lab

ທີມງານຂອງນັກຄົ້ນຄວ້າຢູ່ MIT ແລະ MIT-IBM Watson AI Lab ພັດທະນາເຕັກນິກໃຫມ່ທີ່ຊ່ວຍໃຫ້ການຝຶກອົບຮົມໃນອຸປະກອນໂດຍໃຊ້ຫນ່ວຍຄວາມຈໍາຫນ້ອຍກວ່າຫນຶ່ງສ່ວນສີ່ຂອງ megabyte. ການພັດທະນາໃຫມ່ແມ່ນຜົນສໍາເລັດທີ່ຫນ້າປະທັບໃຈຍ້ອນວ່າການແກ້ໄຂການຝຶກອົບຮົມອື່ນໆມັກຈະຕ້ອງການຄວາມຈໍາຫຼາຍກວ່າ 500 megabytes, ເຊິ່ງເກີນຄວາມຈຸຂອງ microcontrollers ສ່ວນໃຫຍ່ 256 ກິໂລໄບ.

ໂດຍການຝຶກອົບຮົມແບບຈໍາລອງການຮຽນຮູ້ເຄື່ອງຈັກໃນອຸປະກອນຂອບອັດສະລິຍະ, ມັນສາມາດປັບຕົວເຂົ້າກັບຂໍ້ມູນໃຫມ່ແລະເຮັດໃຫ້ການຄາດຄະເນທີ່ດີກວ່າ. ດ້ວຍວ່າ, ຂະບວນການຝຶກອົບຮົມປົກກະຕິແລ້ວຕ້ອງການຄວາມຊົງຈໍາຫຼາຍ, ສະນັ້ນມັນມັກຈະດໍາເນີນການກັບຄອມພິວເຕີຢູ່ສູນຂໍ້ມູນກ່ອນທີ່ຮູບແບບຈະຖືກນໍາໃຊ້ໃນອຸປະກອນ. ຂະບວນການນີ້ມີຄ່າໃຊ້ຈ່າຍຫຼາຍກວ່າແລະເຮັດໃຫ້ເກີດຄວາມກັງວົນດ້ານຄວາມເປັນສ່ວນຕົວເມື່ອທຽບກັບເຕັກນິກໃຫມ່ທີ່ທີມງານພັດທະນາ.

ນັກຄົ້ນຄວ້າໄດ້ພັດທະນາ algorithms ແລະກອບໃນວິທີການຫຼຸດຜ່ອນຈໍານວນຄອມພິວເຕີທີ່ຕ້ອງການໃນການຝຶກອົບຮົມແບບຈໍາລອງ, ເຮັດໃຫ້ຂະບວນການໄວຂຶ້ນແລະມີຄວາມຊົງຈໍາຫຼາຍ. ເຕັກນິກດັ່ງກ່າວສາມາດຊ່ວຍຝຶກອົບຮົມແບບຈໍາລອງການຮຽນຮູ້ເຄື່ອງຈັກໃນ microcontroller ໃນສອງສາມນາທີ.

ເຕັກນິກໃຫມ່ຍັງຊ່ວຍເລື່ອງຄວາມເປັນສ່ວນຕົວຍ້ອນວ່າມັນຮັກສາຂໍ້ມູນຢູ່ໃນອຸປະກອນ, ເຊິ່ງເປັນສິ່ງສໍາຄັນໃນເວລາທີ່ຂໍ້ມູນລະອຽດອ່ອນມີສ່ວນຮ່ວມ. ໃນເວລາດຽວກັນ, ກອບປັບປຸງຄວາມຖືກຕ້ອງຂອງຕົວແບບເມື່ອປຽບທຽບກັບວິທີການອື່ນໆ.

Song Han ເປັນຮອງສາດສະດາຈານໃນພາກວິຊາວິສະວະກໍາໄຟຟ້າ ແລະວິທະຍາສາດຄອມພິວເຕີ (EECS), ສະມາຊິກຂອງ MIT-IBM Watson AI Lab, ແລະເປັນຜູ້ຂຽນອາວຸໂສຂອງເອກະສານການຄົ້ນຄວ້າ.

"ການສຶກສາຂອງພວກເຮົາເຮັດໃຫ້ອຸປະກອນ IoT ບໍ່ພຽງແຕ່ປະຕິບັດການສົມມຸດຕິຖານເທົ່ານັ້ນ, ແຕ່ຍັງປັບປຸງແບບຈໍາລອງ AI ຢ່າງຕໍ່ເນື່ອງກັບຂໍ້ມູນທີ່ເກັບກໍາໃຫມ່, ປູທາງໄປສູ່ການຮຽນຮູ້ໃນອຸປະກອນຕະຫຼອດຊີວິດ," Han ເວົ້າ. "ການນໍາໃຊ້ຊັບພະຍາກອນທີ່ຕໍ່າເຮັດໃຫ້ການຮຽນຮູ້ເລິກເຊິ່ງສາມາດເຂົ້າເຖິງໄດ້ຫຼາຍກວ່າເກົ່າແລະສາມາດເຂົ້າເຖິງໄດ້ຢ່າງກວ້າງຂວາງ, ໂດຍສະເພາະສໍາລັບອຸປະກອນທີ່ມີພະລັງງານຕ່ໍາ."

ໄດ້ ເຈ້ຍ ລວມມີນັກຂຽນຮ່ວມແລະນັກສຶກສາປະລິນຍາເອກ EECS Ji Lin ແລະ Ligeng Zhu, ແລະ MIT postdocs Wei-Ming Chen ແລະ Wei-Chen Wang. ນອກນັ້ນ, ຍັງໄດ້ລວມເອົາທ່ານ Chuang Gan, ພະນັກງານຄົ້ນຄວ້າຫຼັກຂອງ MIT-IBM Watson AI Lab.

ເຮັດໃຫ້ຂະບວນການຝຶກອົບຮົມມີປະສິດທິພາບຫຼາຍຂຶ້ນ

ເພື່ອເຮັດໃຫ້ຂະບວນການຝຶກອົບຮົມມີປະສິດທິພາບ ແລະມີຄວາມຈຳໜ້ອຍ, ທີມງານໄດ້ອາໄສສອງວິທີແກ້ໄຂບັນຫາ. ທໍາອິດແມ່ນເປັນທີ່ຮູ້ຈັກເປັນການປັບປຸງ sparse, ເຊິ່ງໃຊ້ສູດການຄິດໄລ່ທີ່ກໍານົດນ້ໍາຫນັກທີ່ສໍາຄັນທີ່ສຸດໃນການປັບປຸງໃນແຕ່ລະຮອບຂອງການຝຶກອົບຮົມ. ສູດການຄິດໄລ່ຈະຢຸດນ້ຳໜັກເທື່ອລະອັນ ຈົນກວ່າຄວາມຖືກຕ້ອງຈະຕົກຮອດເກນທີ່ແນ່ນອນ, ເມື່ອມັນຢຸດລົງ. ນ້ ຳ ໜັກ ທີ່ຍັງເຫຼືອຈະຖືກປັບປຸງແລະການເປີດໃຊ້ງານທີ່ສອດຄ້ອງກັບນ້ ຳ ໜັກ ແຊ່ແຂງບໍ່ ຈຳ ເປັນຕ້ອງເກັບໄວ້ໃນຄວາມຊົງ ຈຳ.

"ການປັບປຸງແບບຈໍາລອງທັງຫມົດແມ່ນລາຄາແພງຫຼາຍເພາະວ່າມີການເປີດໃຊ້ຫຼາຍ, ດັ່ງນັ້ນຄົນເຮົາມັກຈະປັບປຸງພຽງແຕ່ຊັ້ນສຸດທ້າຍ, ແຕ່ຕາມທີ່ເຈົ້າສາມາດຈິນຕະນາການໄດ້, ນີ້ເຮັດໃຫ້ຄວາມຖືກຕ້ອງເຈັບປວດ," Han ເວົ້າ. "ສໍາລັບວິທີການຂອງພວກເຮົາ, ພວກເຮົາເລືອກປັບປຸງນ້ໍາຫນັກທີ່ສໍາຄັນເຫຼົ່ານັ້ນແລະໃຫ້ແນ່ໃຈວ່າຄວາມຖືກຕ້ອງຖືກຮັກສາໄວ້ຢ່າງສົມບູນ."

ການແກ້ໄຂທີສອງທີ່ພັດທະນາໂດຍທີມງານປະກອບມີການຝຶກອົບຮົມແບບປະລິມານແລະການເຮັດໃຫ້ນ້ໍາຫນັກງ່າຍຂຶ້ນ. algorithm ທໍາອິດຮອບນ້ໍາຫນັກພຽງແຕ່ແປດບິດໂດຍຜ່ານຂະບວນການປະລິມານທີ່ຍັງຕັດຈໍານວນຫນ່ວຍຄວາມຈໍາສໍາລັບການຝຶກອົບຮົມແລະການ inference, ໂດຍ inference ແມ່ນຂະບວນການຂອງການນໍາໃຊ້ຕົວແບບກັບຊຸດຂໍ້ມູນແລະສ້າງການຄາດຄະເນ. ຫຼັງຈາກນັ້ນ, ສູດການຄິດໄລ່ແມ່ນອີງໃສ່ເຕັກນິກທີ່ເອີ້ນວ່າ quantization-aware scaling (QAS), ເຊິ່ງເຮັດຫນ້າທີ່ຄ້າຍຄືຕົວຄູນເພື່ອປັບອັດຕາສ່ວນລະຫວ່າງນ້ໍາຫນັກແລະ gradient. ນີ້ຊ່ວຍຫຼີກເວັ້ນການຫຼຸດລົງຂອງຄວາມຖືກຕ້ອງທີ່ສາມາດເປັນຜົນມາຈາກການຝຶກອົບຮົມປະລິມານ.

ນັກຄົ້ນຄວ້າໄດ້ພັດທະນາລະບົບທີ່ເອີ້ນວ່າເຄື່ອງຈັກການຝຶກອົບຮົມຂະຫນາດນ້ອຍ, ເຊິ່ງດໍາເນີນການປະດິດສ້າງ algorithm ໃນ microcontroller ແບບງ່າຍດາຍທີ່ຂາດລະບົບປະຕິບັດການ. ເພື່ອເຮັດສໍາເລັດວຽກງານເພີ່ມເຕີມໃນຂັ້ນຕອນການລວບລວມ, ກ່ອນທີ່ຈະນໍາໃຊ້ຕົວແບບໃນອຸປະກອນແຂບ, ລະບົບຈະປ່ຽນແປງຄໍາສັ່ງຂອງຂັ້ນຕອນໃນຂະບວນການຝຶກອົບຮົມ.

"ພວກເຮົາຊຸກຍູ້ການຄິດໄລ່ຫຼາຍຢ່າງ, ເຊັ່ນ: ຄວາມແຕກຕ່າງອັດຕະໂນມັດແລະການເພີ່ມປະສິດທິພາບຂອງກາຟ, ເພື່ອລວບລວມເວລາ. ພວກເຮົາຍັງເລັ່ງແກ້ໄຂຜູ້ປະຕິບັດການທີ່ຊ້ຳຊ້ອນເພື່ອຮອງຮັບການອັບເດດທີ່ແຕກຫັກ. ເມື່ອຢູ່ໃນເວລາແລ່ນ, ພວກເຮົາມີວຽກຫນ້ອຍທີ່ຈະເຮັດຢູ່ໃນອຸປະກອນ,” Han ເວົ້າ.

ເຕັກນິກທີ່ມີປະສິດທິພາບສູງ

ໃນຂະນະທີ່ເຕັກນິກແບບດັ້ງເດີມທີ່ຖືກອອກແບບມາສໍາລັບການຝຶກອົບຮົມນ້ໍາຫນັກເບົາມັກຈະຕ້ອງການຄວາມຊົງຈໍາປະມານ 300 ຫາ 600 ເມກະໄບ, ການເພີ່ມປະສິດທິພາບຂອງທີມງານຕ້ອງການພຽງແຕ່ 157 ກິໂລໄບເພື່ອຝຶກອົບຮົມແບບຈໍາລອງການຮຽນຮູ້ເຄື່ອງຈັກໃນ microcontroller.

ໂຄງຮ່າງການໄດ້ຖືກທົດສອບໂດຍການຝຶກອົບຮົມແບບຈໍາລອງວິໄສທັດຄອມພິວເຕີເພື່ອກວດຫາຄົນໃນຮູບພາບ, ແລະມັນໄດ້ຮຽນຮູ້ທີ່ຈະເຮັດສໍາເລັດວຽກງານນີ້ໃນເວລາພຽງແຕ່ 10 ນາທີ. ວິທີການດັ່ງກ່າວຍັງສາມາດຝຶກອົບຮົມແບບຈໍາລອງໄດ້ໄວກວ່າວິທີການອື່ນໆ 20 ເທົ່າ.

ດຽວນີ້ນັກຄົ້ນຄວ້າຈະຊອກຫາວິທີທີ່ຈະ ນຳ ໃຊ້ກັບຕົວແບບພາສາແລະຂໍ້ມູນປະເພດຕ່າງໆ. ພວກເຂົາຍັງຕ້ອງການໃຊ້ຄວາມຮູ້ທີ່ໄດ້ມານີ້ເພື່ອຫົດຕົວແບບຂະຫນາດໃຫຍ່ລົງໂດຍບໍ່ມີການສູນເສຍຄວາມຖືກຕ້ອງ, ເຊິ່ງສາມາດຊ່ວຍຫຼຸດຜ່ອນການປ່ອຍອາຍຄາບອນຂອງການຝຶກອົບຮົມຮູບແບບການຮຽນຮູ້ເຄື່ອງຈັກຂະຫນາດໃຫຍ່.