ກ້ານໃບ Gradient Boosting ແມ່ນຫຍັງ? - Unite.AI
ເຊື່ອມຕໍ່ກັບພວກເຮົາ
AI Masterclass:

ໄອ 101

Gradient Boosting ແມ່ນຫຍັງ?

mm
ການປັບປຸງ on

ຮູບແບບການຮຽນຮູ້ເຄື່ອງຈັກປະເພດທົ່ວໄປທີ່ໄດ້ຈັດການໃຫ້ເປັນປະໂຫຍດທີ່ສຸດໃນການແຂ່ງຂັນວິທະຍາສາດຂໍ້ມູນແມ່ນຮູບແບບການຊຸກຍູ້ແບບເລື່ອນຊັ້ນ. ການເພີ່ມລະດັບສີ ໂດຍພື້ນຖານແລ້ວແມ່ນຂະບວນການປ່ຽນຮູບແບບການຮຽນຮູ້ທີ່ອ່ອນແອໄປສູ່ຮູບແບບການຮຽນຮູ້ທີ່ເຂັ້ມແຂງ. ຢ່າງໃດກໍຕາມ, ນີ້ແມ່ນສໍາເລັດແນວໃດ? ລອງພິຈາລະນາເບິ່ງຂັ້ນຕອນການເພີ່ມລະດັບສີໃຫ້ລະອຽດ ແລະດີກວ່າ ເຂົ້າ​ໃຈ​ວິ​ທີ​ການ​ເປັນ​ຕົວ​ແບບ​ການ​ຍົກ​ສູງ​ສີ​ ປ່ຽນ​ຜູ້​ຮຽນ​ທີ່​ອ່ອນແອ​ໃຫ້​ເປັນ​ຜູ້​ຮຽນ​ທີ່​ເຂັ້ມແຂງ.

ການກໍານົດການເພີ່ມລະດັບ Gradient

ບົດ​ຄວາມ​ນີ້​ມີ​ຈຸດ​ປະ​ສົງ​ເພື່ອ​ໃຫ້​ທ່ານ intuition ທີ່​ດີ​ສໍາ​ລັບ​ການ​ເຮັດ​ໃຫ້​ການ​ປັບ​ສີ​ແມ່ນ​, ໂດຍ​ບໍ່​ມີ​ການ​ແບ່ງ​ປັນ​ຈໍາ​ນວນ​ຫຼາຍ​ຂອງ​ຄະ​ນິດ​ສາດ​ທີ່ underlies ສູດ​ການ​ຄິດ​ໄລ່​. ເມື່ອທ່ານມີຄວາມກະຕືລືລົ້ນສໍາລັບວິທີການເພີ່ມປະສິດທິພາບຂອງ gradient ໃນລະດັບສູງ, ທ່ານໄດ້ຖືກຊຸກຍູ້ໃຫ້ລົງເລິກແລະຄົ້ນຫາຄະນິດສາດທີ່ເຮັດໃຫ້ມັນເປັນໄປໄດ້.

ໃຫ້ເລີ່ມຕົ້ນໂດຍການກໍານົດສິ່ງທີ່ມັນຫມາຍຄວາມວ່າ "ເພີ່ມ" ນັກຮຽນ. ຜູ້ຮຽນທີ່ອ່ອນແອຈະຖືກປ່ຽນເປັນນັກຮຽນທີ່ເຂັ້ມແຂງໂດຍການປັບຄຸນສົມບັດຂອງຮູບແບບການຮຽນຮູ້. ແທ້ຈິງແລ້ວວິທີການຮຽນຮູ້ແມ່ນໄດ້ຮັບການຊຸກຍູ້?

ຮູບແບບການຊຸກຍູ້ເຮັດວຽກໂດຍການເພີ່ມຮູບແບບການຮຽນຮູ້ເຄື່ອງຈັກທົ່ວໄປອື່ນ, ຕົ້ນ​ໄມ້​ການ​ຕັດ​ສິນ​ໃຈ​.

A ຕົ້ນໄມ້ຕັດສິນໃຈ ປະຕິບັດຫນ້າຂອງຕົວແບບໂດຍການແຍກຊຸດຂໍ້ມູນລົງເປັນສ່ວນນ້ອຍແລະນ້ອຍກວ່າ, ແລະເມື່ອຊຸດຍ່ອຍບໍ່ສາມາດແຍກໄດ້ອີກຕໍ່ໄປ, ຜົນໄດ້ຮັບແມ່ນຕົ້ນໄມ້ທີ່ມີຂໍ້ແລະໃບ. Nodes ໃນຕົ້ນໄມ້ການຕັດສິນໃຈແມ່ນບ່ອນທີ່ການຕັດສິນໃຈກ່ຽວກັບຈຸດຂໍ້ມູນແມ່ນເຮັດໂດຍໃຊ້ເງື່ອນໄຂການກັ່ນຕອງທີ່ແຕກຕ່າງກັນ. ໃບໃນຕົ້ນໄມ້ການຕັດສິນໃຈແມ່ນຈຸດຂໍ້ມູນທີ່ໄດ້ຖືກຈັດປະເພດ. ສູດການຄິດໄລ່ຕົ້ນໄມ້ການຕັດສິນໃຈສາມາດຈັດການກັບຂໍ້ມູນທັງຕົວເລກ ແລະໝວດໝູ່, ແລະການແຍກຢູ່ໃນຕົ້ນໄມ້ແມ່ນອີງໃສ່ຕົວແປ/ຄຸນສົມບັດສະເພາະ.

ຮູບປະກອບຂອງວິທີການສົ່ງເສີມແບບຈໍາລອງໄດ້ຖືກຝຶກອົບຮົມ.
ຮູບພາບ: SeattleDataBuy ຜ່ານ Wikimedia Commons, CC 4.0 (https://commons.wikimedia.org/wiki/File:Boosting.png)

ປະ​ເພດ​ຫນຶ່ງ​ຂອງ​ວິ​ທີ​ການ​ເສີມ​ແມ່ນ​ ສູດການຄິດໄລ່ AdaBoost. AdaBoost algorithms ເລີ່ມຕົ້ນໂດຍການຝຶກອົບຮົມຮູບແບບຕົ້ນໄມ້ການຕັດສິນໃຈແລະກໍານົດນ້ໍາຫນັກເທົ່າທຽມກັນກັບທຸກໆການສັງເກດ. ຫຼັງຈາກຕົ້ນໄມ້ທໍາອິດໄດ້ຮັບການປະເມີນຄວາມຖືກຕ້ອງ, ນ້ໍາຫນັກສໍາລັບການສັງເກດທີ່ແຕກຕ່າງກັນແມ່ນຖືກປັບ. ການສັງເກດການທີ່ງ່າຍຕໍ່ການຈັດປະເພດມີນ້ໍາຫນັກຂອງພວກເຂົາຫຼຸດລົງ, ໃນຂະນະທີ່ການສັງເກດການຍາກທີ່ຈະຈັດປະເພດມີນ້ໍາຫນັກຂອງພວກເຂົາເພີ່ມຂຶ້ນ. ຕົ້ນໄມ້ທີສອງຖືກສ້າງຂື້ນໂດຍໃຊ້ການປັບນ້ໍາຫນັກເຫຼົ່ານີ້, ໂດຍມີຈຸດປະສົງທີ່ການຄາດຄະເນຂອງຕົ້ນໄມ້ທີສອງຈະຖືກຕ້ອງກວ່າການຄາດຄະເນຂອງຕົ້ນໄມ້ທໍາອິດ.

ຮູບແບບໃນປັດຈຸບັນປະກອບດ້ວຍການຄາດຄະເນສໍາລັບຕົ້ນໄມ້ຕົ້ນສະບັບແລະຕົ້ນໄມ້ໃຫມ່ (ຫຼືຕົ້ນໄມ້ 1 + ຕົ້ນໄມ້ 2). ຄວາມຖືກຕ້ອງຂອງການຈັດປະເພດແມ່ນຖືກປະເມີນອີກເທື່ອຫນຶ່ງໂດຍອີງໃສ່ຮູບແບບໃຫມ່. ຕົ້ນໄມ້ທີສາມຖືກສ້າງຂື້ນໂດຍອີງໃສ່ຄວາມຜິດພາດທີ່ຄິດໄລ່ສໍາລັບຕົວແບບ, ແລະນ້ໍາຫນັກໄດ້ຖືກປັບອີກເທື່ອຫນຶ່ງ. ຂະບວນການນີ້ຍັງສືບຕໍ່ເປັນຈໍານວນການຊໍ້າຄືນ, ແລະແບບຈໍາລອງສຸດທ້າຍແມ່ນຮູບແບບຂອງກຸ່ມທີ່ໃຊ້ຜົນລວມນ້ໍາຫນັກຂອງການຄາດຄະເນຂອງຕົ້ນໄມ້ທັງຫມົດທີ່ສ້າງຂຶ້ນໃນເມື່ອກ່ອນ.

ຂະບວນການທີ່ອະທິບາຍຂ້າງເທິງນີ້ໃຊ້ Decision Trees ແລະຕົວຄາດຄະເນພື້ນຖານ/ແບບຈໍາລອງ, ແຕ່ວິທີການຊຸກຍູ້ສາມາດດໍາເນີນການໄດ້ດ້ວຍຮູບແບບທີ່ຫຼາກຫຼາຍເຊັ່ນ: ຕົວແບບຈໍາແນກມາດຕະຖານ ແລະຕົວແບບ regressor ຫຼາຍ. ແນວຄວາມຄິດທີ່ສໍາຄັນທີ່ຈະເຂົ້າໃຈແມ່ນວ່າຜູ້ຄາດຄະເນຕໍ່ມາຮຽນຮູ້ຈາກຄວາມຜິດພາດທີ່ເຮັດໂດຍຜູ້ທີ່ຜ່ານມາແລະຜູ້ຄາດຄະເນໄດ້ຖືກສ້າງຂື້ນຕາມລໍາດັບ.

ປະໂຫຍດຕົ້ນຕໍຂອງການເພີ່ມປະສິດທິພາບລະບົບ algorithms ແມ່ນວ່າພວກເຂົາໃຊ້ເວລາຫນ້ອຍເພື່ອຊອກຫາການຄາດຄະເນໃນປະຈຸບັນເມື່ອປຽບທຽບກັບຮູບແບບການຮຽນຮູ້ເຄື່ອງຈັກອື່ນໆ. ການດູແລຈໍາເປັນຕ້ອງໄດ້ຖືກນໍາໃຊ້ໃນເວລາທີ່ຈ້າງ algorithms ຊຸກຍູ້, ແນວໃດກໍ່ຕາມ, ຍ້ອນວ່າເຂົາເຈົ້າມັກຈະ overfitting.

Gradient Boosting

ດຽວນີ້ພວກເຮົາຈະເບິ່ງ ໜຶ່ງ ໃນສູດການຄິດໄລ່ການເພີ່ມປະສິດທິພາບທົ່ວໄປທີ່ສຸດ. Gradient Boosting Models (GBM) ເປັນທີ່ຮູ້ຈັກສໍາລັບຄວາມຖືກຕ້ອງສູງຂອງພວກເຂົາ, ແລະພວກມັນເພີ່ມຕົວແບບທົ່ວໄປທີ່ໃຊ້ໃນ AdaBoost.

ຄວາມແຕກຕ່າງຕົ້ນຕໍລະຫວ່າງ Gradient Boosting Model ແລະ AdaBoost ແມ່ນວ່າ GBMs ໃຊ້ວິທີການຄິດໄລ່ທີ່ແຕກຕ່າງກັນຂອງນັກຮຽນທີ່ກໍານົດຈຸດຂໍ້ມູນທີ່ບໍ່ຖືກຕ້ອງ. AdaBoost ຄິດໄລ່ບ່ອນທີ່ຕົວແບບບໍ່ປະຕິບັດໂດຍການກວດສອບຈຸດຂໍ້ມູນທີ່ມີນ້ໍາຫນັກຫຼາຍ. ໃນຂະນະດຽວກັນ, GBMs ໃຊ້ gradients ເພື່ອກໍານົດຄວາມຖືກຕ້ອງຂອງນັກຮຽນ, ນໍາໃຊ້ຫນ້າທີ່ສູນເສຍກັບຕົວແບບ. ຟັງຊັນການສູນເສຍແມ່ນວິທີການວັດແທກຄວາມຖືກຕ້ອງຂອງຄວາມເຫມາະສົມຂອງຕົວແບບໃນຊຸດຂໍ້ມູນ, ການຄິດໄລ່ຄວາມຜິດພາດແລະການເພີ່ມປະສິດທິພາບຂອງຕົວແບບເພື່ອຫຼຸດຜ່ອນຄວາມຜິດພາດນັ້ນ. GBMs ໃຫ້ຜູ້ໃຊ້ເພີ່ມປະສິດທິພາບຫນ້າທີ່ສູນເສຍທີ່ກໍານົດໂດຍອີງໃສ່ເປົ້າຫມາຍທີ່ຕ້ອງການ.

ປະຕິບັດຫນ້າທີ່ສູນເສຍທົ່ວໄປທີ່ສຸດ - Mean Squared Error (MSE) - ເປັນ​ຕົວ​ຢ່າງ​, ການສືບເຊື້ອສາຍ gradient ຖືກນໍາໃຊ້ເພື່ອປັບປຸງການຄາດເດົາໂດຍອີງໃສ່ອັດຕາການຮຽນຮູ້ທີ່ກໍານົດໄວ້ກ່ອນ, ຈຸດປະສົງເພື່ອຊອກຫາຄ່າທີ່ການສູນເສຍແມ່ນຫນ້ອຍ.

ເພື່ອເຮັດໃຫ້ມັນຊັດເຈນຂຶ້ນ:

ການຄາດຄະເນຮູບແບບໃຫມ່ = ຕົວແປຜົນຜະລິດ - ການຄາດຄະເນທີ່ບໍ່ສົມບູນແບບເກົ່າ.

ໃນຄວາມຮູ້ສຶກທາງສະຖິຕິຫຼາຍຂຶ້ນ, GBMs ມີຈຸດປະສົງເພື່ອຊອກຫາຮູບແບບທີ່ກ່ຽວຂ້ອງໃນສິ່ງເສດເຫຼືອຂອງຕົວແບບ, ປັບຕົວແບບໃຫ້ເຫມາະສົມກັບຮູບແບບແລະນໍາເອົາສິ່ງເສດເຫຼືອທີ່ເຫຼືອຢູ່ໃກ້ກັບສູນເທົ່າທີ່ເປັນໄປໄດ້. ຖ້າທ່ານປະຕິບັດການຖົດຖອຍຕາມການຄາດຄະເນຂອງຕົວແບບ, ສ່ວນທີ່ເຫຼືອຈະຖືກແຈກຢາຍປະມານ 0 (ເຫມາະທີ່ສົມບູນແບບ), ແລະ GBMs ກໍາລັງຊອກຫາຮູບແບບພາຍໃນສິ່ງເສດເຫຼືອແລະການປັບປຸງຮູບແບບປະມານຮູບແບບເຫຼົ່ານີ້.

ໃນຄໍາສັບຕ່າງໆອື່ນໆ, ການຄາດຄະເນໄດ້ຖືກປັບປຸງເພື່ອໃຫ້ຜົນລວມຂອງສິ່ງເສດເຫຼືອທັງຫມົດຢູ່ໃກ້ກັບ 0 ເທົ່າທີ່ເປັນໄປໄດ້, ຊຶ່ງຫມາຍຄວາມວ່າຄ່າທີ່ຄາດຄະເນຈະຢູ່ໃກ້ກັບມູນຄ່າຕົວຈິງ.

ໃຫ້ສັງເກດວ່າຄວາມຫລາກຫລາຍຂອງຫນ້າທີ່ສູນເສຍອື່ນໆ (ເຊັ່ນ: ການສູນເສຍ logarithmic) ສາມາດຖືກນໍາໃຊ້ໂດຍ GBM. MSE ຖືກເລືອກຂ້າງເທິງເພື່ອຈຸດປະສົງຂອງຄວາມງ່າຍດາຍ.

ການປ່ຽນແປງໃນແບບຈໍາລອງການຊຸກຍູ້ແບບເລື່ອນຊັ້ນ

ໂມເດວການຊຸກຍູ້ແບບເລື່ອນຊັ້ນແມ່ນລະບົບສູດການຄິດໄລ່ທີ່ມີຄວາມໂລບມາກທີ່ມັກທີ່ຈະໃສ່ຊຸດຂໍ້ມູນຫຼາຍເກີນໄປ. ນີ້ສາມາດໄດ້ຮັບການ guarded ກັບ ວິທີການທີ່ແຕກຕ່າງກັນຫຼາຍ ທີ່ສາມາດປັບປຸງປະສິດທິພາບຂອງ GBM ໄດ້.

GBMs ສາມາດຖືກຄວບຄຸມດ້ວຍສີ່ວິທີທີ່ແຕກຕ່າງກັນ: ການຫົດຕົວ, ການຈໍາກັດຕົ້ນໄມ້, ການເພີ່ມຄວາມເຂັ້ມຂົ້ນຂອງ Stochastic, ແລະການຮຽນຮູ້ທີ່ຖືກລົງໂທດ.

ຫົດຫູ່

ດັ່ງທີ່ໄດ້ກ່າວມາກ່ອນຫນ້ານີ້, ໃນການຄາດຄະເນ GBMs ແມ່ນລວມເຂົ້າກັນເປັນລໍາດັບ. ໃນ “ການຫົດຕົວ,” ການເພີ່ມຂອງຕົ້ນໄມ້ທຸກຕົ້ນຕໍ່ກັບຜົນລວມທັງໝົດແມ່ນໄດ້ຖືກປັບ. ນ້ ຳ ໜັກ ແມ່ນຖືກ ນຳ ໃຊ້ທີ່ເຮັດໃຫ້ອັດຕາການຮຽນຮູ້ຂອງ algorithm ຊ້າລົງ, ເຊິ່ງ ຈຳ ເປັນຕ້ອງເພີ່ມຕົ້ນໄມ້ຫຼາຍເຂົ້າໃນຕົວແບບ, ເຊິ່ງປົກກະຕິປັບປຸງຄວາມແຂງແຮງແລະການປະຕິບັດຂອງຕົວແບບ. ການຊື້ຂາຍປິດແມ່ນວ່າຕົວແບບໃຊ້ເວລາດົນກວ່າການຝຶກອົບຮົມ.

ຂໍ້ ຈຳ ກັດຂອງຕົ້ນໄມ້

ການຈຳກັດຕົ້ນໄມ້ດ້ວຍການປັບປ່ຽນຕ່າງໆ ເຊັ່ນ: ການເພີ່ມຄວາມເລິກຂອງຕົ້ນໄມ້ ຫຼືການເພີ່ມຈຳນວນຂອງຂໍ້ ຫຼືໃບໃນຕົ້ນໄມ້ນັ້ນ ສາມາດເຮັດໃຫ້ຕົວແບບບໍ່ພໍດີໄດ້ຍາກຂຶ້ນ. ການວາງຂໍ້ຈໍາກັດກ່ຽວກັບຈໍານວນຕໍາ່ສຸດທີ່ຂອງການສັງເກດການຕໍ່ການແບ່ງປັນມີຜົນກະທົບທີ່ຄ້າຍຄືກັນ. ອີກເທື່ອ ໜຶ່ງ, ການຊື້ຂາຍປິດແມ່ນວ່າມັນຈະໃຊ້ເວລາໃນການຝຶກອົບຮົມຕໍ່ໄປອີກແລ້ວ.

ການເກັບຕົວຢ່າງແບບສຸ່ມ

ນັກຮຽນແຕ່ລະຄົນສາມາດຖືກສ້າງຂື້ນໂດຍຜ່ານຂະບວນການ stochastic, ໂດຍອີງໃສ່ສະແຕມຍ່ອຍທີ່ເລືອກແບບສຸ່ມຂອງຊຸດຂໍ້ມູນການຝຶກອົບຮົມ. ນີ້ມີຜົນກະທົບຂອງການຫຼຸດຜ່ອນການພົວພັນລະຫວ່າງຕົ້ນໄມ້, ເຊິ່ງປ້ອງກັນການ overfitting. ຊຸດຂໍ້ມູນສາມາດຖືກສະແຕມໄວ້ກ່ອນທີ່ຈະສ້າງຕົ້ນໄມ້ຫຼືກ່ອນທີ່ຈະພິຈາລະນາການແບ່ງປັນຕົ້ນໄມ້.

ການຮຽນຮູ້ທີ່ຖືກລົງໂທດ

ນອກເຫນືອຈາກການຈໍາກັດຕົວແບບໂດຍຜ່ານການຈໍາກັດໂຄງສ້າງຂອງຕົ້ນໄມ້, ມັນເປັນໄປໄດ້ທີ່ຈະໃຊ້ຕົ້ນໄມ້ regression. ຕົ້ນໄມ້ Regression ມີມູນຄ່າຕົວເລກທີ່ຕິດກັບແຕ່ລະໃບ, ແລະເຫຼົ່ານີ້ເຮັດຫນ້າທີ່ເປັນນ້ໍາຫນັກແລະສາມາດປັບໄດ້ດ້ວຍຫນ້າທີ່ປົກກະຕິທົ່ວໄປເຊັ່ນ L1 ແລະ L2 normalization.

Blogger ແລະ programmer ທີ່ມີຄວາມຊ່ຽວຊານໃນ ການຮຽນຮູ້ເຄື່ອງ ແລະ Deep Learning ຫົວຂໍ້. Daniel ຫວັງ​ວ່າ​ຈະ​ຊ່ວຍ​ໃຫ້​ຄົນ​ອື່ນ​ນໍາ​ໃຊ້​ພະ​ລັງ​ງານ​ຂອງ AI ເພື່ອ​ຄວາມ​ດີ​ຂອງ​ສັງ​ຄົມ.