ກ້ານໃບ ການຄົ້ນຄວ້າຂອງ Google ກໍານົດເປັນ Bottleneck ໃນວິທີການ Hyperscale ກັບ AI - Unite.AI
ເຊື່ອມຕໍ່ກັບພວກເຮົາ

ປັນຍາປະດິດ

ການຄົ້ນຄວ້າຂອງ Google ກໍານົດຄໍຂວດໃນວິທີການ Hyperscale ກັບ AI

mm
ການປັບປຸງ on

ເອກະສານສະບັບໃຫມ່ຈາກການຄົ້ນຄວ້າຂອງ Google ຊີ້ໃຫ້ເຫັນວ່າແນວໂນ້ມໃນປະຈຸບັນຕໍ່ກັບການແກ້ໄຂຊຸດຂໍ້ມູນທີ່ມີປະລິມານຫຼາຍອາດຈະກົງກັນຂ້າມກັບການພັດທະນາລະບົບປັນຍາປະດິດທີ່ມີປະສິດທິພາບ. ໃນຄວາມເປັນຈິງ, ການຄົ້ນຄວ້າຊີ້ໃຫ້ເຫັນວ່າຜະລິດຕະພັນການຮຽນຮູ້ເຄື່ອງຈັກທີ່ດີກວ່າອາດຈະເກີດຂື້ນຈາກການໄດ້ຮັບການຝຶກອົບຮົມ ຫນ້ອຍ ຊຸດຂໍ້ມູນທີ່ຖືກຕ້ອງ (ເຊັ່ນ: 'ຮ້າຍແຮງ') ທາງດ້ານເຕັກນິກ.

ຖ້າຫຼັກການທີ່ໄດ້ຮັບໂດຍນັກຄົ້ນຄວ້າແມ່ນຖືກຕ້ອງ, ມັນຫມາຍຄວາມວ່າຊຸດຂໍ້ມູນ 'hyperscale' ເຊັ່ນ: ປ່ອຍອອກມາເມື່ອບໍ່ດົນມານີ້ LAION-400M (ເຊິ່ງມີ 400 ລ້ານຄູ່ຂໍ້ຄວາມ/ຮູບພາບ), ແລະຂໍ້ມູນທີ່ຢູ່ເບື້ອງຫຼັງເຄື່ອງຈັກພາສາ neural GPT-3 (ປະກອບດ້ວຍ 175 ຕື້ພາລາມິເຕີ), ອາດຈະຂຶ້ນກັບປະເພດຂອງ 'ຂີດຈໍາກັດຄວາມຮ້ອນ' ໃນສະຖາປັດຕະຍະກໍາການຮຽນຮູ້ເຄື່ອງຈັກແບບດັ້ງເດີມ ແລະເປັນທີ່ນິຍົມ. ແລະວິທີການ, ເຊິ່ງໂດຍປະລິມານຂອງຂໍ້ມູນ 'saturates' ຄໍາຮ້ອງສະຫມັກ downstream ແລະປ້ອງກັນບໍ່ໃຫ້ພວກເຂົາໂດຍທົ່ວໄປໃນວິທີການທີ່ເປັນປະໂຫຍດ.

ນັກຄົ້ນຄວ້າຍັງສະເຫນີວິທີການທາງເລືອກເພື່ອຄິດຄືນໃຫມ່ກ່ຽວກັບສະຖາປັດຕະຍະກໍາຊຸດຂໍ້ມູນ hyperscale, ເພື່ອແກ້ໄຂຄວາມບໍ່ສົມດຸນ.

ເອກະສານກ່າວວ່າ:

'Delving deeper ເພື່ອເຂົ້າໃຈເຫດຜົນທີ່ເຮັດໃຫ້ເກີດປະກົດການເຫຼົ່ານີ້, ພວກເຮົາສະແດງໃຫ້ເຫັນວ່າພຶດຕິກໍາການອີ່ມຕົວທີ່ພວກເຮົາສັງເກດເຫັນແມ່ນກ່ຽວຂ້ອງຢ່າງໃກ້ຊິດກັບວິທີການທີ່ເປັນຕົວແທນ evolve ຜ່ານຊັ້ນຂອງຕົວແບບ. ພວກເຮົາສະແດງສະຖານະການທີ່ຮຸນແຮງກວ່າທີ່ການປະຕິບັດຢູ່ທາງເທິງ ແລະ ລຸ່ມນໍ້າບໍ່ຂັດກັນ. ນັ້ນແມ່ນ, ເພື່ອໃຫ້ມີການປະຕິບັດທາງລຸ່ມທີ່ດີກວ່າ, ພວກເຮົາຈໍາເປັນຕ້ອງໄດ້ທໍາຮ້າຍຄວາມຖືກຕ້ອງຂອງນ້ໍາ.'

ໄດ້ ການສຶກສາ ແມ່ນຫົວຂໍ້ ການຂຸດຄົ້ນຂອບເຂດຈໍາກັດຂອງການຝຶກອົບຮົມທາງສ່ວນຫນ້າຂອງຂະຫນາດໃຫຍ່, ແລະມາຈາກສີ່ຜູ້ຂຽນຢູ່ Google Research.

ການສືບສວນ 'ການອີ່ມຕົວ'

ຜູ້ຂຽນທ້າທາຍການສົມມຸດຕິຖານທົ່ວໄປຂອງການຮຽນຮູ້ເຄື່ອງຈັກ> ການພົວພັນຂໍ້ມູນໃນຍຸກຂໍ້ມູນ hyperscale: ຮູບແບບການປັບຂະຫນາດແລະຂະຫນາດຂໍ້ມູນຢ່າງຫຼວງຫຼາຍປັບປຸງການປະຕິບັດ (ຄວາມເຊື່ອທີ່ປະສົມປະສານໃນ hype ໃນໄລຍະ GPT-3 ນັບຕັ້ງແຕ່ການເປີດຕົວ); ແລະວ່າການປະຕິບັດການປັບປຸງນີ້ 'ຜ່ານ' ໄປຫາວຽກງານລຸ່ມໃນແບບເສັ້ນ (ເຊັ່ນ: ຕ້ອງການ), ດັ່ງນັ້ນ algorithms ເທິງອຸປະກອນທີ່ເປີດຕົວອອກສູ່ຕະຫຼາດໃນທີ່ສຸດ, ໄດ້ມາຈາກຊຸດຂໍ້ມູນຂະຫນາດໃຫຍ່ທີ່ບໍ່ຊ້ໍາກັນແລະແບບຈໍາລອງທີ່ບໍ່ໄດ້ຮັບການຝຶກອົບຮົມ, ໄດ້ຮັບຜົນປະໂຫຍດຢ່າງສົມບູນຈາກ. ຄວາມເຂົ້າໃຈຂອງສະຖາປັດຕະຍະກໍາທີ່ມີຂະຫນາດເຕັມ.

'ທັດສະນະເຫຼົ່ານີ້,' ນັກຄົ້ນຄວ້າສັງເກດເຫັນ 'ແນະນໍາວ່າການໃຊ້ຄໍານວນແລະຄວາມພະຍາຍາມຄົ້ນຄ້ວາການປັບປຸງການປະຕິບັດໃນ corpus ຂະຫນາດໃຫຍ່ຫນຶ່ງຈະຈ່າຍໄປເພາະວ່າມັນຈະຊ່ວຍໃຫ້ພວກເຮົາສາມາດແກ້ໄຂວຽກງານລຸ່ມນ້ໍາຫຼາຍເກືອບຟຣີ.'

ແຕ່ເອກະສານດັ່ງກ່າວໄດ້ໂຕ້ແຍ້ງວ່າການຂາດແຄນຊັບພະຍາກອນຄອມພິວເຕີ້ແລະວິທີການ 'ເສດຖະກິດ' ຕໍ່ມາຂອງການປະເມີນຜົນແບບຈໍາລອງແມ່ນໄດ້ປະກອບສ່ວນໃຫ້ຄວາມປະທັບໃຈທີ່ບໍ່ຖືກຕ້ອງກ່ຽວກັບນະໂຍບາຍດ້ານການພົວພັນລະຫວ່າງປະລິມານຂໍ້ມູນແລະລະບົບ AI ທີ່ເປັນປະໂຫຍດ. ຜູ້ຂຽນກໍານົດນິໄສນີ້ເປັນ 'ຂໍ້ບົກຜ່ອງທີ່ສໍາຄັນ', ເນື່ອງຈາກວ່າຊຸມຊົນຄົ້ນຄ້ວາໂດຍປົກກະຕິສົມມຸດວ່າຜົນໄດ້ຮັບໃນທ້ອງຖິ່ນ (ໃນທາງບວກ) ຈະແປເປັນການປະຕິບັດຕໍ່ມາທີ່ເປັນປະໂຫຍດ:

'[ເນື່ອງ​ຈາກ​] ການ​ຈໍາ​ກັດ​ການ​ຄິດ​ໄລ່​, ການ​ປະ​ຕິ​ບັດ​ສໍາ​ລັບ​ການ​ເລືອກ​ທີ່​ແຕກ​ຕ່າງ​ກັນ​ຂອງ​ຄ່າ hyper-parameter ບໍ່​ໄດ້​ຖືກ​ລາຍ​ງານ​. ການປັບຂະ ໜາດ ດິນຕອນເບິ່ງຄືວ່າເອື້ອ ອຳ ນວຍຫຼາຍຖ້າ hyper-parameter ເລືອກ ສຳ ລັບແຕ່ລະຂະ ໜາດ ຖືກແກ້ໄຂຫຼື ກຳ ນົດໂດຍຟັງຊັນການປັບຂະ ໜາດ ງ່າຍໆ.'

ນັກຄົ້ນຄວ້າກ່າວຕື່ມອີກວ່າການສຶກສາການຂະຫຍາຍຫຼາຍແມ່ນວັດແທກບໍ່ໄດ້ຕໍ່ກັບການວັດແທກຢ່າງແທ້ຈິງ, ແຕ່ເປັນການປັບປຸງທີ່ເພີ່ມຂຶ້ນຕໍ່ກັບການວັດແທກທີ່ທັນສະໄຫມ (SotA), ການສັງເກດເຫັນວ່າ 'ບໍ່ມີເຫດຜົນ, ບູລິມະສິດ, ສໍາລັບການຂະຫນາດທີ່ຈະຖືຢູ່ນອກ. ຂອບເຂດການສຶກສາ'.

ການຝຶກອົບຮົມກ່ອນ

ເອກະສານດັ່ງກ່າວກ່າວເຖິງການປະຕິບັດຂອງ 'ການຝຶກອົບຮົມກ່ອນ', ມາດຕະການທີ່ຖືກອອກແບບມາເພື່ອຊ່ວຍປະຢັດຊັບພະຍາກອນຄອມພິວເຕີ້ແລະຕັດໄລຍະເວລາທີ່ຫນ້າຢ້ານເລື້ອຍໆທີ່ຈໍາເປັນເພື່ອຝຶກອົບຮົມແບບຈໍາລອງກ່ຽວກັບຂໍ້ມູນຂະຫນາດໃຫຍ່ຈາກສູນ. ພາບຖ່າຍກ່ອນການຝຶກອົບຮົມຈັດການ 'ABCs' ຂອງວິທີການທີ່ຂໍ້ມູນພາຍໃນຫນຶ່ງໂດເມນຈະກາຍເປັນໂດຍທົ່ວໄປໃນລະຫວ່າງການຝຶກອົບຮົມ, ແລະຖືກນໍາໃຊ້ທົ່ວໄປໃນຫຼາຍໆຂະແຫນງການຮຽນຮູ້ເຄື່ອງຈັກແລະຄວາມພິເສດ, ຈາກການປຸງແຕ່ງພາສາທໍາມະຊາດ (NLP) ຈົນເຖິງການປອມແປງເລິກ.

ການຄົ້ນຄວ້າທາງວິຊາການທີ່ຜ່ານມາມີ ພົບເຫັນ ການຝຶກອົບຮົມກ່ອນການຝຶກອົບຮົມໂດຍສະເພາະສາມາດປັບປຸງຄວາມຫມັ້ນຄົງຂອງຕົວແບບແລະຄວາມຖືກຕ້ອງ, ແຕ່ເອກະສານໃຫມ່ແນະນໍາວ່າຄວາມຊັບຊ້ອນຂອງລັກສະນະ, ເຖິງແມ່ນວ່າຢູ່ໃນແມ່ແບບການຝຶກອົບຮົມກ່ອນການຝຶກອົບຮົມທີ່ຂ້ອນຂ້າງສັ້ນ, ອາດຈະເປັນປະໂຫຍດຫຼາຍຖ້າບໍ່ເຖິງຂະບວນການຕໍ່ມາໃນທໍ່. .

ຢ່າງໃດກໍ່ຕາມ, ນີ້ບໍ່ສາມາດເກີດຂຶ້ນໄດ້ຖ້ານັກຄົ້ນຄວ້າສືບຕໍ່ອີງໃສ່ແບບຈໍາລອງທາງສ່ວນຫນ້າຂອງການຝຶກອົບຮົມທີ່ໃຊ້ການປະຕິບັດທີ່ດີທີ່ສຸດໃນປະຈຸບັນໃນການນໍາໃຊ້ອັດຕາການຮຽນຮູ້, ເຊິ່ງ, ການຄົ້ນຄວ້າສະຫຼຸບ, ໂດຍສະເພາະແມ່ນສາມາດສົ່ງຜົນກະທົບຕໍ່ຄວາມຖືກຕ້ອງຂອງຄໍາຮ້ອງສະຫມັກສຸດທ້າຍຂອງການເຮັດວຽກ. ໃນເລື່ອງນີ້, ຜູ້ຂຽນສັງເກດເຫັນວ່າ 'ຄົນເຮົາບໍ່ສາມາດຫວັງວ່າຈະຊອກຫາຈຸດກວດກາທີ່ຜ່ານການຝຶກອົບຮົມທີ່ປະຕິບັດໄດ້ດີໃນທຸກໆວຽກງານທີ່ເປັນໄປໄດ້'.

ການ​ຮຽນ

ເພື່ອສ້າງຜົນກະທົບການອີ່ມຕົວ, ຜູ້ຂຽນໄດ້ດໍາເນີນການທົດລອງ 4800 ກ່ຽວກັບ Vision Transformers, ResNets ແລະ MLP-Mixers, ແຕ່ລະຄົນມີຈໍານວນຕົວກໍານົດທີ່ແຕກຕ່າງກັນ, ຈາກ 10 ລ້ານຫາ 10 ຕື້, ທັງຫມົດໄດ້ຮັບການຝຶກອົບຮົມກ່ຽວກັບຊຸດຂໍ້ມູນທີ່ມີປະລິມານສູງສຸດທີ່ມີຢູ່ໃນຂະແຫນງການທີ່ກ່ຽວຂ້ອງ, ລວມທັງ ImageNet21K ແລະ Google ຂອງຕົນເອງ JFT-300M.

ຜົນໄດ້ຮັບ, ເອກະສານອ້າງ, ສະແດງໃຫ້ເຫັນວ່າ ຄວາມຫຼາກຫຼາຍຂອງຂໍ້ມູນ ຄວນພິຈາລະນາເປັນແກນເພີ່ມເຕີມໃນເວລາທີ່ພະຍາຍາມ 'ຂະຫຍາຍ' ຂໍ້ມູນ, ຕົວກໍານົດການແບບຈໍາລອງແລະເວລາການຄິດໄລ່. ດັ່ງທີ່ມັນຢືນຢູ່, ຄວາມເຂັ້ມຂຸ້ນຂອງຊັບພະຍາກອນການຝຶກອົບຮົມ (ແລະຄວາມສົນໃຈຂອງນັກຄົ້ນຄວ້າ) ໃນພາກຕົ້ນຂອງທໍ່ AI ກໍາລັງລະເບີດຄໍາຮ້ອງສະຫມັກລຸ່ມນ້ໍາຢ່າງມີປະສິດທິພາບດ້ວຍການລະເບີດຂອງຕົວກໍານົດການເຖິງຈຸດຂອງ 'ຄວາມອີ່ມຕົວ', ຫຼຸດລົງຄວາມສາມາດຂອງ algorithms ທີ່ໃຊ້ໃນການນໍາທາງ. ໂດຍຜ່ານລັກສະນະຕ່າງໆແລະດໍາເນີນການ inference ຫຼືການປ່ຽນແປງຜົນກະທົບ.

ເອກະສານສະຫຼຸບ:

'ຜ່ານການສຶກສາຢ່າງກວ້າງຂວາງ, ພວກເຮົາກໍານົດວ່າເມື່ອພວກເຮົາປັບປຸງການປະຕິບັດວຽກງານຂອງຕົ້ນນ້ໍາບໍ່ວ່າຈະໂດຍການຂະຫຍາຍຫຼື hyper-parameter ແລະທາງເລືອກສະຖາປັດຕະ, ການປະຕິບັດວຽກງານລຸ່ມນ້ໍາສະແດງໃຫ້ເຫັນເຖິງພຶດຕິກໍາທີ່ອີ່ມຕົວ. ນອກຈາກນັ້ນ, ພວກເຮົາໃຫ້ຫຼັກຖານທາງຫຼັກຖານທີ່ເຂັ້ມແຂງທີ່ກົງກັນຂ້າມກັບການເທື່ອເນື່ອງຈາກທົ່ວໄປ, ການປັບຂະຫນາດບໍ່ໄດ້ນໍາໄປສູ່ການແກ້ໄຂແບບຫນຶ່ງທີ່ເຫມາະທັງຫມົດ.'