ປັນຍາປະດິດ
ຄວາມກ້າວຫນ້າຂອງການຈັດລຽງ AI ກັບຄຸນຄ່າຂອງມະນຸດໂດຍຜ່ານການອົບອຸ່ນ
ການສອດຄ່ອງຂອງລະບົບ AI ກັບຄຸນຄ່າຂອງມະນຸດ
ລະບົບປັນຍາປະດິດ (AI) ກໍາລັງກາຍມາເປັນຄວາມສາມາດຊ່ວຍເຫຼືອມະນຸດໃນວຽກງານທີ່ຊັບຊ້ອນ, ຈາກ chatbots ການບໍລິການລູກຄ້າຈົນເຖິງສູດການວິນິດໄສທາງການແພດ. ຢ່າງໃດກໍ່ຕາມ, ເນື່ອງຈາກລະບົບ AI ເຫຼົ່ານີ້ມີຄວາມຮັບຜິດຊອບຫຼາຍຂຶ້ນ, ມັນເປັນສິ່ງສໍາຄັນທີ່ພວກມັນຍັງຄົງສອດຄ່ອງກັບຄຸນຄ່າແລະຄວາມມັກຂອງມະນຸດ. ວິທີການຫນຶ່ງເພື່ອບັນລຸເປົ້າຫມາຍນີ້ແມ່ນຜ່ານເຕັກນິກທີ່ເອີ້ນວ່າການຮຽນຮູ້ການເສີມສ້າງຈາກຄວາມຄິດເຫັນຂອງມະນຸດ (RLHF). ໃນ RLHF, ລະບົບ AI, ທີ່ຮູ້ຈັກໃນນາມນະໂຍບາຍ, ໄດ້ຮັບລາງວັນຫຼືການລົງໂທດໂດຍອີງໃສ່ການຕັດສິນຂອງມະນຸດກ່ຽວກັບພຶດຕິກໍາຂອງມັນ. ເປົ້າຫມາຍແມ່ນສໍາລັບນະໂຍບາຍທີ່ຈະຮຽນຮູ້ທີ່ຈະເພີ່ມລາງວັນຂອງຕົນ, ແລະດັ່ງນັ້ນຈິ່ງປະຕິບັດຕົວຕາມຄວາມມັກຂອງມະນຸດ.
ອົງປະກອບຫຼັກຂອງ RLHF ແມ່ນຮູບແບບລາງວັນ (RM). RM ມີຄວາມຮັບຜິດຊອບໃນການປະເມີນການປະຕິບັດນະໂຍບາຍແລະຜົນໄດ້ຮັບ, ແລະການສົ່ງຄືນສັນຍານລາງວັນເພື່ອນໍາພາຂະບວນການຮຽນຮູ້. ການອອກແບບ RM ທີ່ດີແມ່ນເປັນສິ່ງທ້າທາຍ, ຍ້ອນວ່າຄວາມມັກຂອງມະນຸດສາມາດສັບສົນ, ຂຶ້ນກັບສະພາບການ, ແລະແມ້ແຕ່ບໍ່ສອດຄ່ອງໃນບຸກຄົນ. ບໍ່ດົນມານີ້, ນັກຄົ້ນຄວ້າຈາກ Google DeepMind ໄດ້ສະເຫນີເຕັກນິກໃຫມ່ທີ່ເອີ້ນວ່າ Weight Averaged Reward Models (WARM) ເພື່ອປັບປຸງການອອກແບບ RM.
ບັນຫາກັບການ hack ລາງວັນ
ບັນຫາໃຫຍ່ໃນ RLHF ແມ່ນການ hack ລາງວັນ. ການແຮກຮາງວັນເກີດຂຶ້ນເມື່ອນະໂຍບາຍພົບເຫັນຊ່ອງຫວ່າງເພື່ອຫຼິ້ນເກມລະບົບ RM ເພື່ອໃຫ້ໄດ້ຮາງວັນທີ່ສູງໂດຍບໍ່ໄດ້ຕອບສະໜອງຕາມຈຸດປະສົງທີ່ຕັ້ງໄວ້. ຕົວຢ່າງ, ສົມມຸດວ່າເປົ້າຫມາຍແມ່ນການຝຶກອົບຮົມຜູ້ຊ່ວຍການຂຽນ AI ເພື່ອສ້າງບົດສະຫຼຸບທີ່ມີຄຸນນະພາບສູງ. RM ອາດຈະໃຫ້ລາງວັນສະຫຼຸບສັງລວມທີ່ຊັດເຈນແລະໃຫ້ຂໍ້ມູນ. ຫຼັງຈາກນັ້ນ, ນະໂຍບາຍດັ່ງກ່າວສາມາດຮຽນຮູ້ທີ່ຈະໃຊ້ປະໂຫຍດນີ້ໂດຍການສ້າງບົດສະຫຼຸບສັ້ນໆທີ່ບໍ່ມີຂໍ້ມູນ, ຫຍໍ້ມາຈາກຄໍາທີ່ຫຼອກລວງ RM.
ການ hack ລາງວັນເກີດຂຶ້ນສໍາລັບສອງເຫດຜົນຕົ້ນຕໍ:
- ການປ່ຽນແປງການແຈກຢາຍ – RM ໄດ້ຮັບການຝຶກອົບຮົມກ່ຽວກັບຊຸດຂໍ້ມູນຈໍາກັດຂອງຕົວຢ່າງທີ່ມີປ້າຍຊື່ຂອງມະນຸດ. ເມື່ອຖືກນຳໃຊ້, ຜົນໄດ້ຮັບຂອງນະໂຍບາຍອາດຈະມາຈາກການແຈກຢາຍທີ່ແຕກຕ່າງກັນທີ່ RM ບໍ່ໄດ້ເຮັດໂດຍທົ່ວໄປ.
- ປ້າຍຊື່ດັງ – ການຕິດສະຫຼາກຂອງມະນຸດແມ່ນບໍ່ສົມບູນແບບ, ມີຄວາມຂັດແຍ່ງລະຫວ່າງຜູ້ຈັດອັນດັບ. RM ອາດຈະຕິດໃສ່ສັນຍານທີ່ແປກປະຫຼາດແທນທີ່ຈະເປັນຕົວຊີ້ບອກຄຸນນະພາບທີ່ແຂງແຮງ.
ການ hack ລາງວັນເຮັດໃຫ້ລະບົບທີ່ບໍ່ມີປະໂຫຍດທີ່ບໍ່ກົງກັບຄວາມຄາດຫວັງຂອງມະນຸດ. ຮ້າຍແຮງໄປກວ່ານັ້ນ, ມັນສາມາດສົ່ງຜົນໃຫ້ພຶດຕິກໍາ AI ມີຄວາມລໍາອຽງຫຼືແມ້ກະທັ້ງອັນຕະລາຍຖ້າຖືກປະຕິບັດຢ່າງລະມັດລະວັງ.
ການເພີ່ມຂຶ້ນຂອງການລວມຕົວແບບ
ຄວາມສົນໃຈທີ່ເພີ່ມຂຶ້ນໃນຍຸດທະສາດການລວມຕົວແບບເຊັ່ນ Model Ratatouille ແມ່ນຍ້ອນການຮັບຮູ້ວ່າຕົວແບບທີ່ໃຫຍ່ກວ່າ, ໃນຂະນະທີ່ມີພະລັງ, ສາມາດບໍ່ມີປະສິດທິພາບແລະໃຊ້ບໍ່ໄດ້. ການຝຶກອົບຮົມຕົວແບບພາລາມິເຕີ 1 ພັນຕື້ຮຽກຮ້ອງໃຫ້ມີການຫ້າມຈໍານວນຂໍ້ມູນ, ຄອມພິວເຕີ້, ເວລາແລະຄ່າໃຊ້ຈ່າຍ. ສິ່ງທີ່ສຳຄັນກວ່ານັ້ນ, ແບບຈຳລອງດັ່ງກ່າວມີທ່າອ່ຽງຈະພໍດີກັບການແຈກຢາຍການຝຶກອົບຮົມ, ຂັດຂວາງຄວາມສາມາດຂອງພວກມັນໃນການສະແດງທົ່ວໄປຕໍ່ກັບສະຖານະການຕົວຈິງທີ່ຫຼາກຫຼາຍ.
ການລວມຕົວແບບໃຫ້ເສັ້ນທາງສຳຮອງເພື່ອປົດລັອກຄວາມສາມາດທີ່ໃຫຍ່ກວ່າໂດຍບໍ່ມີການຄວບຄຸມການຂະຫຍາຍຂະໜາດ. ໂດຍການນໍາໃຊ້ແບບຈໍາລອງພິເສດຫຼາຍຮູບແບບທີ່ໄດ້ຮັບການຝຶກອົບຮົມກ່ຽວກັບການແຈກຢາຍ, ວຽກງານຫຼືຈຸດປະສົງທີ່ແຕກຕ່າງກັນ, ການລວມຕົວແບບມີຈຸດປະສົງເພື່ອເພີ່ມຄວາມຄ່ອງຕົວແລະຄວາມແຂງແຮງຂອງການແຜ່ກະຈາຍ. ຫຼັກຖານແມ່ນວ່າຕົວແບບທີ່ແຕກຕ່າງກັນຈັບຮູບແບບການຄາດເດົາທີ່ແຕກຕ່າງທີ່ສາມາດເສີມເຊິ່ງກັນແລະກັນເມື່ອລວມເຂົ້າກັນ.
ຜົນໄດ້ຮັບທີ່ຜ່ານມາສະແດງໃຫ້ເຫັນເຖິງຄໍາສັນຍາຂອງແນວຄວາມຄິດນີ້. ຕົວແບບທີ່ໄດ້ຮັບໂດຍຜ່ານການລວມກັນ, ເຖິງວ່າຈະມີຕົວກໍານົດການຫນ້ອຍ, ສາມາດຈັບຄູ່ຫຼືເກີນການປະຕິບັດຂອງຕົວແບບຍັກໃຫຍ່ເຊັ່ນ GPT-3. ຕົວຢ່າງເຊັ່ນ, ກຸ່ມຕົວແບບ Ratatouille ຂອງພຽງແຕ່ 7 ຈຸດກວດກາຂະຫນາດກາງໄດ້ບັນລຸຄວາມຖືກຕ້ອງທີ່ທັນສະໄຫມກ່ຽວກັບຊຸດຂໍ້ມູນຂໍ້ຄວາມທີ່ມີຂະຫນາດສູງ, ປະສິດທິພາບດີກວ່າ GPT-3.
ຄວາມງ່າຍດາຍຂອງການລວມຕົວໂດຍສະເລ່ຍນ້ໍາຫນັກແມ່ນເປັນເງິນອັນໃຫຍ່ຫຼວງ. ການຝຶກອົບຮົມຕົວຊ່ວຍຫຼາຍຕົວຕ້ອງການຊັບພະຍາກອນພິເສດ. ແຕ່ສໍາຄັນ, ການຄິດໄລ່ເວລາ inference ຍັງຄົງຄືກັນກັບຕົວແບບດຽວ, ເພາະວ່ານ້ໍາຫນັກຖືກລວມເຂົ້າເປັນອັນດຽວ. ນີ້ເຮັດໃຫ້ວິທີການດັດແປງໄດ້ຢ່າງງ່າຍດາຍ, ໂດຍບໍ່ມີການກັງວົນກ່ຽວກັບການເພີ່ມຂຶ້ນຂອງ latency ຫຼືຄ່າໃຊ້ຈ່າຍໃນຫນ່ວຍຄວາມຈໍາ.
ກົນໄກທີ່ຢູ່ເບື້ອງຫຼັງການລວມຕົວແບບ
ແຕ່ສິ່ງທີ່ເຮັດໃຫ້ຄວາມຖືກຕ້ອງເຫຼົ່ານີ້ໄດ້ຮັບຜົນປະໂຫຍດຈາກການລວມຕົວແບບ? ການວິເຄາະທີ່ຜ່ານມາສະເຫນີຂໍ້ຄຶດບາງຢ່າງ:
- ຫຼຸດຜ່ອນຄວາມຊົງຈໍາ: ແຕ່ລະຕົວແບບຈະເຫັນຊຸດຂໍ້ມູນທີ່ແຕກຕ່າງກັນລະຫວ່າງການຝຶກຊ້ອມ. ໂດຍສະເລ່ຍເຮັດໃຫ້ການຈື່ຈຳສະເພາະຕົວຢ່າງໜ້ອຍລົງ, ຮັກສາພຽງແຕ່ການປັບແຕ່ງລະດັບຊຸດຂໍ້ມູນ.
- ການຫຼຸດຜ່ອນຄວາມແຕກຕ່າງກັນ: ແບບຈໍາລອງທີ່ໄດ້ຮັບການຝຶກອົບຮົມຢ່າງເປັນອິດສະຫຼະມີຄວາມຜິດພາດທີ່ບໍ່ກ່ຽວຂ້ອງກັນ. ການລວມເອົາພວກມັນອອກສະເລ່ຍສິ່ງລົບກວນ, ປັບປຸງການປັບທຽບ.
- Regularization ຜ່ານຄວາມຫຼາກຫຼາຍ: ວຽກງານຊ່ວຍເຫຼືອທີ່ຫຼາກຫຼາຍບັງຄັບໃຫ້ຕົວແບບເພື່ອຕິດໃສ່ລັກສະນະທົ່ວໄປທີ່ມີປະໂຫຍດຫຼາຍກວ່າການແຈກຢາຍ.
- ເພີ່ມຄວາມທົນທານ: ຄວາມບໍ່ສອດຄ່ອງໃນການຄາດຄະເນສັນຍານຄວາມບໍ່ແນ່ນອນ. ສະເລ່ຍປານກາງການຕັດສິນທີ່ເກີນກວ່າ, ເພີ່ມທະວີຄວາມຫນ້າເຊື່ອຖື.
ໂດຍເນື້ອແທ້ແລ້ວ, ຮູບແບບການລວມຕົວຕ້ານການດຸ່ນດ່ຽງຈຸດອ່ອນຂອງຕົວແບບສ່ວນບຸກຄົນເພື່ອຂະຫຍາຍຄວາມເຂັ້ມແຂງລວມຂອງພວກເຂົາ. ການເປັນຕົວແທນທີ່ລວມເຂົ້າກັນໄດ້ຈັບໂຄງສ້າງສາເຫດທົ່ວໄປ, ໂດຍບໍ່ສົນເລື່ອງການປ່ຽນແປງໂດຍບັງເອີນ.
ພື້ນຖານແນວຄວາມຄິດນີ້ເຊື່ອມຕໍ່ຕົວແບບລວມເຂົ້າກັບເຕັກນິກທີ່ນິຍົມອື່ນໆເຊັ່ນ: ການປະກອບ ແລະການຮຽນຮູ້ຫຼາຍໜ້າວຽກ. ວິທີການທັງ ໝົດ ນີ້ ນຳ ໃຊ້ຄວາມຫຼາກຫຼາຍໃນທົ່ວແບບ ຈຳ ລອງຫຼືວຽກຕ່າງໆເພື່ອໃຫ້ໄດ້ລະບົບທີ່ຫຼາກຫຼາຍ, ຮັບຮູ້ຄວາມບໍ່ແນ່ນອນ. ຄວາມງ່າຍດາຍແລະປະສິດທິພາບຂອງນ້ໍາຫນັກສະເລ່ຍ, ແນວໃດກໍ່ຕາມ, ເຮັດໃຫ້ຮູບແບບການຜະສົມຜະສານຂອບທີ່ເປັນເອກະລັກສໍາລັບຄວາມກ້າວຫນ້າໃນການປະຕິບັດຕົວຈິງ.
ນ້ໍາຫນັກຕົວແບບລາງວັນສະເລ່ຍ
ຄຳ ເຕືອນ ນະວັດຕະກໍາໃຊ້ຕົວແບບລາງວັນຕົວແທນ (RM), ເຊິ່ງເປັນຄ່າສະເລ່ຍຂອງນໍ້າໜັກຂອງ RMs ບຸກຄົນຫຼາຍອັນ, ແຕ່ລະອັນຖືກປັບຈາກ LLM ທີ່ໄດ້ຮັບການຝຶກອົບຮົມກ່ອນດຽວກັນແຕ່ມີ hyperparameters ແຕກຕ່າງກັນ. ວິທີການນີ້ເສີມຂະຫຍາຍປະສິດທິພາບ, ຄວາມຫນ້າເຊື່ອຖືພາຍໃຕ້ການປ່ຽນແປງການແຈກຢາຍ, ແລະຄວາມເຂັ້ມແຂງຕໍ່ກັບຄວາມມັກທີ່ບໍ່ສອດຄ່ອງກັນ. ການສຶກສາຍັງສະແດງໃຫ້ເຫັນວ່າການໃຊ້ WARM ເປັນ proxy RM, ໂດຍສະເພາະກັບຈໍານວນ RMs ສະເລ່ຍທີ່ເພີ່ມຂຶ້ນ, ປັບປຸງຜົນໄດ້ຮັບແລະຊັກຊ້າການເລີ່ມຕົ້ນຂອງ 'ການ hack ລາງວັນ', ປະກົດການທີ່ລາງວັນການຄວບຄຸມຫຼຸດລົງໃນໄລຍະເວລາ.
ນີ້ແມ່ນພາບລວມລະດັບສູງ:
- ເລີ່ມຕົ້ນດ້ວຍຕົວແບບພາສາພື້ນຖານທີ່ຝຶກຝົນໄວ້ໃນ corpus ຂະຫນາດໃຫຍ່. ເລີ່ມຕົ້ນຫຼາຍ RMs ໂດຍການເພີ່ມຊັ້ນຂໍ້ມູນສະເພາະໜ້າວຽກນ້ອຍໆຢູ່ເທິງສຸດ.
- ປັບລະອຽດແຕ່ລະ RM ແຍກຕ່າງຫາກໃນຊຸດຂໍ້ມູນຄວາມມັກຂອງມະນຸດ, ໂດຍໃຊ້ hyperparameters ທີ່ແຕກຕ່າງກັນເຊັ່ນ: ອັດຕາການຮຽນຮູ້ສໍາລັບຄວາມຫຼາກຫຼາຍ.
- ນໍ້າໜັກສະເລ່ຍຂອງ RMs ທີ່ຖືກປັບແຕ່ງເພື່ອໃຫ້ໄດ້ຊຸດອຸ່ນດຽວ.
ຄວາມເຂົ້າໃຈທີ່ສໍາຄັນແມ່ນວ່ານ້ໍາຫນັກສະເລ່ຍເກັບຮັກສາໄວ້ພຽງແຕ່ຂໍ້ມູນ invariant ທີ່ໄດ້ຮຽນຮູ້ໃນທົ່ວທຸກ RMs ຫຼາກຫຼາຍຊະນິດ. ນີ້ຫຼຸດຜ່ອນການເອື່ອຍອີງໃສ່ສັນຍານ spurious, ເສີມຂະຫຍາຍຄວາມເຂັ້ມແຂງ. ກຸ່ມຍັງໄດ້ຮັບຜົນປະໂຫຍດຈາກການຫຼຸດຜ່ອນຄວາມແຕກຕ່າງກັນ, ປັບປຸງຄວາມຫນ້າເຊື່ອຖືເຖິງວ່າຈະມີການປ່ຽນແປງການແຈກຢາຍ.
ດັ່ງທີ່ໄດ້ສົນທະນາຜ່ານມາ, ຄວາມຫຼາກຫຼາຍໃນທົ່ວຕົວແບບທີ່ໄດ້ຮັບການຝຶກອົບຮົມເປັນເອກະລາດແມ່ນສໍາຄັນສໍາລັບການປົດລັອກທ່າແຮງອັນເຕັມທີ່ຂອງການລວມຕົວແບບ. ແຕ່ມີເຕັກນິກອັນໃດແດ່ເພື່ອສົ່ງເສີມຄວາມຫຼາກຫຼາຍທາງດ້ານການຜະລິດ?
ເຈ້ຍ WARM ສຳຫຼວດແນວຄວາມຄິດທີ່ສະຫຼາດຈຳນວນໜຶ່ງທີ່ສາມາດສະຫຼຸບໄດ້ຢ່າງກວ້າງຂວາງກວ່າ:
ການສັ່ງຊື້ Shuffles
ວິທີການເລັກນ້ອຍແຕ່ມີຜົນກະທົບແມ່ນ shuffling ຄໍາສັ່ງທີ່ຈຸດຂໍ້ມູນແມ່ນເຫັນໄດ້ໂດຍແຕ່ລະຕົວແບບໃນລະຫວ່າງການຝຶກອົບຮົມ. ເຖິງແມ່ນວ່າຂັ້ນຕອນທີ່ງ່າຍດາຍນີ້ de-correlates ນ້ໍາຫນັກ, ຫຼຸດຜ່ອນການຈໍາຊ້ໍາຊ້ອນຂອງຮູບແບບ.
ການປ່ຽນແປງ hyperparameter
Tweaking hyperparameters ເຊັ່ນ: ອັດຕາການຮຽນຮູ້ແລະຄວາມເປັນໄປໄດ້ຂອງ dropout ສໍາລັບແຕ່ລະໄລຍະແນະນໍາຄວາມຫຼາກຫຼາຍທີ່ເປັນປະໂຫຍດ. ໂມເດວ converge ແຕກຕ່າງກັນ, ເກັບກໍາຄຸນສົມບັດທີ່ແຕກຕ່າງຂອງຊຸດຂໍ້ມູນ.
ຈຸດກວດກາສະເລ່ຍ - Baklava
ວິທີການ Baklava ເລີ່ມຕົ້ນແບບຈໍາລອງສໍາລັບການລວມຕົວຈາກຮູບຖ່າຍທີ່ແຕກຕ່າງກັນຕາມ trajectory pretraining ດຽວກັນ. ນີ້ຜ່ອນຄາຍຂໍ້ຈໍາກັດເມື່ອທຽບກັບແກງແບບຈໍາລອງທີ່ກໍານົດຈຸດເລີ່ມຕົ້ນຮ່ວມກັນ. ກ່ຽວຂ້ອງກັບຕົວແບບ ratatouille, Baklava ຫຼີກເວັ້ນວຽກງານເພີ່ມເຕີມ. ໂດຍລວມແລ້ວ, ມັນໂຈມຕີຄວາມສົມດຸນຄວາມຖືກຕ້ອງ-ຄວາມຫຼາກຫຼາຍທີ່ມີປະສິດທິພາບ.
ການວິເຄາະຢືນຢັນວ່າການເພີ່ມດ່ານເກົ່າໂດຍການເຄື່ອນຍ້າຍໂດຍສະເລ່ຍເປັນອັນຕະລາຍຕໍ່ການປະຕິບັດຂອງບຸກຄົນ, ທໍາລາຍຄຸນປະໂຫຍດຂອງຄວາມຫຼາກຫຼາຍ. ໂດຍສະເລ່ຍພຽງແຕ່ການເປັນຕົວແທນສຸດທ້າຍຈາກແຕ່ລະໄລຍະປະຕິບັດໄດ້ດີກວ່າ. ໂດຍທົ່ວໄປ, ການດຸ່ນດ່ຽງເປົ້າຫມາຍຄວາມຫຼາກຫຼາຍດ້ວຍການບໍາລຸງຮັກສາຄວາມຖືກຕ້ອງຍັງຄົງເປັນສິ່ງທ້າທາຍການຄົ້ນຄວ້າທີ່ເປີດກວ້າງ.
ໂດຍລວມແລ້ວ, ການລວມຕົວແບບແມ່ນສອດຄ່ອງກັບຈັນຍາບັນທົ່ວໄປໃນພາກສະຫນາມເພື່ອນໍາມາໃຊ້ຄືນຊັບພະຍາກອນທີ່ມີຢູ່ຢ່າງມີປະສິດທິພາບເພື່ອຄວາມຫນ້າເຊື່ອຖື, ປະສິດທິພາບແລະຄວາມຫລາກຫລາຍ. ຄວາມງ່າຍດາຍຂອງນ້ໍາຫນັກສະເລ່ຍເຮັດໃຫ້ຕໍາແຫນ່ງຂອງຕົນເປັນຜູ້ສະຫມັກຊັ້ນນໍາສໍາລັບການປະກອບຕົວແບບທີ່ເຂັ້ມແຂງຈາກການກໍ່ສ້າງທີ່ພ້ອມທີ່ຈະເຮັດ.
ບໍ່ເຫມືອນກັບວິທີການປະກອບແບບດັ້ງເດີມທີ່ຄາດຄະເນໂດຍສະເລ່ຍ, WARM ຮັກສາຄ່າໃຊ້ຈ່າຍເທິງຄອມພິວເຕີ້ຫນ້ອຍລົງໂດຍການຮັກສານ້ໍາຫນັກພຽງແຕ່ຊຸດດຽວ. ການທົດລອງກ່ຽວກັບວຽກງານສະຫຼຸບຂໍ້ຄວາມສະແດງໃຫ້ເຫັນປະສິດທິຜົນຂອງ WARM:
- ສໍາລັບການເກັບຕົວຢ່າງທີ່ດີທີ່ສຸດຂອງ N, WARM ໄດ້ຮັບອັດຕາການຊະນະ 92.5% ຕໍ່ການຄັດເລືອກແບບສຸ່ມອີງຕາມປ້າຍຄວາມມັກຂອງມະນຸດ.
- ໃນ RLHF, ນະໂຍບາຍ WARM ບັນລຸອັດຕາໄຊຊະນະ 79.4% ຕໍ່ກັບນະໂຍບາຍທີ່ໄດ້ຮັບການຝຶກອົບຮົມດ້ວຍ RM ດຽວຫຼັງຈາກຈໍານວນຂັ້ນຕອນດຽວກັນ.
- WARM ຍັງສືບຕໍ່ປະຕິບັດໄດ້ດີເຖິງແມ່ນວ່າໃນເວລາທີ່ຫນຶ່ງສ່ວນສີ່ຂອງປ້າຍຂອງມະນຸດເສຍຫາຍ.
ຜົນໄດ້ຮັບເຫຼົ່ານີ້ສະແດງໃຫ້ເຫັນເຖິງທ່າແຮງຂອງ WARM ເປັນເຕັກນິກການປະຕິບັດສໍາລັບການພັດທະນາຕົວຊ່ວຍ AI ໃນໂລກທີ່ແທ້ຈິງທີ່ມີພຶດຕິກໍາທີ່ຫນ້າເຊື່ອຖື. ໂດຍການເຮັດໃຫ້ຄວາມບໍ່ສອດຄ່ອງຂອງຄໍາຕິຊົມຂອງມະນຸດ, ນະໂຍບາຍການອົບອຸ່ນສາມາດຍັງຄົງສອດຄ່ອງກັບຄຸນຄ່າຂອງມະນຸດຢ່າງແຂງແຮງເຖິງແມ່ນວ່າພວກເຂົາສືບຕໍ່ຮຽນຮູ້ຈາກປະສົບການໃຫມ່.
ຮູບໃຫຍ່ກວ່າເກົ່າ
WARM ນັ່ງຢູ່ຈຸດຕັດກັນຂອງສອງແນວໂນ້ມທີ່ສໍາຄັນໃນການຄົ້ນຄວ້າການຈັດຕໍາແຫນ່ງ AI. ທໍາອິດແມ່ນການສຶກສາການແຜ່ກະຈາຍນອກລະບົບ (OOD) ໂດຍທົ່ວໄປ, ເຊິ່ງມີຈຸດປະສົງເພື່ອເພີ່ມປະສິດທິພາບຂອງຕົວແບບກ່ຽວກັບຂໍ້ມູນໃຫມ່ທີ່ແຕກຕ່າງຈາກການແຈກຢາຍການຝຶກອົບຮົມ. ອັນທີສອງແມ່ນການຄົ້ນຄວ້າກ່ຽວກັບຄວາມເຂັ້ມຂຸ້ນຂອງລະບົບ algorithmic, ສຸມໃສ່ຄວາມຫນ້າເຊື່ອຖືເຖິງວ່າຈະມີການລົບກວນຫຼືສຽງຫນ້ອຍ.
ໂດຍການແຕ້ມການເຊື່ອມຕໍ່ລະຫວ່າງສາຂາເຫຼົ່ານີ້ກ່ຽວກັບແນວຄວາມຄິດຂອງຄວາມບໍ່ປ່ຽນແປງຂອງການຮຽນຮູ້, WARM ຍ້າຍພວກເຮົາໄປສູ່ເຕັກນິກທີ່ມີພື້ນຖານທີ່ເຂັ້ມງວດກວ່າສໍາລັບການສອດຄ່ອງມູນຄ່າ. ຄວາມເຂົ້າໃຈຈາກ WARM ສາມາດໂດຍທົ່ວໄປເຖິງແມ່ນວ່າເກີນ RLHF, ສະຫນອງບົດຮຽນສໍາລັບລະບົບການຮຽນຮູ້ເຄື່ອງຈັກທີ່ກວ້າງກວ່າທີ່ພົວພັນກັບໂລກເປີດ.
ແນ່ນອນ, ການສ້າງແບບຈໍາລອງລາງວັນແມ່ນພຽງແຕ່ຫນຶ່ງໃນການປິດການຈັດຕໍາແຫນ່ງ. ພວກເຮົາຍັງຕ້ອງການຄວາມຄືບໜ້າກ່ຽວກັບສິ່ງທ້າທາຍອື່ນໆ ເຊັ່ນ: ການກຳນົດລາງວັນ, ການກວດກາທີ່ສາມາດຂະຫຍາຍໄດ້, ແລະການສຳຫຼວດທີ່ປອດໄພ. ສົມທົບກັບເຕັກນິກການເສີມ, WARM ສາມາດເລັ່ງການພັດທະນາ AI ທີ່ສົ່ງເສີມຄວາມຈະເລີນຮຸ່ງເຮືອງຂອງມະນຸດຢ່າງຍືນຍົງ. ໂດຍການລວມຕົວຊີ້ແຈງຫຼັກການພື້ນຖານທີ່ສອດຄ່ອງກັບການສອດຄ່ອງທີ່ເຂັ້ມແຂງ, ນັກຄົ້ນຄວ້າກໍາລັງວາງແຜນເສັ້ນທາງໄປສູ່ AI ທີ່ເປັນປະໂຫຍດ, ມີຈັນຍາບັນ.