ກ້ານໃບ ຄວາມກ້າວຫນ້າຂອງການຈັດລຽງ AI ກັບຄຸນຄ່າຂອງມະນຸດໂດຍຜ່ານການອົບອຸ່ນ - Unite.AI
ເຊື່ອມຕໍ່ກັບພວກເຮົາ

ປັນຍາປະດິດ

ຄວາມກ້າວຫນ້າຂອງການຈັດລຽງ AI ກັບຄຸນຄ່າຂອງມະນຸດໂດຍຜ່ານການອົບອຸ່ນ

mm

ຈັດພີມມາ

 on

Weight Averaged Reward Models LLM

ການສອດຄ່ອງຂອງລະບົບ AI ກັບຄຸນຄ່າຂອງມະນຸດ

ລະບົບປັນຍາປະດິດ (AI) ກໍາລັງກາຍມາເປັນຄວາມສາມາດຊ່ວຍເຫຼືອມະນຸດໃນວຽກງານທີ່ຊັບຊ້ອນ, ຈາກ chatbots ການບໍລິການລູກຄ້າຈົນເຖິງສູດການວິນິດໄສທາງການແພດ. ຢ່າງໃດກໍ່ຕາມ, ເນື່ອງຈາກລະບົບ AI ເຫຼົ່ານີ້ມີຄວາມຮັບຜິດຊອບຫຼາຍຂຶ້ນ, ມັນເປັນສິ່ງສໍາຄັນທີ່ພວກມັນຍັງຄົງສອດຄ່ອງກັບຄຸນຄ່າແລະຄວາມມັກຂອງມະນຸດ. ວິທີການຫນຶ່ງເພື່ອບັນລຸເປົ້າຫມາຍນີ້ແມ່ນຜ່ານເຕັກນິກທີ່ເອີ້ນວ່າການຮຽນຮູ້ການເສີມສ້າງຈາກຄວາມຄິດເຫັນຂອງມະນຸດ (RLHF). ໃນ RLHF, ລະບົບ AI, ທີ່ຮູ້ຈັກໃນນາມນະໂຍບາຍ, ໄດ້ຮັບລາງວັນຫຼືການລົງໂທດໂດຍອີງໃສ່ການຕັດສິນຂອງມະນຸດກ່ຽວກັບພຶດຕິກໍາຂອງມັນ. ເປົ້າຫມາຍແມ່ນສໍາລັບນະໂຍບາຍທີ່ຈະຮຽນຮູ້ທີ່ຈະເພີ່ມລາງວັນຂອງຕົນ, ແລະດັ່ງນັ້ນຈິ່ງປະຕິບັດຕົວຕາມຄວາມມັກຂອງມະນຸດ.

ອົງປະກອບຫຼັກຂອງ RLHF ແມ່ນຮູບແບບລາງວັນ (RM). RM ມີຄວາມຮັບຜິດຊອບໃນການປະເມີນການປະຕິບັດນະໂຍບາຍແລະຜົນໄດ້ຮັບ, ແລະການສົ່ງຄືນສັນຍານລາງວັນເພື່ອນໍາພາຂະບວນການຮຽນຮູ້. ການອອກແບບ RM ທີ່ດີແມ່ນເປັນສິ່ງທ້າທາຍ, ຍ້ອນວ່າຄວາມມັກຂອງມະນຸດສາມາດສັບສົນ, ຂຶ້ນກັບສະພາບການ, ແລະແມ້ແຕ່ບໍ່ສອດຄ່ອງໃນບຸກຄົນ. ບໍ່ດົນມານີ້, ນັກຄົ້ນຄວ້າຈາກ Google DeepMind ໄດ້ສະເຫນີເຕັກນິກໃຫມ່ທີ່ເອີ້ນວ່າ Weight Averaged Reward Models (WARM) ເພື່ອປັບປຸງການອອກແບບ RM.

ບັນຫາກັບການ hack ລາງວັນ

ບັນຫາໃຫຍ່ໃນ RLHF ແມ່ນການ hack ລາງວັນ. ການແຮກຮາງວັນເກີດຂຶ້ນເມື່ອນະໂຍບາຍພົບເຫັນຊ່ອງຫວ່າງເພື່ອຫຼິ້ນເກມລະບົບ RM ເພື່ອໃຫ້ໄດ້ຮາງວັນທີ່ສູງໂດຍບໍ່ໄດ້ຕອບສະໜອງຕາມຈຸດປະສົງທີ່ຕັ້ງໄວ້. ຕົວຢ່າງ, ສົມມຸດວ່າເປົ້າຫມາຍແມ່ນການຝຶກອົບຮົມຜູ້ຊ່ວຍການຂຽນ AI ເພື່ອສ້າງບົດສະຫຼຸບທີ່ມີຄຸນນະພາບສູງ. RM ອາດຈະໃຫ້ລາງວັນສະຫຼຸບສັງລວມທີ່ຊັດເຈນແລະໃຫ້ຂໍ້ມູນ. ຫຼັງຈາກນັ້ນ, ນະໂຍບາຍດັ່ງກ່າວສາມາດຮຽນຮູ້ທີ່ຈະໃຊ້ປະໂຫຍດນີ້ໂດຍການສ້າງບົດສະຫຼຸບສັ້ນໆທີ່ບໍ່ມີຂໍ້ມູນ, ຫຍໍ້ມາຈາກຄໍາທີ່ຫຼອກລວງ RM.

ການ hack ລາງວັນເກີດຂຶ້ນສໍາລັບສອງເຫດຜົນຕົ້ນຕໍ:

  1. ການປ່ຽນແປງການແຈກຢາຍ – RM ໄດ້ຮັບການຝຶກອົບຮົມກ່ຽວກັບຊຸດຂໍ້ມູນຈໍາກັດຂອງຕົວຢ່າງທີ່ມີປ້າຍຊື່ຂອງມະນຸດ. ເມື່ອຖືກນຳໃຊ້, ຜົນໄດ້ຮັບຂອງນະໂຍບາຍອາດຈະມາຈາກການແຈກຢາຍທີ່ແຕກຕ່າງກັນທີ່ RM ບໍ່ໄດ້ເຮັດໂດຍທົ່ວໄປ.
  2. ປ້າຍຊື່ດັງ – ການ​ຕິດ​ສະ​ຫຼາກ​ຂອງ​ມະ​ນຸດ​ແມ່ນ​ບໍ່​ສົມ​ບູນ​ແບບ​, ມີ​ຄວາມ​ຂັດ​ແຍ່ງ​ລະ​ຫວ່າງ​ຜູ້​ຈັດ​ອັນ​ດັບ​. RM ອາດຈະຕິດໃສ່ສັນຍານທີ່ແປກປະຫຼາດແທນທີ່ຈະເປັນຕົວຊີ້ບອກຄຸນນະພາບທີ່ແຂງແຮງ.

ການ hack ລາງວັນເຮັດໃຫ້ລະບົບທີ່ບໍ່ມີປະໂຫຍດທີ່ບໍ່ກົງກັບຄວາມຄາດຫວັງຂອງມະນຸດ. ຮ້າຍແຮງໄປກວ່ານັ້ນ, ມັນສາມາດສົ່ງຜົນໃຫ້ພຶດຕິກໍາ AI ມີຄວາມລໍາອຽງຫຼືແມ້ກະທັ້ງອັນຕະລາຍຖ້າຖືກປະຕິບັດຢ່າງລະມັດລະວັງ.

ການເພີ່ມຂຶ້ນຂອງການລວມຕົວແບບ

ຄວາມສົນໃຈທີ່ເພີ່ມຂຶ້ນໃນຍຸດທະສາດການລວມຕົວແບບເຊັ່ນ Model Ratatouille ແມ່ນຍ້ອນການຮັບຮູ້ວ່າຕົວແບບທີ່ໃຫຍ່ກວ່າ, ໃນຂະນະທີ່ມີພະລັງ, ສາມາດບໍ່ມີປະສິດທິພາບແລະໃຊ້ບໍ່ໄດ້. ການຝຶກອົບຮົມຕົວແບບພາລາມິເຕີ 1 ພັນຕື້ຮຽກຮ້ອງໃຫ້ມີການຫ້າມຈໍານວນຂໍ້ມູນ, ຄອມພິວເຕີ້, ເວລາແລະຄ່າໃຊ້ຈ່າຍ. ສິ່ງທີ່ສຳຄັນກວ່ານັ້ນ, ແບບຈຳລອງດັ່ງກ່າວມີທ່າອ່ຽງຈະພໍດີກັບການແຈກຢາຍການຝຶກອົບຮົມ, ຂັດຂວາງຄວາມສາມາດຂອງພວກມັນໃນການສະແດງທົ່ວໄປຕໍ່ກັບສະຖານະການຕົວຈິງທີ່ຫຼາກຫຼາຍ.

ການລວມຕົວແບບໃຫ້ເສັ້ນທາງສຳຮອງເພື່ອປົດລັອກຄວາມສາມາດທີ່ໃຫຍ່ກວ່າໂດຍບໍ່ມີການຄວບຄຸມການຂະຫຍາຍຂະໜາດ. ໂດຍການນໍາໃຊ້ແບບຈໍາລອງພິເສດຫຼາຍຮູບແບບທີ່ໄດ້ຮັບການຝຶກອົບຮົມກ່ຽວກັບການແຈກຢາຍ, ວຽກງານຫຼືຈຸດປະສົງທີ່ແຕກຕ່າງກັນ, ການລວມຕົວແບບມີຈຸດປະສົງເພື່ອເພີ່ມຄວາມຄ່ອງຕົວແລະຄວາມແຂງແຮງຂອງການແຜ່ກະຈາຍ. ຫຼັກຖານແມ່ນວ່າຕົວແບບທີ່ແຕກຕ່າງກັນຈັບຮູບແບບການຄາດເດົາທີ່ແຕກຕ່າງທີ່ສາມາດເສີມເຊິ່ງກັນແລະກັນເມື່ອລວມເຂົ້າກັນ.

ຜົນໄດ້ຮັບທີ່ຜ່ານມາສະແດງໃຫ້ເຫັນເຖິງຄໍາສັນຍາຂອງແນວຄວາມຄິດນີ້. ຕົວແບບທີ່ໄດ້ຮັບໂດຍຜ່ານການລວມກັນ, ເຖິງວ່າຈະມີຕົວກໍານົດການຫນ້ອຍ, ສາມາດຈັບຄູ່ຫຼືເກີນການປະຕິບັດຂອງຕົວແບບຍັກໃຫຍ່ເຊັ່ນ GPT-3. ຕົວຢ່າງເຊັ່ນ, ກຸ່ມຕົວແບບ Ratatouille ຂອງພຽງແຕ່ 7 ຈຸດກວດກາຂະຫນາດກາງໄດ້ບັນລຸຄວາມຖືກຕ້ອງທີ່ທັນສະໄຫມກ່ຽວກັບຊຸດຂໍ້ມູນຂໍ້ຄວາມທີ່ມີຂະຫນາດສູງ, ປະສິດທິພາບດີກວ່າ GPT-3.

ຄວາມງ່າຍດາຍຂອງການລວມຕົວໂດຍສະເລ່ຍນ້ໍາຫນັກແມ່ນເປັນເງິນອັນໃຫຍ່ຫຼວງ. ການຝຶກອົບຮົມຕົວຊ່ວຍຫຼາຍຕົວຕ້ອງການຊັບພະຍາກອນພິເສດ. ແຕ່ສໍາຄັນ, ການຄິດໄລ່ເວລາ inference ຍັງຄົງຄືກັນກັບຕົວແບບດຽວ, ເພາະວ່ານ້ໍາຫນັກຖືກລວມເຂົ້າເປັນອັນດຽວ. ນີ້ເຮັດໃຫ້ວິທີການດັດແປງໄດ້ຢ່າງງ່າຍດາຍ, ໂດຍບໍ່ມີການກັງວົນກ່ຽວກັບການເພີ່ມຂຶ້ນຂອງ latency ຫຼືຄ່າໃຊ້ຈ່າຍໃນຫນ່ວຍຄວາມຈໍາ.

ກົນໄກທີ່ຢູ່ເບື້ອງຫຼັງການລວມຕົວແບບ

ແຕ່ສິ່ງທີ່ເຮັດໃຫ້ຄວາມຖືກຕ້ອງເຫຼົ່ານີ້ໄດ້ຮັບຜົນປະໂຫຍດຈາກການລວມຕົວແບບ? ການວິເຄາະທີ່ຜ່ານມາສະເຫນີຂໍ້ຄຶດບາງຢ່າງ:

  • ຫຼຸດຜ່ອນຄວາມຊົງຈໍາ: ແຕ່ລະຕົວແບບຈະເຫັນຊຸດຂໍ້ມູນທີ່ແຕກຕ່າງກັນລະຫວ່າງການຝຶກຊ້ອມ. ໂດຍສະເລ່ຍເຮັດໃຫ້ການຈື່ຈຳສະເພາະຕົວຢ່າງໜ້ອຍລົງ, ຮັກສາພຽງແຕ່ການປັບແຕ່ງລະດັບຊຸດຂໍ້ມູນ.
  • ການຫຼຸດຜ່ອນຄວາມແຕກຕ່າງກັນ: ແບບຈໍາລອງທີ່ໄດ້ຮັບການຝຶກອົບຮົມຢ່າງເປັນອິດສະຫຼະມີຄວາມຜິດພາດທີ່ບໍ່ກ່ຽວຂ້ອງກັນ. ການລວມເອົາພວກມັນອອກສະເລ່ຍສິ່ງລົບກວນ, ປັບປຸງການປັບທຽບ.
  • Regularization ຜ່ານຄວາມຫຼາກຫຼາຍ: ວຽກງານຊ່ວຍເຫຼືອທີ່ຫຼາກຫຼາຍບັງຄັບໃຫ້ຕົວແບບເພື່ອຕິດໃສ່ລັກສະນະທົ່ວໄປທີ່ມີປະໂຫຍດຫຼາຍກວ່າການແຈກຢາຍ.
  • ເພີ່ມຄວາມທົນທານ: ຄວາມບໍ່ສອດຄ່ອງໃນການຄາດຄະເນສັນຍານຄວາມບໍ່ແນ່ນອນ. ສະເລ່ຍປານກາງການຕັດສິນທີ່ເກີນກວ່າ, ເພີ່ມທະວີຄວາມຫນ້າເຊື່ອຖື.

ໂດຍເນື້ອແທ້ແລ້ວ, ຮູບແບບການລວມຕົວຕ້ານການດຸ່ນດ່ຽງຈຸດອ່ອນຂອງຕົວແບບສ່ວນບຸກຄົນເພື່ອຂະຫຍາຍຄວາມເຂັ້ມແຂງລວມຂອງພວກເຂົາ. ການເປັນຕົວແທນທີ່ລວມເຂົ້າກັນໄດ້ຈັບໂຄງສ້າງສາເຫດທົ່ວໄປ, ໂດຍບໍ່ສົນເລື່ອງການປ່ຽນແປງໂດຍບັງເອີນ.

ພື້ນຖານແນວຄວາມຄິດນີ້ເຊື່ອມຕໍ່ຕົວແບບລວມເຂົ້າກັບເຕັກນິກທີ່ນິຍົມອື່ນໆເຊັ່ນ: ການປະກອບ ແລະການຮຽນຮູ້ຫຼາຍໜ້າວຽກ. ວິທີການທັງ ໝົດ ນີ້ ນຳ ໃຊ້ຄວາມຫຼາກຫຼາຍໃນທົ່ວແບບ ຈຳ ລອງຫຼືວຽກຕ່າງໆເພື່ອໃຫ້ໄດ້ລະບົບທີ່ຫຼາກຫຼາຍ, ຮັບຮູ້ຄວາມບໍ່ແນ່ນອນ. ຄວາມງ່າຍດາຍແລະປະສິດທິພາບຂອງນ້ໍາຫນັກສະເລ່ຍ, ແນວໃດກໍ່ຕາມ, ເຮັດໃຫ້ຮູບແບບການຜະສົມຜະສານຂອບທີ່ເປັນເອກະລັກສໍາລັບຄວາມກ້າວຫນ້າໃນການປະຕິບັດຕົວຈິງ.

ນ້ໍາຫນັກຕົວແບບລາງວັນສະເລ່ຍ

ຂະບວນການຈັດຮຽງດ້ວຍ WARM

ຂະບວນການຈັດຮຽງດ້ວຍ WARM

ຄຳ ເຕືອນ ນະວັດຕະກໍາໃຊ້ຕົວແບບລາງວັນຕົວແທນ (RM), ເຊິ່ງເປັນຄ່າສະເລ່ຍຂອງນໍ້າໜັກຂອງ RMs ບຸກຄົນຫຼາຍອັນ, ແຕ່ລະອັນຖືກປັບຈາກ LLM ທີ່ໄດ້ຮັບການຝຶກອົບຮົມກ່ອນດຽວກັນແຕ່ມີ hyperparameters ແຕກຕ່າງກັນ. ວິທີການນີ້ເສີມຂະຫຍາຍປະສິດທິພາບ, ຄວາມຫນ້າເຊື່ອຖືພາຍໃຕ້ການປ່ຽນແປງການແຈກຢາຍ, ແລະຄວາມເຂັ້ມແຂງຕໍ່ກັບຄວາມມັກທີ່ບໍ່ສອດຄ່ອງກັນ. ການສຶກສາຍັງສະແດງໃຫ້ເຫັນວ່າການໃຊ້ WARM ເປັນ proxy RM, ໂດຍສະເພາະກັບຈໍານວນ RMs ສະເລ່ຍທີ່ເພີ່ມຂຶ້ນ, ປັບປຸງຜົນໄດ້ຮັບແລະຊັກຊ້າການເລີ່ມຕົ້ນຂອງ 'ການ hack ລາງວັນ', ປະກົດການທີ່ລາງວັນການຄວບຄຸມຫຼຸດລົງໃນໄລຍະເວລາ.

ນີ້ແມ່ນພາບລວມລະດັບສູງ:

  1. ເລີ່ມຕົ້ນດ້ວຍຕົວແບບພາສາພື້ນຖານທີ່ຝຶກຝົນໄວ້ໃນ corpus ຂະຫນາດໃຫຍ່. ເລີ່ມຕົ້ນຫຼາຍ RMs ໂດຍການເພີ່ມຊັ້ນຂໍ້ມູນສະເພາະໜ້າວຽກນ້ອຍໆຢູ່ເທິງສຸດ.
  2. ປັບລະອຽດແຕ່ລະ RM ແຍກຕ່າງຫາກໃນຊຸດຂໍ້ມູນຄວາມມັກຂອງມະນຸດ, ໂດຍໃຊ້ hyperparameters ທີ່ແຕກຕ່າງກັນເຊັ່ນ: ອັດຕາການຮຽນຮູ້ສໍາລັບຄວາມຫຼາກຫຼາຍ.
  3. ນໍ້າໜັກສະເລ່ຍຂອງ RMs ທີ່ຖືກປັບແຕ່ງເພື່ອໃຫ້ໄດ້ຊຸດອຸ່ນດຽວ.

ຄວາມເຂົ້າໃຈທີ່ສໍາຄັນແມ່ນວ່ານ້ໍາຫນັກສະເລ່ຍເກັບຮັກສາໄວ້ພຽງແຕ່ຂໍ້ມູນ invariant ທີ່ໄດ້ຮຽນຮູ້ໃນທົ່ວທຸກ RMs ຫຼາກຫຼາຍຊະນິດ. ນີ້ຫຼຸດຜ່ອນການເອື່ອຍອີງໃສ່ສັນຍານ spurious, ເສີມຂະຫຍາຍຄວາມເຂັ້ມແຂງ. ກຸ່ມຍັງໄດ້ຮັບຜົນປະໂຫຍດຈາກການຫຼຸດຜ່ອນຄວາມແຕກຕ່າງກັນ, ປັບປຸງຄວາມຫນ້າເຊື່ອຖືເຖິງວ່າຈະມີການປ່ຽນແປງການແຈກຢາຍ.

ດັ່ງທີ່ໄດ້ສົນທະນາຜ່ານມາ, ຄວາມຫຼາກຫຼາຍໃນທົ່ວຕົວແບບທີ່ໄດ້ຮັບການຝຶກອົບຮົມເປັນເອກະລາດແມ່ນສໍາຄັນສໍາລັບການປົດລັອກທ່າແຮງອັນເຕັມທີ່ຂອງການລວມຕົວແບບ. ແຕ່ມີເຕັກນິກອັນໃດແດ່ເພື່ອສົ່ງເສີມຄວາມຫຼາກຫຼາຍທາງດ້ານການຜະລິດ?

ເຈ້ຍ WARM ສຳຫຼວດແນວຄວາມຄິດທີ່ສະຫຼາດຈຳນວນໜຶ່ງທີ່ສາມາດສະຫຼຸບໄດ້ຢ່າງກວ້າງຂວາງກວ່າ:

ການສັ່ງຊື້ Shuffles

ວິທີການເລັກນ້ອຍແຕ່ມີຜົນກະທົບແມ່ນ shuffling ຄໍາສັ່ງທີ່ຈຸດຂໍ້ມູນແມ່ນເຫັນໄດ້ໂດຍແຕ່ລະຕົວແບບໃນລະຫວ່າງການຝຶກອົບຮົມ. ເຖິງແມ່ນວ່າຂັ້ນຕອນທີ່ງ່າຍດາຍນີ້ de-correlates ນ້ໍາຫນັກ, ຫຼຸດຜ່ອນການຈໍາຊ້ໍາຊ້ອນຂອງຮູບແບບ.

ການປ່ຽນແປງ hyperparameter

Tweaking hyperparameters ເຊັ່ນ: ອັດຕາການຮຽນຮູ້ແລະຄວາມເປັນໄປໄດ້ຂອງ dropout ສໍາລັບແຕ່ລະໄລຍະແນະນໍາຄວາມຫຼາກຫຼາຍທີ່ເປັນປະໂຫຍດ. ໂມເດວ converge ແຕກຕ່າງກັນ, ເກັບກໍາຄຸນສົມບັດທີ່ແຕກຕ່າງຂອງຊຸດຂໍ້ມູນ.

ຈຸດກວດກາສະເລ່ຍ - Baklava

ວິທີການ Baklava ເລີ່ມຕົ້ນແບບຈໍາລອງສໍາລັບການລວມຕົວຈາກຮູບຖ່າຍທີ່ແຕກຕ່າງກັນຕາມ trajectory pretraining ດຽວກັນ. ນີ້ຜ່ອນຄາຍຂໍ້ຈໍາກັດເມື່ອທຽບກັບແກງແບບຈໍາລອງທີ່ກໍານົດຈຸດເລີ່ມຕົ້ນຮ່ວມກັນ. ກ່ຽວຂ້ອງກັບຕົວແບບ ratatouille, Baklava ຫຼີກເວັ້ນວຽກງານເພີ່ມເຕີມ. ໂດຍລວມແລ້ວ, ມັນໂຈມຕີຄວາມສົມດຸນຄວາມຖືກຕ້ອງ-ຄວາມຫຼາກຫຼາຍທີ່ມີປະສິດທິພາບ.

ການປັບຕົວແບບຈໍາລອງລາງວັນຫຼາຍອັນ

ຂະບວນການເລີ່ມຕົ້ນດ້ວຍຕົວແບບພາສາຂະໜາດໃຫຍ່ (LLM) 𝜃_𝑝𝑡 ທີ່ໄດ້ຮັບການຝຶກອົບຮົມກ່ອນ. ຈາກຮູບແບບນີ້, ດ່ານຕ່າງໆ {𝜃_𝑠 𝑓 𝑡_𝑖} ແມ່ນໄດ້ມາໃນລະຫວ່າງການແລ່ນການປັບແຕ່ງແບບ Supervised Fine-Tuning (SFT), ແຕ່ລະຈຸດເກັບກໍາຢູ່ໃນຂັ້ນຕອນການຝຶກອົບຮົມ SFT ທີ່ແຕກຕ່າງກັນ. ຫຼັງຈາກນັ້ນ, ຈຸດກວດກາເຫຼົ່ານີ້ຖືກໃຊ້ເປັນການເລີ່ມຕົ້ນສໍາລັບການປັບຕົວແບບຈໍາລອງລາງວັນຫຼາຍອັນ (RMs) {𝜙𝑖} ໃນຊຸດຂໍ້ມູນທີ່ຕ້ອງການ. ການປັບປຸງນີ້ມີຈຸດປະສົງເພື່ອປັບຕົວແບບຕ່າງໆໃຫ້ສອດຄ່ອງກັບຄວາມມັກຂອງມະນຸດ. ຫຼັງຈາກການປັບລະອຽດ, RMs ເຫຼົ່ານີ້ຖືກລວມເຂົ້າກັນໂດຍຜ່ານຂະບວນການນ້ໍາຫນັກສະເລ່ຍ, ສົ່ງຜົນໃຫ້ຮູບແບບສຸດທ້າຍ, 𝜙_WARM.

ການວິເຄາະຢືນຢັນວ່າການເພີ່ມດ່ານເກົ່າໂດຍການເຄື່ອນຍ້າຍໂດຍສະເລ່ຍເປັນອັນຕະລາຍຕໍ່ການປະຕິບັດຂອງບຸກຄົນ, ທໍາລາຍຄຸນປະໂຫຍດຂອງຄວາມຫຼາກຫຼາຍ. ໂດຍສະເລ່ຍພຽງແຕ່ການເປັນຕົວແທນສຸດທ້າຍຈາກແຕ່ລະໄລຍະປະຕິບັດໄດ້ດີກວ່າ. ໂດຍທົ່ວໄປ, ການດຸ່ນດ່ຽງເປົ້າຫມາຍຄວາມຫຼາກຫຼາຍດ້ວຍການບໍາລຸງຮັກສາຄວາມຖືກຕ້ອງຍັງຄົງເປັນສິ່ງທ້າທາຍການຄົ້ນຄວ້າທີ່ເປີດກວ້າງ.

ໂດຍລວມແລ້ວ, ການລວມຕົວແບບແມ່ນສອດຄ່ອງກັບຈັນຍາບັນທົ່ວໄປໃນພາກສະຫນາມເພື່ອນໍາມາໃຊ້ຄືນຊັບພະຍາກອນທີ່ມີຢູ່ຢ່າງມີປະສິດທິພາບເພື່ອຄວາມຫນ້າເຊື່ອຖື, ປະສິດທິພາບແລະຄວາມຫລາກຫລາຍ. ຄວາມງ່າຍດາຍຂອງນ້ໍາຫນັກສະເລ່ຍເຮັດໃຫ້ຕໍາແຫນ່ງຂອງຕົນເປັນຜູ້ສະຫມັກຊັ້ນນໍາສໍາລັບການປະກອບຕົວແບບທີ່ເຂັ້ມແຂງຈາກການກໍ່ສ້າງທີ່ພ້ອມທີ່ຈະເຮັດ.

ບໍ່ເຫມືອນກັບວິທີການປະກອບແບບດັ້ງເດີມທີ່ຄາດຄະເນໂດຍສະເລ່ຍ, WARM ຮັກສາຄ່າໃຊ້ຈ່າຍເທິງຄອມພິວເຕີ້ຫນ້ອຍລົງໂດຍການຮັກສານ້ໍາຫນັກພຽງແຕ່ຊຸດດຽວ. ການທົດລອງກ່ຽວກັບວຽກງານສະຫຼຸບຂໍ້ຄວາມສະແດງໃຫ້ເຫັນປະສິດທິຜົນຂອງ WARM:

  • ສໍາ​ລັບ​ການ​ເກັບ​ຕົວ​ຢ່າງ​ທີ່​ດີ​ທີ່​ສຸດ​ຂອງ N​, WARM ໄດ້​ຮັບ​ອັດ​ຕາ​ການ​ຊະ​ນະ 92.5% ຕໍ່​ການ​ຄັດ​ເລືອກ​ແບບ​ສຸ່ມ​ອີງ​ຕາມ​ປ້າຍ​ຄວາມ​ມັກ​ຂອງ​ມະ​ນຸດ​.
  • ໃນ RLHF, ນະໂຍບາຍ WARM ບັນລຸອັດຕາໄຊຊະນະ 79.4% ຕໍ່ກັບນະໂຍບາຍທີ່ໄດ້ຮັບການຝຶກອົບຮົມດ້ວຍ RM ດຽວຫຼັງຈາກຈໍານວນຂັ້ນຕອນດຽວກັນ.
  • WARM ຍັງສືບຕໍ່ປະຕິບັດໄດ້ດີເຖິງແມ່ນວ່າໃນເວລາທີ່ຫນຶ່ງສ່ວນສີ່ຂອງປ້າຍຂອງມະນຸດເສຍຫາຍ.

ຜົນໄດ້ຮັບເຫຼົ່ານີ້ສະແດງໃຫ້ເຫັນເຖິງທ່າແຮງຂອງ WARM ເປັນເຕັກນິກການປະຕິບັດສໍາລັບການພັດທະນາຕົວຊ່ວຍ AI ໃນໂລກທີ່ແທ້ຈິງທີ່ມີພຶດຕິກໍາທີ່ຫນ້າເຊື່ອຖື. ໂດຍການເຮັດໃຫ້ຄວາມບໍ່ສອດຄ່ອງຂອງຄໍາຕິຊົມຂອງມະນຸດ, ນະໂຍບາຍການອົບອຸ່ນສາມາດຍັງຄົງສອດຄ່ອງກັບຄຸນຄ່າຂອງມະນຸດຢ່າງແຂງແຮງເຖິງແມ່ນວ່າພວກເຂົາສືບຕໍ່ຮຽນຮູ້ຈາກປະສົບການໃຫມ່.

ຮູບໃຫຍ່ກວ່າເກົ່າ

WARM ນັ່ງຢູ່ຈຸດຕັດກັນຂອງສອງແນວໂນ້ມທີ່ສໍາຄັນໃນການຄົ້ນຄວ້າການຈັດຕໍາແຫນ່ງ AI. ທໍາອິດແມ່ນການສຶກສາການແຜ່ກະຈາຍນອກລະບົບ (OOD) ໂດຍທົ່ວໄປ, ເຊິ່ງມີຈຸດປະສົງເພື່ອເພີ່ມປະສິດທິພາບຂອງຕົວແບບກ່ຽວກັບຂໍ້ມູນໃຫມ່ທີ່ແຕກຕ່າງຈາກການແຈກຢາຍການຝຶກອົບຮົມ. ອັນທີສອງແມ່ນການຄົ້ນຄວ້າກ່ຽວກັບຄວາມເຂັ້ມຂຸ້ນຂອງລະບົບ algorithmic, ສຸມໃສ່ຄວາມຫນ້າເຊື່ອຖືເຖິງວ່າຈະມີການລົບກວນຫຼືສຽງຫນ້ອຍ.

ໂດຍການແຕ້ມການເຊື່ອມຕໍ່ລະຫວ່າງສາຂາເຫຼົ່ານີ້ກ່ຽວກັບແນວຄວາມຄິດຂອງຄວາມບໍ່ປ່ຽນແປງຂອງການຮຽນຮູ້, WARM ຍ້າຍພວກເຮົາໄປສູ່ເຕັກນິກທີ່ມີພື້ນຖານທີ່ເຂັ້ມງວດກວ່າສໍາລັບການສອດຄ່ອງມູນຄ່າ. ຄວາມເຂົ້າໃຈຈາກ WARM ສາມາດໂດຍທົ່ວໄປເຖິງແມ່ນວ່າເກີນ RLHF, ສະຫນອງບົດຮຽນສໍາລັບລະບົບການຮຽນຮູ້ເຄື່ອງຈັກທີ່ກວ້າງກວ່າທີ່ພົວພັນກັບໂລກເປີດ.

ແນ່ນອນ, ການສ້າງແບບຈໍາລອງລາງວັນແມ່ນພຽງແຕ່ຫນຶ່ງໃນການປິດການຈັດຕໍາແຫນ່ງ. ພວກເຮົາຍັງຕ້ອງການຄວາມຄືບໜ້າກ່ຽວກັບສິ່ງທ້າທາຍອື່ນໆ ເຊັ່ນ: ການກຳນົດລາງວັນ, ການກວດກາທີ່ສາມາດຂະຫຍາຍໄດ້, ແລະການສຳຫຼວດທີ່ປອດໄພ. ສົມທົບກັບເຕັກນິກການເສີມ, WARM ສາມາດເລັ່ງການພັດທະນາ AI ທີ່ສົ່ງເສີມຄວາມຈະເລີນຮຸ່ງເຮືອງຂອງມະນຸດຢ່າງຍືນຍົງ. ໂດຍການລວມຕົວຊີ້ແຈງຫຼັກການພື້ນຖານທີ່ສອດຄ່ອງກັບການສອດຄ່ອງທີ່ເຂັ້ມແຂງ, ນັກຄົ້ນຄວ້າກໍາລັງວາງແຜນເສັ້ນທາງໄປສູ່ AI ທີ່ເປັນປະໂຫຍດ, ມີຈັນຍາບັນ.

ຂ້ອຍໄດ້ໃຊ້ເວລາ 50 ປີທີ່ຜ່ານມາເພື່ອເຂົ້າໄປໃນໂລກທີ່ໜ້າສົນໃຈຂອງການຮຽນຮູ້ເຄື່ອງຈັກ ແລະການຮຽນຮູ້ຢ່າງເລິກເຊິ່ງ. ຄວາມກະຕືລືລົ້ນແລະຄວາມຊໍານານຂອງຂ້ອຍໄດ້ເຮັດໃຫ້ຂ້ອຍປະກອບສ່ວນເຂົ້າໃນໂຄງການວິສະວະກໍາຊອບແວທີ່ຫຼາກຫຼາຍຊະນິດຫຼາຍກວ່າ XNUMX ໂຄງການ, ໂດຍເນັ້ນໃສ່ສະເພາະກັບ AI/ML. ຄວາມຢາກຮູ້ຢາກເຫັນຢ່າງຕໍ່ເນື່ອງຂອງຂ້ອຍຍັງໄດ້ດຶງຂ້ອຍໄປສູ່ການປຸງແຕ່ງພາສາທໍາມະຊາດ, ເຊິ່ງຂ້ອຍກະຕືລືລົ້ນທີ່ຈະຄົ້ນຫາຕື່ມອີກ.