ປັນຍາທຽມທົ່ວໄປ
ພູມສັນຖານທີ່ພັດທະນາຂອງ AI ທົ່ວໄປ: ການສໍາຫຼວດການປະສົມຂອງຜູ້ຊ່ຽວຊານ, Multimodality, ແລະ Quest ສໍາລັບ AGI
ພາກສະຫນາມຂອງປັນຍາປະດິດ (AI) ໄດ້ເຫັນການຂະຫຍາຍຕົວຢ່າງຫຼວງຫຼາຍໃນປີ 2023. AI Generative, ເຊິ່ງສຸມໃສ່ການສ້າງເນື້ອຫາທີ່ແທ້ຈິງເຊັ່ນຮູບພາບ, ສຽງ, ວິດີໂອແລະຂໍ້ຄວາມ, ໄດ້ຢູ່ໃນແຖວຫນ້າຂອງຄວາມກ້າວຫນ້າເຫຼົ່ານີ້. ຕົວແບບເຊັ່ນ DALL-E 3, Stable Diffusion ແລະ ChatGPT ໄດ້ສະແດງໃຫ້ເຫັນຄວາມສາມາດສ້າງສັນໃຫມ່, ແຕ່ຍັງເຮັດໃຫ້ເກີດຄວາມກັງວົນກ່ຽວກັບຈັນຍາບັນ, ຄວາມລໍາອຽງແລະການນໍາໃຊ້ທີ່ບໍ່ຖືກຕ້ອງ.
ໃນຂະນະທີ່ AI ທົ່ວໄປສືບຕໍ່ພັດທະນາໃນຈັງຫວະທີ່ໄວ, ການປະສົມຂອງຜູ້ຊ່ຽວຊານ (MoE), ການຮຽນຮູ້ແບບ Multimodal, ແລະຄວາມມຸ່ງຫວັງໄປສູ່ປັນຍາທົ່ວໄປປອມ (AGI) ເບິ່ງຄືວ່າຈະກໍານົດຂອບເຂດຂອງການຄົ້ນຄວ້າແລະຄໍາຮ້ອງສະຫມັກຕໍ່ໄປ. ບົດຄວາມນີ້ຈະສະຫນອງການສໍາຫຼວດທີ່ສົມບູນແບບກ່ຽວກັບສະພາບປະຈຸບັນແລະເສັ້ນທາງໃນອະນາຄົດຂອງ AI ການຜະລິດ, ການວິເຄາະວິທີການປະດິດສ້າງເຊັ່ນ Gemini ຂອງ Google ແລະໂຄງການທີ່ຄາດໄວ້ເຊັ່ນ OpenAI's Q* ກໍາລັງຫັນປ່ຽນພູມສັນຖານ. ມັນຈະກວດສອບຜົນສະທ້ອນຂອງໂລກທີ່ແທ້ຈິງໃນທົ່ວການດູແລສຸຂະພາບ, ການເງິນ, ການສຶກສາແລະໂດເມນອື່ນໆ, ໃນຂະນະທີ່ປະເຊີນຫນ້າກັບສິ່ງທ້າທາຍທີ່ເກີດຂື້ນກ່ຽວກັບຄຸນນະພາບການຄົ້ນຄວ້າແລະການສອດຄ່ອງກັບ AI ກັບຄຸນຄ່າຂອງມະນຸດ.
ການປ່ອຍ ChatGPT ໃນທ້າຍປີ 2022 ໂດຍສະເພາະແມ່ນການກະຕຸ້ນໃຫ້ເກີດຄວາມຕື່ນເຕັ້ນແລະຄວາມກັງວົນກ່ຽວກັບ AI, ຈາກຄວາມກ້າວຫນ້າຂອງພາສາທໍາມະຊາດທີ່ຫນ້າປະທັບໃຈກັບທ່າແຮງທີ່ຈະເຜີຍແຜ່ຂໍ້ມູນທີ່ບໍ່ຖືກຕ້ອງ. ໃນຂະນະດຽວກັນ, ຮູບແບບ Gemini ໃຫມ່ຂອງ Google ສະແດງໃຫ້ເຫັນຄວາມສາມາດໃນການສົນທະນາທີ່ມີການປັບປຸງຢ່າງຫຼວງຫຼາຍຕໍ່ກັບຜູ້ສືບທອດກ່ອນເຊັ່ນ LaMDA ໂດຍຜ່ານຄວາມກ້າວຫນ້າເຊັ່ນ: ຄວາມສົນໃຈ spike-and-slab. ໂຄງການທີ່ມີຂ່າວລືເຊັ່ນ OpenAI's Q* hints ໃນການສົມທົບ AI ການສົນທະນາກັບການຮຽນຮູ້ເສີມ.
ນະວັດຕະກໍາເຫຼົ່ານີ້ສະແດງເຖິງການຫັນປ່ຽນບູລິມະສິດໄປສູ່ແບບຈໍາລອງການຜະລິດແບບ multimodal, versatile. ການແຂ່ງຂັນຍັງສືບຕໍ່ຮ້ອນຂຶ້ນລະຫວ່າງບໍລິສັດຕ່າງໆເຊັ່ນ Google, Meta, Anthropic ແລະ Cohere ເພື່ອຊຸກຍູ້ຂອບເຂດໃນການພັດທະນາ AI ທີ່ມີຄວາມຮັບຜິດຊອບ.
ວິວັດທະນາການຂອງການຄົ້ນຄວ້າ AI
ໃນຂະນະທີ່ຄວາມສາມາດເພີ່ມຂຶ້ນ, ແນວໂນ້ມການຄົ້ນຄວ້າແລະບູລິມະສິດຍັງມີການປ່ຽນແປງ, ມັກຈະສອດຄ່ອງກັບຈຸດສໍາຄັນທາງດ້ານເຕັກໂນໂລຢີ. ການເພີ່ມຂື້ນຂອງການຮຽນຮູ້ເລິກເຊິ່ງເຮັດໃຫ້ຄວາມສົນໃຈໃນເຄືອຂ່າຍ neural, ໃນຂະນະທີ່ການປຸງແຕ່ງພາສາທໍາມະຊາດເພີ່ມຂຶ້ນກັບຕົວແບບລະດັບ ChatGPT. ໃນຂະນະນັ້ນ, ການເອົາໃຈໃສ່ຕໍ່ຈັນຍາບັນຍັງຄົງເປັນບູລິມະສິດຄົງທີ່ໃນບັນດາຄວາມຄືບຫນ້າຢ່າງວ່ອງໄວ.
ຄັງເກັບຂໍ້ມູນລ່ວງໜ້າເຊັ່ນ arXiv ຍັງໄດ້ເຫັນການຂະຫຍາຍຕົວຂອງຕົວຊີ້ບອກໃນການຍື່ນສະເໜີ AI, ເຮັດໃຫ້ການເຜີຍແຜ່ໄວຂຶ້ນ ແຕ່ການຫຼຸດຜ່ອນການທົບທວນເພື່ອນມິດ ແລະເພີ່ມຄວາມສ່ຽງຕໍ່ຄວາມຜິດພາດທີ່ບໍ່ໄດ້ກວດກາ ຫຼືຄວາມລຳອຽງ. ການພົວພັນກັນລະຫວ່າງການຄົ້ນຄວ້າ ແລະຜົນກະທົບຂອງໂລກຕົວຈິງຍັງຄົງສັບສົນ, ຈໍາເປັນຕ້ອງມີຄວາມພະຍາຍາມປະສານງານຫຼາຍຂຶ້ນເພື່ອຊີ້ນໍາຄວາມຄືບໜ້າ.
MoE ແລະລະບົບ Multimodal - ຄື້ນຕໍ່ໄປຂອງ AI ການຜະລິດ
ເພື່ອເປີດໃຊ້ AI ທີ່ມີຄວາມຫຼາກຫຼາຍ, ມີຄວາມຊັບຊ້ອນຫຼາຍຂຶ້ນໃນທົ່ວແອັບພລິເຄຊັນທີ່ຫຼາກຫຼາຍ, ສອງວິທີທີ່ຈະໄດ້ຮັບຄວາມໂດດເດັ່ນແມ່ນການປະສົມຂອງຜູ້ຊ່ຽວຊານ (MoE) ແລະການຮຽນຮູ້ແບບ Multimodal.
ສະຖາປັດຕະຍະກໍາ MoE ປະສົມປະສານເຄືອຂ່າຍ neural ພິເສດຫຼາຍ "ຜູ້ຊ່ຽວຊານ" ເຫມາະສໍາລັບວຽກງານຫຼືປະເພດຂໍ້ມູນທີ່ແຕກຕ່າງກັນ. Gemini ຂອງ Google ໃຊ້ MoE ເພື່ອຊໍານິຊໍານານທັງການແລກປ່ຽນການສົນທະນາທີ່ຍາວນານແລະການຕອບຄໍາຖາມແບບຫຍໍ້. MoE ຊ່ວຍໃຫ້ການຈັດການວັດສະດຸປ້ອນເຂົ້າໄດ້ກວ້າງຂຶ້ນ ໂດຍບໍ່ມີຂະໜາດຕົວແບບລູກປືນ.
ລະບົບ Multimodal ເຊັ່ນ Gemini ຂອງ Google ກໍາລັງກໍານົດມາດຕະຖານໃຫມ່ໂດຍການປຸງແຕ່ງຮູບແບບທີ່ແຕກຕ່າງກັນນອກເຫນືອຈາກພຽງແຕ່ຂໍ້ຄວາມ. ຢ່າງໃດກໍ່ຕາມ, ການຮັບຮູ້ທ່າແຮງຂອງ AI multimodal ມີຄວາມຈໍາເປັນທີ່ຈະເອົາຊະນະອຸປະສັກດ້ານວິຊາການແລະສິ່ງທ້າທາຍດ້ານຈັນຍາບັນທີ່ສໍາຄັນ.
Gemini: Redefining Benchmarks ໃນ Multimodality
Gemini ເປັນ AI ການສົນທະນາຫຼາຍຮູບແບບ, ສ້າງຂຶ້ນເພື່ອເຂົ້າໃຈການເຊື່ອມຕໍ່ລະຫວ່າງຂໍ້ຄວາມ, ຮູບພາບ, ສຽງ, ແລະວິດີໂອ. ໂຄງສ້າງຕົວເຂົ້າລະຫັດຄູ່ຂອງມັນ, ຄວາມສົນໃຈຂ້າມໂມດູນ, ແລະການຖອດລະຫັດແບບຫຼາຍຮູບແບບເຮັດໃຫ້ຄວາມເຂົ້າໃຈໃນສະພາບການທີ່ຊັບຊ້ອນ. ເຊື່ອກັນວ່າ Gemini ຈະເກີນລະບົບຕົວເຂົ້າລະຫັດດຽວໃນການເຊື່ອມໂຍງກັບແນວຄວາມຄິດຂໍ້ຄວາມກັບພາກພື້ນທີ່ເບິ່ງເຫັນ. ໂດຍການລວມເອົາຄວາມຮູ້ທີ່ມີໂຄງສ້າງແລະການຝຶກອົບຮົມພິເສດ, Gemini ລື່ນກາຍຜູ້ສືບທອດເຊັ່ນ GPT-3 ແລະ GPT-4 ໃນ:
- ຄວາມກວ້າງຂອງວິທີການຈັດການ, ລວມທັງສຽງ ແລະວິດີໂອ
- ການປະຕິບັດໃນມາດຕະຖານເຊັ່ນຄວາມເຂົ້າໃຈພາສາຫຼາຍຫນ້າວຽກຂະຫນາດໃຫຍ່
- ການສ້າງລະຫັດໃນທົ່ວພາສາການຂຽນໂປລແກລມ
- ຄວາມສາມາດຂະຫຍາຍໄດ້ຜ່ານລຸ້ນທີ່ປັບແຕ່ງແລ້ວເຊັ່ນ Gemini Ultra ແລະ Nano
- ຄວາມໂປ່ງໃສໂດຍຜ່ານເຫດຜົນສໍາລັບຜົນໄດ້ຮັບ
ອຸປະສັກທາງດ້ານເຕັກນິກໃນລະບົບ Multimodal
ການຮັບຮູ້ AI multimodal ທີ່ເຂັ້ມແຂງຮຽກຮ້ອງໃຫ້ມີການແກ້ໄຂບັນຫາໃນຄວາມຫຼາກຫຼາຍຂອງຂໍ້ມູນ, ການຂະຫຍາຍ, ການປະເມີນຜົນ, ແລະການຕີລາຄາ. ຊຸດຂໍ້ມູນທີ່ບໍ່ສົມດູນ ແລະຄວາມບໍ່ສອດຄ່ອງຂອງຄຳບັນຍາຍເຮັດໃຫ້ມີຄວາມລຳອຽງ. ການປະມວນຜົນການຖ່າຍທອດຂໍ້ມູນຫຼາຍອັນເຮັດໃຫ້ຊັບພະຍາກອນການຄິດໄລ່, ຕ້ອງການສະຖາປັດຕະຍະກຳແບບທີ່ເໝາະສົມ. ຄວາມກ້າວຫນ້າໃນກົນໄກການເອົາໃຈໃສ່ແລະສູດການຄິດໄລ່ແມ່ນຈໍາເປັນເພື່ອປະສົມປະສານວັດສະດຸປ້ອນ multimodal ກົງກັນຂ້າມ. ບັນຫາການປັບຂະ ໜາດ ຍັງຄົງຢູ່ເນື່ອງຈາກການຄິດໄລ່ທີ່ກວ້າງຂວາງ. ການປັບປຸງຕົວຊີ້ວັດການປະເມີນຜົນໂດຍຜ່ານມາດຕະຖານທີ່ສົມບູນແບບແມ່ນສໍາຄັນ. ການເພີ່ມຄວາມໄວ້ວາງໃຈຂອງຜູ້ໃຊ້ຜ່ານ AI ທີ່ສາມາດອະທິບາຍໄດ້ຍັງມີຄວາມສໍາຄັນ. ການແກ້ໄຂອຸປະສັກດ້ານວິຊາການເຫຼົ່ານີ້ຈະເປັນກຸນແຈເພື່ອປົດລັອກຄວາມສາມາດຂອງ AI multimodal.
ການປະກອບຕຶກອາຄານສໍາລັບປັນຍາທົ່ວໄປທຽມ
AGI ສະແດງໃຫ້ເຫັນເຖິງຄວາມເປັນໄປໄດ້ສົມມຸດຕິຖານຂອງການຈັບຄູ່ AI ຫຼືຄວາມສະຫລາດຂອງມະນຸດເກີນຂອບເຂດທົ່ວໂດເມນ. ໃນຂະນະທີ່ AI ທີ່ທັນສະໄຫມດີເລີດໃນວຽກງານແຄບ, AGI ຍັງຄົງຢູ່ໄກແລະໂຕ້ແຍ້ງຍ້ອນຄວາມສ່ຽງທີ່ເປັນໄປໄດ້ຂອງມັນ.
ຢ່າງໃດກໍ່ຕາມ, ຄວາມກ້າວຫນ້າທີ່ເພີ່ມຂຶ້ນໃນຂົງເຂດເຊັ່ນ: ການໂອນຍ້າຍການຮຽນຮູ້, ການຝຶກອົບຮົມຫຼາຍຫນ້າວຽກ, ຄວາມສາມາດໃນການສົນທະນາແລະການບໍ່ມີຕົວຕົນເຮັດໃຫ້ໃກ້ຊິດກັບວິໄສທັດອັນສູງສົ່ງຂອງ AGI. ໂຄງການ Q* ຄາດຄະເນຂອງ OpenAI ມີຈຸດປະສົງເພື່ອປະສົມປະສານການຮຽນຮູ້ເສີມເຂົ້າໃນ LLMs ເປັນອີກບາດກ້າວຫນຶ່ງ.
ຂອບເຂດດ້ານຈັນຍາບັນ ແລະຄວາມສ່ຽງຂອງການຈັດການຕົວແບບ AI
Jailbreaks ອະນຸຍາດໃຫ້ຜູ້ໂຈມຕີສາມາດຫລີກເວັ້ນຂອບເຂດດ້ານຈັນຍາບັນທີ່ກໍານົດໄວ້ໃນລະຫວ່າງຂະບວນການປັບຕົວຂອງ AI. ອັນນີ້ສົ່ງຜົນໃຫ້ການສ້າງເນື້ອຫາທີ່ເປັນອັນຕະລາຍເຊັ່ນ: ຂໍ້ມູນທີ່ບໍ່ຖືກຕ້ອງ, ຄໍາເວົ້າທີ່ກຽດຊັງ, ອີເມວຟິດຊິງ, ແລະລະຫັດທີ່ເປັນອັນຕະລາຍ, ສ້າງຄວາມສ່ຽງຕໍ່ບຸກຄົນ, ອົງການຈັດຕັ້ງ, ແລະສັງຄົມຢ່າງຫຼວງຫຼາຍ. ສໍາລັບຕົວຢ່າງ, ຮູບແບບ jailbroken ສາມາດຜະລິດເນື້ອຫາທີ່ສົ່ງເສີມການເທື່ອເນື່ອງຈາກການແບ່ງແຍກຫຼືສະຫນັບສະຫນູນກິດຈະກໍາທາງອິນເຕີເນັດ. (ຮຽນຮູ້ເພີ່ມເຕີມ)
ໃນຂະນະທີ່ຍັງບໍ່ທັນມີລາຍງານການໂຈມຕີທາງອິນເຕີເນັດໂດຍໃຊ້ jailbreaking ເທື່ອ, ການ jailbreaks ຫຼັກຖານສະແດງແນວຄວາມຄິດຫຼາຍແມ່ນພ້ອມຂາຍອອນໄລນ໌ແລະສໍາລັບການຂາຍໃນເວັບຊ້ໍາ. ເຄື່ອງມືເຫຼົ່ານີ້ສະຫນອງການກະຕຸ້ນເຕືອນທີ່ອອກແບບມາເພື່ອຈັດການຮູບແບບ AI ເຊັ່ນ ChatGPT, ອາດຈະເຮັດໃຫ້ແຮກເກີຮົ່ວຂໍ້ມູນລະອຽດອ່ອນຜ່ານ chatbots ຂອງບໍລິສັດ. ການແຜ່ຂະຫຍາຍຂອງເຄື່ອງມືເຫຼົ່ານີ້ຢູ່ໃນເວທີເຊັ່ນ: ເວທີປາໄສອາດຊະຍາກໍາທາງອິນເຕີເນັດຊີ້ໃຫ້ເຫັນເຖິງຄວາມຮີບດ່ວນຂອງການແກ້ໄຂໄພຂົ່ມຂູ່ນີ້. (ອ່ານຕື່ມ)
ຫຼຸດຜ່ອນຄວາມສ່ຽງຕໍ່ການ jailbreak
ເພື່ອຕ້ານໄພຂົ່ມຂູ່ເຫຼົ່ານີ້, ວິທີການຫຼາຍດ້ານແມ່ນມີຄວາມຈໍາເປັນ:
- ການປັບລະອຽດທີ່ເຂັ້ມແຂງ: ລວມທັງຂໍ້ມູນທີ່ມີຄວາມຫຼາກຫຼາຍໃນຂະບວນການປັບປ່ຽນປັບປຸງຄວາມຕ້ານທານຂອງຕົວແບບຕໍ່ກັບການຫມູນໃຊ້ຂອງຝ່າຍກົງກັນຂ້າມ.
- ການຝຶກອົບຮົມຄູ່ຕໍ່ສູ້: ການຝຶກອົບຮົມກັບຕົວຢ່າງຂອງສັດຕູເສີມສ້າງຄວາມສາມາດຂອງຕົວແບບໃນການຮັບຮູ້ ແລະ ຕ້ານກັບປັດໄຈທີ່ໝູນໃຊ້.
- ການປະເມີນຜົນປົກກະຕິ: ການຕິດຕາມຜົນໄດ້ຮັບຢ່າງຕໍ່ເນື່ອງຊ່ວຍກວດຫາຂໍ້ເສື່ອມຂອງຂໍ້ແນະນຳດ້ານຈັນຍາບັນ.
- ການກວດກາມະນຸດ: ການມີສ່ວນຮ່ວມຂອງນັກທົບທວນຂອງມະນຸດເພີ່ມຊັ້ນຄວາມປອດໄພເພີ່ມເຕີມ.
ໄພຂົ່ມຂູ່ທີ່ຂັບເຄື່ອນດ້ວຍ AI: ການຂູດຮີດ Hallucination
AI hallucination, ບ່ອນທີ່ຕົວແບບສ້າງຜົນໄດ້ຮັບທີ່ບໍ່ມີພື້ນຖານໃນຂໍ້ມູນການຝຶກອົບຮົມຂອງເຂົາເຈົ້າ, ສາມາດເປັນອາວຸດ. ຕົວຢ່າງ, ຜູ້ໂຈມຕີໄດ້ໝູນໃຊ້ ChatGPT ເພື່ອແນະນຳແພັກເກັດທີ່ບໍ່ມີຢູ່, ນໍາໄປສູ່ການແຜ່ກະຈາຍຂອງຊອບແວທີ່ເປັນອັນຕະລາຍ. ນີ້ຊີ້ໃຫ້ເຫັນເຖິງຄວາມຈໍາເປັນສໍາລັບການລະມັດລະວັງຢ່າງຕໍ່ເນື່ອງແລະມາດຕະການຕ້ານການຂູດຮີດດັ່ງກ່າວ. (ສຳຫຼວດຕື່ມອີກ)
ໃນຂະນະທີ່ຈັນຍາບັນຂອງການສະແຫວງຫາ AGI ຍັງຄົງຢູ່, ການສະແຫວງຫາຄວາມປາດຖະຫນາຂອງມັນຍັງສືບຕໍ່ມີອິດທິພົນຕໍ່ທິດທາງການຄົ້ນຄວ້າ AI ທົ່ວໄປ - ບໍ່ວ່າຈະເປັນແບບຈໍາລອງໃນປະຈຸບັນຄ້າຍຄືກັບຫີນກ້າວຫຼືເສັ້ນທາງໄປສູ່ AI ລະດັບມະນຸດ.