ປັນຍາປະດິດ
ເຄື່ອງກວດຈັບການຕົວະທີ່ອີງໃສ່ AI ສໍາລັບການສົນທະນາຂອງສູນການໂທ
ນັກຄົ້ນຄວ້າໃນເຢຍລະມັນໄດ້ໃຊ້ ການຮຽນຮູ້ເຄື່ອງຈັກ ເພື່ອສ້າງລະບົບການວິເຄາະສຽງທີ່ມີຈຸດປະສົງຕົ້ນຕໍເພື່ອເຮັດຫນ້າທີ່ເປັນເຄື່ອງກວດຈັບຂີ້ຕົວະທີ່ໃຊ້ AI ສໍາລັບລູກຄ້າໃນການສື່ສານສຽງກັບສູນໂທແລະພະນັກງານສະຫນັບສະຫນູນ.
ໄດ້ ລະບົບ ໃຊ້ຊຸດຂໍ້ມູນບັນທຶກສຽງທີ່ສ້າງຂຶ້ນພິເສດໂດຍນັກຮຽນ ແລະ ຄູສອນ 40 ຄົນໃນລະຫວ່າງການໂຕ້ວາທີກ່ຽວກັບຫົວຂໍ້ທີ່ຂັດແຍ້ງກັນ, ລວມທັງສິນທໍາຂອງການລົງໂທດປະຫານຊີວິດ ແລະຄ່າຮຽນ. ຮູບແບບດັ່ງກ່າວໄດ້ຮັບການຝຶກອົບຮົມກ່ຽວກັບສະຖາປັດຕະຍະກໍາທີ່ໃຊ້ Convolutional Neural Networks (CNNs) ແລະ ຄວາມຊົງຈໍາໄລຍະສັ້ນ (LSTM), ແລະບັນລຸອັດຕາຄວາມຖືກຕ້ອງຂອງລາຍງານຂອງ 98%.
ເຖິງແມ່ນວ່າຈຸດປະສົງທີ່ລະບຸໄວ້ຂອງການເຮັດວຽກອ້າງເຖິງການສື່ສານຂອງລູກຄ້າ, ນັກຄົ້ນຄວ້າຍອມຮັບວ່າມັນເຮັດວຽກຢ່າງມີປະສິດທິພາບເປັນເຄື່ອງກວດຈັບຕົວະຈຸດປະສົງທົ່ວໄປ:
'ການຄົ້ນພົບແມ່ນໃຊ້ໄດ້ກັບຂະບວນການບໍລິການທີ່ຫຼາກຫຼາຍ ແລະໂດຍສະເພາະທີ່ເປັນປະໂຫຍດສໍາລັບການຕິດຕໍ່ພົວພັນກັບລູກຄ້າທັງໝົດທີ່ເກີດຂຶ້ນຜ່ານທາງໂທລະສັບ. ສູດການຄິດໄລ່ທີ່ນໍາສະເຫນີສາມາດຖືກນໍາໃຊ້ໃນທຸກສະຖານະການທີ່ມັນເປັນປະໂຫຍດສໍາລັບຕົວແທນທີ່ຈະຮູ້ວ່າລູກຄ້າກໍາລັງເວົ້າກັບນາງ / ຄວາມເຊື່ອຫມັ້ນຂອງລາວ.
'ຕົວຢ່າງນີ້ສາມາດນໍາໄປສູ່ການຫຼຸດຜ່ອນການຮຽກຮ້ອງປະກັນໄພທີ່ຫນ້າສົງໄສ, ຫຼືຄໍາຖະແຫຼງທີ່ບໍ່ມີຄວາມຈິງໃນການສໍາພາດວຽກ. ນີ້ຈະບໍ່ພຽງແຕ່ຫຼຸດຜ່ອນການສູນເສຍການດໍາເນີນງານສໍາລັບບໍລິສັດບໍລິການ, ແຕ່ຍັງຊຸກຍູ້ໃຫ້ລູກຄ້າມີຄວາມຈິງຫຼາຍຂຶ້ນ.
ການສ້າງຊຸດຂໍ້ມູນ
ໃນເມື່ອບໍ່ມີຊຸດຂໍ້ມູນທີ່ເຫມາະສົມກັບສາທາລະນະໃນພາສາເຢຍລະມັນ, ນັກຄົ້ນຄວ້າ - ຈາກ Neu-Ulm University of Applied Sciences (HNU) - ໄດ້ສ້າງເອກະສານແຫຼ່ງຂອງຕົນເອງ. Fliers ໄດ້ຖືກຈັດພີມມາຢູ່ໃນມະຫາວິທະຍາໄລແລະໂຮງຮຽນທ້ອງຖິ່ນ, ໂດຍມີອາສາສະຫມັກ 40 ຄົນທີ່ຖືກຄັດເລືອກດ້ວຍອາຍຸຕໍາ່ສຸດທີ່ 16. ອາສາສະຫມັກໄດ້ຮັບຄ່າຈ້າງດ້ວຍບັດ voucher Amazon 10 ເອີໂຣ.
ກອງປະຊຸມໄດ້ດໍາເນີນຢູ່ໃນຮູບແບບສະໂມສອນການໂຕ້ວາທີທີ່ຖືກອອກແບບມາເພື່ອໃຫ້ມີຄວາມຄິດເຫັນແລະກະຕຸ້ນການຕອບສະຫນອງທີ່ເຂັ້ມແຂງກ່ຽວກັບຫົວຂໍ້ incendiary, ປະສິດທິຜົນການສ້າງແບບຈໍາລອງຄວາມກົດດັນທີ່ສາມາດເກີດຂື້ນໃນການສົນທະນາຂອງລູກຄ້າທີ່ມີບັນຫາທາງໂທລະສັບ.
ຫົວຂໍ້ທີ່ນັກອາສາສະຫມັກໄດ້ເວົ້າຢ່າງເສລີເປັນເວລາ XNUMX ນາທີຕໍ່ສາທາລະນະແມ່ນ:
– ຄວນມີການລົງໂທດປະຫານຊີວິດ ແລະການປະຫານຊີວິດສາທາລະນະຄືນໃໝ່ໃນເຢຍລະມັນບໍ?
– ຄວນເກັບຄ່າຮຽນໃນເຢຍລະມັນບໍ?
– ຄວນໃຊ້ຢາແຂງ ເຊັ່ນ ເຮໂຣອີນ ແລະ ເມໂທຣອີນ ຖືກຕ້ອງຕາມກົດໝາຍໃນເຢຍລະມັນບໍ?
– ຄວນຫ້າມຮ້ານອາຫານທີ່ມີອາຫານຈານດ່ວນທີ່ບໍ່ດີຕໍ່ສຸຂະພາບ, ເຊັ່ນ McDonald's ຫຼື Burger King, ຄວນຖືກຫ້າມໃນເຢຍລະມັນ?
ການປະມວນຜົນກ່ອນ
ໂຄງການດັ່ງກ່າວໄດ້ແນະນໍາການວິເຄາະລັກສະນະຂອງການປາກເວົ້າສຽງໃນວິທີການຮັບຮູ້ສຽງເວົ້າອັດຕະໂນມັດ (ASR) ໃນວິທີການ NLP (ທີ່ການປາກເວົ້າແມ່ນການວິເຄາະໃນລະດັບພາສາ, ແລະ 'ອຸນຫະພູມ' ຂອງການສົນທະນາໂດຍກົງຈາກການນໍາໃຊ້ພາສາ).
ຕົວຢ່າງທີ່ໄດ້ຮັບການປຸງແຕ່ງກ່ອນການປຸງແຕ່ງໄດ້ຮັບການວິເຄາະເບື້ອງຕົ້ນໂດຍຜ່ານຕົວສໍາປະສິດ Cepstral ຄວາມຖີ່ Mel-frequency (MFCCs), ເປັນວິທີທີ່ເຊື່ອຖືໄດ້, ເກົ່າແກ່ທີ່ຍັງນິຍົມຫຼາຍໃນການວິເຄາະຄໍາເວົ້າ. ນັບຕັ້ງແຕ່ວິທີການໄດ້ຖືກສະເຫນີຄັ້ງທໍາອິດໃນປີ 1980, ມັນໂດຍສະເພາະແມ່ນການປະຫຍັດກັບຊັບພະຍາກອນຄອມພິວເຕີ້ໃນແງ່ຂອງການຮັບຮູ້ຮູບແບບທີ່ເກີດຂື້ນໃນຄໍາເວົ້າ, ແລະມີຄວາມທົນທານຕໍ່ລະດັບຕ່າງໆຂອງຄຸນນະພາບການຈັບສຽງ. ເນື່ອງຈາກວ່າກອງປະຊຸມໄດ້ຖືກປະຕິບັດຜ່ານເວທີ VOIP ໃນເງື່ອນໄຂການປິດລ້ອມໃນເດືອນທັນວາ 2020, ມັນເປັນສິ່ງສໍາຄັນທີ່ຈະຕ້ອງມີກອບການບັນທຶກທີ່ສາມາດບັນທຶກສຽງທີ່ມີຄຸນນະພາບທີ່ບໍ່ດີເມື່ອມີຄວາມຈໍາເປັນ.
ເປັນທີ່ໜ້າສົນໃຈທີ່ສັງເກດວ່າສອງຂໍ້ຈຳກັດທາງເທັກນິກທີ່ໄດ້ກ່າວມາຂ້າງເທິງ (ຊັບພະຍາກອນ CPU ຈຳກັດໃນຕົ້ນຊຸມປີ 1980 ແລະຄວາມແປກປະຫຼາດຂອງການເຊື່ອມຕໍ່ VOIP ໃນສະພາບເຄືອຂ່າຍທີ່ແອອັດ) ສົມທົບກັນຢູ່ທີ່ນີ້ເພື່ອສ້າງສິ່ງທີ່ເປັນແບບຈໍາລອງ 'ທີ່ແຕກແຍກທາງເທັກນິກ' ທີ່ແຂງແຮງຜິດປົກກະຕິ. ໃນກໍລະນີທີ່ບໍ່ມີເງື່ອນໄຂການເຮັດວຽກທີ່ເຫມາະສົມແລະຊັບພະຍາກອນລະດັບສູງ - ການຈໍາລອງສະຖານທີ່ເປົ້າຫມາຍສໍາລັບສູດການຄິດໄລ່ຜົນໄດ້ຮັບ.
ຫຼັງຈາກນັ້ນ, ການຫັນປ່ຽນ Fourier ໄວ (ລົ້ມລົງ) algorithm ໄດ້ຖືກນຳໃຊ້ຕໍ່ກັບພາກສ່ວນສຽງເພື່ອສະໜອງໂປຣໄຟລຂອງແຕ່ລະ 'ກອບສຽງ', ກ່ອນທີ່ຈະສ້າງແຜນທີ່ຂັ້ນສຸດທ້າຍໃຫ້ກັບ Mel Scale.
ການຝຶກອົບຮົມ, ຜົນໄດ້ຮັບແລະຂໍ້ຈໍາກັດ
ໃນລະຫວ່າງການຝຶກອົບຮົມ, vectors ຄຸນນະສົມບັດທີ່ສະກັດໄດ້ຖືກສົ່ງກັບຊັ້ນເຄືອຂ່າຍ convolutional ທີ່ໃຊ້ເວລາແຈກຢາຍ, ແປແລະຫຼັງຈາກນັ້ນສົ່ງກັບຊັ້ນ LSTM.
ສຸດທ້າຍ, neurons ທັງຫມົດແມ່ນເຊື່ອມຕໍ່ກັນເພື່ອສ້າງການຄາດຄະເນສອງເທົ່າທີ່ຜູ້ເວົ້າເວົ້າສິ່ງທີ່ພວກເຂົາເຊື່ອວ່າເປັນຄວາມຈິງ.
ໃນການທົດສອບຫຼັງຈາກການຝຶກອົບຮົມ, ລະບົບໄດ້ບັນລຸລະດັບຄວາມຖືກຕ້ອງເຖິງ 98.91% ໃນແງ່ຂອງການແນມເບິ່ງຄວາມຕັ້ງໃຈ (ບ່ອນທີ່ເນື້ອຫາທີ່ເວົ້າອາດຈະບໍ່ສະທ້ອນເຖິງຄວາມຕັ້ງໃຈ). ນັກຄົ້ນຄວ້າພິຈາລະນາວ່າວຽກງານດັ່ງກ່າວສະແດງໃຫ້ເຫັນການກໍານົດຄວາມເຊື່ອຫມັ້ນໂດຍອີງໃສ່ຮູບແບບສຽງ, ແລະມັນສາມາດບັນລຸໄດ້ໂດຍບໍ່ມີການທໍາລາຍພາສາແບບ NLP.
ໃນແງ່ຂອງຂໍ້ຈໍາກັດ, ນັກຄົ້ນຄວ້າຍອມຮັບວ່າຕົວຢ່າງການທົດສອບແມ່ນນ້ອຍ. ເຖິງແມ່ນວ່າເອກະສານບໍ່ໄດ້ລະບຸຢ່າງຊັດເຈນ, ຂໍ້ມູນການທົດສອບປະລິມານຕ່ໍາສາມາດຫຼຸດຜ່ອນການນໍາໃຊ້ໃນພາຍຫລັງໃນກໍລະນີທີ່ສົມມຸດຕິຖານ, ລັກສະນະສະຖາປັດຕະຍະກໍາແລະຂະບວນການຝຶກອົບຮົມໂດຍທົ່ວໄປແມ່ນເກີນພໍດີກັບຂໍ້ມູນ. ເອກະສານໃຫ້ຂໍ້ສັງເກດວ່າ XNUMX ໃນ XNUMX ຮູບແບບທີ່ສ້າງຂຶ້ນໃນທົ່ວໂຄງການໄດ້ຖືກປັບປຸງເກີນຂອບເຂດໃນຂະບວນການຮຽນຮູ້, ແລະມີວຽກງານເພີ່ມເຕີມທີ່ຈະຕ້ອງໄດ້ເຮັດໃນການກໍານົດການນໍາໃຊ້ຕົວກໍານົດການທົ່ວໄປຂອງຕົວແບບ.
ນອກຈາກນັ້ນ, ການຄົ້ນຄວ້າລັກສະນະນີ້ຕ້ອງພິຈາລະນາລັກສະນະແຫ່ງຊາດ, ແລະເອກະສານສັງເກດເຫັນວ່າວິຊາເຍຍລະມັນທີ່ກ່ຽວຂ້ອງກັບການຜະລິດຂໍ້ມູນອາດມີຮູບແບບການສື່ສານທີ່ບໍ່ສາມາດຈໍາລອງໄດ້ໂດຍກົງໃນທົ່ວວັດທະນະທໍາ - ສະຖານະການທີ່ອາດຈະເກີດຂື້ນໃນການສຶກສາດັ່ງກ່າວໃນ. ຊາດໃດນຶ່ງ.