ປັນຍາປະດິດ

ເຄື່ອງກວດຈັບການຕົວະທີ່ອີງໃສ່ AI ສໍາລັບການສົນທະນາຂອງສູນການໂທ

ການປັບປຸງ on ເດືອນທັນວາ 9, 2022

ນັກຄົ້ນຄວ້າໃນເຢຍລະມັນໄດ້ໃຊ້ ການຮຽນຮູ້ເຄື່ອງຈັກ ເພື່ອສ້າງລະບົບການວິເຄາະສຽງທີ່ມີຈຸດປະສົງຕົ້ນຕໍເພື່ອເຮັດຫນ້າທີ່ເປັນເຄື່ອງກວດຈັບຂີ້ຕົວະທີ່ໃຊ້ AI ສໍາລັບລູກຄ້າໃນການສື່ສານສຽງກັບສູນໂທແລະພະນັກງານສະຫນັບສະຫນູນ.

ໄດ້ ລະບົບ ໃຊ້ຊຸດຂໍ້ມູນບັນທຶກສຽງທີ່ສ້າງຂຶ້ນພິເສດໂດຍນັກຮຽນ ແລະ ຄູສອນ 40 ຄົນໃນລະຫວ່າງການໂຕ້ວາທີກ່ຽວກັບຫົວຂໍ້ທີ່ຂັດແຍ້ງກັນ, ລວມທັງສິນທໍາຂອງການລົງໂທດປະຫານຊີວິດ ແລະຄ່າຮຽນ. ຮູບແບບດັ່ງກ່າວໄດ້ຮັບການຝຶກອົບຮົມກ່ຽວກັບສະຖາປັດຕະຍະກໍາທີ່ໃຊ້ Convolutional Neural Networks (CNNs) ແລະ ຄວາມຊົງຈໍາໄລຍະສັ້ນ (LSTM), ແລະບັນລຸອັດຕາຄວາມຖືກຕ້ອງຂອງລາຍງານຂອງ 98%.

ເຖິງແມ່ນວ່າຈຸດປະສົງທີ່ລະບຸໄວ້ຂອງການເຮັດວຽກອ້າງເຖິງການສື່ສານຂອງລູກຄ້າ, ນັກຄົ້ນຄວ້າຍອມຮັບວ່າມັນເຮັດວຽກຢ່າງມີປະສິດທິພາບເປັນເຄື່ອງກວດຈັບຕົວະຈຸດປະສົງທົ່ວໄປ:

'ການຄົ້ນພົບແມ່ນໃຊ້ໄດ້ກັບຂະບວນການບໍລິການທີ່ຫຼາກຫຼາຍ ແລະໂດຍສະເພາະທີ່ເປັນປະໂຫຍດສໍາລັບການຕິດຕໍ່ພົວພັນກັບລູກຄ້າທັງໝົດທີ່ເກີດຂຶ້ນຜ່ານທາງໂທລະສັບ. ສູດການຄິດໄລ່ທີ່ນໍາສະເຫນີສາມາດຖືກນໍາໃຊ້ໃນທຸກສະຖານະການທີ່ມັນເປັນປະໂຫຍດສໍາລັບຕົວແທນທີ່ຈະຮູ້ວ່າລູກຄ້າກໍາລັງເວົ້າກັບນາງ / ຄວາມເຊື່ອຫມັ້ນຂອງລາວ.

'ຕົວຢ່າງນີ້ສາມາດນໍາໄປສູ່ການຫຼຸດຜ່ອນການຮຽກຮ້ອງປະກັນໄພທີ່ຫນ້າສົງໄສ, ຫຼືຄໍາຖະແຫຼງທີ່ບໍ່ມີຄວາມຈິງໃນການສໍາພາດວຽກ. ນີ້ຈະບໍ່ພຽງແຕ່ຫຼຸດຜ່ອນການສູນເສຍການດໍາເນີນງານສໍາລັບບໍລິສັດບໍລິການ, ແຕ່ຍັງຊຸກຍູ້ໃຫ້ລູກຄ້າມີຄວາມຈິງຫຼາຍຂຶ້ນ.

ການສ້າງຊຸດຂໍ້ມູນ

ໃນເມື່ອບໍ່ມີຊຸດຂໍ້ມູນທີ່ເຫມາະສົມກັບສາທາລະນະໃນພາສາເຢຍລະມັນ, ນັກຄົ້ນຄວ້າ - ຈາກ Neu-Ulm University of Applied Sciences (HNU) - ໄດ້ສ້າງເອກະສານແຫຼ່ງຂອງຕົນເອງ. Fliers ໄດ້ຖືກຈັດພີມມາຢູ່ໃນມະຫາວິທະຍາໄລແລະໂຮງຮຽນທ້ອງຖິ່ນ, ໂດຍມີອາສາສະຫມັກ 40 ຄົນທີ່ຖືກຄັດເລືອກດ້ວຍອາຍຸຕໍາ່ສຸດທີ່ 16. ອາສາສະຫມັກໄດ້ຮັບຄ່າຈ້າງດ້ວຍບັດ voucher Amazon 10 ເອີໂຣ.

ກອງປະຊຸມໄດ້ດໍາເນີນຢູ່ໃນຮູບແບບສະໂມສອນການໂຕ້ວາທີທີ່ຖືກອອກແບບມາເພື່ອໃຫ້ມີຄວາມຄິດເຫັນແລະກະຕຸ້ນການຕອບສະຫນອງທີ່ເຂັ້ມແຂງກ່ຽວກັບຫົວຂໍ້ incendiary, ປະສິດທິຜົນການສ້າງແບບຈໍາລອງຄວາມກົດດັນທີ່ສາມາດເກີດຂື້ນໃນການສົນທະນາຂອງລູກຄ້າທີ່ມີບັນຫາທາງໂທລະສັບ.

ຫົວຂໍ້ທີ່ນັກອາສາສະຫມັກໄດ້ເວົ້າຢ່າງເສລີເປັນເວລາ XNUMX ນາທີຕໍ່ສາທາລະນະແມ່ນ:

– ຄວນມີການລົງໂທດປະຫານຊີວິດ ແລະການປະຫານຊີວິດສາທາລະນະຄືນໃໝ່ໃນເຢຍລະມັນບໍ?
– ຄວນເກັບຄ່າຮຽນໃນເຢຍລະມັນບໍ?
– ຄວນໃຊ້ຢາແຂງ ເຊັ່ນ ເຮໂຣອີນ ແລະ ເມໂທຣອີນ ຖືກຕ້ອງຕາມກົດໝາຍໃນເຢຍລະມັນບໍ?
– ຄວນຫ້າມຮ້ານອາຫານທີ່ມີອາຫານຈານດ່ວນທີ່ບໍ່ດີຕໍ່ສຸຂະພາບ, ເຊັ່ນ McDonald's ຫຼື Burger King, ຄວນຖືກຫ້າມໃນເຢຍລະມັນ?

ການປະມວນຜົນກ່ອນ

ໂຄງການດັ່ງກ່າວໄດ້ແນະນໍາການວິເຄາະລັກສະນະຂອງການປາກເວົ້າສຽງໃນວິທີການຮັບຮູ້ສຽງເວົ້າອັດຕະໂນມັດ (ASR) ໃນວິທີການ NLP (ທີ່ການປາກເວົ້າແມ່ນການວິເຄາະໃນລະດັບພາສາ, ແລະ 'ອຸນຫະພູມ' ຂອງການສົນທະນາໂດຍກົງຈາກການນໍາໃຊ້ພາສາ).

ຕົວຢ່າງທີ່ໄດ້ຮັບການປຸງແຕ່ງກ່ອນການປຸງແຕ່ງໄດ້ຮັບການວິເຄາະເບື້ອງຕົ້ນໂດຍຜ່ານຕົວສໍາປະສິດ Cepstral ຄວາມຖີ່ Mel-frequency (MFCCs), ເປັນວິທີທີ່ເຊື່ອຖືໄດ້, ເກົ່າແກ່ທີ່ຍັງນິຍົມຫຼາຍໃນການວິເຄາະຄໍາເວົ້າ. ນັບຕັ້ງແຕ່ວິທີການໄດ້ຖືກສະເຫນີຄັ້ງທໍາອິດໃນປີ 1980, ມັນໂດຍສະເພາະແມ່ນການປະຫຍັດກັບຊັບພະຍາກອນຄອມພິວເຕີ້ໃນແງ່ຂອງການຮັບຮູ້ຮູບແບບທີ່ເກີດຂື້ນໃນຄໍາເວົ້າ, ແລະມີຄວາມທົນທານຕໍ່ລະດັບຕ່າງໆຂອງຄຸນນະພາບການຈັບສຽງ. ເນື່ອງຈາກວ່າກອງປະຊຸມໄດ້ຖືກປະຕິບັດຜ່ານເວທີ VOIP ໃນເງື່ອນໄຂການປິດລ້ອມໃນເດືອນທັນວາ 2020, ມັນເປັນສິ່ງສໍາຄັນທີ່ຈະຕ້ອງມີກອບການບັນທຶກທີ່ສາມາດບັນທຶກສຽງທີ່ມີຄຸນນະພາບທີ່ບໍ່ດີເມື່ອມີຄວາມຈໍາເປັນ.

ເປັນທີ່ໜ້າສົນໃຈທີ່ສັງເກດວ່າສອງຂໍ້ຈຳກັດທາງເທັກນິກທີ່ໄດ້ກ່າວມາຂ້າງເທິງ (ຊັບພະຍາກອນ CPU ຈຳກັດໃນຕົ້ນຊຸມປີ 1980 ແລະຄວາມແປກປະຫຼາດຂອງການເຊື່ອມຕໍ່ VOIP ໃນສະພາບເຄືອຂ່າຍທີ່ແອອັດ) ສົມທົບກັນຢູ່ທີ່ນີ້ເພື່ອສ້າງສິ່ງທີ່ເປັນແບບຈໍາລອງ 'ທີ່ແຕກແຍກທາງເທັກນິກ' ທີ່ແຂງແຮງຜິດປົກກະຕິ. ໃນກໍລະນີທີ່ບໍ່ມີເງື່ອນໄຂການເຮັດວຽກທີ່ເຫມາະສົມແລະຊັບພະຍາກອນລະດັບສູງ - ການຈໍາລອງສະຖານທີ່ເປົ້າຫມາຍສໍາລັບສູດການຄິດໄລ່ຜົນໄດ້ຮັບ.

ຫຼັງຈາກນັ້ນ, ການຫັນປ່ຽນ Fourier ໄວ (ລົ້ມລົງ) algorithm ໄດ້ຖືກນຳໃຊ້ຕໍ່ກັບພາກສ່ວນສຽງເພື່ອສະໜອງໂປຣໄຟລຂອງແຕ່ລະ 'ກອບສຽງ', ກ່ອນທີ່ຈະສ້າງແຜນທີ່ຂັ້ນສຸດທ້າຍໃຫ້ກັບ Mel Scale.

ການຝຶກອົບຮົມ, ຜົນໄດ້ຮັບແລະຂໍ້ຈໍາກັດ

ໃນລະຫວ່າງການຝຶກອົບຮົມ, vectors ຄຸນນະສົມບັດທີ່ສະກັດໄດ້ຖືກສົ່ງກັບຊັ້ນເຄືອຂ່າຍ convolutional ທີ່ໃຊ້ເວລາແຈກຢາຍ, ແປແລະຫຼັງຈາກນັ້ນສົ່ງກັບຊັ້ນ LSTM.

ສະຖາປັດຕະຍະກໍາຂອງຂະບວນການຝຶກອົບຮົມສໍາລັບເຄື່ອງກວດຈັບຄວາມຈິງ AI. ທີ່ມາ: https://arxiv.org/ftp/arxiv/papers/2107/2107.11175.pdf

ສຸດທ້າຍ, neurons ທັງຫມົດແມ່ນເຊື່ອມຕໍ່ກັນເພື່ອສ້າງການຄາດຄະເນສອງເທົ່າທີ່ຜູ້ເວົ້າເວົ້າສິ່ງທີ່ພວກເຂົາເຊື່ອວ່າເປັນຄວາມຈິງ.

ໃນການທົດສອບຫຼັງຈາກການຝຶກອົບຮົມ, ລະບົບໄດ້ບັນລຸລະດັບຄວາມຖືກຕ້ອງເຖິງ 98.91% ໃນແງ່ຂອງການແນມເບິ່ງຄວາມຕັ້ງໃຈ (ບ່ອນທີ່ເນື້ອຫາທີ່ເວົ້າອາດຈະບໍ່ສະທ້ອນເຖິງຄວາມຕັ້ງໃຈ). ນັກຄົ້ນຄວ້າພິຈາລະນາວ່າວຽກງານດັ່ງກ່າວສະແດງໃຫ້ເຫັນການກໍານົດຄວາມເຊື່ອຫມັ້ນໂດຍອີງໃສ່ຮູບແບບສຽງ, ແລະມັນສາມາດບັນລຸໄດ້ໂດຍບໍ່ມີການທໍາລາຍພາສາແບບ NLP.

ໃນແງ່ຂອງຂໍ້ຈໍາກັດ, ນັກຄົ້ນຄວ້າຍອມຮັບວ່າຕົວຢ່າງການທົດສອບແມ່ນນ້ອຍ. ເຖິງແມ່ນວ່າເອກະສານບໍ່ໄດ້ລະບຸຢ່າງຊັດເຈນ, ຂໍ້ມູນການທົດສອບປະລິມານຕ່ໍາສາມາດຫຼຸດຜ່ອນການນໍາໃຊ້ໃນພາຍຫລັງໃນກໍລະນີທີ່ສົມມຸດຕິຖານ, ລັກສະນະສະຖາປັດຕະຍະກໍາແລະຂະບວນການຝຶກອົບຮົມໂດຍທົ່ວໄປແມ່ນເກີນພໍດີກັບຂໍ້ມູນ. ເອກະສານໃຫ້ຂໍ້ສັງເກດວ່າ XNUMX ໃນ XNUMX ຮູບແບບທີ່ສ້າງຂຶ້ນໃນທົ່ວໂຄງການໄດ້ຖືກປັບປຸງເກີນຂອບເຂດໃນຂະບວນການຮຽນຮູ້, ແລະມີວຽກງານເພີ່ມເຕີມທີ່ຈະຕ້ອງໄດ້ເຮັດໃນການກໍານົດການນໍາໃຊ້ຕົວກໍານົດການທົ່ວໄປຂອງຕົວແບບ.

ນອກຈາກນັ້ນ, ການຄົ້ນຄວ້າລັກສະນະນີ້ຕ້ອງພິຈາລະນາລັກສະນະແຫ່ງຊາດ, ແລະເອກະສານສັງເກດເຫັນວ່າວິຊາເຍຍລະມັນທີ່ກ່ຽວຂ້ອງກັບການຜະລິດຂໍ້ມູນອາດມີຮູບແບບການສື່ສານທີ່ບໍ່ສາມາດຈໍາລອງໄດ້ໂດຍກົງໃນທົ່ວວັດທະນະທໍາ - ສະຖານະການທີ່ອາດຈະເກີດຂື້ນໃນການສຶກສາດັ່ງກ່າວໃນ. ຊາດໃດນຶ່ງ.