ປັນຍາປະດິດ

ຕົວແບບສະຖິຕິຊ່ວຍກວດຫາຂໍ້ມູນທີ່ບໍ່ຖືກຕ້ອງໃນສື່ສັງຄົມ

ການປັບປຸງ on ເດືອນທັນວາ 9, 2022

ອາຈານສອນຄະນິດສາດຈາກມະຫາວິທະຍາໄລອາເມລິກາ, ພ້ອມດ້ວຍທີມງານຮ່ວມມືຂອງລາວ, ໄດ້ພັດທະນາຕົວແບບສະຖິຕິທີ່ສາມາດກວດຫາຂໍ້ມູນຜິດໆໃນຂໍ້ຄວາມໃນສື່ສັງຄົມ.

ການຮຽນຮູ້ເຄື່ອງຈັກແມ່ນຖືກນໍາໃຊ້ຫຼາຍຂຶ້ນເພື່ອຢຸດການແຜ່ກະຈາຍຂອງຂໍ້ມູນທີ່ບໍ່ຖືກຕ້ອງ, ແຕ່ຍັງມີອຸປະສັກໃຫຍ່ທີ່ກ່ຽວຂ້ອງກັບບັນຫາກ່ອງດໍາທີ່ເກີດຂື້ນ. ນີ້ຫມາຍເຖິງເວລາທີ່ນັກຄົ້ນຄວ້າບໍ່ເຂົ້າໃຈວ່າເຄື່ອງຈັກມາຮອດການຕັດສິນໃຈດຽວກັນກັບຄູຝຶກຂອງມະນຸດແນວໃດ.

ກວດພົບຂໍ້ມູນທີ່ບໍ່ຖືກຕ້ອງດ້ວຍຕົວແບບສະຖິຕິ

Zois Boukouvalas, ຜູ້ຊ່ວຍອາຈານສອນວິຊາຄະນິດສາດ ແລະສະຖິຕິຂອງ AU, ໄດ້ໃຊ້ຊຸດຂໍ້ມູນ Twitter ທີ່ມີຂໍ້ມູນຜິດໆກ່ຽວກັບ COVID-19 ເພື່ອສະແດງໃຫ້ເຫັນວ່າຕົວແບບສະຖິຕິສາມາດກວດຫາຂໍ້ມູນທີ່ບໍ່ຖືກຕ້ອງໃນສື່ສັງຄົມໃນລະຫວ່າງເຫດການໃຫຍ່ໆ ເຊັ່ນ: ໂລກລະບາດ ຫຼືໄພພິບັດ.

Boukouvalas ແລະເພື່ອນຮ່ວມງານຂອງລາວ, ເຊິ່ງລວມທັງນັກສຶກສາ AU Caitlin Moroney ແລະອາຈານວິທະຍາສາດຄອມພິວເຕີ Nathalie Japkowics, ໄດ້ສະແດງໃຫ້ເຫັນວິທີການຕັດສິນໃຈຂອງຕົວແບບສອດຄ່ອງກັບມະນຸດ. ການຄົ້ນຄວ້າຈັດພີມມາໃຫມ່.

ທ່ານ Boukouvalas ກ່າວວ່າ "ພວກເຮົາຢາກຮູ້ວ່າເຄື່ອງຈັກກໍາລັງຄິດແນວໃດໃນເວລາທີ່ມັນເຮັດການຕັດສິນໃຈ, ແລະແນວໃດແລະເປັນຫຍັງມັນຈຶ່ງເຫັນດີກັບມະນຸດທີ່ໄດ້ຝຶກອົບຮົມມັນ," Boukouvalas ເວົ້າ. "ພວກເຮົາບໍ່ຕ້ອງການບລັອກບັນຊີສື່ສັງຄົມຂອງຜູ້ໃດຜູ້ນຶ່ງເພາະວ່າຕົວແບບດັ່ງກ່າວເຮັດໃຫ້ການຕັດສິນໃຈທີ່ລໍາອຽງ."

ວິທີການທີ່ໃຊ້ໂດຍທີມງານແມ່ນປະເພດຂອງການຮຽນຮູ້ເຄື່ອງຈັກທີ່ອີງໃສ່ສະຖິຕິ. ແບບຈໍາລອງສະຖິຕິມີປະສິດຕິຜົນແລະສະຫນອງວິທີການອື່ນເພື່ອຕ້ານກັບຂໍ້ມູນທີ່ບໍ່ຖືກຕ້ອງ.

ຮູບແບບດັ່ງກ່າວໄດ້ບັນລຸການປະຕິບັດການຄາດຄະເນສູງແລະຈັດປະເພດຊຸດການທົດສອບຂອງ 112 tweets ທີ່ແທ້ຈິງແລະຂໍ້ມູນທີ່ບໍ່ຖືກຕ້ອງທີ່ມີຄວາມຖືກຕ້ອງເກືອບ 90%.

ທ່ານ Boukouvalas ກ່າວຕື່ມວ່າ "ສິ່ງທີ່ສໍາຄັນກ່ຽວກັບການຄົ້ນພົບນີ້ແມ່ນວ່າຕົວແບບຂອງພວກເຮົາໄດ້ບັນລຸຄວາມຖືກຕ້ອງໃນຂະນະທີ່ສະເຫນີຄວາມໂປ່ງໃສກ່ຽວກັບວິທີການກວດພົບ tweets ທີ່ເປັນຂໍ້ມູນທີ່ບໍ່ຖືກຕ້ອງ," Boukouvalas ກ່າວຕໍ່ໄປ. "ວິທີການຮຽນຮູ້ແບບເລິກເຊິ່ງບໍ່ສາມາດບັນລຸຄວາມຖືກຕ້ອງປະເພດນີ້ດ້ວຍຄວາມໂປ່ງໃສ."

ການຝຶກອົບຮົມແລະການກະກຽມຕົວແບບ

ນັກຄົ້ນຄວ້າໄດ້ກະກຽມເພື່ອຝຶກອົບຮົມຮູບແບບດັ່ງກ່າວກ່ອນທີ່ຈະທົດສອບມັນຢູ່ໃນຊຸດຂໍ້ມູນນັບຕັ້ງແຕ່ຂໍ້ມູນທີ່ສະຫນອງໃຫ້ໂດຍມະນຸດສາມາດແນະນໍາຄວາມລໍາອຽງແລະກ່ອງດໍາ.

tweets ໄດ້ຖືກຕິດສະຫຼາກໂດຍນັກຄົ້ນຄວ້າວ່າເປັນຂໍ້ມູນທີ່ບໍ່ຖືກຕ້ອງຫຼືຕົວຈິງໂດຍອີງໃສ່ກົດລະບຽບທີ່ກໍານົດໄວ້ລ່ວງຫນ້າກ່ຽວກັບພາສາທີ່ໃຊ້ໃນຂໍ້ມູນທີ່ບໍ່ຖືກຕ້ອງ. ທີມງານຍັງໄດ້ພິຈາລະນາ nuances ໃນພາສາຂອງມະນຸດແລະລັກສະນະພາສາທີ່ເຊື່ອມຕໍ່ກັບຂໍ້ມູນຂ່າວສານທີ່ບໍ່ຖືກຕ້ອງ.

ກ່ອນທີ່ຈະຝຶກອົບຮົມຮູບແບບ, ສາດສະດາຈານສັງຄົມພາສາສາດ Christine Mallinson ຈາກມະຫາວິທະຍາໄລ Maryland Baltimore County ໄດ້ກໍານົດ tweets ສໍາລັບຮູບແບບການຂຽນທີ່ກ່ຽວຂ້ອງກັບຂໍ້ມູນທີ່ບໍ່ຖືກຕ້ອງ, ຄວາມລໍາອຽງ, ແລະແຫຼ່ງທີ່ເຊື່ອຖືໄດ້ຫນ້ອຍໃນສື່ຂ່າວ.

Japkowicz ກ່າວວ່າ "ເມື່ອພວກເຮົາເພີ່ມວັດສະດຸປ້ອນເຫຼົ່ານັ້ນເຂົ້າໄປໃນຕົວແບບ, ມັນພະຍາຍາມເຂົ້າໃຈປັດໃຈພື້ນຖານທີ່ນໍາໄປສູ່ການແຍກຂໍ້ມູນທີ່ດີແລະບໍ່ດີ," Japkowicz ເວົ້າ. "ມັນແມ່ນການຮຽນຮູ້ສະພາບການແລະວິທີທີ່ຄໍາສັບຕ່າງໆພົວພັນກັບ."

ນັກຄົ້ນຄວ້າໃນປັດຈຸບັນຈະຊອກຫາການປັບປຸງການໂຕ້ຕອບຜູ້ໃຊ້ສໍາລັບຮູບແບບ, ເຊັ່ນດຽວກັນກັບຄວາມສາມາດໃນການກວດສອບຂໍ້ມູນທີ່ບໍ່ຖືກຕ້ອງໃນຂໍ້ຄວາມສື່ມວນຊົນສັງຄົມທີ່ປະກອບມີຮູບພາບຫຼືມັນຕິມີເດຍອື່ນໆ. ຮູບແບບສະຖິຕິຈະຈໍາເປັນຕ້ອງໄດ້ຮຽນຮູ້ວິທີການຫຼາກຫຼາຍຂອງອົງປະກອບທີ່ແຕກຕ່າງກັນພົວພັນກັບກັນແລະກັນເພື່ອສ້າງຂໍ້ມູນທີ່ບໍ່ຖືກຕ້ອງ.

ທັງ Boukouvalas ແລະ Japkowicz ເວົ້າວ່າຄວາມສະຫຼາດຂອງມະນຸດແລະການຮູ້ຂ່າວແມ່ນກຸນແຈເພື່ອຢຸດການແຜ່ກະຈາຍຂອງຂໍ້ມູນທີ່ບໍ່ຖືກຕ້ອງ.

ທ່ານ Boukouvalas ກ່າວວ່າ "ໂດຍຜ່ານວຽກງານຂອງພວກເຮົາ, ພວກເຮົາອອກແບບເຄື່ອງມືໂດຍອີງໃສ່ການຮຽນຮູ້ເຄື່ອງຈັກເພື່ອເຕືອນແລະໃຫ້ຄວາມຮູ້ແກ່ປະຊາຊົນເພື່ອລົບລ້າງຂໍ້ມູນທີ່ບໍ່ຖືກຕ້ອງ, ແຕ່ພວກເຮົາເຊື່ອຢ່າງຫນັກແຫນ້ນວ່າມະນຸດຕ້ອງມີບົດບາດຢ່າງຫ້າວຫັນໃນການບໍ່ເຜີຍແຜ່ຂໍ້ມູນທີ່ບໍ່ຖືກຕ້ອງໃນສະຖານທີ່ທໍາອິດ," Boukouvalas ເວົ້າ.