ປັນຍາປະດິດ

ການຮຽນຮູ້ເຄື່ອງຈັກສະກັດຂໍ້ມູນການໂຈມຕີຈາກບົດລາຍງານໄພຂົ່ມຂູ່ Verbose

ການປັບປຸງ on ເດືອນທັນວາ 9, 2022

ການຄົ້ນຄວ້າໃຫມ່ຂອງມະຫາວິທະຍາໄລ Chicago ສະແດງໃຫ້ເຫັນເຖິງຄວາມຂັດແຍ້ງທີ່ເກີດຂື້ນໃນສິບປີທີ່ຜ່ານມາລະຫວ່າງຜົນປະໂຫຍດ SEO ຂອງເນື້ອຫາແບບຍາວ, ແລະຄວາມຫຍຸ້ງຍາກທີ່ລະບົບການຮຽນຮູ້ເຄື່ອງຈັກມີຂໍ້ມູນທີ່ສໍາຄັນຈາກມັນ.

ໃນການພັດທະນາ ລະບົບການວິເຄາະ NLP ເພື່ອສະກັດຂໍ້ມູນໄພຂົ່ມຂູ່ທີ່ສໍາຄັນຈາກ Cyber Threat Intelligence (CTI) ລາຍງານ, ນັກຄົ້ນຄວ້າ Chicago ໄດ້ປະເຊີນກັບສາມບັນຫາ: ບົດລາຍງານປົກກະຕິແລ້ວແມ່ນຍາວຫຼາຍ, ມີພຽງແຕ່ພາກສ່ວນຂະຫນາດນ້ອຍທີ່ອຸທິດຕົນເພື່ອພຶດຕິກໍາການໂຈມຕີຕົວຈິງ; ຮູບແບບແມ່ນມີຄວາມຫນາແຫນ້ນແລະສັບສົນທາງດ້ານໄວຍາກອນ, ມີຂໍ້ມູນສະເພາະຂອງໂດເມນທີ່ກວ້າງຂວາງທີ່ສົມມຸດວ່າຄວາມຮູ້ເບື້ອງຕົ້ນຢູ່ໃນສ່ວນຂອງຜູ້ອ່ານ; ແລະເອກະສານຕ້ອງການຄວາມຮູ້ຄວາມສໍາພັນຂ້າມໂດເມນ, ເຊິ່ງຕ້ອງຖືກ 'ຈື່' ເພື່ອເຂົ້າໃຈມັນໃນສະພາບການ (a ບັນຫາຄົງທີ່, ນັກຄົ້ນຄວ້າສັງເກດເຫັນ).

ລາຍງານໄພຂົ່ມຂູ່ລົມຍາວ

ບັນຫາຕົ້ນຕໍແມ່ນ verbosity. ຕົວຢ່າງ, ເຈ້ຍ Chicago ສັງເກດວ່າໃນບັນດາ 42 ໜ້າ 2019 ຂອງ ClearSky ບົດລາຍງານໄພຂົ່ມຂູ່ ສໍາລັບ DustySky (aka NeD Worm) malware, ພຽງແຕ່ 11 ປະໂຫຍກຕົວຈິງແລ້ວຈັດການກັບແລະກໍານົດພຶດຕິກໍາການໂຈມຕີ.

ອຸປະສັກທີສອງແມ່ນຄວາມຊັບຊ້ອນຂອງຂໍ້ຄວາມ, ແລະ, ປະສິດທິຜົນ, ຄວາມຍາວຂອງປະໂຫຍກ: ນັກຄົ້ນຄວ້າສັງເກດເຫັນວ່າໃນບັນດາບົດລາຍງານໄພຂົ່ມຂູ່ 4020 ຈາກສູນລາຍງານໄພຂົ່ມຂູ່ຂອງ Microsoft, ປະໂຫຍກສະເລ່ຍປະກອບມີ 52 ຄໍາ - ພຽງແຕ່ເກົ້າສັ້ນຂອງຄວາມຍາວຂອງປະໂຫຍກສະເລ່ຍ. 500 ປີກ່ອນຫນ້ານີ້ (ໃນແງ່ຂອງຄວາມຈິງທີ່ວ່າຄວາມຍາວຂອງປະໂຫຍກມີ ຫຼຸດລົງ 75% ຕັ້ງແຕ່ນັ້ນມາ).

ແນວໃດກໍ່ຕາມ, ເອກະສານໄດ້ໂຕ້ແຍ້ງວ່າປະໂຫຍກທີ່ຍາວເຫຼົ່ານີ້ເປັນສິ່ງຈໍາເປັນ 'ຫຍໍ້ຫນ້າທີ່ຖືກບີບອັດ' ໃນຕົວຂອງມັນເອງ, ເຕັມໄປດ້ວຍປະໂຫຍກ, adverbs ແລະ adjectives ທີ່ກວມເອົາຄວາມຫມາຍຫຼັກຂອງຂໍ້ມູນ; ແລະວ່າປະໂຫຍກມັກຈະຂາດເຄື່ອງໝາຍວັກຕອນທຳມະດາພື້ນຖານທີ່ NLP ລະບົບເຊັ່ນ ສະປາຊີ, ສະແຕນຟອດແລະ NLTK ອີງໃສ່ຄວາມຕັ້ງໃຈ infer ຫຼືສະກັດຂໍ້ມູນຍາກ.

NLP ເພື່ອສະກັດຂໍ້ມູນໄພຂົ່ມຂູ່ Salient

ທໍ່ການຮຽນຮູ້ເຄື່ອງຈັກທີ່ນັກຄົ້ນຄວ້າ Chicago ໄດ້ພັດທະນາເພື່ອແກ້ໄຂນີ້ເອີ້ນວ່າ EXTRACTOR, ແລະນໍາໃຊ້ເຕັກນິກ NLP ເພື່ອສ້າງກາຟທີ່ກັ່ນແລະສະຫຼຸບພຶດຕິກໍາການໂຈມຕີຈາກບົດລາຍງານທີ່ມີຮູບແບບຍາວ, ການສົນທະນາ. ຂະບວນການຍົກເລີກການປະຍຸກປະຫວັດສາດ, ການເລົ່າເລື່ອງ ແລະແມ້ກະທັ້ງການປະດັບປະດາທາງພູມສາດທີ່ສ້າງເປັນ 'ເລື່ອງ' ທີ່ມີສ່ວນຮ່ວມ ແລະຄົບຖ້ວນໂດຍຄ່າໃຊ້ຈ່າຍໃນການໃຫ້ຄວາມສໍາຄັນຢ່າງຈະແຈ້ງຂອງການໂຫຼດຂໍ້ມູນ.

ທີ່ມາ: https://arxiv.org/pdf/2104.08618.pdf

ເນື່ອງຈາກສະພາບການແມ່ນສິ່ງທ້າທາຍດັ່ງກ່າວໃນບົດລາຍງານ CTI verbose ແລະ prolix, ນັກຄົ້ນຄວ້າໄດ້ເລືອກ ເບີ (Bidirectional Encoder Representations from Transformer) ຮູບແບບການເປັນຕົວແທນຂອງພາສາຫຼາຍກວ່າຂອງ Google Word2Vec ຫຼື GloVe ຂອງ Stanford (Vectors ທົ່ວໂລກສໍາລັບການເປັນຕົວແທນຄໍາສັບ).

BERT ປະເມີນຄໍາເວົ້າຈາກສະພາບການອ້ອມຂ້າງຂອງພວກເຂົາ, ແລະຍັງພັດທະນາ ການຝັງ ສໍາລັບຄໍາຍ່ອຍ (ie ເປີດຕົວ, ການເປີດຕົວ ແລະ ການເປີດຕົວ ທັງ ຫມົດ ລໍາ ຕົ້ນ ລົງ ກັບ ເປີດຕົວ). ນີ້ຊ່ວຍໃຫ້ EXTRACTOR ຮັບມືກັບຄໍາສັບດ້ານວິຊາການທີ່ບໍ່ມີຢູ່ໃນຮູບແບບການຝຶກອົບຮົມຂອງ BERT, ແລະຈັດປະເພດປະໂຫຍກທີ່ເປັນ 'ຜະລິດ' (ປະກອບດ້ວຍຂໍ້ມູນທີ່ກ່ຽວຂ້ອງ) ຫຼື 'ບໍ່ເປັນຜົນດີ'.

ການເພີ່ມຄໍາສັບທ້ອງຖິ່ນ

ແນ່ນອນວ່າບາງຄວາມເຂົ້າໃຈຂອງໂດເມນສະເພາະຕ້ອງໄດ້ຮັບການປະສົມປະສານເຂົ້າໃນທໍ່ NLP ທີ່ຈັດການກັບວັດສະດຸຂອງປະເພດນີ້, ເພາະວ່າຮູບແບບຄໍາທີ່ມີຄວາມກ່ຽວຂ້ອງສູງເຊັ່ນ: ທີ່ຢູ່ IP ແລະຊື່ຂະບວນການທາງວິຊາການຕ້ອງບໍ່ຖືກຖິ້ມອອກ.

ພາກສ່ວນຕໍ່ມາຂອງຂະບວນການໃຊ້ a BiLSTM (ສອງທິດທາງ LSTM) ເຄືອຂ່າຍເພື່ອແກ້ໄຂຄໍາສັບ verbosity, ມາຈາກບົດບາດ semantic ສໍາລັບພາກສ່ວນປະໂຫຍກ, ກ່ອນທີ່ຈະເອົາຄໍາທີ່ບໍ່ມີປະໂຫຍດ. BiLSTM ແມ່ນ ເໝາະ ສົມທີ່ສຸດ ສຳ ລັບສິ່ງນີ້, ເພາະວ່າມັນສາມາດພົວພັນກັບການເພິ່ງພາອາໄສທາງໄກທີ່ປາກົດຢູ່ໃນເອກະສານ verbose, ບ່ອນທີ່ຄວາມເອົາໃຈໃສ່ແລະການຮັກສາໄວ້ຫຼາຍກວ່າເກົ່າແມ່ນມີຄວາມ ຈຳ ເປັນເພື່ອຕັດເນື້ອໃນ.

EXTRACTOR ກໍານົດບົດບາດ semantic ແລະຄວາມສໍາພັນລະຫວ່າງຄໍາສັບຕ່າງໆ, ໂດຍມີພາລະບົດບາດທີ່ສ້າງຂຶ້ນໂດຍຄໍາບັນຍາຍຂອງ Proposition Bank (PropBank).

EXTRACTOR ກໍານົດພາລະບົດບາດ semantic ແລະຄວາມສໍາພັນລະຫວ່າງຄໍາສັບຕ່າງໆ, ກັບພາລະບົດບາດທີ່ສ້າງຂຶ້ນໂດຍທະນາຄານ Proposition (PropBank) ຄໍາບັນຍາຍ.

ໃນການທົດສອບ, EXTRACTOR (ໄດ້ຮັບທຶນບາງສ່ວນໂດຍ DARPA) ໄດ້ຖືກພົບເຫັນວ່າມີຄວາມສາມາດຈັບຄູ່ການສະກັດຂໍ້ມູນຂອງມະນຸດຈາກບົດລາຍງານ DARPA. ລະບົບດັ່ງກ່າວຍັງດໍາເນີນການຕໍ່ກັບບົດລາຍງານທີ່ບໍ່ມີໂຄງສ້າງຫຼາຍຈາກ Microsoft Security Intelligence ແລະ Encyclopedia TrendMicro Threat, ສົບຜົນສໍາເລັດການສະກັດເອົາຂໍ້ມູນທີ່ສໍາຄັນໃນກໍລະນີສ່ວນໃຫຍ່.

ນັກຄົ້ນຄວ້າໄດ້ຍອມຮັບວ່າການປະຕິບັດຂອງ EXTRACTOR ມີແນວໂນ້ມທີ່ຈະຫຼຸດລົງໃນເວລາທີ່ຄວາມພະຍາຍາມທີ່ຈະກັ່ນການກະທໍາທີ່ເກີດຂື້ນໃນຫຼາຍໆປະໂຫຍກຫຼືວັກ, ເຖິງແມ່ນວ່າການປັບລະບົບໃຫມ່ເພື່ອຮອງຮັບບົດລາຍງານອື່ນໆແມ່ນຊີ້ໃຫ້ເຫັນເປັນວິທີທາງຂ້າງຫນ້າຢູ່ທີ່ນີ້. ແນວໃດກໍ່ຕາມ, ອັນນີ້ເປັນສິ່ງຈໍາເປັນທີ່ຈະກັບຄືນສູ່ການຕິດສະຫຼາກທີ່ນຳພາໂດຍມະນຸດໂດຍຕົວແທນ.

ຄວາມຍາວ == ອຳນາດ?

ມັນຫນ້າສົນໃຈທີ່ຈະສັງເກດເຫັນຄວາມເຄັ່ງຕຶງຢ່າງຕໍ່ເນື່ອງລະຫວ່າງວິທີທີ່ Google's arcane SEO algorithms ເບິ່ງຄືວ່າມີ. ເນື້ອຫາທີ່ມີຮູບແບບຍາວທີ່ໄດ້ຮັບລາງວັນເພີ່ມຂຶ້ນ ໃນຊຸມປີມໍ່ໆມານີ້ (ເຖິງແມ່ນວ່າຄໍາແນະນໍາຢ່າງເປັນທາງການກ່ຽວກັບຄະແນນນີ້ ແມ່ນກົງກັນຂ້າມ), ແລະສິ່ງທ້າທາຍທີ່ນັກຄົ້ນຄວ້າ AI (ລວມທັງຫຼາຍທີ່ສໍາຄັນ ການລິເລີ່ມການຄົ້ນຄວ້າຂອງ Google) ປະເຊີນກັບຄວາມຕັ້ງໃຈໃນການຖອດລະຫັດ ແລະຂໍ້ມູນຕົວຈິງຈາກບົດຄວາມທີ່ນັບມື້ນັບຫຼາຍຂື້ນ ແລະ ມີຄວາມຍາວ.

ມັນເປັນການໂຕ້ຖຽງວ່າໃນການໃຫ້ລາງວັນເນື້ອຫາທີ່ຍາວກວ່າ, Google ຖືວ່າມີຄຸນນະພາບທີ່ສອດຄ່ອງກັນທີ່ມັນບໍ່ຈໍາເປັນຕ້ອງສາມາດກໍານົດຫຼືປະລິມານຜ່ານຂະບວນການ NLP, ຍົກເວັ້ນໂດຍການນັບຈໍານວນເວັບໄຊທ໌ອໍານາດທີ່ເຊື່ອມຕໍ່ກັບມັນ (ເປັນ 'meatware' metric, ໃນ ກໍລະນີຫຼາຍທີ່ສຸດ); ແລະດັ່ງນັ້ນມັນບໍ່ເປັນເລື່ອງແປກທີ່ຈະເຫັນຂໍ້ຄວາມຂອງ 2,500 ຄໍາຫຼືຫຼາຍກວ່ານັ້ນບັນລຸຄວາມໂດດເດັ່ນຂອງ SERPS ໂດຍບໍ່ຄໍານຶງເຖິງ 'bloat', ຕາບໃດທີ່ເນື້ອຫາພິເສດແມ່ນສະຫລາດຢ່າງກວ້າງຂວາງແລະບໍ່ລະເມີດຄໍາແນະນໍາອື່ນໆ.

ສູດຢູ່ໃສ?

ຜົນສະທ້ອນ, ການນັບຄໍາແມ່ນເພີ່ມຂຶ້ນ, ສ່ວນໜຶ່ງແມ່ນຍ້ອນ ກ ຄວາມປາຖະຫນາທີ່ແທ້ຈິງ ສໍາລັບເນື້ອໃນທີ່ມີຮູບແບບຍາວທີ່ດີ, ແຕ່ຍັງຍ້ອນວ່າ 'ການເກັບຮັກສາ' ຂໍ້ມູນບໍ່ຫຼາຍປານໃດສາມາດເພີ່ມຄວາມຍາວຂອງຊິ້ນສ່ວນໄປສູ່ມາດຕະຖານ SEO ທີ່ເຫມາະສົມ, ແລະອະນຸຍາດໃຫ້ເນື້ອຫາເລັກນ້ອຍສາມາດແຂ່ງຂັນໄດ້ເທົ່າທຽມກັນກັບຜົນຜະລິດທີ່ສູງຂຶ້ນ.

ຕົວຢ່າງຫນຶ່ງຂອງນີ້ແມ່ນສະຖານທີ່ສູດ, ເລື້ອຍໆ ຈົ່ມວ່າ of ໃນຊຸມຊົນຂ່າວແຮກເກີສໍາລັບການນໍາຫນ້າຂໍ້ມູນຫຼັກ (ສູດ) ທີ່ມີ scads ຂອງ autobiographical ຫຼືເນື້ອໃນ whimsical ອອກແບບມາເພື່ອສ້າງ 'ປະສົບການສູດອາຫານ' ທີ່ຂັບເຄື່ອນໂດຍເລື່ອງ, ແລະເພື່ອຊຸກດັນໃຫ້ສິ່ງທີ່ຖ້າບໍ່ດັ່ງນັ້ນຈະເປັນຄໍານັບຕ່ໍາຫຼາຍເຂົ້າໄປໃນ SEO. - ເປັນມິດກັບພາກພື້ນ 2,500+ ຄໍາ.

ວິທີແກ້ໄຂຕາມຂັ້ນຕອນທີ່ບໍລິສຸດຈຳນວນໜຶ່ງໄດ້ອອກມາເພື່ອສະກັດສູດອາຫານຕົວຈິງຈາກສະຖານທີ່ສູດຄຳນວນ, ລວມທັງແຫຼ່ງເປີດ. ເຄື່ອງຂູດສູດ, ແລະສານສະກັດຈາກສູດສໍາລັບ Firefox ແລະ Chrome. ການຮຽນຮູ້ເຄື່ອງຈັກຍັງມີຄວາມກັງວົນກັບເລື່ອງນີ້, ດ້ວຍວິທີການຕ່າງໆຈາກ ຍີ່ປຸ່ນ, ສະຫະລັດ ແລະ ປອກຕຸຍການ, ເຊັ່ນດຽວກັນກັບການຄົ້ນຄວ້າຈາກ Stanford, ແລະອື່ນໆ.

ໃນແງ່ຂອງບົດລາຍງານການຂົ່ມຂູ່ທີ່ໄດ້ກ່າວມາໂດຍນັກຄົ້ນຄວ້າ Chicago, ການປະຕິບັດໂດຍທົ່ວໄປຂອງການລາຍງານໄພຂົ່ມຂູ່ verbose ອາດຈະເປັນຍ້ອນສ່ວນຫນຶ່ງຂອງຄວາມຕ້ອງການເພື່ອສະທ້ອນໃຫ້ເຫັນເຖິງຂະຫນາດຂອງຜົນສໍາເລັດ (ຊຶ່ງຖ້າບໍ່ດັ່ງນັ້ນມັກຈະຖືກສະຫຼຸບໃນວັກ) ໂດຍການສ້າງຫຼາຍ. ການເທື່ອເນື່ອງຈາກຍາວປະມານມັນ, ແລະການນໍາໃຊ້ຄວາມຍາວຂອງຄໍາເປັນຕົວຊີ້ບອກສໍາລັບຂະຫນາດຂອງຄວາມພະຍາຍາມທີ່ກ່ຽວຂ້ອງ, ໂດຍບໍ່ຄໍານຶງເຖິງການນໍາໃຊ້.

ອັນທີສອງ, ໃນສະພາບອາກາດທີ່ແຫຼ່ງກໍາເນີດຂອງເລື່ອງມັກຈະເປັນ ສູນເສຍການປະຕິບັດການອ້າງອິງທີ່ບໍ່ດີ ໂດຍສໍານັກຂ່າວສານທີ່ນິຍົມ, ການຜະລິດຄໍາທີ່ມີປະລິມານທີ່ສູງກວ່ານັກຂ່າວທີ່ລາຍງານຄືນໃຫມ່ສາມາດເຮັດຊ້ໍາໄດ້ຮັບປະກັນການຊະນະ SERPS ໂດຍປະລິມານຄໍາທີ່ຊັດເຈນ, ສົມມຸດວ່າ verbosity - ໃນປັດຈຸບັນ ສິ່ງທ້າທາຍທີ່ເພີ່ມຂຶ້ນ ກັບ NLP - ແມ່ນໄດ້ຮັບລາງວັນຢ່າງແທ້ຈິງດ້ວຍວິທີນີ້.