ໄອ 101
ຂໍ້ມູນໃຫຍ່ແມ່ນຫຍັງ?
ຂໍ້ມູນໃຫຍ່ແມ່ນຫຍັງ?
"ຂໍ້ມູນໃຫຍ່" ແມ່ນ ໜຶ່ງ ໃນ ຄຳ ສັບທີ່ມັກໃຊ້ທົ່ວໄປໃນຍຸກປະຈຸບັນຂອງພວກເຮົາ, ແຕ່ມັນ ໝາຍ ຄວາມວ່າແນວໃດ?
ນີ້ແມ່ນຄຳນິຍາມໄວ, ງ່າຍດາຍຂອງຂໍ້ມູນໃຫຍ່. ຂໍ້ມູນໃຫຍ່ ແມ່ນຂໍ້ມູນທີ່ມີຂະໜາດໃຫຍ່ ແລະສັບສົນເກີນໄປທີ່ຈະຖືກຈັດການໂດຍການປະມວນຜົນຂໍ້ມູນ ແລະວິທີການເກັບຮັກສາຂໍ້ມູນແບບດັ້ງເດີມ. ໃນຂະນະທີ່ມັນເປັນຄໍານິຍາມທີ່ໄວທີ່ທ່ານສາມາດນໍາໃຊ້ເປັນ heuristic, ມັນຈະເປັນປະໂຫຍດທີ່ຈະມີຄວາມເຂົ້າໃຈເລິກເຊິ່ງກວ່າແລະຄົບຖ້ວນສົມບູນຂອງຂໍ້ມູນໃຫຍ່. ຂໍໃຫ້ພິຈາລະນາບາງແນວຄວາມຄິດທີ່ກວມເອົາຂໍ້ມູນໃຫຍ່ເຊັ່ນ: ການເກັບຮັກສາ, ໂຄງສ້າງ, ແລະການປຸງແຕ່ງ.
ຂໍ້ມູນໃຫຍ່ຂະໜາດໃດ?
ມັນບໍ່ງ່າຍດາຍຄືກັບການເວົ້າວ່າ "ຂໍ້ມູນໃດໆທີ່ມີຂະຫນາດ 'X' ແມ່ນຂໍ້ມູນໃຫຍ່", ສະພາບແວດລ້ອມທີ່ຂໍ້ມູນຈະຖືກຈັດການແມ່ນປັດໃຈສໍາຄັນທີ່ສຸດ. ການກໍານົດສິ່ງທີ່ມີຄຸນສົມບັດເປັນຂໍ້ມູນໃຫຍ່. ຂະຫນາດທີ່ຂໍ້ມູນຕ້ອງເປັນ, ເພື່ອພິຈາລະນາຂໍ້ມູນໃຫຍ່, ແມ່ນຂຶ້ນກັບບໍລິບົດ, ຫຼືວຽກງານທີ່ຂໍ້ມູນຖືກນໍາໃຊ້ໃນ. ສອງຊຸດຂໍ້ມູນທີ່ມີຂະຫນາດທີ່ແຕກຕ່າງກັນຢ່າງຫຼວງຫຼາຍສາມາດຖືວ່າເປັນ "ຂໍ້ມູນໃຫຍ່" ໃນສະພາບການທີ່ແຕກຕ່າງກັນ.
ເພື່ອໃຫ້ມີຄວາມຊັດເຈນຫຼາຍ, ຖ້າທ່ານພະຍາຍາມສົ່ງໄຟລ໌ 200 megabyte ເປັນໄຟລ໌ແນບອີເມລ໌, ທ່ານຈະບໍ່ສາມາດເຮັດໄດ້. ໃນສະພາບການນີ້, ໄຟລ໌ 200-megabyte ສາມາດຖືວ່າເປັນຂໍ້ມູນໃຫຍ່. ໃນທາງກົງກັນຂ້າມ, ການຄັດລອກໄຟລ໌ 200-megabyte ກັບອຸປະກອນອື່ນພາຍໃນ LAN ດຽວກັນອາດຈະບໍ່ໃຊ້ເວລາໃດກໍ່ຕາມ, ແລະໃນສະພາບການນັ້ນ, ມັນຈະບໍ່ຖືກຖືວ່າເປັນຂໍ້ມູນໃຫຍ່.
ຢ່າງໃດກໍຕາມ, ໃຫ້ສົມມຸດວ່າ 15 terabytes ມູນຄ່າຂອງວິດີໂອຈໍາເປັນຕ້ອງໄດ້ຮັບການປຸງແຕ່ງກ່ອນສໍາລັບການນໍາໃຊ້ໃນການຝຶກອົບຮົມຄອມພິວເຕີວິໄສທັດ. ໃນກໍລະນີນີ້, ໄຟລ໌ວິດີໂອໃຊ້ພື້ນທີ່ຫຼາຍຈົນວ່າຄອມພິວເຕີທີ່ມີປະສິດທິພາບກໍ່ຕ້ອງໃຊ້ເວລາດົນເພື່ອປະມວນຜົນພວກມັນທັງໝົດ, ແລະດັ່ງນັ້ນການປະມວນຜົນຈະຖືກແຈກຢາຍໄປທົ່ວຄອມພິວເຕີຫຼາຍໜ່ວຍທີ່ເຊື່ອມຕໍ່ກັນເພື່ອຫຼຸດເວລາປະມວນຜົນ. ຂໍ້ມູນວິດີໂອ 15 terabytes ເຫຼົ່ານີ້ຈະມີຄຸນສົມບັດເປັນຂໍ້ມູນໃຫຍ່ແນ່ນອນ.
ປະເພດຂອງໂຄງສ້າງຂໍ້ມູນໃຫຍ່
ຂໍ້ມູນໃຫຍ່ມາຢູ່ໃນສາມປະເພດໂຄງສ້າງທີ່ແຕກຕ່າງກັນ: ຂໍ້ມູນທີ່ບໍ່ມີໂຄງສ້າງ, ຂໍ້ມູນເຄິ່ງໂຄງສ້າງ, ແລະຂໍ້ມູນທີ່ມີໂຄງສ້າງ.
ຂໍ້ມູນທີ່ບໍ່ມີໂຄງສ້າງແມ່ນຂໍ້ມູນທີ່ບໍ່ມີໂຄງສ້າງທີ່ກໍານົດໄດ້, ຊຶ່ງຫມາຍຄວາມວ່າຂໍ້ມູນເປັນສິ່ງຈໍາເປັນພຽງແຕ່ຢູ່ໃນສະລອຍນ້ໍາຂະຫນາດໃຫຍ່ຫນຶ່ງ. ຕົວຢ່າງຂອງຂໍ້ມູນທີ່ບໍ່ມີໂຄງສ້າງຈະເປັນຖານຂໍ້ມູນທີ່ເຕັມໄປດ້ວຍຮູບພາບທີ່ບໍ່ມີປ້າຍຊື່.
ຂໍ້ມູນເຄິ່ງໂຄງສ້າງແມ່ນຂໍ້ມູນທີ່ບໍ່ມີໂຄງສ້າງທີ່ເປັນທາງການ, ແຕ່ມີຢູ່ໃນໂຄງສ້າງທີ່ວ່າງ. ຕົວຢ່າງ, ຂໍ້ມູນອີເມລ໌ອາດຈະນັບເປັນຂໍ້ມູນເຄິ່ງໂຄງສ້າງ, ເພາະວ່າທ່ານສາມາດອ້າງອີງເຖິງຂໍ້ມູນທີ່ບັນຈຸຢູ່ໃນອີເມວແຕ່ລະອັນ, ແຕ່ຮູບແບບຂໍ້ມູນທີ່ເປັນທາງການຍັງບໍ່ທັນໄດ້ສ້າງຕັ້ງຂຶ້ນ.
ຂໍ້ມູນທີ່ມີໂຄງສ້າງແມ່ນຂໍ້ມູນທີ່ມີໂຄງສ້າງທີ່ເປັນທາງການ, ມີຈຸດຂໍ້ມູນທີ່ຖືກຈັດປະເພດໂດຍລັກສະນະທີ່ແຕກຕ່າງກັນ. ຕົວຢ່າງຫນຶ່ງຂອງຂໍ້ມູນທີ່ມີໂຄງສ້າງແມ່ນຕາຕະລາງ excel ທີ່ມີຂໍ້ມູນຕິດຕໍ່ເຊັ່ນຊື່, ອີເມວ, ເບີໂທລະສັບແລະເວັບໄຊທ໌.
ຖ້າທ່ານຕ້ອງການອ່ານເພີ່ມເຕີມກ່ຽວກັບຄວາມແຕກຕ່າງຂອງປະເພດຂໍ້ມູນເຫຼົ່ານີ້, ໃຫ້ກວດເບິ່ງການເຊື່ອມຕໍ່ທີ່ນີ້.
Metrics ສໍາລັບການປະເມີນຂໍ້ມູນໃຫຍ່
ຂໍ້ມູນໃຫຍ່ສາມາດໄດ້ຮັບການວິເຄາະໃນສາມການວັດແທກທີ່ແຕກຕ່າງກັນ: ປະລິມານ, ຄວາມໄວ, ແລະແນວພັນ.
ປະລິມານຫມາຍເຖິງຂະຫນາດຂອງຂໍ້ມູນ. ຂະໜາດສະເລ່ຍຂອງຊຸດຂໍ້ມູນມັກຈະເພີ່ມຂຶ້ນ. ສໍາລັບຕົວຢ່າງ, ຮາດດິດທີ່ໃຫຍ່ທີ່ສຸດໃນປີ 2006 ແມ່ນຮາດດິດ 750 GB. ໃນທາງກົງກັນຂ້າມ, Facebook ຄິດວ່າຈະສ້າງຂໍ້ມູນຫຼາຍກວ່າ 500 terabytes ຕໍ່ມື້ແລະຮາດດິດຜູ້ບໍລິໂພກທີ່ໃຫຍ່ທີ່ສຸດທີ່ມີຢູ່ໃນມື້ນີ້ແມ່ນຮາດດິດ 16 terabyte. ສິ່ງທີ່ຄິດໄລ່ເປັນຂໍ້ມູນໃຫຍ່ໃນຍຸກຫນຶ່ງອາດຈະບໍ່ເປັນຂໍ້ມູນໃຫຍ່ໃນອີກ. ຂໍ້ມູນເພີ່ມຂຶ້ນໃນມື້ນີ້ເພາະວ່າສິ່ງຂອງທີ່ຢູ່ອ້ອມຮອບຕົວເຮົານັບມື້ນັບຫຼາຍຂຶ້ນມີເຊັນເຊີ, ກ້ອງຖ່າຍຮູບ, ໄມໂຄຣໂຟນ, ແລະອຸປະກອນເກັບກໍາຂໍ້ມູນອື່ນໆ.
ຄວາມໄວໝາຍເຖິງການເຄື່ອນໄຫວຂອງຂໍ້ມູນທີ່ໄວ, ຫຼືໝາຍຄວາມວ່າໃນທາງອື່ນ, ມີການສ້າງຂໍ້ມູນຫຼາຍປານໃດພາຍໃນໄລຍະເວລາທີ່ກຳນົດ. ກະແສສື່ມວນຊົນສັງຄົມສ້າງຫຼາຍຮ້ອຍພັນຂໍ້ຄວາມແລະຄໍາເຫັນທຸກໆນາທີ, ໃນຂະນະທີ່ກ່ອງຈົດຫມາຍອີເມວຂອງເຈົ້າເອງອາດຈະມີກິດຈະກໍາຫນ້ອຍລົງ. Big data streams ແມ່ນສະຕຣີມທີ່ມັກຈະຈັດການເຫດການຫຼາຍຮ້ອຍພັນ ຫຼືລ້ານໃນເວລາຈິງ. ຕົວຢ່າງຂອງກະແສຂໍ້ມູນເຫຼົ່ານີ້ແມ່ນເວທີການຫຼິ້ນເກມອອນໄລນ໌ ແລະລະບົບການເທຣດຫຼັກຊັບທີ່ມີຄວາມຖີ່ສູງ.
ຄວາມຫຼາກຫຼາຍໝາຍເຖິງປະເພດຕ່າງໆຂອງຂໍ້ມູນທີ່ມີຢູ່ໃນຊຸດຂໍ້ມູນ. ຂໍ້ມູນສາມາດເຮັດໄດ້ຈາກຫຼາຍຮູບແບບທີ່ແຕກຕ່າງກັນ, ເຊັ່ນ: ສຽງ, ວິດີໂອ, ຂໍ້ຄວາມ, ຮູບພາບ, ຫຼືຈໍານວນ serial. ໂດຍທົ່ວໄປ, ຖານຂໍ້ມູນແບບດັ້ງເດີມຖືກຈັດຮູບແບບເພື່ອຈັດການກັບຂໍ້ມູນຫນຶ່ງ, ຫຼືພຽງແຕ່ສອງສາມປະເພດ. ເວົ້າອີກຢ່າງ ໜຶ່ງ, ຖານຂໍ້ມູນແບບດັ້ງເດີມມີໂຄງສ້າງເພື່ອເກັບຂໍ້ມູນທີ່ມີຄວາມເປັນເອກະພາບແລະມີຄວາມສອດຄ່ອງ, ໂຄງສ້າງທີ່ຄາດເດົາໄດ້. ເມື່ອແອັບພລິເຄຊັນມີຄວາມຫຼາກຫຼາຍ, ເຕັມໄປດ້ວຍລັກສະນະທີ່ແຕກຕ່າງກັນ, ແລະຖືກໃຊ້ໂດຍຄົນຫຼາຍຂຶ້ນ, ຖານຂໍ້ມູນຕ້ອງພັດທະນາເພື່ອເກັບຂໍ້ມູນປະເພດຕ່າງໆຫຼາຍຂຶ້ນ. ຖານຂໍ້ມູນທີ່ບໍ່ມີໂຄງສ້າງແມ່ນເຫມາະສົມສໍາລັບການເກັບຂໍ້ມູນໃຫຍ່, ຍ້ອນວ່າພວກເຂົາສາມາດຖືຂໍ້ມູນຫຼາຍປະເພດທີ່ບໍ່ກ່ຽວຂ້ອງກັບກັນແລະກັນ.
ວິທີການຈັດການຂໍ້ມູນໃຫຍ່
ມີຫຼາຍແພລະຕະຟອມແລະເຄື່ອງມືທີ່ແຕກຕ່າງກັນທີ່ຖືກອອກແບບມາເພື່ອອໍານວຍຄວາມສະດວກໃນການວິເຄາະຂໍ້ມູນໃຫຍ່. ກຸ່ມຂໍ້ມູນໃຫຍ່ຕ້ອງໄດ້ຮັບການວິເຄາະເພື່ອສະກັດຮູບແບບທີ່ມີຄວາມຫມາຍຈາກຂໍ້ມູນ, ເປັນວຽກງານທີ່ສາມາດພິສູດໄດ້ຂ້ອນຂ້າງທ້າທາຍກັບເຄື່ອງມືການວິເຄາະຂໍ້ມູນແບບດັ້ງເດີມ. ເພື່ອຕອບສະຫນອງຄວາມຕ້ອງການສໍາລັບເຄື່ອງມືໃນການວິເຄາະປະລິມານຂະຫນາດໃຫຍ່, ບໍລິສັດຕ່າງໆໄດ້ສ້າງເຄື່ອງມືການວິເຄາະຂໍ້ມູນໃຫຍ່. ເຄື່ອງມືການວິເຄາະຂໍ້ມູນໃຫຍ່ປະກອບມີລະບົບເຊັ່ນ ZOHO Analytics, Cloudera, ແລະ Microsoft BI.