ກ້ານໃບ ຂໍ້ມູນໃຫຍ່ແມ່ນຫຍັງ? - Unite.AI
ເຊື່ອມຕໍ່ກັບພວກເຮົາ

ໄອ 101

ຂໍ້ມູນໃຫຍ່ແມ່ນຫຍັງ?

mm
ການປັບປຸງ on

ຂໍ້ມູນໃຫຍ່ແມ່ນຫຍັງ?

"ຂໍ້ມູນໃຫຍ່" ແມ່ນ ໜຶ່ງ ໃນ ຄຳ ສັບທີ່ມັກໃຊ້ທົ່ວໄປໃນຍຸກປະຈຸບັນຂອງພວກເຮົາ, ແຕ່ມັນ ໝາຍ ຄວາມວ່າແນວໃດ?

ນີ້ແມ່ນຄຳນິຍາມໄວ, ງ່າຍດາຍຂອງຂໍ້ມູນໃຫຍ່. ຂໍ້ມູນໃຫຍ່ ແມ່ນຂໍ້ມູນທີ່ມີຂະໜາດໃຫຍ່ ແລະສັບສົນເກີນໄປທີ່ຈະຖືກຈັດການໂດຍການປະມວນຜົນຂໍ້ມູນ ແລະວິທີການເກັບຮັກສາຂໍ້ມູນແບບດັ້ງເດີມ. ໃນຂະນະທີ່ມັນເປັນຄໍານິຍາມທີ່ໄວທີ່ທ່ານສາມາດນໍາໃຊ້ເປັນ heuristic, ມັນຈະເປັນປະໂຫຍດທີ່ຈະມີຄວາມເຂົ້າໃຈເລິກເຊິ່ງກວ່າແລະຄົບຖ້ວນສົມບູນຂອງຂໍ້ມູນໃຫຍ່. ຂໍໃຫ້ພິຈາລະນາບາງແນວຄວາມຄິດທີ່ກວມເອົາຂໍ້ມູນໃຫຍ່ເຊັ່ນ: ການເກັບຮັກສາ, ໂຄງສ້າງ, ແລະການປຸງແຕ່ງ.

ຂໍ້ມູນໃຫຍ່ຂະໜາດໃດ?

ມັນບໍ່ງ່າຍດາຍຄືກັບການເວົ້າວ່າ "ຂໍ້ມູນໃດໆທີ່ມີຂະຫນາດ 'X' ແມ່ນຂໍ້ມູນໃຫຍ່", ສະພາບແວດລ້ອມທີ່ຂໍ້ມູນຈະຖືກຈັດການແມ່ນປັດໃຈສໍາຄັນທີ່ສຸດ. ການກໍານົດສິ່ງທີ່ມີຄຸນສົມບັດເປັນຂໍ້ມູນໃຫຍ່. ຂະຫນາດທີ່ຂໍ້ມູນຕ້ອງເປັນ, ເພື່ອພິຈາລະນາຂໍ້ມູນໃຫຍ່, ແມ່ນຂຶ້ນກັບບໍລິບົດ, ຫຼືວຽກງານທີ່ຂໍ້ມູນຖືກນໍາໃຊ້ໃນ. ສອງຊຸດຂໍ້ມູນທີ່ມີຂະຫນາດທີ່ແຕກຕ່າງກັນຢ່າງຫຼວງຫຼາຍສາມາດຖືວ່າເປັນ "ຂໍ້ມູນໃຫຍ່" ໃນສະພາບການທີ່ແຕກຕ່າງກັນ.

ເພື່ອໃຫ້ມີຄວາມຊັດເຈນຫຼາຍ, ຖ້າທ່ານພະຍາຍາມສົ່ງໄຟລ໌ 200 megabyte ເປັນໄຟລ໌ແນບອີເມລ໌, ທ່ານຈະບໍ່ສາມາດເຮັດໄດ້. ໃນສະພາບການນີ້, ໄຟລ໌ 200-megabyte ສາມາດຖືວ່າເປັນຂໍ້ມູນໃຫຍ່. ໃນທາງກົງກັນຂ້າມ, ການຄັດລອກໄຟລ໌ 200-megabyte ກັບອຸປະກອນອື່ນພາຍໃນ LAN ດຽວກັນອາດຈະບໍ່ໃຊ້ເວລາໃດກໍ່ຕາມ, ແລະໃນສະພາບການນັ້ນ, ມັນຈະບໍ່ຖືກຖືວ່າເປັນຂໍ້ມູນໃຫຍ່.

ຢ່າງໃດກໍຕາມ, ໃຫ້ສົມມຸດວ່າ 15 terabytes ມູນຄ່າຂອງວິດີໂອຈໍາເປັນຕ້ອງໄດ້ຮັບການປຸງແຕ່ງກ່ອນສໍາລັບການນໍາໃຊ້ໃນການຝຶກອົບຮົມຄອມພິວເຕີວິໄສທັດ. ໃນກໍລະນີນີ້, ໄຟລ໌ວິດີໂອໃຊ້ພື້ນທີ່ຫຼາຍຈົນວ່າຄອມພິວເຕີທີ່ມີປະສິດທິພາບກໍ່ຕ້ອງໃຊ້ເວລາດົນເພື່ອປະມວນຜົນພວກມັນທັງໝົດ, ແລະດັ່ງນັ້ນການປະມວນຜົນຈະຖືກແຈກຢາຍໄປທົ່ວຄອມພິວເຕີຫຼາຍໜ່ວຍທີ່ເຊື່ອມຕໍ່ກັນເພື່ອຫຼຸດເວລາປະມວນຜົນ. ຂໍ້ມູນວິດີໂອ 15 terabytes ເຫຼົ່ານີ້ຈະມີຄຸນສົມບັດເປັນຂໍ້ມູນໃຫຍ່ແນ່ນອນ.

ປະເພດຂອງໂຄງສ້າງຂໍ້ມູນໃຫຍ່

ຂໍ້ມູນໃຫຍ່ມາຢູ່ໃນສາມປະເພດໂຄງສ້າງທີ່ແຕກຕ່າງກັນ: ຂໍ້ມູນທີ່ບໍ່ມີໂຄງສ້າງ, ຂໍ້ມູນເຄິ່ງໂຄງສ້າງ, ແລະຂໍ້ມູນທີ່ມີໂຄງສ້າງ.

ຂໍ້ມູນທີ່ບໍ່ມີໂຄງສ້າງແມ່ນຂໍ້ມູນທີ່ບໍ່ມີໂຄງສ້າງທີ່ກໍານົດໄດ້, ຊຶ່ງຫມາຍຄວາມວ່າຂໍ້ມູນເປັນສິ່ງຈໍາເປັນພຽງແຕ່ຢູ່ໃນສະລອຍນ້ໍາຂະຫນາດໃຫຍ່ຫນຶ່ງ. ຕົວຢ່າງຂອງຂໍ້ມູນທີ່ບໍ່ມີໂຄງສ້າງຈະເປັນຖານຂໍ້ມູນທີ່ເຕັມໄປດ້ວຍຮູບພາບທີ່ບໍ່ມີປ້າຍຊື່.

ຂໍ້ມູນເຄິ່ງໂຄງສ້າງແມ່ນຂໍ້ມູນທີ່ບໍ່ມີໂຄງສ້າງທີ່ເປັນທາງການ, ແຕ່ມີຢູ່ໃນໂຄງສ້າງທີ່ວ່າງ. ຕົວຢ່າງ, ຂໍ້ມູນອີເມລ໌ອາດຈະນັບເປັນຂໍ້ມູນເຄິ່ງໂຄງສ້າງ, ເພາະວ່າທ່ານສາມາດອ້າງອີງເຖິງຂໍ້ມູນທີ່ບັນຈຸຢູ່ໃນອີເມວແຕ່ລະອັນ, ແຕ່ຮູບແບບຂໍ້ມູນທີ່ເປັນທາງການຍັງບໍ່ທັນໄດ້ສ້າງຕັ້ງຂຶ້ນ.

ຂໍ້ມູນທີ່ມີໂຄງສ້າງແມ່ນຂໍ້ມູນທີ່ມີໂຄງສ້າງທີ່ເປັນທາງການ, ມີຈຸດຂໍ້ມູນທີ່ຖືກຈັດປະເພດໂດຍລັກສະນະທີ່ແຕກຕ່າງກັນ. ຕົວຢ່າງຫນຶ່ງຂອງຂໍ້ມູນທີ່ມີໂຄງສ້າງແມ່ນຕາຕະລາງ excel ທີ່ມີຂໍ້ມູນຕິດຕໍ່ເຊັ່ນຊື່, ອີເມວ, ເບີໂທລະສັບແລະເວັບໄຊທ໌.

ຖ້າທ່ານຕ້ອງການອ່ານເພີ່ມເຕີມກ່ຽວກັບຄວາມແຕກຕ່າງຂອງປະເພດຂໍ້ມູນເຫຼົ່ານີ້, ໃຫ້ກວດເບິ່ງການເຊື່ອມຕໍ່ທີ່ນີ້.

Metrics ສໍາລັບການປະເມີນຂໍ້ມູນໃຫຍ່

ຂໍ້​ມູນ​ໃຫຍ່​ສາ​ມາດ​ໄດ້​ຮັບ​ການ​ວິ​ເຄາະ​ໃນ​ສາມ​ການ​ວັດ​ແທກ​ທີ່​ແຕກ​ຕ່າງ​ກັນ​: ປະ​ລິ​ມານ​, ຄວາມ​ໄວ​, ແລະ​ແນວ​ພັນ​.

ປະລິມານຫມາຍເຖິງຂະຫນາດຂອງຂໍ້ມູນ. ຂະໜາດສະເລ່ຍຂອງຊຸດຂໍ້ມູນມັກຈະເພີ່ມຂຶ້ນ. ສໍາລັບຕົວຢ່າງ, ຮາດດິດທີ່ໃຫຍ່ທີ່ສຸດໃນປີ 2006 ແມ່ນຮາດດິດ 750 GB. ໃນທາງກົງກັນຂ້າມ, Facebook ຄິດວ່າຈະສ້າງຂໍ້ມູນຫຼາຍກວ່າ 500 terabytes ຕໍ່ມື້ແລະຮາດດິດຜູ້ບໍລິໂພກທີ່ໃຫຍ່ທີ່ສຸດທີ່ມີຢູ່ໃນມື້ນີ້ແມ່ນຮາດດິດ 16 terabyte. ສິ່ງທີ່ຄິດໄລ່ເປັນຂໍ້ມູນໃຫຍ່ໃນຍຸກຫນຶ່ງອາດຈະບໍ່ເປັນຂໍ້ມູນໃຫຍ່ໃນອີກ. ຂໍ້ມູນເພີ່ມຂຶ້ນໃນມື້ນີ້ເພາະວ່າສິ່ງຂອງທີ່ຢູ່ອ້ອມຮອບຕົວເຮົານັບມື້ນັບຫຼາຍຂຶ້ນມີເຊັນເຊີ, ກ້ອງຖ່າຍຮູບ, ໄມໂຄຣໂຟນ, ແລະອຸປະກອນເກັບກໍາຂໍ້ມູນອື່ນໆ.

ຄວາມ​ໄວ​ໝາຍ​ເຖິງ​ການ​ເຄື່ອນ​ໄຫວ​ຂອງ​ຂໍ້​ມູນ​ທີ່​ໄວ, ຫຼື​ໝາຍ​ຄວາມ​ວ່າ​ໃນ​ທາງ​ອື່ນ, ມີ​ການ​ສ້າງ​ຂໍ້​ມູນ​ຫຼາຍ​ປານ​ໃດ​ພາຍ​ໃນ​ໄລ​ຍະ​ເວ​ລາ​ທີ່​ກຳ​ນົດ. ກະແສສື່ມວນຊົນສັງຄົມສ້າງຫຼາຍຮ້ອຍພັນຂໍ້ຄວາມແລະຄໍາເຫັນທຸກໆນາທີ, ໃນຂະນະທີ່ກ່ອງຈົດຫມາຍອີເມວຂອງເຈົ້າເອງອາດຈະມີກິດຈະກໍາຫນ້ອຍລົງ. Big data streams ແມ່ນສະຕຣີມທີ່ມັກຈະຈັດການເຫດການຫຼາຍຮ້ອຍພັນ ຫຼືລ້ານໃນເວລາຈິງ. ຕົວຢ່າງຂອງກະແສຂໍ້ມູນເຫຼົ່ານີ້ແມ່ນເວທີການຫຼິ້ນເກມອອນໄລນ໌ ແລະລະບົບການເທຣດຫຼັກຊັບທີ່ມີຄວາມຖີ່ສູງ.

ຄວາມຫຼາກຫຼາຍໝາຍເຖິງປະເພດຕ່າງໆຂອງຂໍ້ມູນທີ່ມີຢູ່ໃນຊຸດຂໍ້ມູນ. ຂໍ້​ມູນ​ສາ​ມາດ​ເຮັດ​ໄດ້​ຈາກ​ຫຼາຍ​ຮູບ​ແບບ​ທີ່​ແຕກ​ຕ່າງ​ກັນ​, ເຊັ່ນ​: ສຽງ​, ວິ​ດີ​ໂອ​, ຂໍ້​ຄວາມ​, ຮູບ​ພາບ​, ຫຼື​ຈໍາ​ນວນ serial​. ໂດຍທົ່ວໄປ, ຖານຂໍ້ມູນແບບດັ້ງເດີມຖືກຈັດຮູບແບບເພື່ອຈັດການກັບຂໍ້ມູນຫນຶ່ງ, ຫຼືພຽງແຕ່ສອງສາມປະເພດ. ເວົ້າອີກຢ່າງ ໜຶ່ງ, ຖານຂໍ້ມູນແບບດັ້ງເດີມມີໂຄງສ້າງເພື່ອເກັບຂໍ້ມູນທີ່ມີຄວາມເປັນເອກະພາບແລະມີຄວາມສອດຄ່ອງ, ໂຄງສ້າງທີ່ຄາດເດົາໄດ້. ເມື່ອແອັບພລິເຄຊັນມີຄວາມຫຼາກຫຼາຍ, ເຕັມໄປດ້ວຍລັກສະນະທີ່ແຕກຕ່າງກັນ, ແລະຖືກໃຊ້ໂດຍຄົນຫຼາຍຂຶ້ນ, ຖານຂໍ້ມູນຕ້ອງພັດທະນາເພື່ອເກັບຂໍ້ມູນປະເພດຕ່າງໆຫຼາຍຂຶ້ນ. ຖານຂໍ້ມູນທີ່ບໍ່ມີໂຄງສ້າງແມ່ນເຫມາະສົມສໍາລັບການເກັບຂໍ້ມູນໃຫຍ່, ຍ້ອນວ່າພວກເຂົາສາມາດຖືຂໍ້ມູນຫຼາຍປະເພດທີ່ບໍ່ກ່ຽວຂ້ອງກັບກັນແລະກັນ.

ວິທີການຈັດການຂໍ້ມູນໃຫຍ່

ມີຫຼາຍແພລະຕະຟອມແລະເຄື່ອງມືທີ່ແຕກຕ່າງກັນທີ່ຖືກອອກແບບມາເພື່ອອໍານວຍຄວາມສະດວກໃນການວິເຄາະຂໍ້ມູນໃຫຍ່. ກຸ່ມຂໍ້ມູນໃຫຍ່ຕ້ອງໄດ້ຮັບການວິເຄາະເພື່ອສະກັດຮູບແບບທີ່ມີຄວາມຫມາຍຈາກຂໍ້ມູນ, ເປັນວຽກງານທີ່ສາມາດພິສູດໄດ້ຂ້ອນຂ້າງທ້າທາຍກັບເຄື່ອງມືການວິເຄາະຂໍ້ມູນແບບດັ້ງເດີມ. ເພື່ອຕອບສະຫນອງຄວາມຕ້ອງການສໍາລັບເຄື່ອງມືໃນການວິເຄາະປະລິມານຂະຫນາດໃຫຍ່, ບໍລິສັດຕ່າງໆໄດ້ສ້າງເຄື່ອງມືການວິເຄາະຂໍ້ມູນໃຫຍ່. ເຄື່ອງມືການວິເຄາະຂໍ້ມູນໃຫຍ່ປະກອບມີລະບົບເຊັ່ນ ZOHO Analytics, Cloudera, ແລະ Microsoft BI.

Blogger ແລະ programmer ທີ່ມີຄວາມຊ່ຽວຊານໃນ ການຮຽນຮູ້ເຄື່ອງ ແລະ Deep Learning ຫົວຂໍ້. Daniel ຫວັງ​ວ່າ​ຈະ​ຊ່ວຍ​ໃຫ້​ຄົນ​ອື່ນ​ນໍາ​ໃຊ້​ພະ​ລັງ​ງານ​ຂອງ AI ເພື່ອ​ຄວາມ​ດີ​ຂອງ​ສັງ​ຄົມ.