ต้นขั้ว บิ๊กดาต้าคืออะไร? - Unite.AI
เชื่อมต่อกับเรา

AI 101

Big Data คืออะไร

mm
วันที่อัพเดท on

Big Data คืออะไร

“บิ๊กดาต้า” เป็นหนึ่งในคำฮิตติดปากในยุคปัจจุบัน แต่จริงๆ แล้วหมายความว่าอย่างไร?

ต่อไปนี้เป็นคำจำกัดความง่ายๆ สั้นๆ ของข้อมูลขนาดใหญ่ ข้อมูลขนาดใหญ่ เป็นข้อมูลที่มีขนาดใหญ่และซับซ้อนเกินกว่าจะจัดการด้วยวิธีการประมวลผลและจัดเก็บข้อมูลแบบเดิมๆ แม้ว่าจะเป็นคำจำกัดความสั้นๆ ที่คุณใช้เป็นฮิวริสติกได้ แต่การทำความเข้าใจข้อมูลขนาดใหญ่ให้ลึกซึ้งและสมบูรณ์ยิ่งขึ้นก็จะเป็นประโยชน์ ลองมาดูแนวคิดบางอย่างที่รองรับข้อมูลขนาดใหญ่ เช่น พื้นที่จัดเก็บ โครงสร้าง และการประมวลผล

Big Data ใหญ่แค่ไหน?

มันไม่ง่ายเหมือนการพูดว่า "ข้อมูลใด ๆ ที่มีขนาดเกิน 'X' คือข้อมูลขนาดใหญ่" สภาพแวดล้อมที่ข้อมูลถูกจัดการเป็นปัจจัยสำคัญอย่างยิ่งใน การพิจารณาว่าสิ่งใดมีคุณสมบัติเป็นข้อมูลขนาดใหญ่. ขนาดที่ข้อมูลจำเป็นต้องมีเพื่อที่จะถือว่าเป็นบิ๊กดาต้านั้นขึ้นอยู่กับบริบทหรืองานที่ใช้ข้อมูลนั้น ชุดข้อมูลสองชุดที่มีขนาดต่างกันอย่างมากมายสามารถถือเป็น "บิ๊กดาต้า" ในบริบทที่แตกต่างกัน

เพื่อให้ชัดเจนยิ่งขึ้น หากคุณพยายามส่งไฟล์ขนาด 200 เมกะไบต์เป็นสิ่งที่แนบมากับอีเมล คุณจะไม่สามารถทำได้ ในบริบทนี้ ไฟล์ขนาด 200 เมกะไบต์อาจถือเป็นข้อมูลขนาดใหญ่ ในทางตรงกันข้าม การคัดลอกไฟล์ขนาด 200 เมกะไบต์ไปยังอุปกรณ์อื่นภายใน LAN เดียวกันอาจไม่ใช้เวลาเลย และในบริบทนั้นจะไม่ถือว่าเป็นข้อมูลขนาดใหญ่

อย่างไรก็ตาม สมมติว่าวิดีโอขนาด 15 เทราไบต์ต้องได้รับการประมวลผลล่วงหน้าเพื่อใช้ในการฝึกอบรมแอปพลิเคชันคอมพิวเตอร์วิทัศน์ ในกรณีนี้ ไฟล์วิดีโอใช้พื้นที่มากจนแม้แต่คอมพิวเตอร์ที่ทรงพลังก็ยังใช้เวลานานในการประมวลผลทั้งหมด ดังนั้นการประมวลผลจึงมักจะกระจายไปยังคอมพิวเตอร์หลายเครื่องที่เชื่อมโยงเข้าด้วยกันเพื่อลดเวลาการประมวลผล ข้อมูลวิดีโอขนาด 15 เทราไบต์เหล่านี้จะเข้าข่ายเป็นข้อมูลขนาดใหญ่อย่างแน่นอน

ประเภทของโครงสร้างข้อมูลขนาดใหญ่

ข้อมูลขนาดใหญ่มีโครงสร้างที่แตกต่างกัน XNUMX ประเภท ได้แก่ ข้อมูลที่ไม่มีโครงสร้าง ข้อมูลกึ่งโครงสร้าง และข้อมูลที่มีโครงสร้าง

ข้อมูลที่ไม่มีโครงสร้างคือข้อมูลที่ไม่มีโครงสร้างที่สามารถกำหนดได้ ซึ่งหมายความว่าข้อมูลโดยพื้นฐานแล้วอยู่ในกลุ่มข้อมูลขนาดใหญ่เพียงกลุ่มเดียว ตัวอย่างของข้อมูลที่ไม่มีโครงสร้างจะเป็นฐานข้อมูลที่เต็มไปด้วยรูปภาพที่ไม่มีป้ายกำกับ

ข้อมูลกึ่งโครงสร้างคือข้อมูลที่ไม่มีโครงสร้างที่เป็นทางการ แต่มีอยู่ในโครงสร้างแบบหลวมๆ ตัวอย่างเช่น ข้อมูลอีเมลอาจนับเป็นข้อมูลกึ่งโครงสร้าง เนื่องจากคุณสามารถอ้างอิงถึงข้อมูลที่มีอยู่ในอีเมลแต่ละฉบับได้ แต่รูปแบบข้อมูลที่เป็นทางการยังไม่ได้กำหนดขึ้น

ข้อมูลที่มีโครงสร้างคือข้อมูลที่มีโครงสร้างเป็นทางการ โดยมีจุดข้อมูลที่จัดหมวดหมู่ตามคุณลักษณะต่างๆ ตัวอย่างหนึ่งของข้อมูลที่มีโครงสร้างคือสเปรดชีต excel ที่มีข้อมูลติดต่อ เช่น ชื่อ อีเมล หมายเลขโทรศัพท์ และเว็บไซต์

หากคุณต้องการอ่านเพิ่มเติมเกี่ยวกับความแตกต่างของประเภทข้อมูลเหล่านี้ ให้ตรวจสอบลิงก์ที่นี่

ตัวชี้วัดสำหรับการประเมินข้อมูลขนาดใหญ่

ข้อมูลขนาดใหญ่สามารถวิเคราะห์ได้โดยใช้เมตริกที่แตกต่างกันสามแบบ ได้แก่ ปริมาณ ความเร็ว และความหลากหลาย

Volume หมายถึงขนาดของข้อมูล ขนาดเฉลี่ยของชุดข้อมูลมักจะเพิ่มขึ้น ตัวอย่างเช่น ฮาร์ดไดรฟ์ที่ใหญ่ที่สุดในปี 2006 คือฮาร์ดไดรฟ์ขนาด 750 GB ในทางตรงกันข้าม Facebook คิดว่าจะสร้างข้อมูลมากกว่า 500 เทราไบต์ในหนึ่งวัน และฮาร์ดไดรฟ์สำหรับผู้บริโภคที่ใหญ่ที่สุดในปัจจุบันคือฮาร์ดไดรฟ์ขนาด 16 เทราไบต์ สิ่งที่วัดเป็นข้อมูลขนาดใหญ่ในยุคหนึ่งอาจไม่ใช่ข้อมูลขนาดใหญ่ในอีกยุคหนึ่ง ทุกวันนี้มีการสร้างข้อมูลมากขึ้น เนื่องจากวัตถุต่างๆ รอบตัวเราติดตั้งเซ็นเซอร์ กล้อง ไมโครโฟน และอุปกรณ์รวบรวมข้อมูลอื่นๆ มากขึ้นเรื่อยๆ

ความเร็วหมายถึงความเร็วในการเคลื่อนที่ของข้อมูล หรืออีกนัยหนึ่งคือ จำนวนข้อมูลที่สร้างขึ้นภายในระยะเวลาที่กำหนด กระแสโซเชียลมีเดียสร้างโพสต์และความคิดเห็นหลายแสนรายการทุกนาที ในขณะที่กล่องจดหมายอีเมลของคุณอาจมีกิจกรรมน้อยกว่ามาก สตรีมข้อมูลขนาดใหญ่คือสตรีมที่มักจะจัดการเหตุการณ์หลายแสนหรือหลายล้านเหตุการณ์ตามเวลาจริงไม่มากก็น้อย ตัวอย่างของสตรีมข้อมูลเหล่านี้ ได้แก่ แพลตฟอร์มเกมออนไลน์และอัลกอริทึมการซื้อขายหุ้นความถี่สูง

ความหลากหลายหมายถึงข้อมูลประเภทต่างๆ ที่มีอยู่ในชุดข้อมูล ข้อมูลสามารถประกอบขึ้นจากรูปแบบต่างๆ มากมาย เช่น เสียง วิดีโอ ข้อความ รูปภาพ หรือหมายเลขซีเรียล โดยทั่วไป ฐานข้อมูลแบบดั้งเดิมได้รับการจัดรูปแบบเพื่อจัดการข้อมูลเพียงประเภทเดียวหรือสองสามประเภท กล่าวอีกนัยหนึ่ง ฐานข้อมูลแบบดั้งเดิมมีโครงสร้างเพื่อเก็บข้อมูลที่ค่อนข้างเป็นเนื้อเดียวกันและมีโครงสร้างที่สอดคล้องกันและสามารถคาดเดาได้ เมื่อแอปพลิเคชันมีความหลากหลายมากขึ้น เต็มไปด้วยคุณสมบัติที่แตกต่างกัน และมีคนใช้งานมากขึ้น ฐานข้อมูลจึงต้องมีการพัฒนาเพื่อจัดเก็บข้อมูลประเภทต่างๆ มากขึ้น ฐานข้อมูลที่ไม่มีโครงสร้างเหมาะสำหรับการเก็บข้อมูลขนาดใหญ่ เนื่องจากสามารถเก็บข้อมูลหลายประเภทที่ไม่เกี่ยวข้องกัน

วิธีการจัดการข้อมูลขนาดใหญ่

มีแพลตฟอร์มและเครื่องมือต่างๆ มากมายที่ออกแบบมาเพื่ออำนวยความสะดวกในการวิเคราะห์ข้อมูลขนาดใหญ่ จำเป็นต้องวิเคราะห์กลุ่มข้อมูลขนาดใหญ่เพื่อแยกรูปแบบที่มีความหมายออกจากข้อมูล ซึ่งเป็นงานที่สามารถพิสูจน์ได้ว่าค่อนข้างท้าทายด้วยเครื่องมือวิเคราะห์ข้อมูลแบบดั้งเดิม เพื่อตอบสนองความต้องการเครื่องมือในการวิเคราะห์ข้อมูลจำนวนมาก บริษัทต่างๆ ได้สร้างเครื่องมือวิเคราะห์ข้อมูลขนาดใหญ่ เครื่องมือวิเคราะห์ข้อมูลขนาดใหญ่ประกอบด้วยระบบต่างๆ เช่น ZOHO Analytics, Cloudera และ Microsoft BI

บล็อกเกอร์และโปรแกรมเมอร์ที่มีความเชี่ยวชาญด้าน เครื่องเรียนรู้ และ การเรียนรู้ลึก ๆ หัวข้อ Daniel หวังว่าจะช่วยให้ผู้อื่นใช้พลังของ AI เพื่อประโยชน์ทางสังคม