ปัญญาประดิษฐ์
อะไรคือ Big Data?

อะไรคือ Big Data?
“Big Data” เป็นหนึ่งในคำที่ใช้บ่อยที่สุดในยุคปัจจุบัน แต่จริงๆ แล้วมันหมายถึงอะไร?
นี่คือคำจำกัดความของ Big Data ที่เรียบง่ายและรวดเร็ว Big data คือ ข้อมูลที่มีขนาดใหญ่และซับซ้อนเกินกว่าที่วิธีการประมวลผลและจัดเก็บข้อมูลแบบดั้งเดิมสามารถจัดการได้ แม้ว่านี่จะเป็นคำจำกัดความที่เรียบง่ายที่คุณสามารถใช้เป็นแนวทาง แต่ก็จะเป็นประโยชน์หากคุณมีความเข้าใจที่ลึกซึ้งและสมบูรณ์เกี่ยวกับ Big Data มาทำความรู้จักกับแนวคิดบางอย่างที่อยู่เบื้องหลัง Big Data เช่น การจัดเก็บ การจัดโครงสร้าง และการประมวลผล
Big Data มีขนาดใหญ่แค่ไหน?
ไม่ใช่เรื่องง่ายที่จะบอกว่า “ข้อมูลใดๆ ที่มีขนาดใหญ่กว่า ‘X’ คือ Big Data” สภาพแวดล้อมที่ข้อมูลถูกจัดการเป็นปัจจัยที่สำคัญมากในการกำหนดว่าข้อมูลใดที่ถือเป็น Big Data ขนาดที่ข้อมูลต้องมีเพื่อที่จะถือเป็น Big Data ขึ้นอยู่กับบริบทหรืองานที่ข้อมูลถูกใช้ ชุดข้อมูลสองชุดที่มีขนาดต่างกันมากสามารถถือเป็น “Big Data” ในบริบทที่แตกต่างกัน
เพื่อให้เห็นภาพชัดเจนยิ่งขึ้น หากคุณพยายามส่งไฟล์ขนาด 200 เมกะไบต์เป็นไฟล์แนบในอีเมล คุณจะไม่สามารถทำได้ ในบริบทนี้ ไฟล์ขนาด 200 เมกะไบต์อาจถือเป็น Big Data ในทางกลับกัน การคัดลอกไฟล์ขนาด 200 เมกะไบต์ไปยังอุปกรณ์อื่นภายใน LAN เดียวกันอาจไม่ต้องใช้เวลาใดๆ และในบริบทนี้จะไม่ถือเป็น Big Data
อย่างไรก็ตาม สมมติว่าเราต้องประมวลผลวิดีโอมูลค่า 15 เทระไบต์สำหรับการใช้งานในการฝึกอบรมแอปพลิเคชันการมองเห็นของคอมพิวเตอร์ ในกรณีนี้ ไฟล์วิดีโอกินพื้นที่มากจนแม้แต่คอมพิวเตอร์ที่มีพลังมากก็จะใช้เวลานานในการประมวลผลทั้งหมด และโดยปกติแล้วการประมวลผลจะถูกกระจายไปทั่วหลายคอมพิวเตอร์ที่เชื่อมต่อกันเพื่อลดเวลาในการประมวลผล วิดีโอมูลค่า 15 เทระไบต์เหล่านี้จะถือเป็น Big Data อย่างแน่นอน
ประเภทของโครงสร้าง Big Data
Big Data มีสามประเภทของโครงสร้าง: ข้อมูลที่ไม่มีโครงสร้าง ข้อมูลที่มีโครงสร้างบางส่วน และข้อมูลที่มีโครงสร้าง
ข้อมูลที่ไม่มีโครงสร้างคือข้อมูลที่ไม่มีรูปแบบที่กำหนดไว้ ซึ่งหมายความว่าข้อมูลอยู่ในกลุ่มใหญ่เพียงอย่างเดียว ตัวอย่างของข้อมูลที่ไม่มีโครงสร้างคือ ฐานข้อมูลที่เต็มไปด้วยภาพที่ไม่มีฉลาก
ข้อมูลที่มีโครงสร้างบางส่วนคือข้อมูลที่ไม่มีรูปแบบที่เป็นทางการ แต่อยู่ในโครงสร้างที่หลวมๆ ตัวอย่างของข้อมูลที่มีโครงสร้างบางส่วนคือ ข้อมูลอีเมล ซึ่งคุณสามารถอ้างอิงข้อมูลที่อยู่ในอีเมลแต่ละฉบับได้ แต่ยังไม่มีรูปแบบข้อมูลที่เป็นทางการ
ข้อมูลที่มีโครงสร้างคือข้อมูลที่มีรูปแบบที่เป็นทางการ โดยมีจุดข้อมูลที่แบ่งออกเป็นคุณลักษณะต่างๆ ตัวอย่างของข้อมูลที่มีโครงสร้างคือ ชีตเอ็กซ์เซลที่มีข้อมูลติดต่อ เช่น ชื่อ อีเมล โทรศัพท์ และเว็บไซต์
หากคุณต้องการอ่านเพิ่มเติมเกี่ยวกับความแตกต่างในประเภทข้อมูลเหล่านี้ ตรวจสอบลิงก์ที่นี่
เมตริกสำหรับการประเมิน Big Data
Big Data สามารถวิเคราะห์ได้โดยใช้เมตริกสามประเภท: ปริมาณ ความเร็ว และความหลากหลาย
ปริมาณหมายถึงขนาดของข้อมูล ขนาดเฉลี่ยของชุดข้อมูลมักจะเพิ่มขึ้น ตัวอย่างเช่น ฮาร์ดไดรฟ์ที่ใหญ่ที่สุดในปี 2006 คือฮาร์ดไดรฟ์ 750 GB ในทางกลับกัน Facebook คาดว่าจะสร้างข้อมูลมากกว่า 500 เทระไบต์ต่อวัน และฮาร์ดไดรฟ์สำหรับผู้บริโภคที่ใหญ่ที่สุดที่มีจำหน่ายในปัจจุบันคือฮาร์ดไดรฟ์ 16 เทระไบต์ สิ่งที่ถือเป็น Big Data ในยุคหนึ่งอาจไม่ถือเป็น Big Data ในยุคอื่น ข้อมูลที่สร้างขึ้นมากขึ้นในปัจจุบันเนื่องจากวัตถุรอบตัวเรามีอุปกรณ์ตรวจจับ กล้อง ไมโครโฟน และอุปกรณ์เก็บข้อมูลอื่นๆ มากขึ้น
ความเร็วหมายถึงความเร็วที่ข้อมูลเคลื่อนที่ หรืออีกนัยหนึ่ง คือ ปริมาณข้อมูลที่สร้างขึ้นในระยะเวลาหนึ่ง สตรีมโซเชียลมีเดียสร้างโพสต์และคอมเมนต์หลายแสนรายการในแต่ละนาที ในขณะที่กล่องอีเมลของคุณเองอาจมีกิจกรรมน้อยกว่า สตรีม Big Data คือสตรีมที่จัดการกับเหตุการณ์หลายแสนหรือหลายล้านเหตุการณ์ในเวลาเกือบเรียลไทม์ ตัวอย่างของสตรีมข้อมูลเหล่านี้คือ แพลตฟอร์มเกมออนไลน์และอัลกอริทึมการซื้อขายหุ้นความถี่สูง
ความหลากหลายหมายถึงประเภทต่างๆ ของข้อมูลที่อยู่ในเซตข้อมูล ข้อมูลสามารถประกอบด้วยรูปแบบต่างๆ เช่น ออดิโอ วิดีโอ ข้อความ ภาพ หรือหมายเลขซีเรียล ในทั่วไป ฐานข้อมูลแบบดั้งเดิมถูกออกแบบมาเพื่อจัดการกับประเภทข้อมูลหนึ่งหรือสองประเภท ฐานข้อมูลแบบดั้งเดิมถูกออกแบบมาเพื่อจัดเก็บข้อมูลที่มีโครงสร้างที่สม่ำเสมอและคาดการณ์ได้ เมื่อแอปพลิเคชันกลายเป็นแบบหลากหลาย มีฟีเจอร์มากขึ้น และใช้โดยผู้คนมากขึ้น ฐานข้อมูลจึงต้องพัฒนาเพื่อจัดเก็บประเภทข้อมูลที่หลากหลายมากขึ้น ฐานข้อมูลที่ไม่มีโครงสร้างเหมาะสำหรับการเก็บ Big Data เนื่องจากสามารถเก็บข้อมูลหลายประเภทที่ไม่เกี่ยวข้องกัน
วิธีการจัดการ Big Data
มีหลายแพลตฟอร์มและเครื่องมือที่ถูกออกแบบมาเพื่ออำนวยความสะดวกในการวิเคราะห์ Big Data ทะเลสาบ Big Data ต้องถูกวิเคราะห์เพื่อแยกย่อยรูปแบบที่มีความหมายจากข้อมูล ซึ่งเป็นงานที่ท้าทายมากโดยใช้เครื่องมือวิเคราะห์ข้อมูลแบบดั้งเดิม ในการตอบสนองต่อความต้องการเครื่องมือในการวิเคราะห์ปริมาณข้อมูลขนาดใหญ่หลายบริษัทได้สร้างเครื่องมือวิเคราะห์ Big Data เครื่องมือวิเคราะห์ Big Data รวมถึงระบบ như ZOHO Analytics, Cloudera และ Microsoft BI












