ہمارے ساتھ رابطہ

بگ ڈیٹا کیا ہے؟

اے آئی 101

بگ ڈیٹا کیا ہے؟

mm

بگ ڈیٹا کیا ہے؟

"بگ ڈیٹا" ہمارے موجودہ دور کے عام استعمال ہونے والے بز الفاظ میں سے ایک ہے، لیکن اس کا اصل مطلب کیا ہے؟

یہاں بڑے ڈیٹا کی ایک تیز، سادہ تعریف ہے۔ بگ ڈیٹا وہ ڈیٹا ہے جو روایتی ڈیٹا پروسیسنگ اور اسٹوریج کے طریقوں سے سنبھالا جانے کے لیے بہت بڑا اور پیچیدہ ہے۔ اگرچہ یہ ایک فوری تعریف ہے جسے آپ ایک ہورسٹک کے طور پر استعمال کر سکتے ہیں، لیکن بڑے ڈیٹا کی گہری اور مکمل سمجھ حاصل کرنا مددگار ثابت ہوگا۔ آئیے ان تصورات میں سے کچھ پر ایک نظر ڈالتے ہیں جو بڑے ڈیٹا جیسے اسٹوریج، ڈھانچہ، اور پروسیسنگ کی بنیاد رکھتے ہیں۔

بگ ڈیٹا کتنا بڑا ہے؟

یہ اتنا آسان نہیں ہے کہ "X' سائز سے زیادہ کا کوئی بھی ڈیٹا بڑا ڈیٹا ہے"، جس ماحول میں ڈیٹا کو ہینڈل کیا جا رہا ہے اس میں ایک انتہائی اہم عنصر ہے۔ اس بات کا تعین کرنا کہ بڑے ڈیٹا کے طور پر کیا اہل ہے۔. ڈیٹا کو بڑا ڈیٹا سمجھنے کے لیے جس سائز کا ہونا ضروری ہے، اس کا انحصار سیاق و سباق پر ہے، یا ڈیٹا کو جس کام میں استعمال کیا جا رہا ہے۔ مختلف سیاق و سباق میں بڑے مختلف سائز کے دو ڈیٹا سیٹس کو "بڑا ڈیٹا" سمجھا جا سکتا ہے۔

مزید ٹھوس ہونے کے لیے، اگر آپ 200 میگا بائٹ فائل کو بطور ای میل اٹیچمنٹ بھیجنے کی کوشش کرتے ہیں، تو آپ ایسا نہیں کر پائیں گے۔ اس تناظر میں 200 میگا بائٹ فائل کو بڑا ڈیٹا سمجھا جا سکتا ہے۔ اس کے برعکس، 200 میگا بائٹ فائل کو اسی LAN کے اندر کسی دوسرے ڈیوائس پر کاپی کرنے میں بالکل بھی وقت نہیں لگ سکتا ہے، اور اس تناظر میں، اسے بڑا ڈیٹا نہیں سمجھا جائے گا۔

تاہم، فرض کرتے ہیں کہ کمپیوٹر وژن ایپلی کیشنز کی تربیت میں استعمال کے لیے 15 ٹیرا بائٹس مالیت کی ویڈیو کو پہلے سے پروسیس کرنے کی ضرورت ہے۔ اس صورت میں، ویڈیو فائلیں اتنی جگہ لے لیتی ہیں کہ ایک طاقتور کمپیوٹر کو بھی ان سب پر کارروائی کرنے میں کافی وقت لگتا ہے، اور اس طرح پروسیسنگ کو عام طور پر ایک دوسرے سے منسلک متعدد کمپیوٹرز میں تقسیم کیا جائے گا تاکہ پروسیسنگ کا وقت کم ہو جائے۔ یہ 15 ٹیرا بائٹس ویڈیو ڈیٹا یقینی طور پر بڑے ڈیٹا کے طور پر اہل ہوگا۔

بگ ڈیٹا سٹرکچر کی اقسام

بڑا ڈیٹا ڈھانچے کی تین مختلف اقسام میں آتا ہے: غیر ساختہ ڈیٹا، نیم ساختہ، اور ساختی ڈیٹا۔

غیر ساختہ ڈیٹا وہ ڈیٹا ہوتا ہے جس کا کوئی قابل تعریف ڈھانچہ نہیں ہوتا، یعنی ڈیٹا بنیادی طور پر صرف ایک بڑے تالاب میں ہوتا ہے۔ غیر ساختہ ڈیٹا کی مثالیں بغیر لیبل والی تصاویر سے بھرا ڈیٹا بیس ہوگا۔

نیم ساختہ ڈیٹا وہ ڈیٹا ہوتا ہے جس کا کوئی رسمی ڈھانچہ نہیں ہوتا، لیکن یہ ایک ڈھیلے ڈھانچے میں موجود ہوتا ہے۔ مثال کے طور پر، ای میل ڈیٹا کو نیم ساختہ ڈیٹا کے طور پر شمار کیا جا سکتا ہے، کیونکہ آپ انفرادی ای میلز میں موجود ڈیٹا کا حوالہ دے سکتے ہیں، لیکن ڈیٹا کے رسمی نمونے قائم نہیں کیے گئے ہیں۔

سٹرکچرڈ ڈیٹا وہ ڈیٹا ہوتا ہے جس کی ایک باضابطہ ساخت ہوتی ہے، جس میں ڈیٹا پوائنٹس کو مختلف خصوصیات کے ذریعے درجہ بندی کیا جاتا ہے۔ سٹرکچرڈ ڈیٹا کی ایک مثال ایکسل اسپریڈشیٹ ہے جس میں رابطے کی معلومات جیسے نام، ای میلز، فون نمبرز اور ویب سائٹس شامل ہیں۔

اگر آپ ڈیٹا کی ان اقسام میں فرق کے بارے میں مزید پڑھنا چاہتے ہیں تو یہاں لنک چیک کریں۔

بڑے ڈیٹا کا اندازہ لگانے کے لیے میٹرکس

بڑے اعداد و شمار کا تین مختلف میٹرکس کے لحاظ سے تجزیہ کیا جا سکتا ہے: حجم، رفتار اور مختلف قسم۔

حجم سے مراد ڈیٹا کا سائز ہے۔ ڈیٹا سیٹس کا اوسط سائز اکثر بڑھ رہا ہے۔ مثال کے طور پر، 2006 میں سب سے بڑی ہارڈ ڈرائیو 750 GB کی ہارڈ ڈرائیو تھی۔ اس کے برعکس، خیال کیا جاتا ہے کہ فیس بک ایک دن میں 500 ٹیرا بائٹس سے زیادہ ڈیٹا تیار کرتا ہے اور آج کل دستیاب صارفین کی سب سے بڑی ہارڈ ڈرائیو 16 ٹیرا بائٹ ہارڈ ڈرائیو ہے۔ ایک دور میں بڑے ڈیٹا کے طور پر جو چیز مقدار میں آتی ہے وہ دوسرے دور میں بڑا ڈیٹا نہیں ہو سکتا۔ آج مزید ڈیٹا اس لیے پیدا ہوتا ہے کیونکہ ہمارے اردگرد موجود زیادہ سے زیادہ اشیاء سینسر، کیمروں، مائیکروفونز اور ڈیٹا اکٹھا کرنے کے دیگر آلات سے لیس ہیں۔

رفتار سے مراد یہ ہے کہ ڈیٹا کتنی تیزی سے حرکت کر رہا ہے، یا اسے دوسرے طریقے سے کہیں، ایک مقررہ مدت کے اندر کتنا ڈیٹا تیار ہوتا ہے۔ سوشل میڈیا اسٹریمز ہر منٹ میں لاکھوں پوسٹس اور تبصرے پیدا کرتی ہیں، جبکہ آپ کے اپنے ای میل ان باکس میں شاید بہت کم سرگرمی ہوگی۔ بڑے ڈیٹا اسٹریمز ایسے سلسلے ہیں جو اکثر سیکڑوں یا لاکھوں واقعات کو کم و بیش حقیقی وقت میں ہینڈل کرتے ہیں۔ ان ڈیٹا اسٹریمز کی مثالیں آن لائن گیمنگ پلیٹ فارمز اور ہائی فریکوئنسی اسٹاک ٹریڈنگ الگورتھم ہیں۔

ورائٹی سے مراد ڈیٹاسیٹ کے اندر موجود ڈیٹا کی مختلف اقسام ہیں۔ ڈیٹا بہت سے مختلف فارمیٹس پر مشتمل ہو سکتا ہے، جیسے آڈیو، ویڈیو، ٹیکسٹ، تصاویر، یا سیریل نمبر۔ عام طور پر، روایتی ڈیٹا بیس کو ڈیٹا کی ایک، یا صرف دو اقسام کو ہینڈل کرنے کے لیے فارمیٹ کیا جاتا ہے۔ اس کو ایک اور طریقے سے بیان کرنے کے لیے، روایتی ڈیٹا بیس کو ڈیٹا رکھنے کے لیے تشکیل دیا گیا ہے جو کافی حد تک یکساں ہے اور ایک مستقل، پیش قیاسی ڈھانچہ ہے۔ جیسا کہ ایپلی کیشنز زیادہ متنوع، مختلف خصوصیات سے بھری ہوئی، اور زیادہ لوگوں کے ذریعہ استعمال ہوتی ہیں، ڈیٹا بیس کو مزید اقسام کے ڈیٹا کو ذخیرہ کرنے کے لیے تیار کرنا پڑا ہے۔ غیر ساختہ ڈیٹا بیس بڑے ڈیٹا کو رکھنے کے لیے مثالی ہیں، کیونکہ وہ متعدد ڈیٹا کی قسمیں رکھ سکتے ہیں جو ایک دوسرے سے متعلق نہیں ہیں۔

بگ ڈیٹا کو سنبھالنے کے طریقے

بڑے ڈیٹا کے تجزیے کو آسان بنانے کے لیے بہت سے مختلف پلیٹ فارمز اور ٹولز بنائے گئے ہیں۔ اعداد و شمار سے بامعنی نمونوں کو نکالنے کے لیے بڑے ڈیٹا پولز کا تجزیہ کرنے کی ضرورت ہے، ایسا کام جو روایتی ڈیٹا تجزیہ ٹولز کے ساتھ کافی مشکل ثابت ہو سکتا ہے۔ ڈیٹا کی بڑی مقدار کا تجزیہ کرنے کے لیے ٹولز کی ضرورت کے جواب میں، مختلف کمپنیوں نے ڈیٹا کے تجزیہ کے بڑے ٹولز بنائے ہیں۔ ڈیٹا کے تجزیہ کے بڑے ٹولز میں ZOHO Analytics، Cloudera، اور Microsoft BI جیسے سسٹمز شامل ہیں۔

میں خصوصیات کے ساتھ بلاگر اور پروگرامر مشین لرننگ اور گہری سیکھنا عنوانات. ڈینیئل کو امید ہے کہ وہ سماجی بھلائی کے لیے AI کی طاقت کو استعمال کرنے میں دوسروں کی مدد کرے گا۔