AI 101

რა არის დიდი მონაცემები?

განახლებულია on დეკემბერი 9, 2022

რა არის დიდი მონაცემები?

„დიდი მონაცემები“ ჩვენი ამჟამინდელი ეპოქის ერთ-ერთი ყველაზე ხშირად გამოყენებული ხმაურიანი სიტყვაა, მაგრამ რას ნიშნავს ეს სინამდვილეში?

აქ მოცემულია დიდი მონაცემების სწრაფი, მარტივი განმარტება. დიდი მონაცემები არის მონაცემები, რომლებიც ძალიან დიდი და რთულია მონაცემთა დამუშავებისა და შენახვის ტრადიციული მეთოდებით დასამუშავებლად. მიუხედავად იმისა, რომ ეს არის სწრაფი განმარტება, რომელიც შეგიძლიათ გამოიყენოთ როგორც ევრისტიკა, სასარგებლო იქნება დიდი მონაცემების უფრო ღრმა, უფრო სრულყოფილი გაგება. მოდით გადავხედოთ ზოგიერთ კონცეფციას, რომელიც ემყარება დიდ მონაცემებს, როგორიცაა შენახვა, სტრუქტურა და დამუშავება.

რამდენად დიდია დიდი მონაცემები?

ეს არ არის ისეთი მარტივი, როგორც იმის თქმა, რომ "ნებისმიერი მონაცემი ზომით "X" არის დიდი მონაცემები", გარემო, რომელშიც ხდება მონაცემების დამუშავება არის ძალიან მნიშვნელოვანი ფაქტორი. იმის განსაზღვრა, თუ რა კვალიფიცირდება როგორც დიდი მონაცემები. ზომა, რომელიც უნდა იყოს მონაცემი, რათა ჩაითვალოს დიდ მონაცემად, დამოკიდებულია კონტექსტზე, ან დავალებაზე, რომელშიც მონაცემები გამოიყენება. ძალიან განსხვავებული ზომის ორი მონაცემთა ნაკრები შეიძლება ჩაითვალოს „დიდი მონაცემები“ სხვადასხვა კონტექსტში.

უფრო კონკრეტულად რომ ვთქვათ, თუ ცდილობთ 200 მეგაბაიტიანი ფაილის გაგზავნას ელ.ფოსტის დანართის სახით, ამას ვერ შეძლებთ. ამ კონტექსტში, 200 მეგაბაიტიანი ფაილი შეიძლება ჩაითვალოს დიდ მონაცემად. ამის საპირისპიროდ, 200 მეგაბაიტიანი ფაილის კოპირებას სხვა მოწყობილობაზე იმავე LAN-ში შეიძლება საერთოდ არ დასჭირდეს დრო და ამ კონტექსტში ის არ ჩაითვლება დიდ მონაცემად.

თუმცა, დავუშვათ, რომ 15 ტერაბაიტის ღირებულების ვიდეო საჭიროებს წინასწარ დამუშავებას კომპიუტერული ხედვის აპლიკაციების სავარჯიშოში გამოსაყენებლად. ამ შემთხვევაში, ვიდეო ფაილები იკავებს იმდენ ადგილს, რომ მძლავრ კომპიუტერსაც კი დიდი დრო დასჭირდება ყველა მათგანის დამუშავებას და, შესაბამისად, დამუშავება ჩვეულებრივ გადანაწილდება ერთმანეთთან დაკავშირებულ მრავალ კომპიუტერზე, რათა შემცირდეს დამუშავების დრო. ეს 15 ტერაბაიტი ვიდეო მონაცემები აუცილებლად კვალიფიცირდება როგორც დიდი მონაცემები.

დიდი მონაცემთა სტრუქტურების ტიპები

დიდი მონაცემები მოდის სტრუქტურის სამ სხვადასხვა კატეგორიაში: არასტრუქტურირებული მონაცემები, ნახევრად სტრუქტურირებული და სტრუქტურირებული მონაცემები.

არასტრუქტურირებული მონაცემები არის მონაცემები, რომლებსაც არ გააჩნიათ განსაზღვრული სტრუქტურა, რაც იმას ნიშნავს, რომ მონაცემები არსებითად მხოლოდ ერთ დიდ აუზშია. არასტრუქტურირებული მონაცემების მაგალითები იქნება არალეიბლირებული სურათებით სავსე მონაცემთა ბაზა.

ნახევრად სტრუქტურირებული მონაცემები არის მონაცემები, რომლებსაც არ აქვთ ფორმალური სტრუქტურა, მაგრამ არსებობს ფხვიერი სტრუქტურის ფარგლებში. მაგალითად, ელ.ფოსტის მონაცემები შეიძლება ჩაითვალოს ნახევრად სტრუქტურირებულ მონაცემებად, რადგან შეგიძლიათ მიმართოთ ცალკეულ წერილებში მოცემულ მონაცემებს, მაგრამ მონაცემთა ფორმალური ნიმუშები დადგენილი არ არის.

სტრუქტურირებული მონაცემები არის მონაცემები, რომლებსაც აქვთ ფორმალური სტრუქტურა, მონაცემთა ქულები სხვადასხვა მახასიათებლების მიხედვით. სტრუქტურირებული მონაცემების ერთი მაგალითია Excel-ის ცხრილი, რომელიც შეიცავს საკონტაქტო ინფორმაციას, როგორიცაა სახელები, ელ.წერილი, ტელეფონის ნომრები და ვებსაიტები.

თუ გსურთ მეტი წაიკითხოთ ამ მონაცემთა ტიპების განსხვავებების შესახებ, შეამოწმეთ ბმული აქ.

დიდი მონაცემების შეფასების მეტრიკა

დიდი მონაცემები შეიძლება გაანალიზდეს სამი განსხვავებული მეტრიკის მიხედვით: მოცულობა, სიჩქარე და მრავალფეროვნება.

მოცულობა ეხება მონაცემთა ზომას. მონაცემთა ნაკრების საშუალო ზომა ხშირად იზრდება. მაგალითად, 2006 წელს ყველაზე დიდი მყარი დისკი იყო 750 GB მყარი დისკი. ამის საპირისპიროდ, ითვლება, რომ Facebook აწარმოებს 500 ტერაბაიტზე მეტ მონაცემს დღეში და ყველაზე დიდი სამომხმარებლო მყარი დისკი, რომელიც დღეს არის ხელმისაწვდომი, არის 16 ტერაბაიტი მყარი დისკი. ის, რაც რაოდენობრივად ითვლება დიდ მონაცემად ერთ ეპოქაში, შეიძლება არ იყოს დიდი მონაცემები მეორეში. დღეს უფრო მეტი მონაცემი იქმნება, რადგან ჩვენს გარშემო არსებული უფრო და უფრო მეტი ობიექტი აღჭურვილია სენსორებით, კამერებით, მიკროფონებით და სხვა მონაცემთა შეგროვების მოწყობილობებით.

სიჩქარე მიუთითებს იმაზე, თუ რამდენად სწრაფად მოძრაობს მონაცემები, ან სხვაგვარად რომ ვთქვათ, რამდენი მონაცემი წარმოიქმნება მოცემულ პერიოდში. სოციალური მედიის ნაკადები ყოველ წუთს ასობით ათასი პოსტისა და კომენტარის გენერირებას ახდენს, მაშინ როცა თქვენს ელფოსტის შემოსულებს ალბათ გაცილებით ნაკლები აქტივობა ექნება. დიდი მონაცემთა ნაკადები არის ნაკადები, რომლებიც ხშირად ამუშავებენ ასობით ათასი ან მილიონობით მოვლენას მეტ-ნაკლებად რეალურ დროში. ამ მონაცემთა ნაკადების მაგალითებია ონლაინ სათამაშო პლატფორმები და მაღალი სიხშირის საფონდო ვაჭრობის ალგორითმები.

მრავალფეროვნება ეხება მონაცემთა ნაკრებში შემავალ სხვადასხვა ტიპის მონაცემებს. მონაცემები შეიძლება შედგებოდეს სხვადასხვა ფორმატებისგან, როგორიცაა აუდიო, ვიდეო, ტექსტი, ფოტოები ან სერიული ნომრები. ზოგადად, ტრადიციული მონაცემთა ბაზები ფორმატირებულია ერთი, ან მხოლოდ რამდენიმე ტიპის მონაცემების დასამუშავებლად. სხვაგვარად რომ ვთქვათ, ტრადიციული მონაცემთა ბაზები სტრუქტურირებულია ისე, რომ შეინახოს მონაცემები, რომლებიც საკმაოდ ერთგვაროვანი და თანმიმდევრული, პროგნოზირებადი სტრუქტურისაა. რაც უფრო მრავალფეროვანი ხდება აპლიკაციები, სავსეა სხვადასხვა ფუნქციებით და გამოიყენება უფრო მეტი ადამიანის მიერ, მონაცემთა ბაზები უნდა განვითარებულიყო მეტი ტიპის მონაცემების შესანახად. არასტრუქტურირებული მონაცემთა ბაზები იდეალურია დიდი მონაცემების შესანახად, რადგან მათ შეუძლიათ შეინახონ მონაცემთა მრავალი ტიპი, რომლებიც ერთმანეთთან არ არის დაკავშირებული.

დიდი მონაცემების დამუშავების მეთოდები

არსებობს მრავალი სხვადასხვა პლატფორმა და ინსტრუმენტი, რომელიც შექმნილია დიდი მონაცემების ანალიზის გასაადვილებლად. მონაცემთა დიდი აუზები უნდა გაანალიზდეს, რათა ამოიღონ მნიშვნელოვანი შაბლონები მონაცემებიდან, ამოცანა, რომელიც შეიძლება საკმაოდ რთული აღმოჩნდეს მონაცემთა ანალიზის ტრადიციული ინსტრუმენტებით. დიდი მოცულობის მონაცემების გასაანალიზებლად ინსტრუმენტების საჭიროების საპასუხოდ, მრავალმა კომპანიამ შექმნა დიდი მონაცემთა ანალიზის ხელსაწყოები. დიდი მონაცემთა ანალიზის ინსტრუმენტები მოიცავს სისტემებს, როგორიცაა ZOHO Analytics, Cloudera და Microsoft BI.

დაკავშირებული თემები:დიდი მონაცემები

შემდეგი

Grow and Prune AI სტრატეგია, როგორც ჩანს, ამცირებს AI ენერგიის მოხმარებას

არ გამოტოვოთ

მკვლევარებმა შეიმუშავეს AI ინსტრუმენტი, რომელიც დაგეხმარებათ ყალბი ამბების იდენტიფიცირებაში

დანიელ ნელსონი

ბლოგერი და პროგრამისტი სპეციალობით მანქანა სწავლა მდე ღრმა სწავლება თემები. დანიელი იმედოვნებს, რომ დაეხმარება სხვებს გამოიყენონ ხელოვნური ინტელექტის ძალა სოციალური სიკეთისთვის.