Connect with us

Co to jest Big Data?

Sztuczna inteligencja

Co to jest Big Data?

mm

Co to jest Big Data?

“Big Data” to jeden z najczęściej używanych buzzwordów naszej ery, ale co to naprawdę oznacza?

Oto szybka, prosta definicja big data. Big data to dane, które są zbyt duże i złożone, aby mogły być obsługiwane przez tradycyjne metody przetwarzania i przechowywania danych. Chociaż to jest szybka definicja, którą można wykorzystać jako heurystykę, byłoby pomocne, gdybyśmy mieli głębsze, bardziej kompletnie zrozumienie big data. Zobaczmy niektóre z pojęć, które leżą u podstaw big data, takie jak przechowywanie, struktura i przetwarzanie.

Jak duże jest Big Data?

Nie jest tak proste, jak powiedzenie „dowolne dane o rozmiarze ‘X’ są big data”, środowisko, w którym dane są obsługiwane, jest niezwykle ważnym czynnikiem w określaniu, co kwalifikuje się jako big data. Rozmiar, jaki dane muszą mieć, aby być uważane za big data, zależy od kontekstu lub zadania, w którym dane są używane. Dwa zestawy danych o znacznie różnych rozmiarach mogą być uważane za „big data” w różnych kontekstach.

Aby być bardziej konkretnym, jeśli spróbujesz wysłać plik o rozmiarze 200 megabajtów jako załącznik do wiadomości e-mail, nie będziesz mógł tego zrobić. W tym kontekście plik o rozmiarze 200 megabajtów mógłby być uważany za big data. W przeciwieństwie do tego, kopiowanie pliku o rozmiarze 200 megabajtów do innego urządzenia w tej samej sieci LAN nie zajmie żadnego czasu, a w tym kontekście nie byłoby uważane za big data.

Jednakże, załóżmy, że 15 terabajtów wideo musi być przetworzonych w celu użycia w aplikacjach komputerowego widzenia. W tym przypadku pliki wideo zajmują tak dużo miejsca, że nawet potężny komputer potrzebowałby dużo czasu, aby przetworzyć je wszystkie, a przetwarzanie byłoby zwykle rozproszone na wiele komputerów połączonych ze sobą w celu zmniejszenia czasu przetwarzania. Te 15 terabajtów danych wideo zdecydowanie kwalifikowałoby się jako big data.

Typy struktur Big Data

Big data występuje w trzech różnych kategoriach struktury: nieustrukturyzowane dane, półustrukturyzowane i ustrukturyzowane dane.

Nieustrukturyzowane dane to dane, które nie posiadają żadnej określonej struktury, co oznacza, że dane są po prostu w jednym dużym basenie. Przykładami nieustrukturyzowanych danych mogą być bazy danych pełne nieoznaczonych obrazów.

Półustrukturyzowane dane to dane, które nie mają formalnej struktury, ale istnieją w luźnej strukturze. Na przykład dane e-mail mogą być uważane za półustrukturyzowane dane, ponieważ można odnosić się do danych zawartych w poszczególnych e-mailach, ale formalne wzorce danych nie zostały ustalone.

Ustrukturyzowane dane to dane, które mają formalną strukturę, z danymi punktami sklasyfikowanymi według różnych cech. Przykładem ustrukturyzowanych danych jest arkusz kalkulacyjny Excel zawierający informacje kontaktowe, takie jak nazwy, adresy e-mail, numery telefonów i strony internetowe.

Jeśli chcesz przeczytać więcej o różnicach między tymi typami danych, sprawdź link tutaj.

Metryki oceny Big Data

Big data można analizować pod kątem trzech różnych metryk: objętości, prędkości i różnorodności.

Objętość odnosi się do rozmiaru danych. Średni rozmiar zestawów danych często się zwiększa. Na przykład największy dysk twardy w 2006 roku miał pojemność 750 GB. W przeciwieństwie do tego, uważa się, że Facebook generuje ponad 500 terabajtów danych dziennie, a największy dostępny dziś dysk twardy dla konsumentów ma pojemność 16 terabajtów. To, co kwalifikuje się jako big data w jednej erze, może nie być big data w innej. Więcej danych jest generowanych dzisiaj, ponieważ coraz więcej obiektów wokół nas jest wyposażonych w czujniki, kamery, mikrofony i inne urządzenia do zbierania danych.

Prędkość odnosi się do tego, jak szybko dane się poruszają, lub inaczej mówiąc, ile danych jest generowanych w danym okresie czasu. Strumienie mediów społecznościowych generują setki tysięcy postów i komentarzy co minutę, podczas gdy twoja własna skrzynka odbiorcza e-mail prawdopodobnie będzie miała znacznie mniej aktywności. Strumienie big data to strumienie, które często obsługują setki tysięcy lub miliony zdarzeń w czasie rzeczywistym. Przykładami tych strumieni są platformy gier online i algorytmy handlu wysokoczęstotliwościowego.

Różnorodność odnosi się do różnych typów danych zawartych w zestawie danych. Dane mogą składać się z wielu różnych formatów, takich jak audio, wideo, tekst, zdjęcia lub numery seryjne. Ogólnie, tradycyjne bazy danych są sformatowane w taki sposób, aby obsługiwać jeden lub tylko kilka typów danych. Innymi słowy, tradycyjne bazy danych są zaprojektowane do przechowywania danych, które są dość jednorodne i mają spójną, przewidywalną strukturę. W miarę jak aplikacje stają się bardziej różnorodne, pełne różnych funkcji i używane przez więcej ludzi, bazy danych musiały ewoluować, aby przechowywać więcej typów danych. Bazy danych nieustrukturyzowane są idealne do przechowywania big data, ponieważ mogą przechowywać wiele typów danych, które nie są ze sobą powiązane.

Metody obsługi Big Data

Istnieje wiele różnych platform i narzędzi zaprojektowanych w celu ułatwienia analizy big data. Pule big data muszą być analizowane w celu wyodrębnienia znaczących wzorców z danych, co może okazać się dość wyzwaniem z tradycyjnymi narzędziami do analizy danych. W odpowiedzi na potrzebę narzędzi do analizy dużych ilości danych, wiele firm stworzyło narzędzia do analizy big data. Narzędzia do analizy big data obejmują systemy takie jak ZOHO Analytics, Cloudera i Microsoft BI.

Blogger i programista ze specjalnościami w Machine Learning i Deep Learning tematy. Daniel liczy, że pomoże innym wykorzystać moc sztucznej inteligencji dla dobra społecznego.