Sztuczna inteligencja
Czym są Big Data?

Czym są Big Data?
„Big Data” to jedno z powszechnie używanych modnych określeń naszej obecnej ery, ale co ono tak naprawdę oznacza? Oto szybka, prosta definicja big data. Big data to dane, które są zbyt duże i zbyt złożone, aby można je było przetwarzać i przechowywać tradycyjnymi metodami. Choć jest to krótka definicja, którą można potraktować jako heurystykę, pomocne będzie głębsze i pełniejsze zrozumienie big data. Przyjrzyjmy się niektórym koncepcjom leżącym u podstaw big data, takim jak przechowywanie, struktura i przetwarzanie.
Jak duże są Big Data?
Nie jest to tak proste, jak stwierdzenie „wszystkie dane powyżej rozmiaru ‘X’ to big data”, środowisko, w którym dane są przetwarzane, jest niezwykle ważnym czynnikiem w określaniu, co kwalifikuje się jako big data. Rozmiar, jaki dane muszą osiągnąć, aby zostać uznane za big data, zależy od kontekstu lub zadania, do którego dane są wykorzystywane. Dwa zbiory danych o diametralnie różnych rozmiarach mogą być uznane za „big data” w różnych kontekstach. Aby być bardziej konkretnym, jeśli spróbujesz wysłać plik o rozmiarze 200 megabajtów jako załącznik do e-maila, nie będziesz w stanie tego zrobić. W tym kontekście plik o rozmiarze 200 MB można uznać za big data. Dla kontrastu, skopiowanie pliku o rozmiarze 200 MB na inne urządzenie w tej samej sieci LAN może nie zająć w ogóle czasu i w tym kontekście nie byłoby ono traktowane jako big data. Załóżmy jednak, że 15 terabajtów materiału wideo musi zostać wstępnie przetworzone do użycia w trenowaniu aplikacji do widzenia komputerowego. W tym przypadku pliki wideo zajmują tak dużo miejsca, że nawet potężny komputer potrzebowałby dużo czasu na ich przetworzenie, dlatego przetwarzanie byłoby zazwyczaj rozdzielone na wiele połączonych ze sobą komputerów, aby skrócić czas przetwarzania. Te 15 terabajtów danych wideo zdecydowanie kwalifikowałoby się jako big data.
Rodzaje struktur Big Data
Big data występuje w trzech różnych kategoriach strukturalnych: dane nieustrukturyzowane, częściowo ustrukturyzowane i dane ustrukturyzowane. Dane nieustrukturyzowane to dane, które nie posiadają zdefiniowanej struktury, co oznacza, że dane są zasadniczo w jednym dużym zbiorze. Przykładem danych nieustrukturyzowanych byłaby baza danych pełna nieoznaczonych obrazów. Dane częściowo ustrukturyzowane to dane, które nie mają formalnej struktury, ale istnieją w ramach luźnej struktury. Na przykład dane e-mailowe można uznać za dane częściowo ustrukturyzowane, ponieważ można odwoływać się do danych zawartych w poszczególnych wiadomościach e-mail, ale formalne wzorce danych nie zostały ustalone. Dane ustrukturyzowane to dane, które mają formalną strukturę, z punktami danych skategoryzowanymi według różnych cech. Przykładem danych ustrukturyzowanych jest arkusz kalkulacyjny Excel zawierający informacje kontaktowe, takie jak imiona i nazwiska, adresy e-mail, numery telefonów i strony internetowe. Jeśli chcesz przeczytać więcej o różnicach między tymi typami danych, sprawdź link tutaj.
Metryki oceny Big Data
Big data można analizować pod kątem trzech różnych metryk: wolumenu, szybkości i różnorodności. Wolumen odnosi się do rozmiaru danych. Średni rozmiar zbiorów danych często rośnie. Na przykład największy dysk twardy w 2006 roku miał pojemność 750 GB. Dla porównania, uważa się, że Facebook generuje ponad 500 terabajtów danych dziennie, a największy dostępny obecnie dysk twardy dla konsumentów ma pojemność 16 terabajtów. To, co kwalifikuje się jako big data w jednej epoce, może nie być big data w innej. Dzisiaj generuje się więcej danych, ponieważ coraz więcej otaczających nas przedmiotów jest wyposażonych w czujniki, kamery, mikrofony i inne urządzenia do zbierania danych. Szybkość odnosi się do tego, jak szybko dane się poruszają, lub inaczej mówiąc, ile danych jest generowanych w danym okresie czasu. Strumienie mediów społecznościowych generują setki tysięcy postów i komentarzy co minutę, podczas gdy Twoja własna skrzynka odbiorcza e-mail prawdopodobnie będzie miała znacznie mniej aktywności. Strumienie big data to strumienie, które często obsługują setki tysięcy lub miliony zdarzeń w czasie niemal rzeczywistym. Przykładami takich strumieni danych są platformy do gier online i algorytmy wysokoczęstotliwościowego handlu akcjami. Różnorodność odnosi się do różnych typów danych zawartych w zbiorze danych. Dane mogą składać się z wielu różnych formatów, takich jak audio, wideo, tekst, zdjęcia lub numery seryjne. Ogólnie rzecz biorąc, tradycyjne bazy danych są sformatowane do obsługi jednego lub tylko kilku typów danych. Innymi słowy, tradycyjne bazy danych są skonstruowane tak, aby przechowywać dane, które są dość jednorodne i mają spójną, przewidywalną strukturę. W miarę jak aplikacje stają się bardziej zróżnicowane, pełne różnych funkcji i używane przez więcej osób, bazy danych musiały ewoluować, aby przechowywać więcej typów danych. Nieustrukturyzowane bazy danych są idealne do przechowywania big data, ponieważ mogą przechowywać wiele typów danych, które nie są ze sobą powiązane.
Metody obsługi Big Data
Istnieje wiele różnych platform i narzędzi zaprojektowanych w celu ułatwienia analizy big data. Zbiory big data muszą być analizowane, aby wyodrębnić z nich znaczące wzorce, zadanie, które może okazać się dość trudne przy użyciu tradycyjnych narzędzi do analizy danych. W odpowiedzi na potrzebę narzędzi do analizy dużych wolumenów danych, różne firmy stworzyły narzędzia do analizy big data. Narzędzia do analizy big data obejmują systemy takie jak ZOHO Analytics, Cloudera i Microsoft BI.












