стуб Шта су велики подаци? - Уните.АИ
Повежите се са нама

АИ 101

Шта је Биг Дата?

mm
Ажурирано on

Шта је Биг Дата?

„Велики подаци“ је једна од најчешће коришћених речи наше тренутне ере, али шта то заправо значи?

Ево брзе, једноставне дефиниције великих података. Велики података су подаци који су превелики и сложени да би се њима руковало традиционалним методама обраде и складиштења података. Иако је то брза дефиниција коју можете користити као хеуристику, било би од помоћи имати дубље и потпуније разумевање великих података. Хајде да погледамо неке од концепата који су у основи великих података, као што су складиштење, структура и обрада.

Колико су велики подаци?

Није тако једноставно као да кажете „сваки подаци преко величине „Кс“ су велики подаци“, окружење у којем се обрађују подаци је изузетно важан фактор у утврђивање шта се квалификује као велики подаци. Величина која подаци треба да буду, да би се сматрали великим подацима, зависи од контекста или задатка у коме се подаци користе. Два скупа података веома различитих величина могу се сматрати „великим подацима“ у различитим контекстима.

Да будемо конкретнији, ако покушате да пошаљете датотеку од 200 мегабајта као прилог е-поште, нећете то моћи да урадите. У овом контексту, датотека од 200 мегабајта би се могла сматрати великим подацима. Насупрот томе, копирање датотеке од 200 мегабајта на други уређај унутар исте ЛАН мреже можда неће потрајати уопште, иу том контексту, то се не би сматрало великим подацима.

Међутим, претпоставимо да видео запис од 15 терабајта треба да буде претходно обрађен за употребу у апликацијама за обуку рачунарског вида. У овом случају, видео датотеке заузимају толико простора да би чак и моћном рачунару требало много времена да их све обради, па би се обрада нормално дистрибуирала на више рачунара повезаних заједно како би се смањило време обраде. Ових 15 терабајта видео података би се дефинитивно квалификовало као велики подаци.

Врсте структура великих података

Велики подаци долазе у три различите категорије структуре: неструктурирани подаци, полуструктурирани и структурирани подаци.

Неструктурирани подаци су подаци који немају структуру која се може дефинисати, што значи да су подаци у суштини само у једном великом скупу. Примери неструктурираних података би били база података пуна неозначених слика.

Полуструктурирани подаци су подаци који немају формалну структуру, али постоје унутар лабаве структуре. На пример, подаци е-поште могу се рачунати као полуструктурирани подаци, јер се можете позивати на податке садржане у појединачним имејловима, али формални обрасци података нису успостављени.

Структурирани подаци су подаци који имају формалну структуру, са тачкама података категоризованим по различитим карактеристикама. Један пример структурираних података је Екцел табела која садржи контакт информације попут имена, е-поште, бројева телефона и веб локација.

Ако желите да прочитате више о разликама у овим типовима података, погледајте везу овде.

метрике за процену великих података

Велики подаци се могу анализирати у смислу три различите метрике: обим, брзина и разноликост.

Обим се односи на величину података. Просечна величина скупова података се често повећава. На пример, највећи чврсти диск у 2006. био је чврсти диск од 750 ГБ. Насупрот томе, сматра се да Фацебоок генерише преко 500 терабајта података дневно, а највећи чврсти диск за потрошаче који је данас доступан је чврсти диск од 16 терабајта. Оно што се квантификује као велики подаци у једној ери можда неће бити велики подаци у другој. Данас се генерише више података јер је све више објеката који нас окружују опремљено сензорима, камерама, микрофонима и другим уређајима за прикупљање података.

Брзина се односи на то колико се брзо подаци крећу, или другачије речено, колико података се генерише у датом временском периоду. Токови друштвених медија генеришу стотине хиљада постова и коментара сваког минута, док ће ваше сопствено сандуче е-поште вероватно имати много мање активности. Велики токови података су токови који често обрађују стотине хиљада или милионе догађаја у мање или више реалном времену. Примери ових токова података су платформе за онлајн игре и високофреквентни алгоритми за трговање акцијама.

Разноликост се односи на различите типове података садржаних у скупу података. Подаци могу бити састављени од много различитих формата, као што су аудио, видео, текст, фотографије или серијски бројеви. Уопштено говорећи, традиционалне базе података су форматиране за обраду једног или само неколико типова података. Другим речима, традиционалне базе података су структурисане тако да садрже податке који су прилично хомогени и конзистентне, предвидљиве структуре. Како апликације постају разноврсније, пуне различитих функција и које користи све више људи, базе података су морале да еволуирају да би ускладиштиле више врста података. Неструктуриране базе података су идеалне за чување великих података, јер могу да садрже више типова података који нису међусобно повезани.

Методе руковања великим подацима

Постоји велики број различитих платформи и алата дизајнираних да олакшају анализу великих података. Потребно је анализирати велике скупове података како би се из података издвојили смислени обрасци, задатак који се може показати прилично изазовним са традиционалним алатима за анализу података. Као одговор на потребу за алатима за анализу великих количина података, разне компаније су креирале алате за анализу великих података. Алати за анализу великих података укључују системе као што су ЗОХО Аналитицс, Цлоудера и Мицрософт БИ.