Штучний інтелект
Що таке Великі Дані?

Що таке Великі Дані?
“Великі Дані” – одне з найбільш часто вживаних слів нашої епохи, але що це насправді означає?
Ось швидке, просте визначення великих даних. Великі дані – це дані, які занадто великі та складні, щоб їх могли обробляти традиційні методи обробки та зберігання даних. Хоча це швидке визначення можна використовувати як евристичний метод, було б корисно мати глибше, повніше розуміння великих даних. Давайте розглянемо деякі концепції, що лежать в основі великих даних, такі як зберігання, структура та обробка.
Які Великі Дані?
Це не так просто, як сказати “будь-які дані розміром ‘X’ є великими даними”, оточення, в якому обробляються дані, є дуже важливим фактором у визначенні того, що становить великі дані. Розмір, якого повинні бути дані, щоб вважатися великими даними, залежить від контексту або завдання, для якого використовуються дані. Два набори даних різного розміру можуть бути вважані “великими даними” в різних контекстах.
Щоб бути більш конкретним, якщо ви спробуєте відправити файл розміром 200 мегабайт як електронну пошту, ви не зможете цього зробити. У цьому контексті файл розміром 200 мегабайт можна вважати великими даними. Навпаки, копіювання файлу розміром 200 мегабайт на інший пристрій у тому ж локальному мережі може не зайняти жодного часу, і в цьому контексті його не вважатимуть великими даними.
Однак, припустимо, що потрібно попередньо обробити 15 терабайт відео для використання в тренуванні комп’ютерного зору. У цьому випадку відеофайли займають так багато місця, що навіть потужний комп’ютер витратить багато часу на їх обробку, і тому обробку зазвичай розподіляють між декількома комп’ютерами, пов’язаними між собою, щоб зменшити час обробки. Ці 15 терабайт відеоданих безумовно будуть вважатися великими даними.
Типи Структурних Великих Даних
Великі дані поділяються на три різні категорії структури: неструктуровані дані, напівструктуровані та структуровані дані.
Неструктуровані дані – це дані, які не мають визначеної структури, тобто дані знаходяться в одному великому масиві. Прикладами неструктурованих даних можуть бути бази даних, повні незначених зображень.
Напівструктуровані дані – це дані, які не мають формальної структури, але існують у певній структурі. Наприклад, дані електронної пошти можуть вважатися напівструктурованими даними, оскільки ви можете посилатися на дані, що містяться в окремих електронних листах, але формальні закономірності не встановлені.
Структуровані дані – це дані, які мають формальну структуру, з даними, категоризованими за різними ознаками. Прикладом структурованих даних є електронна таблиця, що містить контактну інформацію, таку як імена, електронні пошти, номери телефонів та веб-сайти.
Якщо ви бажаєте прочитати більше про відмінності цих типів даних, перегляньте посилання тут.
Метрики Для Оцінки Великих Даних
Великі дані можна аналізувати за трьома різними метриками: об’єм, швидкість та різноманітність.
Об’єм відноситься до розміру даних. Середній розмір наборів даних часто збільшується. Наприклад, найбільший жорсткий диск у 2006 році був жорстким диском розміром 750 ГБ. Навпаки, вважається, що Facebook генерує понад 500 терабайт даних на добу, а найбільший споживчий жорсткий диск, доступний сьогодні, – це жорсткий диск розміром 16 терабайт. Що кваліфікується як великі дані в одну епоху, може не бути великими даними в іншій. Більше даних генерується сьогодні, оскільки все більше об’єктів навколо нас оснащені датчиками, камерами, мікрофонами та іншими пристроями збору даних.
Швидкість відноситься до того, як швидко рухаються дані, або інакше кажучи, скільки даних генерується протягом певного періоду часу. Потоки соціальних мереж генерують сотні тисяч постів і коментарів кожну хвилину, тоді як ваша власна скринька електронної пошти, ймовірно, матиме значно менше активності. Потоки великих даних – це потоки, які часто обробляють сотні тисяч або мільйони подій у реальному часі. Прикладами цих потоків даних є онлайн-ігрові платформи та алгоритми високочастотної торгівлі акціями.
Різноманітність відноситься до різних типів даних, що містяться в наборі даних. Дані можуть складатися з багатьох різних форматів, таких як аудіо, відео, текст, фотографії чи серійні номери. Зазвичай традиційні бази даних форматуються для обробки одного або лише декількох типів даних. Інакше кажучи, традиційні бази даних структуровані для зберігання даних, які досить однорідні та мають передбачувану структуру. Коли програми стають більш різноманітними, багаті функціями та використовуються більшим числом людей, бази даних мали еволюціонувати, щоб зберігати більше типів даних. Неструктуровані бази даних ідеальні для зберігання великих даних, оскільки вони можуть зберігати кілька типів даних, що не пов’язані між собою.
Методи Обробки Великих Даних
Існує ряд платформ та інструментів, призначених для полегшення аналізу великих даних. Басейни великих даних потрібно аналізувати, щоб витягнути значущі закономірності з даних, завдання, яке може виявитися досить складним за допомогою традиційних інструментів аналізу даних. У відповідь на потребу в інструментах для аналізу великих об’ємів даних, ряд компаній створили інструменти аналізу великих даних. Інструменти аналізу великих даних включають системи, такі як ZOHO Analytics, Cloudera та Microsoft BI.












