Штучний інтелект

Що таке Big Data?

Published December 20, 2019

Updated March 20, 2026

Daniel Nelson

Що таке Big Data?

“Big Data” — це одне з поширених модних слів нашого часу, але що воно насправді означає? Ось швидке, просте визначення великих даних. Великі дані — це дані, які є занадто великими та складними для обробки та зберігання традиційними методами. Хоча це швидке визначення, яке можна використовувати як евристику, корисно мати глибше, повніше розуміння великих даних. Давайте розглянемо деякі концепції, що лежать в основі великих даних, такі як зберігання, структура та обробка.

Наскільки великими є великі дані?

Не все так просто, як сказати “будь-які дані розміром понад ‘X’ є великими даними”, середовище, в якому обробляються дані, є надзвичайно важливим фактором у визначенні того, що можна вважати великими даними. Розмір, якого мають досягати дані, щоб вважатися великими даними, залежить від контексту або завдання, для якого використовуються дані. Два набори даних значно різного розміру можуть вважатися “великими даними” в різних контекстах. Щоб бути конкретнішими, якщо ви спробуєте надіслати файл розміром 200 мегабайт як вкладення електронного листа, у вас це не вийде. У цьому контексті файл розміром 200 мегабайт можна вважати великими даними. Навпаки, копіювання файлу розміром 200 мегабайт на інший пристрій у межах тієї ж локальної мережі може взагалі не зайняти часу, і в цьому контексті його не вважатимуть великими даними. Однак припустимо, що 15 терабайт відео потрібно попередньо обробити для використання в навчанні додатків комп’ютерного зору. У цьому випадку відеофайли займають настільки багато місця, що навіть потужному комп’ютеру знадобиться багато часу для їх обробки, тому обробку зазвичай розподіляють між кількома комп’ютерами, об’єднаними разом, щоб скоротити час обробки. Ці 15 терабайт відеоданих безумовно можна вважати великими даними.

Типи структур великих даних

Великі дані поділяються на три різні категорії структури: неструктуровані дані, напівструктуровані та структуровані дані. Неструктуровані дані — це дані, які не мають визначеної структури, тобто дані по суті просто знаходяться в одному великому пулі. Прикладами неструктурованих даних може бути база даних, повна нерозмічених зображень. Напівструктуровані дані — це дані, які не мають формальної структури, але існують у межах вільної структури. Наприклад, дані електронної пошти можуть вважатися напівструктурованими даними, оскільки ви можете посилатися на дані, що містяться в окремих листах, але формальні шаблони даних не встановлені. Структуровані дані — це дані, які мають формальну структуру, де точки даних категоризовані за різними ознаками. Одним із прикладів структурованих даних є електронна таблиця Excel, що містить контактну інформацію, таку як імена, електронні адреси, номери телефонів та веб-сайти. Якщо ви хочете дізнатися більше про відмінності між цими типами даних, перейдіть за посиланням тут.

Метрики для оцінки великих даних

Великі дані можна аналізувати за трьома різними метриками: обсяг, швидкість та різноманітність. Обсяг стосується розміру даних. Середній розмір наборів даних часто збільшується. Наприклад, найбільший жорсткий диск у 2006 році мав обсяг 750 ГБ. Навпаки, вважається, що Facebook генерує понад 500 терабайт даних на день, а найбільший доступний сьогодні споживчий жорсткий диск має обсяг 16 терабайт. Те, що кваліфікується як великі дані в одну епоху, може не бути великими даними в іншу. Сьогодні генерується більше даних, тому що все більше об’єктів навколо нас оснащуються датчиками, камерами, мікрофонами та іншими пристроями збору даних. Швидкість стосується того, наскільки швидко рухаються дані, або, іншими словами, скільки даних генерується за певний проміжок часу. Потоки соціальних медіа генерують сотні тисяч постів і коментарів щохвилини, тоді як ваша власна поштова скринька, ймовірно, матиме набагато менше активності. Потоки великих даних — це потоки, які часто обробляють сотні тисяч або мільйони подій більш-менш у реальному часі. Прикладами таких потоків даних є онлайн-ігрові платформи та алгоритми високочастотного торгування акціями. Різноманітність стосується різних типів даних, що містяться в наборі даних. Дані можуть складатися з багатьох різних форматів, таких як аудіо, відео, текст, фотографії або серійні номери. Загалом традиційні бази даних відформатовані для обробки одного або лише кількох типів даних. Іншими словами, традиційні бази даних структуровані для зберігання даних, які є досить однорідними та мають послідовну, передбачувану структуру. Оскільки додатки стають різноманітнішими, наповнюються різними функціями та використовуються більшою кількістю людей, бази даних мали розвиватися, щоб зберігати більше типів даних. Неструктуровані бази даних ідеально підходять для зберігання великих даних, оскільки вони можуть містити кілька типів даних, які не пов’язані між собою.

Методи обробки великих даних

Існує низка різних платформ та інструментів, призначених для полегшення аналізу великих даних. Потоки великих даних потрібно аналізувати, щоб витягти з них змістовні закономірності, що може виявитися досить складною задачею з традиційними інструментами аналізу даних. У відповідь на потребу в інструментах для аналізу великих обсягів даних різні компанії створили інструменти аналізу великих даних. До інструментів аналізу великих даних належать такі системи, як ZOHO Analytics, Cloudera та Microsoft BI.