AI 101

Що таке великі дані?

оновлений on 9 Грудня, 2022

Що таке великі дані?

«Великі дані» є одним із часто використовуваних модних слів нашої сучасної ери, але що воно насправді означає?

Ось швидке та просте визначення великих даних. Велике даних це дані, які є занадто великими та складними для обробки традиційними методами обробки та зберігання даних. Хоча це коротке визначення, яке можна використовувати як евристику, було б корисно мати глибше та повніше розуміння великих даних. Давайте розглянемо деякі концепції, які лежать в основі великих даних, як-от зберігання, структура та обробка.

Наскільки великі великі дані?

Це не так просто, як сказати «будь-які дані, що перевищують розмір 'X', є великими даними». Середовище, в якому дані обробляються, є надзвичайно важливим фактором визначення того, що кваліфікується як великі дані. Розмір даних, щоб вважатися великими даними, залежить від контексту або завдання, у якому вони використовуються. Два набори даних дуже різного розміру можна вважати «великими даними» в різних контекстах.

Якщо бути більш конкретним, якщо ви спробуєте надіслати 200-мегабайтний файл як вкладення електронної пошти, ви не зможете це зробити. У цьому контексті 200-мегабайтний файл можна вважати великими даними. Навпаки, копіювання 200-мегабайтного файлу на інший пристрій у тій самій локальній мережі може не зайняти жодного часу, і в цьому контексті це не вважатиметься великими даними.

Однак припустімо, що відео обсягом 15 терабайт потрібно попередньо обробити для використання в програмах навчання комп’ютерного зору. У цьому випадку відеофайли займають стільки місця, що навіть потужному комп’ютеру знадобиться багато часу, щоб обробити їх усі, тому обробка зазвичай розподіляється між кількома комп’ютерами, з’єднаними разом, щоб зменшити час обробки. Ці 15 терабайт відеоданих однозначно можна вважати великими даними.

Типи структур великих даних

Великі дані бувають трьох різних категорій структури: неструктуровані дані, напівструктуровані та структуровані дані.

Неструктуровані дані – це дані, які не мають визначеної структури, тобто дані, по суті, знаходяться лише в одному великому пулі. Прикладом неструктурованих даних може бути база даних, повна зображень без міток.

Напівструктуровані дані – це дані, які не мають формальної структури, але існують у розстроченій структурі. Наприклад, дані електронної пошти можуть вважатися напівструктурованими даними, оскільки ви можете посилатися на дані, що містяться в окремих електронних листах, але формальних шаблонів даних не встановлено.

Структуровані дані – це дані, які мають формальну структуру з точками даних, класифікованими за різними ознаками. Одним із прикладів структурованих даних є електронна таблиця Excel, що містить контактну інформацію, як-от імена, електронні адреси, номери телефонів і веб-сайти.

Якщо ви хочете прочитати більше про відмінності в цих типах даних, перегляньте посилання тут.

Метрики для оцінки великих даних

Великі дані можна аналізувати за трьома різними показниками: обсяг, швидкість і різноманітність.

Обсяг означає розмір даних. Середній розмір наборів даних часто збільшується. Наприклад, найбільшим жорстким диском у 2006 році був жорсткий диск на 750 Гб. На противагу цьому вважається, що Facebook генерує понад 500 терабайт даних на день, а найбільший жорсткий диск для споживачів, доступний сьогодні, — це 16-терабайтний жорсткий диск. Те, що кількісно вважається великими даними в одну епоху, може не бути великими даними в іншу. Сьогодні генерується більше даних, тому що все більше об’єктів, які нас оточують, оснащені датчиками, камерами, мікрофонами та іншими пристроями для збору даних.

Швидкість означає, наскільки швидко переміщуються дані, або, іншими словами, скільки даних генерується за певний період часу. Потоки соціальних мереж генерують сотні тисяч публікацій і коментарів щохвилини, тоді як у вашій власній скриньці вхідних повідомлень буде набагато менше активності. Потоки великих даних – це потоки, які часто обробляють сотні тисяч або мільйони подій у більш-менш реальному часі. Прикладами таких потоків даних є платформи онлайн-ігор і високочастотні алгоритми біржової торгівлі.

Різноманітність стосується різних типів даних, що містяться в наборі даних. Дані можуть складатися з різних форматів, як-от аудіо, відео, текст, фотографії або серійні номери. Загалом, традиційні бази даних відформатовано для обробки одного або кількох типів даних. Іншими словами, традиційні бази даних структуровані таким чином, щоб зберігати дані, які є досить однорідними та мають послідовну, передбачувану структуру. У міру того, як програми стають різноманітнішими, наповнюються різними функціями та використовуються все більшою кількістю людей, бази даних повинні розвиватися, щоб зберігати більше типів даних. Неструктуровані бази даних ідеально підходять для зберігання великих даних, оскільки вони можуть містити кілька типів даних, які не пов’язані один з одним.

Методи обробки великих даних

Існує кілька різних платформ і інструментів, призначених для полегшення аналізу великих даних. Великі пули даних необхідно проаналізувати, щоб витягнути з них значущі шаблони, і це завдання може виявитися досить складним за допомогою традиційних інструментів аналізу даних. У відповідь на потребу в інструментах для аналізу великих обсягів даних багато компаній створили інструменти аналізу великих даних. Інструменти аналізу великих даних включають такі системи, як ZOHO Analytics, Cloudera та Microsoft BI.

Схожі теми:великих даних

Вгору Далі

Стратегія «Розвивати та обрізати штучний інтелект», здається, зменшує споживання енергії штучного інтелекту

Не пропустіть

Дослідники розробили інструмент штучного інтелекту, який допоможе ідентифікувати фейкові новини

Деніел Нельсон

Блогер і програміст зі спеціальностями в машинне навчання та Глибоке навчання теми. Деніел сподівається допомогти іншим використовувати силу ШІ для суспільного блага.