Connect with us

Что такое Big Data?

Искусственный интеллект

Что такое Big Data?

mm

Что такое Big Data?

“Big Data” – одно из наиболее часто используемых модных слов нашей эпохи, но что оно действительно означает?

Вот быстрое, простое определение большого количества данных. Большие данные – это данные, которые слишком велики и сложны, чтобы быть обработанными традиционными методами обработки и хранения данных. Хотя это быстрое определение можно использовать как эвристику, было бы полезно иметь более глубокое, полное понимание больших данных. Давайте рассмотрим некоторые концепции, которые лежат в основе больших данных, такие как хранение, структура и обработка.

Насколько велико Big Data?

Это не так просто, как сказать “любые данные размером больше ‘X’ – это большие данные”, окружающая среда, в которой обрабатываются данные, является чрезвычайно важным фактором в определении того, что квалифицируется как большие данные. Размер, которого должны быть данные, чтобы быть рассмотренными как большие данные, зависит от контекста или задачи, для которой используются данные. Два набора данных сильно различающихся размеров могут быть рассмотрены как “большие данные” в разных контекстах.

Чтобы быть более конкретным, если вы попытаетесь отправить файл размером 200 мегабайт в качестве вложения электронной почты, вы не сможете сделать этого. В этом контексте файл размером 200 мегабайт можно считать большими данными. Напротив, копирование файла размером 200 мегабайт на другое устройство в одной и той же локальной сети может не занять много времени, и в этом контексте это не будет считаться большими данными.

Однако давайте предположим, что необходимо предварительно обработать 15 терабайт видео для использования в обучении компьютерного зрения. В этом случае видеофайлы занимают так много места, что даже мощный компьютер потребует много времени, чтобы обработать их все, и поэтому обработка обычно распределяется между несколькими компьютерами, связанными друг с другом, чтобы уменьшить время обработки. Эти 15 терабайт видеоданных, безусловно, будут квалифицированы как большие данные.

Типы структур больших данных

Большие данные делятся на три различных категории структуры: неструктурированные данные, полуструктурированные и структурированные данные.

Неструктурированные данные – это данные, которые не обладают определенной структурой, то есть данные по сути просто находятся в одном большом пуле. Примерами неструктурированных данных могут быть база данных, заполненная не размеченными изображениями.

Полуструктурированные данные – это данные, которые не имеют формальной структуры, но существуют в свободной структуре. Например, данные электронной почты могут считаться полуструктурированными данными, поскольку вы можете сослаться на данные, содержащиеся в отдельных электронных письмах, но формальные шаблоны данных не установлены.

Структурированные данные – это данные, которые имеют формальную структуру, с данными, категоризированными по разным функциям. Одним из примеров структурированных данных является электронная таблица Excel, содержащая контактную информацию, такую как имена, электронные почты, номера телефонов и веб-сайты.

Если вы хотите прочитать больше о различиях между этими типами данных, проверьте ссылку здесь.

Метрики для оценки больших данных

Большие данные можно анализировать с помощью трех различных метрик: объема, скорости и разнообразия.

Объем относится к размеру данных. Средний размер наборов данных часто увеличивается. Например, самый большой жесткий диск в 2006 году был жестким диском размером 750 ГБ. Напротив, считается, что Facebook генерирует более 500 терабайт данных в день, и самый большой потребительский жесткий диск, доступный сегодня, – это жесткий диск размером 16 терабайт. То, что квалифицируется как большие данные в одной эпохе, может не быть большими данными в другой. Больше данных генерируется сегодня, потому что все больше объектов, окружающих нас, оснащены датчиками, камерами, микрофонами и другими устройствами сбора данных.

Скорость относится к тому, как быстро движутся данные, или, иначе говоря, сколько данных генерируется в течение определенного периода времени. Потоки социальных сетей генерируют сотни тысяч постов и комментариев каждую минуту, в то время как ваш собственный почтовый ящик, скорее всего, будет иметь намного меньше активности. Потоки больших данных – это потоки, которые часто обрабатывают сотни тысяч или миллионы событий в режиме реального времени. Примерами этих потоков данных являются онлайн-платформы игр и алгоритмы высокочастотной торговли акциями.

Разнообразие относится к различным типам данных, содержащихся в наборе данных. Данные могут состоять из многих разных форматов, таких как аудио, видео, текст, фотографии или серийные номера. В целом традиционные базы данных отформатированы для обработки одного или только нескольких типов данных. Иными словами, традиционные базы данных структурированы для хранения данных, которые достаточно однородны и имеют постоянную, предсказуемую структуру. По мере того, как приложения становятся более разнообразными, наполненными различными функциями и используемыми большим количеством людей, базы данных должны были эволюционировать, чтобы хранить больше типов данных. Неструктурированные базы данных идеально подходят для хранения больших данных, поскольку они могут хранить несколько типов данных, которые не связаны друг с другом.

Методы обработки больших данных

Существует множество различных платформ и инструментов, предназначенных для облегчения анализа больших данных. Пools больших данных необходимо анализировать, чтобы извлечь осмысленные закономерности из данных, задача, которая может оказаться довольно сложной с помощью традиционных инструментов анализа данных. В ответ на необходимость в инструментах для анализа больших объемов данных различные компании создали инструменты анализа больших данных. Инструменты анализа больших данных включают системы, такие как ZOHO Analytics, Cloudera и Microsoft BI.

Блогер и программист с специализацией в Machine Learning и Deep Learning темах. Daniel надеется помочь другим использовать силу ИИ для социального блага.