заглушки Что такое большие данные? - Unite.ИИ
Свяжитесь с нами:

AI 101

Что такое большие данные?

mm
обновленный on

Что такое большие данные?

«Большие данные» — одно из часто используемых модных словечек нашей нынешней эпохи, но что оно означает на самом деле?

Вот краткое и простое определение больших данных. Большие Данные данные, которые слишком велики и сложны для обработки с помощью традиционных методов обработки и хранения данных. Хотя это краткое определение, которое вы можете использовать в качестве эвристики, было бы полезно иметь более глубокое и полное понимание больших данных. Давайте рассмотрим некоторые концепции, лежащие в основе больших данных, такие как хранение, структура и обработка.

Насколько велики большие данные?

Это не так просто, как сказать, что «любые данные размером больше 'X' являются большими данными», среда, в которой обрабатываются данные, является чрезвычайно важным фактором. определение того, что квалифицируется как большие данные. Размер данных, которые должны быть, чтобы считаться большими данными, зависит от контекста или задачи, в которой данные используются. Два набора данных совершенно разных размеров могут считаться «большими данными» в разных контекстах.

Чтобы быть более конкретным, если вы попытаетесь отправить 200-мегабайтный файл в качестве вложения электронной почты, вы не сможете этого сделать. В этом контексте 200-мегабайтный файл можно считать большими данными. Напротив, копирование 200-мегабайтного файла на другое устройство в той же локальной сети может вообще не занять времени, и в этом контексте это не будет рассматриваться как большие данные.

Однако давайте предположим, что видео объемом 15 терабайт необходимо предварительно обработать для использования в обучающих приложениях компьютерного зрения. В этом случае видеофайлы занимают так много места, что даже мощному компьютеру потребуется много времени для их обработки, поэтому обработка обычно распределяется между несколькими компьютерами, соединенными вместе, чтобы сократить время обработки. Эти 15 терабайт видеоданных определенно можно назвать большими данными.

Типы структур больших данных

Большие данные бывают трех различных категорий структуры: неструктурированные данные, полуструктурированные и структурированные данные.

Неструктурированные данные — это данные, которые не имеют определенной структуры, то есть данные по существу находятся в одном большом пуле. Примерами неструктурированных данных может служить база данных, полная немаркированных изображений.

Полуструктурированные данные — это данные, которые не имеют формальной структуры, но существуют в рамках свободной структуры. Например, данные электронной почты могут считаться частично структурированными, поскольку вы можете ссылаться на данные, содержащиеся в отдельных электронных письмах, но формальные шаблоны данных не установлены.

Структурированные данные — это данные, имеющие формальную структуру, с точками данных, классифицированными по различным признакам. Одним из примеров структурированных данных является электронная таблица Excel, содержащая контактную информацию, такую ​​как имена, адреса электронной почты, номера телефонов и веб-сайты.

Если вы хотите узнать больше о различиях в этих типах данных, перейдите по ссылке здесь.

Метрики для оценки больших данных

Большие данные можно анализировать с точки зрения трех разных показателей: объема, скорости и разнообразия.

Объем относится к размеру данных. Средний размер наборов данных часто увеличивается. Например, самым большим жестким диском в 2006 году был жесткий диск емкостью 750 ГБ. Напротив, считается, что Facebook генерирует более 500 терабайт данных в день, а самый большой потребительский жесткий диск, доступный сегодня, — это жесткий диск емкостью 16 терабайт. То, что считается большими данными в одну эпоху, может не быть большими данными в другую. Сегодня генерируется больше данных, потому что все больше и больше объектов, окружающих нас, оснащены датчиками, камерами, микрофонами и другими устройствами для сбора данных.

Скорость относится к тому, как быстро перемещаются данные, или, другими словами, к тому, сколько данных генерируется в течение заданного периода времени. Потоки социальных сетей генерируют сотни тысяч сообщений и комментариев каждую минуту, в то время как ваш собственный почтовый ящик, вероятно, будет гораздо менее активным. Потоки больших данных — это потоки, которые часто обрабатывают сотни тысяч или миллионы событий в более или менее реальном времени. Примерами таких потоков данных являются игровые онлайн-платформы и алгоритмы высокочастотной торговли акциями.

Разнообразие относится к различным типам данных, содержащихся в наборе данных. Данные могут состоять из множества различных форматов, таких как аудио, видео, текст, фотографии или серийные номера. Как правило, традиционные базы данных форматируются для обработки одного или нескольких типов данных. Иными словами, традиционные базы данных структурированы таким образом, чтобы хранить достаточно однородные данные с последовательной и предсказуемой структурой. По мере того как приложения становятся более разнообразными, полными различных функций и используются все большим количеством людей, базы данных должны развиваться, чтобы хранить больше типов данных. Неструктурированные базы данных идеально подходят для хранения больших данных, поскольку они могут содержать несколько типов данных, не связанных друг с другом.

Методы обработки больших данных

Существует ряд различных платформ и инструментов, предназначенных для облегчения анализа больших данных. Пулы больших данных необходимо анализировать, чтобы извлечь из данных значимые закономерности, что может оказаться довольно сложной задачей при использовании традиционных инструментов анализа данных. В ответ на потребность в инструментах для анализа больших объемов данных многие компании создали инструменты для анализа больших данных. Инструменты анализа больших данных включают такие системы, как ZOHO Analytics, Cloudera и Microsoft BI.