заглушки Что такое наука о данных? - Unite.ИИ
Свяжитесь с нами:
Мастер-класс по ИИ:

AI 101

Что такое наука о данных?

mm
обновленный on

Кажется, что область науки о данных становится все больше и популярнее с каждым днем. Согласно LinkedIn, наука о данных была одной из самых быстрорастущих областей вакансий в 2017 году а в 2020 году Glassdoor оценил работу науки о данных как одна из трех лучших вакансий в США. Учитывая растущую популярность науки о данных, неудивительно, что все больше людей проявляют интерес к этой области. И все же, что такое наука о данных?

Давайте познакомимся с наукой о данных, потратив некоторое время на определение науки о данных, изучим, как большие данные и искусственный интеллект меняют эту область, узнаем о некоторых распространенных инструментах науки о данных и рассмотрим некоторые примеры науки о данных.

Что такое наука о данных?

Прежде чем мы сможем изучить какие-либо инструменты или примеры для обработки данных, мы хотим получить краткое определение наука о данных.

Дать определение «науке о данных» на самом деле немного сложно, потому что этот термин применяется ко многим различным задачам и методам исследования и анализа. Мы можем начать с того, что напомним себе, что означает термин «наука». Наука — это систематическое изучение физического и природного мира посредством наблюдений и экспериментов, направленное на углубление человеческого понимания природных процессов. Важными словами в этом определении являются «наблюдение» и «понимание».

Если наука о данных — это процесс понимания мира на основе закономерностей в данных, то ответственность специалиста по данным заключается в преобразовании данных, анализе данных и извлечении закономерностей из данных. Другими словами, специалисту по данным предоставляются данные, и он использует ряд различных инструментов и методов для предварительной обработки данных (подготовки их к анализу), а затем анализирует данные для выявления значимых закономерностей.

Роль специалиста по данным аналогична роли традиционного ученого. Оба занимаются анализом данных. поддерживать или отвергать гипотезы о том, как устроен мир, пытаясь понять закономерности в данных, чтобы улучшить наше понимание мира. Специалисты по данным используют те же научные методы, что и традиционные ученые. Специалист по данным начинает со сбора наблюдений о некоторых явлениях, которые он хотел бы изучить. Затем они формулируют гипотезу о рассматриваемом явлении и пытаются найти данные, которые каким-то образом опровергают их гипотезу.

Если гипотеза не противоречит данным, они могут построить теорию или модель того, как работает явление, которую они могут проверять снова и снова, проверяя, верно ли это для других подобных наборов данных. Если модель достаточно надежна, если она хорошо объясняет закономерности и не аннулируется во время других тестов, ее можно даже использовать для предсказания будущих случаев этого явления.

Исследователь данных обычно не собирает свои собственные данные в ходе эксперимента. Обычно они не планируют эксперименты с контрольной группой и двойные слепые испытания, чтобы обнаружить смешанные переменные, которые могут помешать гипотезе. Большинство данных, анализируемых специалистом по данным, будут данными, полученными в результате наблюдательных исследований и систем, в чем работа специалиста по данным может отличаться от работы традиционного ученого, который склонен проводить больше экспериментов.

Тем не менее, специалиста по обработке и анализу данных можно пригласить для экспериментов. называется A/B-тестированием где вносятся изменения в систему, которая собирает данные, чтобы увидеть, как меняются шаблоны данных.

Независимо от используемых методов и инструментов, наука о данных в конечном счете направлена ​​на улучшение нашего понимания мира путем осмысления данных, а данные получают путем наблюдения и экспериментов. Наука о данных — это процесс использования алгоритмов, статистических принципов и различных инструментов и машин для извлечения информации из данных, идей, которые помогают нам понять закономерности в окружающем нас мире.

Чем занимаются специалисты по данным?

Возможно, вы заметили, что любую деятельность, связанную с научным анализом данных, можно назвать наукой о данных, что является частью того, что делает определение науки о данных таким сложным. Чтобы было понятнее, давайте рассмотрим некоторые действия, которые выполняет специалист по данным. может сделать ежедневно.

Наука о данных объединяет множество различных дисциплин и специальностей. Фото: Кэлвин Андрус через Wikimeedia Commons, CC BY SA 3.0 (https://commons.wikimedia.org/wiki/File:DataScienceDisciplines.png)

В любой день специалиста по данным могут попросить: создать схему хранения и извлечения данных, создать конвейеры ETL (извлечение, преобразование, загрузка) данных и очистить данные, использовать статистические методы, создать визуализацию данных и информационные панели, внедрить искусственный интеллект и алгоритмы машинного обучения, дают рекомендации по действиям на основе данных.

Давайте немного разобьем задачи, перечисленные выше.

От специалиста по данным может потребоваться установка технологий, необходимых для хранения и извлечения данных, уделяя внимание как аппаратному, так и программному обеспечению. Лицо, ответственное за эту должность, также может именоваться «Инженер данных». Однако некоторые компании включают эти обязанности в роль специалистов по данным. Специалисту по данным также может потребоваться создать или помочь в создании Трубопроводы ETL. Данные очень редко поступают в формате, необходимом специалисту по обработке и анализу данных. Вместо этого данные необходимо будет получать в необработанном виде из источника данных, преобразовывать в пригодный для использования формат и предварительно обрабатывать (такие вещи, как стандартизация данных, устранение избыточности и удаление поврежденных данных).

Статистические методы науки о данных

Ассоциация применение статистики необходимо превратить простое рассмотрение данных и их интерпретацию в настоящую науку. Статистические методы используются для извлечения соответствующих шаблонов из наборов данных, и специалист по данным должен хорошо разбираться в статистических концепциях. Они должны уметь отличать значимые корреляции от ложных корреляций, контролируя смешанные переменные. Им также необходимо знать правильные инструменты, чтобы определить, какие функции в наборе данных важны для их модели/имеют прогностическую силу. Специалист по данным должен знать, когда использовать подход регрессии против подхода классификации, и когда нужно заботиться о среднем значении выборки по сравнению с медианой выборки. Специалист по данным просто не был бы ученым без этих важных навыков.

Визуализация данных

Важнейшей частью работы специалиста по данным является сообщение результатов своих исследований другим. Если специалист по данным не может эффективно передать свои выводы другим, то последствия их выводов не имеют значения. Data Scientist также должен быть эффективным рассказчиком. Это означает создание визуализаций, которые сообщают важные моменты о наборе данных и обнаруженных в нем закономерностях. Существует большое количество различных визуализация данных инструменты, которые может использовать специалист по данным, и они могут визуализировать данные для целей первоначального базового исследования (исследовательский анализ данных) или визуализировать результаты, которые дает модель.

Рекомендации и бизнес-приложения

Специалист по данным должен иметь некоторую интуицию в отношении требований и целей своей организации или бизнеса. Исследователь данных должен понимать эти вещи, потому что ему нужно знать, какие типы переменных и функций они должны анализировать, исследуя шаблоны, которые помогут их организации достичь своих целей. Исследователи данных должны знать об ограничениях, с которыми они работают, и о предположениях, которые делает руководство организации.

Машинное обучение и ИИ

Машинное обучение и другие алгоритмы и модели искусственного интеллекта — это инструменты, используемые учеными для анализа данных, выявления закономерностей в данных, выявления взаимосвязей между переменными и прогнозирования будущих событий.

Традиционная наука о данных против науки о больших данных

По мере того, как методы сбора данных становились все более изощренными, а базы данных — большими, возникла разница между традиционной наукой о данных и "большие данные" наука.

Традиционная аналитика данных и наука о данных выполняются с помощью описательной и исследовательской аналитики, направленной на поиск закономерностей и анализ результатов производительности проектов. Традиционные методы анализа данных часто фокусируются только на прошлых и текущих данных. Аналитики данных часто имеют дело с данными, которые уже были очищены и стандартизированы, в то время как специалисты по данным часто имеют дело со сложными и грязными данными. Для прогнозирования будущего поведения могут использоваться более продвинутые методы анализа данных и науки о данных, хотя это чаще делается с большими данными, поскольку для надежного построения прогностических моделей часто требуются большие объемы данных.

«Большие данные» относятся к данным, которые слишком велики и сложны для обработки с помощью традиционных методов и инструментов анализа данных и научных методов. Большие данные часто собираются через онлайн-платформы, и передовые инструменты преобразования данных используются, чтобы сделать большие объемы данных готовыми для проверки специалистами по обработке и анализу данных. Поскольку все время собирается все больше данных, все больше работы специалистов по данным связано с анализом больших данных.

Инструменты данных науки

Общая наука о данных инструменты включают инструменты для хранения данных, проведения исследовательского анализа данных, моделирования данных, выполнения ETL и визуализации данных. Такие платформы, как Amazon Web Services, Microsoft Azure и Google Cloud, предлагают инструменты, помогающие специалистам по данным хранить, преобразовывать, анализировать и моделировать данные. Существуют также автономные инструменты для обработки данных, такие как Airflow (инфраструктура данных) и Tableau (визуализация и аналитика данных).

Что касается алгоритмов машинного обучения и искусственного интеллекта, используемых для моделирования данных, они часто предоставляются через модули и платформы обработки и анализа данных, такие как TensorFlow, PyTorch и студия машинного обучения Azure. Такие платформы, как специалисты по данным, вносят изменения в свои наборы данных, создают архитектуры машинного обучения и обучают модели машинного обучения.

Другие распространенные инструменты и библиотеки для обработки и обработки данных включают SAS (для статистического моделирования), Apache Spark (для анализа потоковых данных), D3.js (для интерактивных визуализаций в браузере) и Jupyter (для интерактивных блоков кода и визуализаций с общим доступом). .

Фото: Сонджэ Джо через Flickr, CC BY SA 2.0 (https://www.flickr.com/photos/130860834@N02/19786840570)

Примеры науки о данных

Примеры науки о данных и ее приложений можно найти повсюду. Наука о данных находит применение во всем: от доставки еды до спорта, дорожного движения и здоровья. Данные повсюду, поэтому науку о данных можно применять ко всему.

Что касается еды, Uber инвестирует в расширение своей системы совместного использования, ориентированной на доставку еды. Убер ест. Uber Eats нужно доставлять людям еду вовремя, пока она еще горячая и свежая. Чтобы это произошло, специалистам по обработке и анализу данных компании необходимо использовать статистическое моделирование, которое учитывает такие аспекты, как расстояние от ресторанов до точек доставки, праздничные дни, время приготовления и даже погодные условия, которые учитываются с целью оптимизации времени доставки. .

Спортивная статистика используется менеджерами команд для определения лучших игроков и формирования сильных и надежных команд, которые будут побеждать в играх. Одним из ярких примеров является наука о данных, описанная Майклом Льюисом в книге Moneyball, где генеральный менеджер команды Oakland Athletics проанализировал множество статистических данных, чтобы определить качественных игроков, которых можно было бы подписать в команду по относительно низкой цене.

Анализ моделей движения имеет решающее значение для создания беспилотных транспортных средств. Беспилотные автомобили должны быть в состоянии предсказать активность вокруг них и реагировать на изменения дорожных условий, например, на увеличение тормозного пути во время дождя, а также на присутствие большего количества автомобилей на дороге в час пик. Помимо беспилотных транспортных средств, такие приложения, как Google Maps, анализируют схемы движения, чтобы сообщить пассажирам, сколько времени им потребуется, чтобы добраться до места назначения, используя различные маршруты и виды транспорта.

В пересчете на наука о здоровьеКомпьютерное зрение часто сочетается с машинным обучением и другими методами искусственного интеллекта для создания классификаторов изображений, способных исследовать такие вещи, как рентгеновские снимки, FMRI и ультразвук, чтобы определить, есть ли какие-либо потенциальные медицинские проблемы, которые могут обнаружиться при сканировании. Эти алгоритмы могут использоваться, чтобы помочь врачам диагностировать заболевание.

В конечном счете, наука о данных охватывает множество видов деятельности и объединяет аспекты различных дисциплин. Тем не менее, наука о данных всегда занимается рассказыванием убедительных, интересных историй на основе данных и использованием данных для лучшего понимания мира.

Блогер и программист со специализацией в Машинное обучение и Глубокое обучение темы. Дэниел надеется помочь другим использовать возможности ИИ на благо общества.