Connect with us

ИИ 101

Что такое Data Science?

mm

Область данных науки, кажется, просто растет и становится более популярной каждый день. Согласно LinkedIn, данные науки была одной из самых быстрорастущих областей работы в 2017 году и в 2020 году Glassdoor поставил работу данных науки как одну из трех лучших работ в Соединенных Штатах. Учитывая растущую популярность данных науки, неудивительно, что все больше людей интересуются этой областью. Однако, что такое данные науки точно?

Давайте познакомимся с данными науки, потратив некоторое время на определение данных науки, изучение того, как большие данные и искусственный интеллект меняют эту область, узнать о некоторых общих инструментах данных науки и рассмотреть некоторые примеры данных науки.

Что такое Data Science?

Прежде чем мы сможем изучить какие-либо инструменты данных науки или примеры, нам нужно получить краткое определение данных науки.

Определение “данных науки” на самом деле немного сложно, потому что этот термин применяется к многим различным задачам и методам исследования и анализа. Мы можем начать с напоминания о том, что означает термин “наука”. Наука – это систематическое изучение физического и природного мира через наблюдение и эксперимент, направленное на продвижение человеческого понимания природных процессов. Важными словами в этом определении являются “наблюдение” и “понимание”.

Если данные науки – это процесс понимания мира из закономерностей в данных, то ответственность данных ученого состоит в том, чтобы преобразовать данные, проанализировать данные и извлечь закономерности из данных. Другими словами, данные ученому предоставляются данные, и они используют ряд различных инструментов и методов для предварительной обработки данных (подготовки их к анализу) и затем анализа данных для значимых закономерностей.

Роль данных ученого аналогична роли традиционного ученого. Оба занимаются анализом данных для поддержки или опровержения гипотез о том, как работает мир, пытаясь понять закономерности в данных, чтобы улучшить наше понимание мира. Данные ученые используют те же научные методы, что и традиционный ученый. Данные ученый начинает с сбора наблюдений о некотором явлении, которое они хотели бы изучить. Затем они формулируют гипотезу о явлении в вопросе и пытаются найти данные, которые опровергают их гипотезу каким-либо образом.

Если гипотеза не противоречит данным, они могут быть в состоянии построить теорию или модель о том, как работает явление, которую они могут проверить снова и снова, чтобы увидеть, сохраняет ли она свою истинность для других подобных наборов данных. Если модель достаточно прочна, если она хорошо объясняет закономерности и не опровергается во время других тестов, она даже может быть использована для прогнозирования будущих событий.

Данные ученый обычно не собирает свои собственные данные через эксперимент. Они обычно не проектируют эксперименты с контролем и двойным слепым тестом, чтобы обнаружить мешающие переменные, которые могут повлиять на гипотезу. Большинство данных, анализируемых данным ученым, будут данными, полученными через наблюдательные исследования и системы, что является способом, которым работа данных ученого может отличаться от работы традиционного ученого, который склонен проводить больше экспериментов.

Тем не менее, данные ученому могут быть вызваны для выполнения некоторой формы эксперимента называемого A/B тестированием, где вносятся изменения в систему, собирающую данные, чтобы увидеть, как меняются закономерности данных.

Независимо от используемых методов и инструментов, данные науки в конечном итоге направлены на улучшение нашего понимания мира, делая смысл из данных, и данные получаются через наблюдение и эксперимент. Данные науки – это процесс использования алгоритмов, статистических принципов и различных инструментов и машин для получения информации из данных, информации, которая помогает нам понять закономерности в мире вокруг нас.

Что делают данные ученые?

Вы можете видеть, что любая деятельность, которая включает в себя анализ данных научным образом, может быть названа данными наукой, что является частью того, что делает определение данных науки так трудным. Чтобы сделать это более ясным, давайте изучим некоторые деятельности, которые данные ученый могут выполнять каждый день.

Данные науки объединяют многие различные дисциплины и специальности. Фото: Calvin Andrus via Wikimeedia Commons, CC BY SA 3.0 (https://commons.wikimedia.org/wiki/File:DataScienceDisciplines.png)

В любой день данные ученый может быть вызван для: создания схем хранения и извлечения данных, создания конвейеров ETL (извлечение, преобразование, загрузка) и очистки данных, применения статистических методов, создания визуализаций данных и панелей, реализации алгоритмов искусственного интеллекта и машинного обучения, предоставления рекомендаций для действий на основе данных.

Давайте разберем задачи, перечисленные выше, немного.

Данные ученый могут быть обязаны устанавливать технологии, необходимые для хранения и извлечения данных, обращая внимание на как аппаратуру, так и программное обеспечение. Человек, ответственный за эту должность, также может быть назван “Инженером данных“. Однако некоторые компании включают эти обязанности в роль данных ученого. Данные ученый также могут быть обязаны создавать, или помогать в создании, конвейеров ETL. Данные очень редко приходят в формате, который нужен данным ученому. Вместо этого данные будут нуждаться в получении в сыром виде из источника данных, преобразовании в пригодный для использования формат и предварительной обработке (такой как стандартизация данных, удаление избыточности и удаление поврежденных данных).

Статистические методы данных науки

Применение статистики необходимо для того, чтобы превратить простой взгляд на данные и интерпретацию в настоящую науку. Статистические методы используются для извлечения значимых закономерностей из наборов данных, и данные ученый должны быть хорошо осведомлены о статистических концепциях. Они должны быть в состоянии различать значимые корреляции и случайные корреляции, контролируя мешающие переменные. Они также должны знать, какие инструменты использовать, чтобы определить, какие функции в наборе данных важны для их модели/имеют прогностическую силу. Данные ученый должны знать, когда использовать регрессионный подход, а когда – классификационный, и когда следует заботиться о среднем значении выборки, а когда – о медиане выборки. Данные ученый просто не будет ученым без этих важных навыков.

Визуализация данных

Критически важной частью работы данных ученого является передача своих результатов другим. Если данные ученый не может эффективно передать свои результаты другим, то последствия его результатов не имеют значения. Данные ученый должен быть эффективным рассказчиком. Это означает создание визуализаций, которые передают важные моменты о наборе данных и закономерностях, обнаруженных в нем. Существует большое количество различных инструментов визуализации данных, которые данные ученый может использовать, и они могут визуализировать данные для целей первоначального, базового исследования (исследовательский анализ данных) или визуализировать результаты, которые модель производит.

Рекомендации и бизнес-приложения

Данные ученый должны иметь некоторое представление о требованиях и целях своей организации или бизнеса. Данные ученый должен понимать эти вещи, потому что они должны знать, какие переменные и функции они должны анализировать, исследуя закономерности, которые помогут их организации достичь своих целей. Данные ученые должны быть осведомлены об ограничениях, под которыми они работают, и предположениях, которые делает руководство организации.

Машинное обучение и ИИ

Машинное обучение и другие алгоритмы и модели искусственного интеллекта являются инструментами, используемыми данными учеными для анализа данных, выявления закономерностей в данных, определения отношений между переменными и прогнозирования будущих событий.

Традиционные данные науки vs. Большие данные науки

По мере того, как методы сбора данных становились более сложными и базы данных больше, возникла разница между традиционными данными науки и “большими данными” наукой.

Традиционный анализ данных и данные науки выполняются с помощью описательной и исследовательской аналитики, направленной на поиск закономерностей и анализ результатов проектов. Традиционные методы анализа данных часто фокусируются только на прошлых и текущих данных. Аналитики данных часто имеют дело с данными, которые уже были очищены и стандартизированы, в то время как данные ученые часто имеют дело с сложными и грязными данными. Более продвинутые методы анализа данных и данные науки могут быть использованы для прогнозирования будущего поведения, хотя это чаще делается с большими данными, поскольку прогностические модели часто требуют больших объемов данных, чтобы быть надежно построенными.

“Большие данные” относятся к данным, которые слишком велики и сложны, чтобы быть обработанными с помощью традиционных методов и инструментов анализа данных и науки. Большие данные часто собираются через онлайн-платформы, и используются передовые инструменты преобразования данных, чтобы сделать большие объемы данных готовыми для осмотра данными учеными. По мере того, как собирается все больше данных, все больше работы данных ученого включает в себя анализ больших данных.

Инструменты данных науки

Общие инструменты данных науки включают инструменты для хранения данных, выполнения исследовательского анализа данных, моделирования данных, выполнения ETL и визуализации данных. Платформы, такие как Amazon Web Services, Microsoft Azure и Google Cloud, предлагают инструменты, чтобы помочь данным ученым хранить, преобразовывать, анализировать и моделировать данные. Существуют также самостоятельные инструменты данных науки, такие как Airflow (инфраструктура данных) и Tableau (визуализация и анализ данных).

В отношении алгоритмов машинного обучения и искусственного интеллекта, используемых для моделирования данных, они часто предоставляются через модули и платформы данных науки, такие как TensorFlow, PyTorch и Azure Machine-learning studio. Эти платформы, как и данные ученые, позволяют вносить изменения в наборы данных, составлять архитектуру машинного обучения и обучать модели машинного обучения.

Другие общие инструменты и библиотеки данных науки включают SAS (для статистического моделирования), Apache Spark (для анализа потоковых данных), D3.js (для интерактивных визуализаций в браузере) и Jupyter (для интерактивных, общедоступных блоков кода и визуализаций).

Фото: Seonjae Jo via Flickr, CC BY SA 2.0 (https://www.flickr.com/photos/130860834@N02/19786840570)

Примеры данных науки

Примеры данных науки и их применения везде. Данные науки имеют применения во всем, от доставки еды до спорта, трафика и здравоохранения. Данные везде, и поэтому данные науки могут быть применены к всему.

В отношении еды Uber инвестирует в расширение своей системы вызова такси, ориентированную на доставку еды, Uber Eats. Uber Eats нужно доставить людям еду в своевременном порядке, пока она еще горячая и свежая. Чтобы это произошло, данные ученые компании должны использовать статистическое моделирование, которое учитывает такие аспекты, как расстояние от ресторанов до точек доставки, праздничные спешки, время приготовления и даже погодные условия, все это с целью оптимизации времени доставки.

Статистика спорта используется менеджерами команд, чтобы определить, кто лучшие игроки и сформировать сильные, надежные команды, которые будут выигрывать игры. Одним заметным примером является документирование данных науки Майклом Льюисом в книге Moneyball, где генеральный менеджер команды “Окленд Атлетикс” анализировал различные статистические данные, чтобы выявить качественных игроков, которые могли быть подписаны командой по относительно низкой цене.

Анализ закономерностей трафика имеет решающее значение для создания самоходных транспортных средств. Самоходные транспортные средства должны быть в состоянии предсказать деятельность вокруг них и реагировать на изменения условий дорог, таких как увеличенное расстояние остановки, необходимое, когда идет дождь, а также присутствие большего количества машин на дороге во время час пик. Помимо самоходных транспортных средств, приложения, такие как Google Maps, анализируют закономерности трафика, чтобы рассказать коммутерам, сколько времени им понадобится, чтобы добраться до места назначения, используя различные маршруты и виды транспорта.

В отношении здравоохранения данные науки компьютерного зрения часто сочетаются с машинным обучением и другими методами искусственного интеллекта, чтобы создать классификаторы изображений, способные изучать такие вещи, как рентгеновские снимки, ФМРИ и ультразвук, чтобы увидеть, есть ли какие-либо потенциальные медицинские проблемы, которые могут проявиться на сканировании. Эти алгоритмы могут быть использованы, чтобы помочь клиницистам диагностировать заболевания.

В конечном итоге, данные науки охватывают многочисленные деятельности и объединяют аспекты различных дисциплин. Однако данные науки всегда связаны с рассказыванием увлекательных, интересных историй из данных и с использованием данных для лучшего понимания мира.

Блогер и программист с специализацией в Machine Learning и Deep Learning темах. Daniel надеется помочь другим использовать силу ИИ для социального блага.