Connect with us

Що таке Data Science?

ШІ 101

Що таке Data Science?

mm

Сфера data science, здається, щодня стає все більшою та популярнішою. За даними LinkedIn, data science була однією з найшвидше зростаючих професійних сфер у 2017 році, а у 2020 році Glassdoor оцінив професію data science як одну з трьох найкращих робіт у Сполучених Штатах. З огляду на зростаючу популярність data science, не дивно, що все більше людей цікавляться цією сферою. Але що ж таке data science насправді? Давайте познайомимося з data science, приділивши час визначенню data science, дослідженню того, як великі дані та штучний інтелект змінюють сферу, ознайомленню з деякими поширеними інструментами data science та розгляду прикладів data science.

Що таке Data Science?

Перш ніж ми зможемо дослідити будь-які інструменти або приклади data science, нам потрібно отримати чітке визначення data science. Визначити “data science” насправді дещо складно, оскільки цей термін застосовується до багатьох різних завдань та методів дослідження та аналізу. Ми можемо почати з нагадування собі, що означає термін “наука”. Наука — це систематичне вивчення фізичного та природного світу через спостереження та експерименти, що має на меті поглибити людське розуміння природних процесів. Важливими словами у цьому визначенні є “спостереження” та “розуміння”. Якщо data science — це процес розуміння світу на основі закономірностей у даних, то відповідальність data scientist полягає в тому, щоб трансформувати дані, аналізувати їх та вилучати з них закономірності. Іншими словами, data scientist отримує дані та використовує низку різних інструментів і технік для попередньої обробки даних (підготовки їх до аналізу), а потім аналізує дані на предмет значущих закономірностей. Роль data scientist схожа на роль традиційного вченого. Обидва стосуються аналізу даних для підтвердження або спростування гіпотез про те, як функціонує світ, намагаючись зрозуміти закономірності в даних, щоб покращити наше розуміння світу. Data scientist використовують ті самі наукові методи, що й традиційний вчений. Data scientist починає зі збору спостережень про якесь явище, яке він хотів би вивчити. Потім він формулює гіпотезу щодо цього явища та намагається знайти дані, які певним чином спростовують його гіпотезу. Якщо дані не суперечать гіпотезі, він може побудувати теорію або модель того, як працює це явище, яку потім може перевіряти знову і знову, перевіряючи, чи вона спрацьовує для інших подібних наборів даних. Якщо модель є достатньо надійною, якщо вона добре пояснює закономірності та не спростовується під час інших тестів, її навіть можна використовувати для прогнозування майбутніх випадків цього явища. Data scientist зазвичай не збирає власні дані через експеримент. Вони зазвичай не проектуватимуть експерименти з контролем та подвійним сліпим методом, щоб виявити сторонні змінні, які можуть вплинути на гіпотезу. Більшість даних, які аналізує data scientist, будуть отримані через спостережні дослідження та системи, і це один із способів, яким робота data scientist може відрізнятися від роботи традиційного вченого, який має тенденцію проводити більше експериментів. Втім, data scientist можуть залучити до форми експериментування під назвою A/B-тестування, де вносяться зміни в систему збору даних, щоб побачити, як змінюються закономірності даних. Незалежно від використаних технік та інструментів, кінцева мета data science — покращити наше розуміння світу шляхом осмислення даних, а дані отримуються через спостереження та експерименти. Data science — це процес використання алгоритмів, статистичних принципів та різноманітних інструментів і машин для отримання висновків з даних, висновків, які допомагають нам розуміти закономірності в навколишньому світі.

Чим займаються Data Scientist?

Ви, мабуть, бачите, що будь-яку діяльність, яка передбачає науковий аналіз даних, можна назвати data science, і це частково ускладнює визначення data science. Щоб зробити це більш зрозумілим, давайте розглянемо деякі з дій, які data scientist може виконувати щодня.

Data science об’єднує багато різних дисциплін та спеціальностей. Фото: Calvin Andrus via Wikimeedia Commons, CC BY SA 3.0 (https://commons.wikimedia.org/wiki/File:DataScienceDisciplines.png)

У будь-який день data scientist можуть попросити: створити схеми зберігання та отримання даних, створити ETL-пайплайни (extract, transform, load) та очистити дані, застосувати статистичні методи, створити візуалізації даних та інформаційні панелі, впровадити алгоритми штучного інтелекту та машинного навчання, давати рекомендації щодо дій на основі даних. Давайте трохи розберемо перелічені вище завдання. Від data scientist може знадобитися налаштування технологій, необхідних для зберігання та отримання даних, звертаючи увагу як на апаратне, так і на програмне забезпечення. Відповідальну за цю позицію особу також можуть називати “Data Engineer“. Однак деякі компанії включають ці обов’язки до ролі data scientist. Data scientist також може знадобитися створити або допомогти у створенні ETL-пайплайнів. Дані дуже рідко надходять у форматі, який потрібен data scientist. Натомість дані потрібно отримати у сирому вигляді від джерела даних, перетворити у придатний формат та попередньо обробити (наприклад, стандартизувати дані, видалити надлишки та пошкоджені дані).

Статистичні методи Data Science

Застосування статистики необхідне для перетворення простого перегляду та інтерпретації даних на справжню науку. Статистичні методи використовуються для вилучення релевантних закономірностей з наборів даних, і data scientist повинен добре розбиратися в статистичних концепціях. Вони повинні вміти відрізняти значущі кореляції від випадкових, контролюючи сторонні змінні. Їм також потрібно знати правильні інструменти для визначення того, які ознаки в наборі даних важливі для їхньої моделі / мають прогностичну силу. Data scientist повинен знати, коли використовувати регресійний підхід проти класифікаційного, і коли важливе середнє значення вибірки проти медіани вибірки. Data scientist просто не був би вченим без цих ключових навичок.

Візуалізація даних

Критично важливою частиною роботи data scientist є комунікація своїх висновків з іншими. Якщо data scientist не може ефективно донести свої висновки до інших, то наслідки його висновків не мають значення. Data scientist також повинен бути ефективним оповідачем. Це означає створення візуалізацій, які передають важливі моменти щодо набору даних та виявлених у ньому закономірностей. Існує велика кількість різних інструментів візуалізації даних, які може використовувати data scientist, і вони можуть візуалізувати дані для початкового, базового дослідження (розвідувальний аналіз даних) або візуалізувати результати, які видає модель.

Рекомендації та бізнес-застосування

Data scientist повинен мати певне розуміння вимог та цілей своєї організації чи бізнесу. Data scientist повинен розуміти ці речі, тому що йому потрібно знати, які типи змінних та ознак слід аналізувати, досліджуючи закономірності, які допоможуть його організації досягти своїх цілей. Data scientist повинен усвідомлювати обмеження, в межах яких вони працюють, та припущення, які робить керівництво організації.

Машинне навчання та ШІ

Машинне навчання та інші алгоритми та моделі штучного інтелекту — це інструменти, які використовують data scientist для аналізу даних, виявлення закономірностей у даних, розрізнення зв’язків між змінними та прогнозування майбутніх подій.

Традиційна Data Science проти Data Science великих даних

Оскільки методи збору даних стали більш складними, а бази даних — більшими, виникла різниця між традиційною data science та data science “великих даних”. Традиційна аналітика даних та data science здійснюються за допомогою описової та дослідницької аналітики, спрямованої на пошук закономірностей та аналіз результатів роботи проектів. Традиційні методи аналітики даних часто зосереджуються лише на минулих та поточних даних. Аналітики даних часто мають справу з даними, які вже очищено та стандартизовано, тоді як data scientist часто працюють зі складними та “брудними” даними. Більш просунуті методи аналітики даних та data science можуть використовуватися для прогнозування майбутньої поведінки, хоча це частіше робиться з великими даними, оскільки для надійної побудови прогностичних моделей часто потрібні великі обсяги даних. “Великі дані” відносяться до даних, які занадто великі та складні для обробки традиційними методами та інструментами аналітики даних та data science. Великі дані часто збираються через онлайн-платформи, а для підготовки великих обсягів даних до перевірки data science використовуються просунуті інструменти трансформації даних. Оскільки дані збираються постійно, все більша частина роботи data scientist включає аналіз великих даних.

Інструменти Data Science

Поширені інструменти data science включають інструменти для зберігання даних, проведення розвідувального аналізу даних, моделювання даних, проведення ETL та візуалізації даних. Такі платформи, як Amazon Web Services, Microsoft Azure та Google Cloud, пропонують інструменти, які допомагають data scientist зберігати, трансфор

Blogger and programmer with specialties in Machine Learning and Deep Learning topics. Daniel hopes to help others use the power of AI for social good.