ШІ 101
Що таке Data Science?

Область даних науки здається просто зростає і стає все популярнішою кожного дня. За даними LinkedIn, дані науки були одним з найшвидше зростаючих галузей зайнятості у 2017 році і у 2020 році Glassdoor поставив професію даних науки одним з трьох кращих професій у Сполучених Штатах. Ураховуючи зростаючу популярність даних науки, не дивно, що все більше людей цікавляться цією галуззю. Але що таке дані науки саме по собі?
Давайте познайомимося з даними науки, витративши деякий час на визначення даних науки, дослідження того, як великі дані та штучний інтелект змінюють цю галузь, вивчення деяких загальних інструментів даних науки та аналіз деяких прикладів даних науки.
Що таке Data Science?
Перед тим, як ми зможемо дослідити будь-які інструменти даних науки або приклади, нам потрібно отримати лаконічне визначення даних науки.
Визначення “даних науки” насправді трохи складне, оскільки цей термін застосовується до багатьох різних завдань і методів дослідження та аналізу. Ми можемо почати з того, що нагадуємо собі, що означає термін “наука”. Наука – це систематичне дослідження фізичного та природного світу через спостереження та експеримент, спрямоване на розвиток людського розуміння природних процесів. Найважливішими словами в цьому визначенні є “спостереження” та “розуміння”.
Якщо дані науки – це процес розуміння світу з допомогою закономірностей у даних, то відповідальність даних науковця полягає у тому, щоб перетворити дані, проаналізувати дані та витягнути закономірності з даних. Іншими словами, даних науковець отримує дані та використовує ряд інструментів та методів для попередньої обробки даних (підготовки їх до аналізу) та подальшого аналізу даних для пошуку значимих закономірностей.
Роль даних науковця подібна до ролі традиційного науковця. Обидва зайняті аналізом даних для підтвердження або спростування гіпотез про те, як працює світ, намагаючись зрозуміти закономірності у даних, щоб покращити наше розуміння світу. Дані науковці використовують ті самі наукові методи, які використовує традиційний науковець. Дані науковець починає з збору спостережень про деяке явище, яке вони хочуть вивчити. Потім вони формулюють гіпотезу про це явище та намагаються знайти дані, які спростовують їхню гіпотезу якимсь чином.
Якщо гіпотеза не спростовується даними, вони можуть спробувати створити теорію або модель про те, як працює це явище, яку вони можуть далі перевірити again і again, щоб побачити, чи вона справджується для інших подібних наборів даних. Якщо модель достатньо надійна, якщо вона добре пояснює закономірності та не спростовується під час інших тестів, її можна навіть використовувати для прогнозування майбутніх проявів цього явища.
Дані науковець зазвичай не збирають свої дані через експеримент. Вони зазвичай не проектують експерименти з контрольними та подвійними сліпими випробуваннями для відкриття конфундованих змінних, які можуть втрутитися в гіпотезу. Більшість даних, які аналізуються даних науковцем, будуть даними, отриманими через спостережувальні дослідження та системи, що є одним із способів, яким робота даних науковця може відрізнятися від роботи традиційного науковця, який схильний проводити більше експериментів.
Тим не менш, даних науковець можуть бути викликані зробити форму експерименту, звану A/B-тестуванням, де до системи, яка збирає дані, внесені певні зміни, щоб побачити, як зміниються закономірності у даних.
Незалежно від використовуваних методів та інструментів, дані науки в кінцевому підсумку спрямовані на покращення нашого розуміння світу, роблячи його зрозумілішим з допомогою даних, і дані отримуються через спостереження та експеримент. Дані науки – це процес використання алгоритмів, статистичних принципів та різних інструментів та машин для отримання висновків з даних, висновків, які допомагають нам зрозуміти закономірності у світі навколо нас.
Що роблять дані науковці?
Ви, можливо, бачите, що будь-яка діяльність, яка включає аналіз даних у науковий спосіб, може бути названа даних науки, що є частиною того, чому визначення даних науки так складне. Щоб зробити це зрозумілішим, давайте дослідимо деякі діяльності, які дані науковець можуть робити щодня.

Дані науки об’єднують багато різних дисциплін та спеціальностей. Фото: Calvin Andrus via Wikimeedia Commons, CC BY SA 3.0 (https://commons.wikimedia.org/wiki/File:DataScienceDisciplines.png)
У будь-який день дані науковець можуть бути запитані, щоб: створити схему зберігання та отримання даних, створити потоки даних ETL (екстракція, трансформація, завантаження) та очистити дані, застосувати статистичні методи, створити візуалізації даних та панелі, реалізувати алгоритми штучного інтелекту та машинного навчання, надати рекомендації щодо дій на основі даних.
Давайте розберемо завдання, перелічені вище, трохи.
Дані науковець можуть бути зобов’язані займатися встановленням технологій, необхідних для зберігання та отримання даних, звертаючи увагу як на апаратне, так і на програмне забезпечення. Особа, відповідальна за цю посаду, також може бути названа “інженером даних”. Однак деякі компанії включають ці обов’язки під роль даних науковців. Дані науковець також можуть потребувати створення, або допомоги у створенні, потоків даних ETL. Дані рідко приходять у форматі, який потрібен даних науковцю. Замість цього дані будуть需要уватися у вигляді сирого формату з джерела даних, перетворені у використовуваний формат та попередньо оброблені (річ як стандартизація даних, видалення дублікатів та видалення пошкоджених даних).
Статистичні методи даних науки
Застосування статистики необхідне для перетворення простого огляду даних та інтерпретації їх у справжню науку. Статистичні методи використовуються для витягнення значимих закономірностей з наборів даних, і дані науковець повинні бути добре знайомі зі статистичними поняттями. Вони повинні бути здатні розрізняти значимі кореляції від випадкових кореляцій, контролюючи конфундовані змінні. Вони також повинні знати, які інструменти використовувати для визначення тих функцій у наборі даних, які важливі для їхньої моделі/мають передбачувальну силу. Дані науковець повинні знати, коли використовувати регресійний підхід проти класифікаційного підходу, і коли турбуватися про середнє значення вибірки проти медіани вибірки. Дані науковець просто не будуть науковцем без цих важливих навичок.
Візуалізація даних
Важливою частиною роботи даних науковця є передача своїх висновків іншим. Якщо дані науковець не можуть ефективно передавати свої висновки іншим, то значення їхніх висновків не має значення. Дані науковець повинні бути ефективними оповідниками. Це означає створення візуалізацій, які передають значимі моменти про набір даних та закономірності, виявлені в ньому. Є велика кількість різних інструментів візуалізації даних, які дані науковець можуть використовувати, і вони можуть візуалізувати дані для цілей початкового, базового дослідження (експлораторного аналізу даних) або візуалізувати результати, які модель виробляє.
Рекомендації та бізнес-застосування
Дані науковець повинні мати деяке уявлення про вимоги та цілі своєї організації або бізнесу. Дані науковець повинні розуміти ці речі, оскільки їм потрібно знати, які змінні та функції вони повинні аналізувати, досліджуючи закономірності, які допоможуть їхній організації досягти своїх цілей. Дані науковці повинні бути знайомі з обмеженнями, під яких вони працюють, та припущеннями, які робить керівництво організації.
Машинне навчання та штучний інтелект
Машинне навчання та інші алгоритми та моделі штучного інтелекту – це інструменти, які використовуються даних науковцями для аналізу даних, ідентифікації закономірностей у даних, визначення відносин між змінними та прогнозування майбутніх подій.
Традиційна дані науки проти великих даних науки
З часом, як методи збору даних стали більш складними та бази даних більші, виникла різниця між традиційною даних науки та “великими даними” науки.
Традиційний аналіз даних та дані науки проводяться з описовими та експлораторними аналітиками, спрямованими на пошук закономірностей та аналіз результатів проектів. Традиційні методи аналізу даних часто зосереджені лише на минулих даних та поточних даних. Аналітики даних часто працюють з даними, які вже були очищені та стандартизовані, тоді як дані науковці часто працюють з складними та “брудними” даними. Більш просунуті методи аналізу даних та даних науки можуть бути використані для прогнозування майбутньої поведінки, хоча це частіше робиться з великими даними, оскільки передбачувальні моделі часто потребують великих обсягів даних для надійного побудови.
“Великі дані” означають дані, які надто великі та складні, щоб бути обробленими традиційними методами аналізу даних та даних науки та інструментами. Великі дані часто збираються через онлайн-платформи, а передові інструменти трансформації даних використовуються для підготовки великих обсягів даних для інспекції даних науковцями. З часом, як збирається все більше даних, більша частина роботи даних науковця включає аналіз великих даних.
Інструменти даних науки
Загальні інструменти даних науки включають інструменти для зберігання даних, проведення експлораторного аналізу даних, моделювання даних, проведення ETL та візуалізації даних. Платформи, такі як Amazon Web Services, Microsoft Azure та Google Cloud, пропонують інструменти для допоміж даних науковцям у зберіганні, трансформації, аналізі та моделюванні даних. Є також окремі інструменти даних науки, такі як Airflow (інфраструктура даних) та Tableau (візуалізація даних та аналітика).
У сфері алгоритмів машинного навчання та штучного інтелекту, які використовуються для моделювання даних, вони часто надаються через модулі та платформи даних науки, такі як TensorFlow, PyTorch та Azure Machine-learning studio. Ці платформи дозволяють даних науковцям редагувати свої набори даних, створювати архітектури машинного навчання та тренувати моделі машинного навчання.
Інші загальні інструменти та бібліотеки даних науки включають SAS (для статистичного моделювання), Apache Spark (для аналізу потокових даних), D3.js (для інтерактивних візуалізацій у браузері) та Jupyter (для інтерактивних, спільних блоків коду та візуалізацій).

Фото: Seonjae Jo via Flickr, CC BY SA 2.0 (https://www.flickr.com/photos/130860834@N02/19786840570)
Приклади даних науки
Приклади даних науки та їхніх застосувань є скрізь. Дані науки мають застосування у всьому, від доставки їжі до спорту, трафіку та охорони здоров’я. Дані є скрізь, тому дані науки можуть бути застосовані до всього.
У сфері доставки їжі компанія Uber інвестує у розширення своєї системи спільного використання поїздок, орієнтованої на доставку їжі, Uber Eats. Uber Eats потрібно доставляти людям їжу вчасно, поки вона ще гаряча та свіжа. Для цього дані науковці компанії повинні використовувати статистичне моделювання, яке враховує аспекти, такі як відстань від ресторанів до точок доставки, святкові сплески, час приготування, а навіть погодні умови, все це з метою оптимізації часу доставки.
Статистика спорту використовується менеджерами команд для визначення найкращих гравців та формування сильних, надійних команд, які виграють гри. Одним із відомих прикладів є дані науки, задокументовані Майклом Льюїсом у книзі Moneyball, де генеральний менеджер команди Oakland Athletics проаналізував різні статистичні дані, щоб ідентифікувати високоякісних гравців, яких можна підписати у команду за відносно низьку ціну.
Аналіз трафіку важливий для створення самохідних транспортних засобів. Самохідні транспортні засоби повинні бути здатні передбачати діяльність навколо них та реагувати на зміни умов дороги, наприклад, збільшену зупинну відстань, необхідну під час дощу, а також присутність більшої кількості автомобілів на дорозі під час години пік. Окрім самохідних транспортних засобів, програми, такі як Google Maps, аналізують трафік, щоб сказати пасажирам, як довго їм потрібно буде їхати до місця призначення за допомогою різних маршрутів та видів транспорту.
У сфері охорони здоров’я комп’ютерний зір часто поєднується з машинним навчанням та іншими методами штучного інтелекту для створення класифікаторів зображень, здатних оглянути речі, такі як рентгенівські зображення, ФМРІ та ультразвук, щоб побачити, чи є потенційні медичні проблеми, які можуть проявитися на зображенні. Ці алгоритми можуть бути використані для допомоги клініцистам у діагнозі захворювання.
У кінцевому підсумку дані науки охоплюють численні діяльності та об’єднують аспекти різних дисциплін. Однак дані науки завжди зайняті розповідями про дані, і з допомогою даних краще розуміють світ.












