кочан Какво е Data Science? - Обединете.AI
Свържете се с нас
AI майсторски клас:

AI 101 г

Какво е наука за данни?

mm
Обновено on

Областта на науката за данни изглежда става все по-голяма и по-популярна всеки ден. Според LinkedIn науката за данни беше една от най-бързо развиващите се области на работа през 2017 г и през 2020 г. Glassdoor класира работата в науката за данни като една от трите най-добри професии в Съединените щати. Като се има предвид нарастващата популярност на науката за данни, не е изненада, че все повече хора се интересуват от тази област. Но какво точно е науката за данните?

Нека се запознаем с науката за данните, като отделим малко време, за да дефинираме науката за данните, да проучим как големите данни и изкуственият интелект променят полето, да научим за някои общи инструменти за наука за данни и да разгледаме някои примери за наука за данни.

Какво е наука за данни?

Преди да можем да изследваме каквито и да е инструменти или примери за наука за данни, ще искаме да получим кратко определение на наука за данните.

Дефинирането на „наука за данни“ всъщност е малко сложно, тъй като терминът се прилага към много различни задачи и методи за проучване и анализ. Можем да започнем, като си припомним какво означава терминът „наука“. Науката е систематично изучаване на физическия и естествения свят чрез наблюдение и експериментиране, целящо да подобри човешкото разбиране на природните процеси. Важните думи в това определение са „наблюдение“ и „разбиране“.

Ако науката за данните е процес на разбиране на света от модели в данните, тогава отговорност на учен по данни е да трансформирате данни, да анализирате данни и да извличате модели от данни. С други думи, на учен по данни се предоставят данни и те използват редица различни инструменти и техники за предварителна обработка на данните (подготвят ги за анализ) и след това анализират данните за значими модели.

Ролята на специалиста по данни е подобна на ролята на традиционния учен. И двете се занимават с анализ на данни да подкрепят или отхвърлят хипотези за това как работи светът, опитвайки се да осмислим моделите в данните, за да подобрим нашето разбиране за света. Учените по данни използват същите научни методи, които прави традиционният учен. Учен по данни започва със събиране на наблюдения за някои явления, които биха искали да проучат. След това те формулират хипотеза за въпросното явление и се опитват да намерят данни, които по някакъв начин анулират тяхната хипотеза.

Ако хипотезата не е в противоречие с данните, те може да са в състояние да изградят теория или модел за това как работи феноменът, който могат да продължат да тестват отново и отново, като видят дали е вярно за други подобни набори от данни. Ако моделът е достатъчно стабилен, ако обяснява добре моделите и не е анулиран по време на други тестове, той дори може да се използва за прогнозиране на бъдещи случаи на това явление.

Учен по данни обикновено няма да събере свои собствени данни чрез експеримент. Те обикновено няма да проектират експерименти с контроли и двойно-слепи опити, за да открият объркващи променливи, които могат да попречат на дадена хипотеза. Повечето данни, анализирани от учен по данни, ще бъдат данни, получени чрез наблюдателни проучвания и системи, което е начин, по който работата на учен по данни може да се различава от работата на традиционен учен, който има тенденция да извършва повече експерименти.

Това каза, учен по данни може да бъде призован да направи форма на експериментиране наречено A/B тестване където се правят настройки на система, която събира данни, за да види как се променят моделите на данни.

Независимо от използваните техники и инструменти, науката за данните в крайна сметка има за цел да подобри нашето разбиране за света чрез осмисляне на данните, а данните се получават чрез наблюдение и експериментиране. Науката за данни е процес на използване на алгоритми, статистически принципи и различни инструменти и машини за извличане на прозрения от данните, прозрения, които ни помагат да разберем моделите в света около нас.

Какво правят учените по данни?

Може да видите, че всяка дейност, която включва анализ на данни по научен начин, може да се нарече наука за данните, което е част от това, което прави определянето на науката за данните толкова трудно. За да стане по-ясно, нека проучим някои от дейностите, които един учен по данни може да направи ежедневно.

Науката за данни обединява много различни дисциплини и специалности. Снимка: Calvin Andrus чрез Wikimeedia Commons, CC BY SA 3.0 (https://commons.wikimedia.org/wiki/File:DataScienceDisciplines.png)

Във всеки един ден учен по данни може да бъде помолен да: създаде схема за съхранение и извличане на данни, да създаде ETL (извличане, трансформиране, зареждане) конвейери за данни и да изчисти данни, да използва статистически методи, да изработи визуализации на данни и табла за управление, да внедри изкуствен интелект и алгоритми за машинно обучение, правят препоръки за действия въз основа на данните.

Нека разделим малко задачите, изброени по-горе.

Може да се наложи специалист по данни да се справи с инсталирането на технологии, необходими за съхраняване и извличане на данни, като обръща внимание както на хардуера, така и на софтуера. Лицето, отговорно за тази позиция, може също да бъде наричано „Инженер на данни”. Някои компании обаче включват тези отговорности в ролята на специалисти по данни. Учен по данни може също да се наложи да създаде или да помогне в създаването на, ETL тръбопроводи. Данните много рядко идват форматирани точно както е необходимо на специалиста по данни. Вместо това данните ще трябва да бъдат получени в необработен вид от източника на данни, трансформирани в използваем формат и предварително обработени (неща като стандартизиране на данните, премахване на излишъци и премахване на повредени данни).

Статистически методи на науката за данни

- прилагане на статистика е необходимо простото разглеждане на данни и тълкуването им да се превърне в истинска наука. Статистически методи се използват за извличане на подходящи модели от набори от данни и специалистът по данни трябва да е добре запознат със статистическите концепции. Те трябва да могат да различават значими корелации от фалшиви корелации, като контролират объркващи променливи. Те също трябва да знаят правилните инструменти, които да използват, за да определят кои функции в набора от данни са важни за техния модел/имат предсказваща сила. Специалистът по данни трябва да знае кога да използва регресионен подход спрямо класификационен подход и кога да се интересува от средната стойност на извадката спрямо медианата на извадката. Учен по данни просто не би бил учен без тези решаващи умения.

Визуализация на данните

Решаваща част от работата на специалиста по данни е да съобщава своите открития на другите. Ако учен по данни не може ефективно да съобщи своите открития на другите, тогава последиците от техните открития нямат значение. Специалистът по данни трябва да бъде и ефективен разказвач на истории. Това означава създаване на визуализации, които съобщават подходящи точки за набора от данни и моделите, открити в него. Има голям брой различни визуализация на данни инструменти, които един учен по данни може да използва, и те могат да визуализират данни за целите на първоначалното, основно проучване (проучвателен анализ на данни) или да визуализират резултатите, които даден модел произвежда.

Препоръки и бизнес приложения

Учен по данни трябва да има някаква интуиция за изискванията и целите на своята организация или бизнес. Специалистът по данни трябва да разбира тези неща, защото трябва да знае какви типове променливи и функции трябва да анализира, изследвайки модели, които ще помогнат на организацията им да постигне целите си. Учените, занимаващи се с данни, трябва да са наясно с ограниченията, при които работят, и с предположенията, които ръководството на организацията прави.

Машинно обучение и AI

машина обучение и други алгоритми и модели за изкуствен интелект са инструменти, използвани от специалистите по данни за анализиране на данни, идентифициране на модели в данните, разпознаване на връзки между променливи и правене на прогнози за бъдещи събития.

Традиционна наука за данни срещу наука за големи данни

Тъй като методите за събиране на данни станаха по-сложни и базите данни станаха по-големи, възникна разлика между традиционната наука за данни и "голяма информация" наука.

Традиционният анализ на данни и науката за данни се извършва с описателен и проучвателен анализ, целящ да намери модели и да анализира резултатите от изпълнението на проекти. Традиционните методи за анализ на данни често се фокусират само върху минали данни и текущи данни. Анализаторите на данни често се занимават с данни, които вече са били почистени и стандартизирани, докато учените по данни често се занимават със сложни и мръсни данни. По-усъвършенствани техники за анализ на данни и наука за данни могат да се използват за прогнозиране на бъдещо поведение, въпреки че това по-често се прави с големи данни, тъй като прогнозните модели често се нуждаят от големи количества данни, за да бъдат надеждно конструирани.

„Големи данни“ се отнася до данни, които са твърде големи и сложни, за да бъдат обработвани с традиционни анализи на данни и научни техники и инструменти. Големите данни често се събират чрез онлайн платформи и се използват усъвършенствани инструменти за преобразуване на данни, за да направят големите обеми данни готови за проверка от Data Science. Тъй като през цялото време се събират повече данни, по-голяма част от работата на специалистите по данни включва анализ на големи данни.

Инструменти за наука за данни

Обща наука за данните инструментите включват инструменти за съхраняване на данни, извършване на проучвателен анализ на данни, моделиране на данни, извършване на ETL и визуализиране на данни. Платформи като Amazon Web Services, Microsoft Azure и Google Cloud предлагат инструменти, които помагат на специалистите по данни да съхраняват, трансформират, анализират и моделират данни. Има и самостоятелни инструменти за наука за данни като Airflow (инфраструктура за данни) и Tableau (визуализация и анализ на данни).

По отношение на машинното обучение и алгоритмите за изкуствен интелект, използвани за моделиране на данни, те често се предоставят чрез модули и платформи за наука за данни като TensorFlow, PyTorch и студиото за машинно обучение Azure. Тези платформи като специалисти по данни правят редакции на своите набори от данни, съставят архитектури за машинно обучение и обучават модели за машинно обучение.

Други често срещани инструменти и библиотеки за наука за данни включват SAS (за статистическо моделиране), Apache Spark (за анализ на поточни данни), D3.js (за интерактивни визуализации в браузъра) и Jupyter (за интерактивни, споделяеми кодови блокове и визуализации) .

Снимка: Seonjae Jo чрез Flickr, CC BY SA 2.0 (https://www.flickr.com/photos/130860834@N02/19786840570)

Примери за наука за данни

Примери за наука за данни и нейните приложения са навсякъде. Науката за данни има приложения във всичко - от доставка на храна, спорт, трафик и здраве. Данните са навсякъде и затова науката за данните може да се приложи към всичко.

По отношение на храната, Uber инвестира в разширяване на своята система за споделено пътуване, фокусирана върху доставката на храна, Убер яде. Uber Eats трябва да доставя храната на хората навреме, докато е още гореща и свежа. За да се случи това, специалистите по данни за компанията трябва да използват статистическо моделиране, което взема предвид аспекти като разстоянието от ресторантите до точките за доставка, празнични бързане, време за готвене и дори метеорологични условия, всички взети предвид с цел оптимизиране на времето за доставка .

Спортните статистики се използват от мениджърите на отбори, за да определят кои са най-добрите играчи и да формират силни, надеждни отбори, които ще печелят игри. Един забележителен пример е науката за данните, документирана от Майкъл Луис в книгата Moneyball, където генералният мениджър на отбора на Оукланд Атлетикс анализира различни статистики, за да идентифицира качествени играчи, които могат да бъдат привлечени в отбора на сравнително ниска цена.

Анализът на моделите на движение е от решаващо значение за създаването на самоуправляващи се превозни средства. Самоуправляващи се превозни средства трябва да могат да предвидят дейността около тях и да реагират на промените в пътните условия, като необходимото увеличено спирачно разстояние, когато вали, както и наличието на повече автомобили на пътя в час пик. Освен самоуправляващите се превозни средства, приложения като Google Maps анализират моделите на трафика, за да кажат на пътуващите колко време ще им отнеме да стигнат до местоназначението си, използвайки различни маршрути и форми на транспорт.

От гледна точка на наука за здравни данни, компютърното зрение често се комбинира с машинно обучение и други AI техники за създаване на класификатори на изображения, способни да изследват неща като рентгенови лъчи, FMRIs и ултразвук, за да видят дали има някакви потенциални медицински проблеми, които могат да се появят при сканирането. Тези алгоритми могат да се използват, за да помогнат на клиницистите да диагностицират заболяване.

В крайна сметка науката за данните обхваща множество дейности и обединява аспекти на различни дисциплини. Науката за данни обаче винаги се занимава с разказване на убедителни, интересни истории от данни и с използване на данни за по-добро разбиране на света.

Блогър и програмист със специалности в Machine Learning намлява Дълбоко обучение теми. Даниел се надява да помогне на другите да използват силата на ИИ за социално благо.