stub Kas yra duomenų mokslas? - Vienykitės.AI
Susisiekti su mumis
AI meistriškumo klasė:

AI 101 m

Kas yra duomenų mokslas?

mm
Atnaujinta on

Atrodo, kad duomenų mokslo sritis kasdien tampa vis didesnė ir populiaresnė. Pasak „LinkedIn“, duomenų mokslas buvo viena iš sparčiausiai augančių darbo sričių 2017 m o 2020 m. Glassdoor duomenų mokslo darbą įvertino kaip vienas iš trijų geriausių darbo vietų Jungtinėse Valstijose. Atsižvelgiant į augantį duomenų mokslo populiarumą, nenuostabu, kad vis daugiau žmonių domisi šia sritimi. Tačiau kas tiksliai yra duomenų mokslas?

Susipažinkime su duomenų mokslu, skirtu šiek tiek laiko apibrėžti duomenų mokslą, ištirti, kaip dideli duomenys ir dirbtinis intelektas keičia sritį, sužinokite apie kai kuriuos įprastus duomenų mokslo įrankius ir panagrinėkime keletą duomenų mokslo pavyzdžių.

Kas yra duomenų mokslas?

Prieš tyrinėdami bet kokius duomenų mokslo įrankius ar pavyzdžius, norėtume gauti glaustą apibrėžimą duomenų mokslas.

„Duomenų mokslo“ apibrėžimas iš tikrųjų yra šiek tiek sudėtingas, nes šis terminas taikomas daugeliui skirtingų užduočių ir tyrimo bei analizės metodų. Galime pradėti primindami sau, ką reiškia terminas „mokslas“. Mokslas yra sistemingas fizinio ir gamtos pasaulio tyrimas stebint ir eksperimentuojant, siekiant pagerinti žmogaus supratimą apie gamtos procesus. Svarbūs žodžiai šiame apibrėžime yra „stebėjimas“ ir „supratimas“.

Jei duomenų mokslas yra pasaulio supratimo iš duomenų modelių procesas, tada duomenų mokslininko atsakomybė yra transformuoti duomenis, analizuoti duomenis ir iš duomenų išgauti šablonus. Kitaip tariant, duomenų mokslininkui pateikiami duomenys ir jie naudoja daugybę skirtingų įrankių ir metodų, kad iš anksto apdorotų duomenis (paruoštų juos analizei) ir analizuotų duomenis, kad nustatytų prasmingus modelius.

Duomenų mokslininko vaidmuo yra panašus į tradicinio mokslininko vaidmenį. Abu yra susiję su duomenų analize paremti arba atmesti hipotezes apie tai, kaip veikia pasaulis, bandydami suprasti duomenų šablonus, kad pagerintume pasaulio supratimą. Duomenų mokslininkai naudoja tuos pačius mokslinius metodus, kuriuos naudoja tradicinis mokslininkas. Duomenų mokslininkas pradeda rinkdamas pastabas apie kai kuriuos reiškinius, kuriuos norėtų ištirti. Tada jie suformuluoja hipotezę apie nagrinėjamą reiškinį ir bando rasti duomenų, kurie kaip nors paneigia jų hipotezę.

Jei hipotezei neprieštarauja duomenys, jie gali sukurti teoriją arba modelį apie tai, kaip šis reiškinys veikia, ir vėl ir vėl išbandyti, ar tai galioja kitiems panašiems duomenų rinkiniams. Jei modelis yra pakankamai tvirtas, jei jis gerai paaiškina modelius ir nėra panaikintas kitų bandymų metu, jis netgi gali būti naudojamas prognozuojant to reiškinio pasireiškimus ateityje.

Duomenų mokslininkas paprastai nerenka savo duomenų per eksperimentą. Paprastai jie neplanuoja eksperimentų su kontrolėmis ir dvigubai aklų bandymų, kad surastų klaidinančius kintamuosius, kurie gali trukdyti hipotezei. Dauguma duomenų mokslininko analizuojamų duomenų bus duomenys, gauti atliekant stebėjimo tyrimus ir sistemas, todėl duomenų mokslininko darbas gali skirtis nuo tradicinio mokslininko, kuris linkęs atlikti daugiau eksperimentų, darbo.

Tai reiškia, kad duomenų mokslininkas gali būti pakviestas atlikti tam tikrą eksperimentą vadinamas A/B testavimu kur atliekami sistemos, kuri renka duomenis, patobulinimai, siekiant pamatyti, kaip keičiasi duomenų šablonai.

Nepriklausomai nuo naudojamų metodų ir įrankių, duomenų mokslas galiausiai siekia pagerinti mūsų supratimą apie pasaulį, įprasmindamas duomenis, o duomenys gaunami stebint ir eksperimentuojant. Duomenų mokslas – tai algoritmų, statistinių principų ir įvairių įrankių bei mašinų naudojimo procesas, siekiant gauti įžvalgų iš duomenų, įžvalgų, padedančių suprasti mus supančio pasaulio modelius.

Ką veikia duomenų mokslininkai?

Galbūt pastebėjote, kad bet kokia veikla, susijusi su duomenų analize moksliniu būdu, gali būti vadinama duomenų mokslu, o tai yra dalis to, dėl ko taip sunku apibrėžti duomenų mokslą. Kad būtų aiškiau, panagrinėkime kai kurias duomenų mokslininko veiklas gali padaryti kasdien.

Duomenų mokslas sujungia daugybę skirtingų disciplinų ir specialybių. Nuotrauka: Calvin Andrus per Wikimeedia Commons, CC BY SA 3.0 (https://commons.wikimedia.org/wiki/File:DataScienceDisciplines.png)

Bet kurią dieną duomenų mokslininko gali būti paprašyta: sukurti duomenų saugojimo ir gavimo schemą, sukurti duomenų ETL (ištraukti, transformuoti, įkelti) vamzdynus ir išvalyti duomenis, taikyti statistinius metodus, sukurti duomenų vizualizacijas ir prietaisų skydelius, įdiegti dirbtinį intelektą ir mašininio mokymosi algoritmus, teikti rekomendacijas dėl veiksmų pagal duomenis.

Šiek tiek suskaidykime aukščiau išvardytas užduotis.

Duomenų mokslininko gali reikėti diegti technologijas, reikalingas duomenims saugoti ir gauti, atkreipiant dėmesį į aparatinę ir programinę įrangą. Už šias pareigas atsakingas asmuo taip pat gali būti vadinamas „Duomenų inžinierius“. Tačiau kai kurios įmonės šias pareigas įtraukia į duomenų mokslininkų vaidmenį. Duomenų mokslininkui taip pat gali tekti sukurti arba padėti sukurti ETL vamzdynai. Duomenys labai retai pateikiami suformatuoti taip, kaip reikia duomenų mokslininkui. Vietoj to, duomenys turės būti gauti neapdorota forma iš duomenų šaltinio, paversti tinkamu formatu ir iš anksto apdoroti (pvz., standartizuoti duomenis, panaikinti perteklius ir pašalinti sugadintus duomenis).

Statistiniai duomenų mokslo metodai

Šios statistikos taikymas tiesiog duomenų peržiūrą ir jų interpretavimą paversti tikru mokslu. Statistiniai metodai naudojami atitinkamiems modeliams iš duomenų rinkinių išgauti, o duomenų mokslininkas turi gerai išmanyti statistikos sąvokas. Jie turi sugebėti atskirti prasmingas koreliacijas nuo netikrų koreliacijų, kontroliuodami, ar nėra klaidinančių kintamųjų. Jie taip pat turi žinoti tinkamus įrankius, kad nustatytų, kurios duomenų rinkinio funkcijos yra svarbios jų modeliui / turi nuspėjamąją galią. Duomenų mokslininkas turi žinoti, kada naudoti regresijos metodą, palyginti su klasifikavimo metodu, ir kada rūpintis imties vidurkiu, palyginti su imties mediana. Duomenų mokslininkas tiesiog nebūtų mokslininkas be šių esminių įgūdžių.

Duomenų vizualizavimas

Svarbi duomenų mokslininko darbo dalis yra savo išvadų perdavimas kitiems. Jei duomenų mokslininkas negali veiksmingai perduoti savo išvadų kitiems, jų išvadų pasekmės neturi reikšmės. Duomenų mokslininkas taip pat turėtų būti veiksmingas pasakotojas. Tai reiškia, kad reikia sukurti vizualizacijas, kurios perduoda svarbius duomenis apie duomenų rinkinį ir jame aptiktus modelius. Yra daug įvairių duomenų vizualizavimas įrankius, kuriuos gali naudoti duomenų mokslininkas, ir jie gali vizualizuoti duomenis pradinio pagrindinio tyrinėjimo (žvalgomoji duomenų analizė) tikslais arba vizualizuoti modelio gaunamus rezultatus.

Rekomendacijos ir verslo programos

Duomenų mokslininkas turi turėti tam tikrą savo organizacijos ar verslo reikalavimų ir tikslų intuiciją. Duomenų mokslininkas turi suprasti šiuos dalykus, nes jis turi žinoti, kokių tipų kintamuosius ir funkcijas jie turėtų analizuoti, tirti modelius, kurie padės jų organizacijai pasiekti savo tikslus. Duomenų mokslininkai turi žinoti apie suvaržymus, kuriuos jie veikia, ir prielaidas, kurias daro organizacijos vadovybė.

Mašinų mokymasis ir AI

Mašininis mokymasis ir kiti dirbtinio intelekto algoritmai ir modeliai yra įrankiai, kuriuos duomenų mokslininkai naudoja duomenims analizuoti, duomenų modeliams nustatyti, kintamųjų ryšiui nustatyti ir ateities įvykiams prognozuoti.

Tradicinis duomenų mokslas prieš didžiųjų duomenų mokslą

Kadangi duomenų rinkimo metodai tapo sudėtingesni, o duomenų bazės padidėjo, atsirado skirtumas tarp tradicinio duomenų mokslo ir „didieji duomenys“ mokslas.

Tradicinė duomenų analizė ir duomenų mokslas atliekami naudojant aprašomąją ir tiriamąją analizę, siekiant rasti modelius ir analizuoti projektų veiklos rezultatus. Tradiciniai duomenų analizės metodai dažnai sutelkiami tik į praeities ir dabartinius duomenis. Duomenų analitikai dažnai nagrinėja duomenis, kurie jau buvo išvalyti ir standartizuoti, o duomenų mokslininkai dažnai susiduria su sudėtingais ir nešvariais duomenimis. Pažangesni duomenų analizės ir duomenų mokslo metodai gali būti naudojami būsimam elgesiui numatyti, nors tai dažniau daroma naudojant didelius duomenis, nes nuspėjamiems modeliams dažnai reikia daug duomenų, kad būtų galima patikimai sukurti.

„Didieji duomenys“ reiškia duomenis, kurie yra per dideli ir sudėtingi, kad juos būtų galima apdoroti naudojant tradicinius duomenų analizės ir mokslo metodus bei įrankius. Dideli duomenys dažnai renkami per internetines platformas ir naudojami pažangūs duomenų transformavimo įrankiai, kad dideli duomenų kiekiai būtų paruošti duomenų mokslui patikrinti. Kadangi visą laiką surenkama daugiau duomenų, duomenų mokslininkų darbas labiau susijęs su didelių duomenų analize.

Duomenų mokslo įrankiai

Bendras duomenų mokslas įrankiai įtraukti įrankius duomenims saugoti, atlikti tiriamąją duomenų analizę, modeliuoti duomenis, atlikti ETL ir vizualizuoti duomenis. Tokios platformos kaip „Amazon Web Services“, „Microsoft Azure“ ir „Google Cloud“ siūlo įrankius, padedančius duomenų mokslininkams saugoti, transformuoti, analizuoti ir modeliuoti duomenis. Taip pat yra atskirų duomenų mokslo įrankių, tokių kaip „Airflow“ (duomenų infrastruktūra) ir „Tableau“ (duomenų vizualizacija ir analizė).

Kalbant apie mašininį mokymąsi ir dirbtinio intelekto algoritmus, naudojamus duomenims modeliuoti, jie dažnai pateikiami naudojant duomenų mokslo modulius ir platformas, tokias kaip TensorFlow, PyTorch ir Azure Machine-Learning Studio. Tokios platformos, kaip duomenų mokslininkai, redaguoja savo duomenų rinkinius, kuria mašininio mokymosi architektūras ir moko mašininio mokymosi modelius.

Kiti įprasti duomenų mokslo įrankiai ir bibliotekos apima SAS (statistiniam modeliavimui), Apache Spark (srautinio perdavimo duomenims analizuoti), D3.js (interaktyvioms vizualizacijai naršyklėje) ir Jupyter (interaktyviems, bendrinamiems kodų blokams ir vizualizacijai). .

Nuotrauka: Seonjae Jo per Flickr, CC BY SA 2.0 (https://www.flickr.com/photos/130860834@N02/19786840570)

Duomenų mokslo pavyzdžiai

Duomenų mokslo ir jo taikymo pavyzdžių yra visur. Duomenų mokslas yra pritaikytas viskam, pradedant maisto pristatymu, sportu, eismu ir sveikata. Duomenys yra visur, todėl duomenų mokslą galima pritaikyti viskam.

Kalbant apie maistą, „Uber“ investuoja į savo pavėžėjimo sistemos, orientuotos į maisto pristatymą, plėtrą, Uber Eats. „Uber Eats“ turi laiku pateikti žmonėms maistą, kol jis dar karštas ir šviežias. Kad tai įvyktų, įmonės duomenų mokslininkai turi naudoti statistinį modeliavimą, kuriame atsižvelgiama į tokius aspektus kaip atstumas nuo restoranų iki pristatymo punktų, atostogų skubėjimas, maisto gaminimo laikas ir net oro sąlygos – visa tai atsižvelgiama siekiant optimizuoti pristatymo laiką. .

Sporto statistiką naudoja komandų vadovai, norėdami nustatyti, kas yra geriausi žaidėjai, ir suformuoti stiprias, patikimas komandas, kurios laimės rungtynes. Vienas žymus pavyzdys yra duomenų mokslas, dokumentuotas Michaelo Lewiso knygoje Moneyball, kur „Oakland Athletics“ komandos generalinis direktorius išanalizavo įvairius statistinius duomenis, siekdamas nustatyti kokybiškus žaidėjus, kurie galėtų būti pasirašyti į komandą už palyginti mažą kainą.

Eismo modelių analizė yra labai svarbi kuriant savarankiškai važiuojančias transporto priemones. Savarankiškos transporto priemonės turi sugebėti nuspėti aplink juos vykstančią veiklą ir reaguoti į kelio sąlygų pokyčius, pvz., pailgėjusį stabdymo kelią, reikalingą lyjant, taip pat į tai, kad kelyje piko metu važiuoja daugiau automobilių. Be savarankiškai vairuojančių transporto priemonių, tokios programos kaip „Google Maps“ analizuoja eismo modelius, kad praneštų keliaujantiems į darbą ir atgal, kiek užtruks kelionės tikslas įvairiais maršrutais ir transporto rūšimis.

Kalbant apie sveikatos duomenų mokslasKompiuterinis matymas dažnai derinamas su mašininiu mokymusi ir kitais AI metodais, kad būtų sukurti vaizdo klasifikatoriai, galintys ištirti tokius dalykus kaip rentgeno spinduliai, FMRI ir ultragarsai, siekiant išsiaiškinti, ar nėra kokių nors galimų medicininių problemų, kurios gali atsirasti nuskaitymo metu. Šie algoritmai gali padėti gydytojams diagnozuoti ligą.

Galiausiai duomenų mokslas apima daugybę veiklų ir sujungia skirtingų disciplinų aspektus. Tačiau duomenų mokslas visada yra susijęs su įtikinamų, įdomių istorijų pasakojimu iš duomenų ir duomenų naudojimu siekiant geriau suprasti pasaulį.

Tinklaraštininkas ir programuotojas, turintis specialybių Mašininis mokymasis ir Gilus mokymasis temomis. Danielis tikisi padėti kitiems panaudoti AI galią socialinei gerovei.