škrbina Kaj je Data Science? - Združi se.AI
Povežite se z nami

AI 101

Kaj je Data Science?

mm
Posodobljeno on

Zdi se, da postaja področje podatkovne znanosti vsak dan večje in bolj priljubljeno. Glede na LinkedIn podatkovna znanost je bilo eno najhitreje rastočih delovnih področij v letu 2017 in leta 2020 je Glassdoor delo podatkovne znanosti uvrstil med ena izmed treh najboljših služb v ZDA. Glede na vse večjo priljubljenost znanosti o podatkih ni presenetljivo, da se vse več ljudi zanima za to področje. Toda kaj natančno je podatkovna znanost?

Spoznajmo znanost o podatkih, vzemimo si nekaj časa za opredelitev znanosti o podatkih, raziščimo, kako veliki podatki in umetna inteligenca spreminjajo področje, spoznajmo nekaj običajnih orodij za znanost o podatkih in preučimo nekaj primerov znanosti o podatkih.

Kaj je Data Science?

Preden lahko raziščemo kakršna koli orodja ali primere podatkovne znanosti, želimo dobiti jedrnato definicijo znanost o podatkih.

Opredelitev »podatkovne znanosti« je pravzaprav nekoliko zapletena, saj se izraz uporablja za veliko različnih nalog in metod raziskovanja in analize. Začnemo lahko tako, da se spomnimo, kaj pomeni izraz "znanost". Znanost je sistematično preučevanje fizičnega in naravnega sveta z opazovanjem in eksperimentiranjem, katerega namen je izboljšati človeško razumevanje naravnih procesov. Pomembni besedi v tej definiciji sta "opazovanje" in "razumevanje".

Če je znanost o podatkih proces razumevanja sveta iz vzorcev v podatkih, potem odgovornost podatkovnega znanstvenika je pretvorba podatkov, analiza podatkov in izločanje vzorcev iz podatkov. Z drugimi besedami, podatkovni znanstvenik dobi podatke in uporabi številna različna orodja in tehnike za predhodno obdelavo podatkov (pripravi jih za analizo) in nato analizira podatke za smiselne vzorce.

Vloga podatkovnega znanstvenika je podobna vlogi tradicionalnega znanstvenika. Oba se ukvarjata z analizo podatkov podpreti ali zavrniti hipoteze o tem, kako deluje svet, poskušamo razumeti vzorce v podatkih, da bi izboljšali naše razumevanje sveta. Podatkovni znanstveniki uporabljajo enake znanstvene metode kot tradicionalni znanstveniki. Podatkovni znanstvenik začne z zbiranjem opažanj o nekaterih pojavih, ki jih želi preučiti. Nato oblikujejo hipotezo o obravnavanem pojavu in poskušajo najti podatke, ki na nek način izničijo njihovo hipotezo.

Če podatki niso v nasprotju s hipotezo, bodo morda lahko zgradili teorijo ali model o delovanju pojava, ki ga bodo lahko vedno znova preizkušali tako, da bodo videli, ali velja za druge podobne nize podatkov. Če je model dovolj robusten, če dobro pojasnjuje vzorce in ni izničen med drugimi testi, ga je mogoče celo uporabiti za napovedovanje prihodnjih pojavov tega pojava.

Podatkovni znanstvenik običajno ne bo zbiral lastnih podatkov z eksperimentom. Običajno ne načrtujejo eksperimentov s kontrolami in dvojno slepimi poskusi, da bi odkrili spremenljivke, ki bi lahko vplivale na hipotezo. Večina podatkov, ki jih analizira podatkovni znanstvenik, bo podatkov, pridobljenih z opazovalnimi študijami in sistemi, kar je način, po katerem se lahko delo podatkovnega znanstvenika razlikuje od dela tradicionalnega znanstvenika, ki izvaja več eksperimentov.

Kljub temu bi podatkovnega znanstvenika morda poklicali, da izvede neko obliko eksperimentiranja imenovano A/B testiranje kjer se izvedejo popravki v sistemu, ki zbira podatke, da vidi, kako se vzorci podatkov spreminjajo.

Ne glede na uporabljene tehnike in orodja si podatkovna znanost končno prizadeva izboljšati naše razumevanje sveta z osmišljanjem podatkov, podatke pa pridobivamo z opazovanjem in eksperimentiranjem. Podatkovna znanost je postopek uporabe algoritmov, statističnih načel ter različnih orodij in strojev za pridobivanje vpogledov iz podatkov, vpogledov, ki nam pomagajo razumeti vzorce v svetu okoli nas.

Kaj počnejo znanstveniki za podatke?

Morda vidite, da lahko vsako dejavnost, ki vključuje analizo podatkov na znanstveni način, imenujemo podatkovna znanost, kar je del tega, zaradi česar je definiranje podatkovne znanosti tako težko. Da bi bilo bolj jasno, raziščimo nekatere dejavnosti podatkovnega znanstvenika bi lahko storili dnevno.

Podatkovna znanost združuje veliko različnih disciplin in specialnosti. Fotografija: Calvin Andrus prek Wikimeedia Commons, CC BY SA 3.0 (https://commons.wikimedia.org/wiki/File:DataScienceDisciplines.png)

Na kateri koli dan se lahko od podatkovnega znanstvenika zahteva, da: ustvari shemo za shranjevanje in iskanje podatkov, ustvari cevovode podatkov ETL (izvleček, transformacija, nalaganje) in očisti podatke, uporabi statistične metode, oblikuje vizualizacije podatkov in nadzorne plošče, implementira umetno inteligenco in algoritmov strojnega učenja, pripravi priporočila za dejanja na podlagi podatkov.

Zgoraj naštete naloge nekoliko razdelimo.

Podatkovni znanstvenik bo morda moral upravljati namestitev tehnologij, potrebnih za shranjevanje in pridobivanje podatkov, pri čemer mora biti pozoren na strojno in programsko opremo. Oseba, odgovorna za ta položaj, se lahko imenuje tudi "Podatkovni inženir”. Vendar nekatera podjetja te odgovornosti vključijo v vlogo podatkovnih znanstvenikov. Podatkovni znanstvenik bo morda moral ustvariti ali pomagati pri ustvarjanju, ETL cevovodi. Podatki so zelo redko oblikovani tako, kot jih potrebuje podatkovni znanstvenik. Namesto tega bo treba podatke prejeti v neobdelani obliki iz podatkovnega vira, preoblikovati v uporabno obliko in predhodno obdelati (stvari, kot je standardizacija podatkov, opuščanje presežkov in odstranjevanje poškodovanih podatkov).

Statistične metode podatkovne znanosti

O uporaba statistike preprosto gledanje podatkov in njihovo interpretacijo je treba spremeniti v dejansko znanost. Statistične metode se uporabljajo za pridobivanje ustreznih vzorcev iz naborov podatkov, podatkovni znanstvenik pa mora dobro poznati statistične koncepte. Morajo biti sposobni razločiti smiselne korelacije od lažnih korelacij z nadzorovanjem zmedenih spremenljivk. Prav tako morajo poznati prava orodja za določitev, katere funkcije v naboru podatkov so pomembne za njihov model/imajo napovedno moč. Podatkovni znanstvenik mora vedeti, kdaj naj uporabi regresijski pristop v primerjavi s pristopom klasifikacije in kdaj mora skrbeti za povprečje vzorca v primerjavi z mediano vzorca. Podatkovni znanstvenik preprosto ne bi bil znanstvenik brez teh ključnih veščin.

Vizualizacija podatkov

Pomemben del dela podatkovnega znanstvenika je sporočanje njihovih ugotovitev drugim. Če podatkovni znanstvenik ne more učinkovito sporočiti svojih ugotovitev drugim, potem posledice njihovih ugotovitev niso pomembne. Podatkovni znanstvenik bi moral biti tudi učinkovit pripovedovalec zgodb. To pomeni ustvarjanje vizualizacij, ki sporočajo pomembne točke o naboru podatkov in vzorcih, odkritih v njem. Obstaja veliko število različnih vizualizacija podatkov orodja, ki bi jih lahko uporabil podatkovni znanstvenik, in lahko vizualizirajo podatke za namene začetnega, osnovnega raziskovanja (raziskovalna analiza podatkov) ali vizualizirajo rezultate, ki jih ustvari model.

Priporočila in poslovne aplikacije

Podatkovni znanstvenik mora imeti nekaj intuicije glede zahtev in ciljev svoje organizacije ali podjetja. Podatkovni znanstvenik mora razumeti te stvari, ker mora vedeti, katere vrste spremenljivk in značilnosti bi moral analizirati, raziskovati vzorce, ki bodo njihovi organizaciji pomagali doseči cilje. Podatkovni znanstveniki se morajo zavedati omejitev, pod katerimi delujejo, in predpostavk, ki jih postavlja vodstvo organizacije.

Strojno učenje in AI

Strojno učenje in drugi algoritmi in modeli umetne inteligence so orodja, ki jih podatkovni znanstveniki uporabljajo za analizo podatkov, prepoznavanje vzorcev v podatkih, razločevanje odnosov med spremenljivkami in napovedovanje prihodnjih dogodkov.

Tradicionalna znanost o podatkih proti znanosti o velikih podatkih

Ker so metode zbiranja podatkov postale bolj izpopolnjene in baze podatkov večje, je nastala razlika med tradicionalno podatkovno znanostjo in "veliki podatki" znanost.

Tradicionalna podatkovna analitika in podatkovna znanost se izvajata z deskriptivno in raziskovalno analitiko, katere namen je najti vzorce in analizirati rezultate uspešnosti projektov. Tradicionalne metode analitike podatkov se pogosto osredotočajo samo na pretekle in trenutne podatke. Podatkovni analitiki se pogosto ukvarjajo s podatki, ki so že očiščeni in standardizirani, medtem ko se podatkovni znanstveniki pogosto ukvarjajo s kompleksnimi in umazanimi podatki. Za napovedovanje prihodnjega vedenja bi se lahko uporabile naprednejše analize podatkov in tehnike podatkovne znanosti, čeprav se to pogosteje izvaja z velikimi podatki, saj napovedni modeli pogosto potrebujejo velike količine podatkov, da so zanesljivo izdelani.

»Veliki podatki« se nanašajo na podatke, ki so preveliki in zapleteni, da bi jih lahko obdelali s tradicionalnimi analitičnimi in znanstvenimi tehnikami in orodji podatkov. Veliki podatki se pogosto zbirajo prek spletnih platform, napredna orodja za pretvorbo podatkov pa se uporabljajo za pripravo velikih količin podatkov za pregled s strani podatkovne znanosti. Ker se ves čas zbira več podatkov, več dela podatkovnih znanstvenikov vključuje analizo velikih podatkov.

Orodja za podatkovno znanost

Skupna znanost o podatkih orodja vključujejo orodja za shranjevanje podatkov, izvajanje raziskovalne analize podatkov, modeliranje podatkov, izvajanje ETL in vizualizacijo podatkov. Platforme, kot so Amazon Web Services, Microsoft Azure in Google Cloud, ponujajo orodja, ki znanstvenikom pomagajo pri shranjevanju, preoblikovanju, analizi in modeliranju podatkov. Obstajajo tudi samostojna orodja za podatkovno znanost, kot sta Airflow (podatkovna infrastruktura) in Tableau (vizualizacija in analitika podatkov).

Kar zadeva algoritme strojnega učenja in umetne inteligence, ki se uporabljajo za modeliranje podatkov, jih pogosto zagotavljajo moduli in platforme podatkovne znanosti, kot so TensorFlow, PyTorch in studio za strojno učenje Azure. Te platforme, kot so podatkovni znanstveniki, urejajo svoje nabore podatkov, sestavljajo arhitekture strojnega učenja in usposabljajo modele strojnega učenja.

Druga pogosta orodja in knjižnice za podatkovno znanost vključujejo SAS (za statistično modeliranje), Apache Spark (za analizo pretočnih podatkov), D3.js (za interaktivne vizualizacije v brskalniku) in Jupyter (za interaktivne kodne bloke in vizualizacije, ki jih je mogoče deliti). .

Fotografija: Seonjae Jo prek Flickra, CC BY SA 2.0 (https://www.flickr.com/photos/130860834@N02/19786840570)

Primeri podatkovne znanosti

Primeri podatkovne znanosti in njenih aplikacij so povsod. Podatkovna znanost se uporablja v vsem, od dostave hrane, športa, prometa in zdravja. Podatki so povsod, zato je podatkovno znanost mogoče uporabiti za vse.

Kar zadeva hrano, Uber vlaga v razširitev svojega sistema deljenja prevozov, osredotočenega na dostavo hrane, Uber jedo. Uber Eats mora ljudem hrano zagotoviti pravočasno, medtem ko je še vroča in sveža. Da bi se to zgodilo, morajo podatkovni znanstveniki za podjetje uporabiti statistično modeliranje, ki upošteva vidike, kot so oddaljenost od restavracij do mest dostave, počitniške naglice, čas kuhanja in celo vremenske razmere, vse to pa je treba upoštevati s ciljem optimizacije dobavnih časov. .

Vodje ekip uporabljajo športno statistiko, da določijo, kdo so najboljši igralci, in oblikujejo močne, zanesljive ekipe, ki bodo zmagovale na tekmah. Eden pomembnih primerov je podatkovna znanost, ki jo je v knjigi dokumentiral Michael Lewis Moneyball, kjer je generalni direktor ekipe Oakland Athletics analiziral različne statistične podatke, da bi prepoznal kakovostne igralce, ki bi jih lahko podpisali z ekipo po relativno nizki ceni.

Analiza prometnih vzorcev je ključnega pomena za ustvarjanje samovozečih vozil. Samovozeča vozila mora biti sposoben predvideti dejavnost okoli sebe in se odzvati na spremembe v razmerah na cesti, kot je povečana pot ustavljanja, ki je potrebna, ko dežuje, pa tudi prisotnost več avtomobilov na cesti med prometno konico. Poleg samovozečih vozil aplikacije, kot je Google Maps, analizirajo prometne vzorce in potnikom sporočajo, koliko časa bodo potrebovali, da pridejo do cilja z uporabo različnih poti in oblik prevoza.

V smislu znanost o zdravstvenih podatkih, se računalniški vid pogosto kombinira s strojnim učenjem in drugimi tehnikami umetne inteligence za ustvarjanje klasifikatorjev slik, ki lahko preiskujejo stvari, kot so rentgenski žarki, FMRI in ultrazvok, da ugotovijo, ali obstajajo morebitne zdravstvene težave, ki bi se lahko pokazale pri skeniranju. Ti algoritmi se lahko uporabljajo za pomoč kliničnim zdravnikom pri diagnosticiranju bolezni.

Navsezadnje znanost o podatkih zajema številne dejavnosti in združuje vidike različnih disciplin. Vendar se podatkovna znanost vedno ukvarja s pripovedovanjem prepričljivih, zanimivih zgodb iz podatkov in z uporabo podatkov za boljše razumevanje sveta.

Bloger in programer s posebnostmi v strojno učenje in Globoko učenje teme. Daniel upa, da bo drugim pomagal uporabiti moč umetne inteligence za družbeno dobro.