AI 101
Mitä on Data Science?

Data Science -alue vaikuttaa vain suurenevan ja suositummaksi jokaisena päivänä. LinkedInin mukaan data science oli yksi nopeimmin kasvavista työaloista vuonna 2017 ja vuonna 2020 Glassdoor luokitteli data scientist -työn yhdeksi kolmesta parhaasta työstä Yhdysvalloissa. Data Science -alueen kasvavan suosion vuoksi ei ole yllättävää, että yhä useammat ihmiset ovat kiinnostuneita alueesta. Mutta mitä data science oikein on?
Tutustutaan data scienceen, määritellään data science, tutkitaan, miten big data ja tekoäly muuttavat alaa, opitaan joitain yleisiä data science -työkaluja ja tarkastellaan joitain data science -esimerkkejä.
Mitä on Data Science?
Ennen kuin voimme tutkia data science -työkaluja tai -esimerkkejä, haluamme saada tiivisen määritelmän data sciencesta.
Data Sciencen määrittely on todella hieman hankalaa, koska termiä sovelletaan moniin eri tehtäviin ja tutkimus- ja analyysimenetelmiin. Voimme aloittaa muistamalla, mitä termi “tiede” tarkoittaa. Tiede on järjestelmällinen tutkimus fyysisestä ja luonnollisesta maailmasta havainnoinnin ja kokeiden kautta, pyrkien edistämään ihmisen ymmärrystä luonnon prosesseista. Tärkeät sanat tässä määritelmissä ovat “havainnointi” ja “ymmärrys”.
Jos data science on prosessi, jossa ymmärretään maailmaa datan kaltaisista kuvioista, niin data scientistin vastuu on muuttaa dataa, analysoida dataa ja poimia kuvioita datasta. Toisin sanoen data scientistille annetaan data, ja he käyttävät useita eri työkaluja ja tekniikoita datan esikäsittelyyn (valmisteleminen analyysiä varten) ja sitten datan analysointiin merkityksellisten kuvioiden löytämiseksi.
Data scientistin rooli on samanlainen kuin perinteisen tutkijan rooli. Molemmat ovat kiinnostuneita datan analysoinnista hypoteesien tueksi tai vastustukseksi siitä, miten maailma toimii, ja yrittävät saada selkoa kuvioista datasta, jotta voimme parantaa ymmärrystämme maailmasta. Data scientistit käyttävät samoja tieteellisiä menetelmiä kuin perinteinen tutkija. Data scientist kerää havaintoja jostakin ilmiöstä, jonka he haluavat tutkia. He muodostavat hypoteesin ilmiöstä ja yrittävät löytää dataa, joka kumoaa heidän hypoteesinsa jollain tavoin.
Jos hypoteesiä ei voida kumota datan avulla, he voivat mahdollisesti kehittää teorian tai mallin siitä, miten ilmiö toimii, jonka he voivat testata uudelleen ja uudelleen nähdäkseen, pitääkö se paikkansa muissa samankaltaisissa tietojoukoissa. Jos malli on riittävän vankka, jos se selittää kuvioita hyvin eikä sitä voida kumota muissa testeissä, sitä voidaan jopa käyttää tulevien ilmiöiden ennustamiseen.
Data scientist ei yleensä kerää itse dataa kokeen kautta. He eivät yleensä suunnittele kokeita, joissa on kontrollit ja kaksoissokkotutkimukset, jotta voidaan löytää häiritseviä muuttujia, jotka voivat vaikuttaa hypoteesiin. Suurin osa datasta, jota data scientist analysoida, on dataa, joka on saatu havaintotutkimuksista ja -järjestelmistä, mikä on tapa, jolla data scientistin työ voi poiketa perinteisen tutkijan työstä, joka suorittaa usein enemmän kokeita.
Sanotaan, että data scientistia voidaan pyytää tekemään jonkinlaista kokeilua, jota kutsutaan A/B-testaamiseksi, jossa järjestelmään, joka kerää dataa, tehdään muutoksia, jotta voidaan nähdä, miten datan kuviot muuttuvat.
Riippumatta käytetyistä tekniikoista ja työkaluista data science pyrkii lopulta parantamaan ymmärrystämme maailmasta saamalla selkoa datasta, ja data saadaan havainnoinnin ja kokeiden kautta. Data science on prosessi, jossa käytetään algoritmeja, tilastollisia periaatteita ja eri työkaluja ja laitteita saadakseen selkoa datasta, selkoa, joka auttaa meitä ymmärtämään kuvioita maailmassa ympärillämme.
Mitä data scientistit tekevät?
Voit huomata, että mikä tahansa toiminta, joka liittyy datan analysointiin tieteellisellä tavalla, voidaan kutsua data scienceksi, mikä on osa siitä, miksi data sciencen määrittely on niin hankalaa. Selventääksemme asiaa, tutustutaan joitain toimia, joita data scientist voi tehdä päivittäin.

Data science yhdistää monia eri aloja ja erikoisaloja. Kuva: Calvin Andrus via Wikimeedia Commons, CC BY SA 3.0 (https://commons.wikimedia.org/wiki/File:DataScienceDisciplines.png)
Milloin tahansa päivänä data scientist voi pyytää luomaan data tallennus- ja hakurakenteita, luomaan data ETL (extract, transform, load) -putkia ja puhdistamaan dataa, soveltamaan tilastollisia menetelmiä, luomaan data visualisointeja ja dashboard-työkaluja, käyttämään tekoälyä ja koneoppimisalgoritmeja ja antamaan suosituksia toimista datan perusteella.
Tarkastellaan yllä lueteltuja tehtäviä hieman tarkemmin.
Data scientist voi tarvita huolehtimaan teknologioiden asennuksesta, joita tarvitaan datan tallentamiseen ja hakemiseen, kiinnittäen huomiota sekä laitteistoon että ohjelmistoon. Henkilö, joka on vastuussa tästä asemasta, voidaan myös kutsua “Data Engineeriksi“. Joissakin yrityksissä nämä vastuut sisällytetään data scientistin rooliin. Data scientist voi myös tarvita luomaan tai avustamaan ETL-putkien luomista. Data ei yleensä tule muodossa, jota data scientist tarvitsee. Sen sijaan dataa on vastaanotettava raakamuodossa datalähteestä, muunnettava käyttökelpoiseen muotoon ja esikäsiteltävä (kuten datan standardisointi, redundanttien poistaminen ja vioittuneen datan poistaminen).
Statistiikan menetelmät Data Sciencessä
Tilastotieteen soveltaminen on välttämätöntä, jotta datan tarkastelu ja tulkinta voidaan muuttaa oikeaksi tieteeksi. Tilastollisia menetelmiä käytetään merkityksellisten kuvioiden poistamiseen tietojoukoista, ja data scientist tarvitsee olla perehtynyt tilastollisiin käsitteisiin. He tarvitsevat pystyä erottamaan merkitykselliset korrelaatiot spurssisista korrelaatioista kontrolloimalla häiritseviä muuttujia. He tarvitsevat myös tietää, mitkä työkalut ovat oikein käytettäväksi määrittämään, mitkä ominaisuudet tietojoukossa ovat tärkeitä mallille / ennustevallalle. Data scientist tarvitsee tietää, milloin käyttää regressio lähestymistapaa vs. luokittelulähestymistapaa, ja milloin pitää huolta otoskeskiarvosta vs. otosmediaanista. Data scientist ei olisi tutkija ilman näitä tärkeitä taitoja.
Data Visualisointi
Data scientistin työn tärkeä osa on tuloksien viestintä muille. Jos data scientist ei pysty viestimään tuloksiaan muille, niin tuloksien vaikutukset eivät merkitse mitään. Data scientist tarvitsee olla tehokas kertomuksen kertoja. Tämä tarkoittaa visualisointien tuottamista, jotka viestivät tärkeitä kohtia tietojoukosta ja siinä havaituista kuvioista. On suuri määrä eri data visualisointityökaluja, joita data scientist voi käyttää, ja he voivat visualisoida dataa alkuvaiheen perustutkimiseksi (exploratory data analysis) tai visualisoida mallin tuottamia tuloksia.
Suositukset ja liiketoiminnan sovellukset
Data scientist tarvitsee olla jonkinlainen intuitio organisaationsa tai liiketoimintansa vaatimuksista ja tavoitteista. Data scientist tarvitsee ymmärtää nämä asiat, koska he tarvitsevat tietää, mitkä muuttujat ja ominaisuudet heidän tulisi analysoida, etsimällä kuvioita, jotka auttavat heidän organisaatiotaan saavuttamaan tavoitteensa. Data scientistit tarvitsevat olla tietoisia rajoituksista, joiden puitteissa he toimivat, ja oletuksista, joita organisaation johto tekee.
Machine Learning ja AI
Machine learning ja muut tekoälyalgoritmit ja -mallit ovat työkaluja, joita data scientistit käyttävät datan analysointiin, kuvioitten tunnistamiseen datasta, suhteiden määrittämiseen muuttujien välillä ja tulevien tapahtumien ennustamiseen.
Perinteinen Data Science vs. Big Data Science
Kun datakeruumenetelmät ovat kehittyneet ja tietokannat ovat kasvaneet, on syntynyt ero perinteisen data science ja “big data” science -välillä.
Perinteinen data analytics ja data science tehdään kuvailevalla ja tutkimuksellisella analytiikalla, pyrkien löytämään kuvioita ja analysoimaan projektien suorituskykyä. Perinteiset data analytics -menetelmät keskittyvät usein vain menneisiin ja nykyisiin tietoihin. Data-analyytikot usein työskentelevät datan kanssa, joka on jo puhdistettu ja standardoitu, kun taas data scientistit usein työskentelevät monimutkaisen ja likaisen datan kanssa. Edistyneemmät data analytics ja data science -tekniikat voidaan käyttää ennustamaan tulevaa käyttäytymistä, vaikka tämä tehdään usein enemmän big datasta, koska ennustemallit usein tarvitsevat suuria määriä dataa ollakseen luotettavia.
“Big data” viittaa dataan, joka on liian suurta ja monimutkaista käsiteltäväksi perinteisillä data analytics ja data science -tekniikoilla ja -työkaluilla. Big data kerätään usein verkkopalustoista ja edistyneistä data-muunnostyökaluista, joita käytetään tekemään suuria määriä dataa valmiiksi datatieteen tarkastelua varten. Koska yhä enemmän dataa kerätään jatkuvasti, suurempi osa data scientistin työstä liittyy big datan analysointiin.
Data Science -työkalut
Yleisiä data science -työkaluja ovat työkalut datan tallentamiseen, exploratory data analyysiin, datamallinnukseen, ETL:ään ja visualisointiin. Alustat kuten Amazon Web Services, Microsoft Azure ja Google Cloud tarjoavat työkaluja data scientisteille datan tallentamiseen, muuntamiseen, analysointiin ja mallinnukseen. On myös itsenäisiä data science -työkaluja, kuten Airflow (data-infrastruktuuri) ja Tableau (data visualisointi ja analytics).
Machine learning ja tekoälyalgoritmien osalta, joita käytetään datan mallinnukseen, ne tarjotaan usein data science -moduuleina ja -alustoina, kuten TensorFlow, PyTorch ja Azure Machine Learning -studio. Nämä alustat mahdollistavat data scientisteille datan muokkaamisen, koneoppimisarkkitehtuureiden suunnittelun ja koneoppimismallien kouluttamisen.
Muita yleisiä data science -työkaluja ja kirjastoja ovat SAS (tilastolliselle mallinnukselle), Apache Spark (virtausdatan analysointiin), D3.js (interaktiivisille visualisoinneille selaimessa) ja Jupyter (interaktiivisille, jaettaville koodipalasten ja visualisointien luomiseen).

Kuva: Seonjae Jo via Flickr, CC BY SA 2.0 (https://www.flickr.com/photos/130860834@N02/19786840570)
Esimerkkejä Data Sciencesta
Data sciencen ja sen sovellusten esimerkkejä on joka paikassa. Data science soveltuu kaikkeen aina ruoan toimittamisesta, urheilusta, liikenteestä ja terveydestä. Data on joka paikassa, joten data science voidaan soveltaa kaikkeen.
Ruoan osalta Uber panostaa laajentamaan kyytien jakeluun keskittyvää järjestelmäänsä ruoan toimittamiseen, Uber Eats. Uber Eats tarvitsee toimittaa ruoan asiakkaille ajallaan, kun se on vielä kuuma ja tuore. Jotta tämä voidaan tehdä, Uberin data scientisteille on tarjottava tilastollista mallinnusta, joka ottaa huomioon seikat kuten etäisyydet ravintoloista toimituspisteisiin, loma-ruuhkat, ruoanvalmistusajat ja jopa sääolot, kaikki ottaen huomioon toimitusaikojen optimointi.
Urheilutilastot ovat johtajien käytössä määrittämään, keillä pelaajilla on paras suorituskyky, ja muodostamaan vahvat, luotettavat joukkueet, jotka voittavat pelejä. Yksi merkittävä esimerkki on data science, jota Michael Lewis dokumentoi kirjassaan Moneyball, jossa Oakland Athletics -joukkueen johtaja analysoida useita tilastoja tunnistamaan laadukkaita pelaajia, jotka voidaan allekirjoittaa joukkueeseen suhteellisen alhaisella kustannuksella.
Liikenteen kuvioiden analyysi on kriittinen itseohjautuvien ajoneuvojen luomiseksi. Itseohjautuvat ajoneuvot tarvitsevat pystyä ennustamaan toimintaa ympärillään ja reagoimaan muutoksiin tieliikenneolosuhteissa, kuten lisääntyneeseen pysähtymisväliin sateella, sekä lisääntyneeseen määrään autoja ruuhka-aikana. Itseohjautuvien ajoneuvojen lisäksi sovellukset kuten Google Maps analysoivat liikenteen kuvioita kertoakseen matkustajille, kuinka kauan heidän matkustamisensa kestää eri reiteillä ja liikennemuodoilla.
Terveydenhuollon osalta data science yhdistetään usein koneoppimiseen ja muihin tekoälytekniikoihin luomaan kuva-analyysijä, jotka voivat tarkastella asioita kuten röntgenkuvia, FMR-tutkimuksia ja ultraääniä havaitakseen mahdollisia lääketieteellisiä ongelmia, jotka voivat ilmetä tutkimuksessa. Nämä algoritmit voidaan käyttää avustamaan kliinikoita sairauksien diagnosoinnissa.
Lopulta data science kattaa useita toimintoja ja yhdistää eri alojen osia. Data science on kuitenkin aina kiinnostunut kertomasta mielenkiintoisia tarinoita datasta ja käyttämästä dataa maailman ymmärtämiseksi.












