stub Mis on andmeteadus? - Ühendage.AI
Ühenda meile

AI 101

Mis on andmeteadus?

mm
Ajakohastatud on

Andmeteaduse valdkond näib muutuvat iga päevaga üha suuremaks ja populaarsemaks. LinkedIni andmetel andmeteadus oli 2017. aastal üks kiiremini arenevaid töövaldkondi ja 2020. aastal reastas Glassdoor andmeteaduse töö järgmiselt üks kolmest parimast töökohast Ameerika Ühendriikides. Arvestades andmeteaduse kasvavat populaarsust, pole üllatav, et rohkem inimesi tunneb selle valdkonna vastu huvi. Mis on aga andmeteadus täpselt?

Tutvume andmeteadusega, võttes veidi aega andmeteaduse defineerimiseks, uurime, kuidas suurandmed ja tehisintellekt valdkonda muudavad, tutvume mõningate levinumate andmeteaduse tööriistadega ja uurime mõningaid andmeteaduse näiteid.

Mis on andmeteadus?

Enne kui saame uurida mis tahes andmeteaduse tööriistu või näiteid, tahame saada selle ülevaatliku määratluse andmeteadus.

„Andmeteaduse” defineerimine on tegelikult pisut keeruline, kuna seda mõistet kasutatakse paljude erinevate ülesannete ning uurimis- ja analüüsimeetodite kohta. Alustuseks võime endale meelde tuletada, mida tähendab mõiste "teadus". Teadus on füüsilise ja loodusmaailma süstemaatiline uurimine vaatluse ja katsetamise kaudu, mille eesmärk on edendada inimeste arusaamist looduslikest protsessidest. Selle määratluse olulised sõnad on "vaatlus" ja "mõistmine".

Kui andmeteadus on maailma mõistmise protsess andmete mustrite põhjal, siis andmeteadlase vastutus on andmete teisendamine, andmete analüüsimine ja andmetest mustrite eraldamine. Teisisõnu antakse andmeteadlasele andmed ning nad kasutavad andmete eeltöötlemiseks (analüüsiks ettevalmistamiseks) ja seejärel andmete analüüsimiseks tähenduslike mustrite leidmiseks mitmeid erinevaid tööriistu ja tehnikaid.

Andmeteadlase roll sarnaneb traditsioonilise teadlase rolliga. Mõlemad on seotud andmete analüüsiga hüpoteese toetada või ümber lükata maailma toimimise kohta, püüdes mõtestada andmete mustreid, et parandada meie arusaamist maailmast. Andmeteadlased kasutavad samu teaduslikke meetodeid, mida traditsiooniline teadlane. Andmeteadlane alustab tähelepanekute kogumisega mõne nähtuse kohta, mida nad tahaksid uurida. Seejärel sõnastavad nad kõnealuse nähtuse kohta hüpoteesi ja püüavad leida andmeid, mis nende hüpoteesi mingil moel tühistavad.

Kui hüpotees ei ole andmetega vastuolus, võivad nad luua teooria või mudeli selle nähtuse toimimise kohta, mida nad saavad ikka ja jälle testida, vaadates, kas see kehtib ka teiste sarnaste andmekogumite puhul. Kui mudel on piisavalt töökindel, kui see selgitab mustreid hästi ja seda ei muudeta teiste testide käigus, saab seda kasutada isegi selle nähtuse tulevaste esinemiste ennustamiseks.

Andmeteadlane ei kogu tavaliselt katse kaudu oma andmeid. Tavaliselt ei kavanda nad kontrolle ja topeltpimedaid katseid, et avastada segavaid muutujaid, mis võivad hüpoteesi segada. Enamik andmeteadlase analüüsitud andmeid on vaatlusuuringute ja süsteemide kaudu kogutud andmed, mis on viis, kuidas andmeteadlase töö võib erineda traditsioonilise teadlase tööst, kes kipub tegema rohkem katseid.

See tähendab, et andmeteadlast võidakse kutsuda katsetama nimetatakse A/B testimiseks kus tehakse muudatusi süsteemis, mis kogub andmeid, et näha, kuidas andmemustrid muutuvad.

Sõltumata kasutatavatest tehnikatest ja tööriistadest on andmeteaduse eesmärk lõppkokkuvõttes parandada meie arusaamist maailmast, luues andmetest aru, ning andmeid kogutakse vaatluse ja katsetamise teel. Andmeteadus on protsess, mille käigus kasutatakse algoritme, statistilisi põhimõtteid ning erinevaid tööriistu ja masinaid, et saada andmetest ülevaadet, mis aitab meil mõista meid ümbritseva maailma mustreid.

Mida teevad andmeteadlased?

Võib-olla näete, et mis tahes tegevust, mis hõlmab andmete teaduslikku analüüsi, võib nimetada andmeteaduseks, mis on osa sellest, mis muudab andmeteaduse määratlemise nii keeruliseks. Selle selgemaks muutmiseks uurime mõningaid andmeteadlase tegevusi võiks teha igapäevaselt.

Andmeteadus koondab palju erinevaid erialasid ja erialasid. Foto: Calvin Andrus Wikimeedia Commonsi kaudu, CC BY SA 3.0 (https://commons.wikimedia.org/wiki/File:DataScienceDisciplines.png)

Igal päeval võidakse andmeteadlasel paluda: luua andmete salvestamise ja otsimise skeem, luua andmete ETL-i (ekstrakti, teisendada, laadida) torujuhtmeid ja puhastada andmeid, kasutada statistilisi meetodeid, koostada andmete visualiseerimine ja armatuurlaud, rakendada tehisintellekti ja masinõppe algoritme, anda andmete põhjal soovitusi tegevusteks.

Jaotame ülalloetletud ülesanded pisut lahti.

Andmeteadlaselt võidakse nõuda andmete salvestamiseks ja toomiseks vajalike tehnoloogiate installimist, pöörates tähelepanu nii riist- kui ka tarkvarale. Selle ametikoha eest vastutavale isikule võib viidata ka kui "Andmete insener”. Kuid mõned ettevõtted hõlmavad neid kohustusi andmeteadlaste rollis. Andmeteadlasel võib olla vaja ka luua või aidata luua ETL torustikud. Andmed on väga harva vormindatud just nii, nagu andmeteadlane vajab. Selle asemel tuleb andmed andmeallikast vastu võtta töötlemata kujul, teisendada kasutatavasse vormingusse ja eeltöödelda (nt andmete standardimine, koondamiste kaotamine ja rikutud andmete eemaldamine).

Andmeteaduse statistilised meetodid

. statistika rakendamine on vaja muuta lihtsalt andmete vaatamine ja tõlgendamine tegelikuks teaduseks. Statistilisi meetodeid kasutatakse asjakohaste mustrite eraldamiseks andmekogumitest ja andmeteadlane peab olema statistiliste mõistetega hästi kursis. Nad peavad suutma eristada tähenduslikke korrelatsioone võltskorrelatsioonidest, kontrollides segavaid muutujaid. Samuti peavad nad teadma õigeid tööriistu, mida kasutada, et teha kindlaks, millised andmestiku funktsioonid on nende mudeli jaoks olulised / millel on ennustusjõud. Andmeteadlane peab teadma, millal kasutada regressiooni- ja klassifitseerimismeetodit ning millal hoolida valimi keskmisest vs. valimi mediaanist. Andmeteadlane lihtsalt ei oleks teadlane ilma nende oluliste oskusteta.

Andmete visualiseerimine

Andmeteadlase töö oluline osa on oma leidude edastamine teistele. Kui andmeteadlane ei saa oma leide teistele tõhusalt edastada, pole nende leidude mõjul tähtsust. Andmeteadlane peaks olema ka tõhus jutuvestja. See tähendab visualiseerimiste loomist, mis edastavad asjakohaseid punkte andmestiku ja selles avastatud mustrite kohta. Seal on suur hulk erinevaid andmete visualiseerimine tööriistu, mida andmeteadlane võib kasutada, ja visualiseerida andmeid esialgse põhiuuringu (uurimisandmete analüüsi) eesmärgil või visualiseerida mudeli abil saadud tulemusi.

Soovitused ja ärirakendused

Andmeteadlasel peab olema teatav intuitsioon oma organisatsiooni või ettevõtte nõuete ja eesmärkide osas. Andmeteadlane peab neid asju mõistma, sest nad peavad teadma, mis tüüpi muutujaid ja funktsioone nad peaksid analüüsima, uurima mustreid, mis aitavad nende organisatsioonil oma eesmärke saavutada. Andmeteadlased peavad olema teadlikud piirangutest, mille alusel nad tegutsevad, ja eeldustest, mida organisatsiooni juhtkond teeb.

Masinõpe ja tehisintellekt

Masinõpe ja muud tehisintellekti algoritmid ja mudelid on tööriistad, mida andmeteadlased kasutavad andmete analüüsimiseks, andmete mustrite tuvastamiseks, muutujate vaheliste seoste tuvastamiseks ja tulevaste sündmuste prognoosimiseks.

Traditsiooniline andmeteadus vs suurandmete teadus

Kuna andmekogumismeetodid on muutunud keerukamaks ja andmebaasid suuremaks, on tekkinud erinevus traditsioonilise andmeteaduse ja "Suured andmed" teadus.

Traditsiooniline andmeanalüütika ja andmeteadus tehakse kirjeldava ja uuriva analüütikaga, mille eesmärk on leida mustreid ja analüüsida projektide tulemuslikke tulemusi. Traditsioonilised andmeanalüüsi meetodid keskenduvad sageli ainult varasematele ja praegustele andmetele. Andmeanalüütikud tegelevad sageli andmetega, mis on juba puhastatud ja standarditud, samas kui andmeteadlased tegelevad sageli keerukate ja määrdunud andmetega. Tulevase käitumise ennustamiseks võib kasutada täiustatud andmeanalüütikat ja andmeteaduse tehnikaid, kuigi seda tehakse sagedamini suurandmetega, kuna ennustavad mudelid vajavad usaldusväärseks koostamiseks sageli suuri andmemahtusid.

"Suurandmed" viitavad andmetele, mis on liiga suured ja keerukad, et neid traditsiooniliste andmeanalüütika ja teaduslike tehnikate ja tööriistadega töödelda. Suurandmeid kogutakse sageli veebiplatvormide kaudu ja suure andmemahu ettevalmistamiseks andmeteaduse poolt kontrollimiseks kasutatakse täiustatud andmete teisendustööriistu. Kuna kogu aeg kogutakse rohkem andmeid, hõlmab andmeteadlaste töö rohkem suurandmete analüüsi.

Andmeteaduse tööriistad

Ühine andmeteadus töövahendid sisaldab tööriistu andmete salvestamiseks, uurimusliku andmeanalüüsi läbiviimiseks, andmete modelleerimiseks, ETL-i läbiviimiseks ja andmete visualiseerimiseks. Platvormid, nagu Amazon Web Services, Microsoft Azure ja Google Cloud, pakuvad kõik tööriistu, mis aitavad andmeteadlastel andmeid salvestada, teisendada, analüüsida ja modelleerida. Samuti on olemas eraldiseisvad andmeteaduse tööriistad, nagu Airflow (andmeinfrastruktuur) ja Tableau (andmete visualiseerimine ja analüüs).

Andmete modelleerimiseks kasutatavate masinõppe ja tehisintellekti algoritmide osas pakutakse neid sageli andmeteaduse moodulite ja platvormide kaudu, nagu TensorFlow, PyTorch ja Azure'i masinõppestuudio. Need platvormid, nagu andmeteadlased, muudavad oma andmekogumeid, koostavad masinõppearhitektuure ja koolitavad masinõppemudeleid.

Muud levinumad andmeteaduse tööriistad ja teegid hõlmavad SAS-i (statistiliseks modelleerimiseks), Apache Sparki (voogesituse andmete analüüsimiseks), D3.js (brauseris interaktiivsete visualiseerimiste jaoks) ja Jupyterit (interaktiivsete, jagatavate koodiplokkide ja visualiseerimiste jaoks). .

Foto: Seonjae Jo Flickri kaudu, CC BY SA 2.0 (https://www.flickr.com/photos/130860834@N02/19786840570)

Andmeteaduse näited

Andmeteaduse ja selle rakenduste näiteid on kõikjal. Andmeteadusel on rakendusi kõiges alates toidu kohaletoimetamisest, spordist, liiklusest ja tervisest. Andmeid on kõikjal ja seega saab andmeteadust kõigele rakendada.

Toidu osas investeerib Uber oma sõidujagamissüsteemi laiendamisse, mis keskendub toidu kohaletoimetamisele, Uber sööb. Uber Eats peab inimestele toidu õigeaegselt hankima, kui see on veel kuum ja värske. Et see juhtuks, peavad ettevõtte andmeteadlased kasutama statistilist modelleerimist, mis võtab arvesse selliseid aspekte nagu kaugus restoranidest tarnepunktideni, pühade kiirustamine, toiduvalmistamise aeg ja isegi ilmastikutingimused, mida kõike võetakse arvesse tarneaegade optimeerimise eesmärgil. .

Meeskondade juhid kasutavad spordistatistikat, et teha kindlaks, kes on parimad mängijad ja moodustada tugevaid ja usaldusväärseid meeskondi, mis võidavad mänge. Üks tähelepanuväärne näide on Michael Lewise poolt raamatus dokumenteeritud andmeteadus Moneyball, kus Oakland Athleticsi meeskonna peamänedžer analüüsis mitmesugust statistikat, et teha kindlaks kvaliteetsed mängijad, keda saaks suhteliselt madalate kuludega meeskonda sõlmida.

Liiklusmustrite analüüs on isejuhtivate sõidukite loomisel kriitilise tähtsusega. Isejuhtivad sõidukid peab suutma ennustada ümbritsevat tegevust ja reageerima teeolude muutustele, nagu näiteks pikenenud pidurdusteekond vihma korral, samuti rohkemate autode viibimine teel tipptunnil. Lisaks isejuhtivatele sõidukitele analüüsivad rakendused, nagu Google Maps, liiklusmustreid, et öelda pendeldajatele, kui kaua kulub neil erinevaid marsruute ja transpordiliike kasutades sihtkohta jõudmiseks.

Seisukohalt terviseandmete teadus, kombineeritakse arvutinägemist sageli masinõppe ja muude tehisintellekti tehnikatega, et luua pildiklassifikaatoreid, mis suudavad uurida selliseid asju nagu röntgenikiirgus, FMRI-d ja ultraheliuuringud, et näha, kas skaneerimisel võib ilmneda võimalikke meditsiinilisi probleeme. Neid algoritme saab kasutada arstide abistamiseks haiguse diagnoosimisel.

Lõppkokkuvõttes hõlmab andmeteadus paljusid tegevusi ja koondab erinevate distsipliinide aspekte. Andmeteadus on aga alati huvitatud andmetest mõjuvate ja huvitavate lugude rääkimisest ning andmete kasutamisest maailma paremaks mõistmiseks.

Erialadega blogija ja programmeerija Masinõpe ja Sügav õppimine teemasid. Daniel loodab aidata teistel kasutada tehisintellekti jõudu sotsiaalseks hüvanguks.