Povežite se s nama

AI 101

Što je znanost o podacima?

mm

Čini se da polje znanosti o podacima postaje sve veće i popularnije svakim danom. Prema LinkedInu, znanost o podacima bilo jedno od najbrže rastućih područja rada u 2017 a 2020. Glassdoor je posao znanosti o podacima rangirao kao jedan od tri najbolja posla u Sjedinjenim Državama. S obzirom na sve veću popularnost podatkovne znanosti, ne čudi da se sve više ljudi zanima za to područje. No, što je točno znanost o podacima?

Upoznajmo se sa znanošću o podacima, odvojimo malo vremena za definiranje znanosti o podacima, istražimo kako veliki podaci i umjetna inteligencija mijenjaju polje, naučimo o nekim uobičajenim alatima za znanost o podacima i ispitajmo neke primjere znanosti o podacima.

Što je znanost o podacima?

Prije nego što možemo istražiti alate ili primjere znanosti o podacima, željeli bismo dobiti sažetu definiciju znanost o podacima.

Definiranje "znanosti o podacima" zapravo je malo nezgodno, jer se izraz primjenjuje na mnogo različitih zadataka i metoda ispitivanja i analize. Možemo započeti podsjećanjem na to što pojam "znanost" znači. Znanost je sustavno proučavanje fizičkog i prirodnog svijeta kroz promatranje i eksperimentiranje, s ciljem da unaprijedi ljudsko razumijevanje prirodnih procesa. Važne riječi u toj definiciji su "promatranje" i "razumijevanje".

Ako je znanost o podacima proces razumijevanja svijeta iz obrazaca u podacima, onda odgovornost podatkovnog znanstvenika je transformirati podatke, analizirati podatke i izvući uzorke iz podataka. Drugim riječima, podatkovni znanstvenik dobiva podatke i koristi niz različitih alata i tehnika za prethodnu obradu podataka (pripremu za analizu), a zatim analizira podatke za smislene obrasce.

Uloga podatkovnog znanstvenika slična je ulozi tradicionalnog znanstvenika. Oboje se bave analizom podataka kako bi poduprli ili odbacili hipoteze o tome kako svijet funkcionira, pokušavajući pronaći smisao u obrascima u podacima kako bismo poboljšali naše razumijevanje svijeta. Znanstvenici koji se bave podacima koriste iste znanstvene metode kao i tradicionalni znanstveniki. Podatkovni znanstvenik počinje prikupljanjem zapažanja o nekim fenomenima koje bi želio proučavati. Zatim formuliraju hipotezu o dotičnoj pojavi i pokušavaju pronaći podatke koji na neki način poništavaju njihovu hipotezu.

Ako podaci nisu u suprotnosti s hipotezom, mogli bi konstruirati teoriju ili model o tome kako fenomen funkcionira, koji mogu stalno testirati tako da vide vrijedi li za druge slične skupove podataka. Ako je model dovoljno robustan, ako dobro objašnjava obrasce i nije poništen tijekom drugih testova, može se koristiti čak i za predviđanje budućih pojava tog fenomena.

Znanstvenik za podatke obično neće prikupljati vlastite podatke kroz eksperiment. Oni obično neće dizajnirati eksperimente s kontrolama i dvostruko slijepim pokusima kako bi otkrili zbunjujuće varijable koje bi mogle utjecati na hipotezu. Većina podataka koje analizira podatkovni znanstvenik bit će podaci dobiveni promatračkim studijama i sustavima, što je način na koji se posao podatkovnog znanstvenika može razlikovati od posla tradicionalnog znanstvenika koji ima tendenciju provoditi više eksperimenata.

Uz to, podatkovni znanstvenik bi mogao biti pozvan da izvede neki oblik eksperimentiranja zove se A/B testiranje gdje se vrše podešavanja sustava koji prikuplja podatke kako bi se vidjelo kako se obrasci podataka mijenjaju.

Bez obzira na tehnike i alate koji se koriste, znanost o podacima u konačnici ima za cilj poboljšati naše razumijevanje svijeta davanjem smisla podacima, a podaci se dobivaju promatranjem i eksperimentiranjem. Znanost o podacima je proces korištenja algoritama, statističkih principa i raznih alata i strojeva za izvlačenje uvida iz podataka, uvida koji nam pomažu razumjeti obrasce u svijetu oko nas.

Što rade podatkovni znanstvenici?

Možda vidite da se svaka aktivnost koja uključuje analizu podataka na znanstveni način može nazvati znanošću o podacima, što je dio onoga što definiranje znanosti o podacima čini tako teškim. Kako bi bilo jasnije, istražimo neke od aktivnosti podatkovnih znanstvenika mogao učiniti svakodnevno.

Znanost o podacima povezuje mnoge različite discipline i specijalnosti. Fotografija: Calvin Andrus putem Wikimeedia Commons, CC BY SA 3.0 (https://commons.wikimedia.org/wiki/File:DataScienceDisciplines.png)

Bilo kojeg dana od podatkovnog znanstvenika može se tražiti da: izradi shemu za pohranu i dohvaćanje podataka, stvori podatkovne ETL (ekstrakt, transformacija, učitavanje) cjevovode i očisti podatke, primijeni statističke metode, izradi vizualizacije podataka i nadzorne ploče, implementira umjetnu inteligenciju i algoritme strojnog učenja, davati preporuke za akcije na temelju podataka.

Razdvojimo malo gore navedene zadatke.

Od podatkovnog znanstvenika može se tražiti da upravlja instalacijom tehnologija potrebnih za pohranjivanje i dohvaćanje podataka, obraćajući pozornost na hardver i softver. Osoba odgovorna za ovu poziciju također se može nazivati ​​"Inženjer podataka”. Međutim, neke tvrtke ove odgovornosti uključuju u ulogu podatkovnih znanstvenika. Znanstvenik za podatke možda će također morati stvoriti ili pomoći u stvaranju, ETL cjevovodi. Podaci vrlo rijetko dolaze formatirani baš onako kako treba podatkovnom znanstveniku. Umjesto toga, podatke će trebati primiti u sirovom obliku iz izvora podataka, transformirati u upotrebljiv format i prethodno obraditi (stvari poput standardizacije podataka, uklanjanja redundancija i uklanjanja oštećenih podataka).

Statističke metode znanosti o podacima

The primjena statistike potrebno je jednostavno promatranje podataka i njihovo tumačenje pretvoriti u stvarnu znanost. Statističke metode koriste se za izdvajanje relevantnih uzoraka iz skupova podataka, a podatkovni znanstvenik mora biti dobro upućen u statističke koncepte. Moraju biti u stanju razlikovati smislene korelacije od lažnih korelacija kontroliranjem zbunjujućih varijabli. Također moraju znati prave alate za korištenje kako bi odredili koje su značajke u skupu podataka važne za njihov model/imaju prediktivnu moć. Znanstvenik koji se bavi podacima mora znati kada koristiti regresijski pristup naspram klasifikacijskog pristupa, a kada treba voditi računa o srednjoj vrijednosti uzorka naspram medijanu uzorka. Znanstvenik za podatke jednostavno ne bi bio znanstvenik bez ovih ključnih vještina.

Statistike

Ključni dio posla podatkovnog znanstvenika je prenošenje svojih otkrića drugima. Ako podatkovni znanstvenik ne može učinkovito prenijeti svoja otkrića drugima, onda implikacije njegovih nalaza nisu važne. Znanstvenik za podatke također bi trebao biti učinkovit pripovjedač. To znači stvaranje vizualizacija koje komuniciraju relevantne točke o skupu podataka i obrascima otkrivenim u njemu. Postoji veliki broj različitih vizualizacija podataka alate koje podatkovni znanstvenik može koristiti, a mogu vizualizirati podatke za potrebe početnog, osnovnog istraživanja (eksploratorna analiza podataka) ili vizualizirati rezultate koje model proizvodi.

Preporuke i poslovne aplikacije

Znanstvenik za podatke treba imati određenu intuiciju o zahtjevima i ciljevima svoje organizacije ili poslovanja. Znanstvenik za podatke mora razumjeti te stvari jer mora znati koje bi vrste varijabli i značajki trebao analizirati, istražujući obrasce koji će pomoći njihovoj organizaciji da postigne svoje ciljeve. Znanstvenici koji se bave podacima moraju biti svjesni ograničenja pod kojima rade i pretpostavki koje donosi vodstvo organizacije.

Strojno učenje i AI

Strojno učenje i drugi algoritmi i modeli umjetne inteligencije alati su koje znanstvenici koriste za analizu podataka, identificiranje uzoraka unutar podataka, razaznavanje odnosa između varijabli i predviđanje budućih događaja.

Tradicionalna znanost o podacima nasuprot znanosti o velikim podacima

Kako su metode prikupljanja podataka postale sofisticiranije, a baze podataka veće, pojavila se razlika između tradicionalne znanosti o podacima i “veliki podaci” znanost.

Tradicionalna analitika podataka i znanost o podacima rade se deskriptivnom i eksplorativnom analitikom, s ciljem pronalaženja obrazaca i analize rezultata izvedbe projekata. Tradicionalne metode analize podataka često se usredotočuju samo na prošle podatke i trenutne podatke. Analitičari podataka često se bave podacima koji su već očišćeni i standardizirani, dok se znanstvenici često bave složenim i prljavim podacima. Naprednije analize podataka i tehnike znanosti o podacima mogu se koristiti za predviđanje budućeg ponašanja, iako se to češće radi s velikim podacima, jer prediktivni modeli često trebaju velike količine podataka da bi bili pouzdano konstruirani.

"Veliki podaci" odnose se na podatke koji su preveliki i složeni da bi se njima moglo rukovati tradicionalnom analitikom podataka i znanstvenim tehnikama i alatima. Veliki podaci često se prikupljaju putem internetskih platformi, a napredni alati za transformaciju podataka koriste se kako bi velike količine podataka bile spremne za inspekciju znanosti o podacima. Kako se sve više podataka prikuplja sve više, posao znanstvenika uključuje analizu velikih podataka.

Alati za znanost podataka

Zajednička znanost o podacima alati uključuju alate za pohranu podataka, provođenje istraživačke analize podataka, modeliranje podataka, izvođenje ETL-a i vizualizaciju podataka. Platforme kao što su Amazon Web Services, Microsoft Azure i Google Cloud nude alate koji pomažu znanstvenicima da pohranjuju, transformiraju, analiziraju i modeliraju podatke. Postoje i samostalni alati za znanost podataka kao što su Airflow (podatkovna infrastruktura) i Tableau (vizualizacija podataka i analitika).

Što se tiče algoritama strojnog učenja i umjetne inteligencije koji se koriste za modeliranje podataka, oni se često pružaju putem modula i platformi za podatkovnu znanost kao što su TensorFlow, PyTorch i Azure Machine-learning studio. Te platforme poput podatkovnih znanstvenika uređuju svoje skupove podataka, sastavljaju arhitekture strojnog učenja i treniraju modele strojnog učenja.

Ostali uobičajeni alati i biblioteke za podatkovnu znanost uključuju SAS (za statističko modeliranje), Apache Spark (za analizu protoka podataka), D3.js (za interaktivne vizualizacije u pregledniku) i Jupyter (za interaktivne blokove koda i vizualizacije koji se mogu dijeliti) .

Fotografija: Seonjae Jo putem Flickra, CC BY SA 2.0 (https://www.flickr.com/photos/130860834@N02/19786840570)

Primjeri znanosti o podacima

Primjeri znanosti o podacima i njezine primjene posvuda su. Znanost o podacima ima primjenu u svemu, od dostave hrane, sporta, prometa i zdravlja. Podaci su posvuda pa se znanost o podacima može primijeniti na sve.

Što se tiče hrane, Uber ulaže u proširenje svog sustava dijeljenja vožnje usmjerenog na dostavu hrane, Uber jede. Uber Eats treba ljudima dostaviti hranu na vrijeme, dok je još vruća i svježa. Kako bi se to dogodilo, znanstvenici za podatke za tvrtku moraju koristiti statističko modeliranje koje uzima u obzir aspekte kao što su udaljenost od restorana do točaka dostave, blagdanske gužve, vrijeme kuhanja, pa čak i vremenske uvjete, sve uzeto u obzir s ciljem optimizacije vremena isporuke .

Sportsku statistiku koriste menadžeri momčadi kako bi odredili tko su najbolji igrači i formirali jake, pouzdane momčadi koje će pobjeđivati ​​u utakmicama. Jedan značajan primjer je znanost o podacima koju je dokumentirao Michael Lewis u knjizi Moneyball, gdje je generalni menadžer tima Oakland Athletics analizirao razne statistike kako bi identificirao kvalitetne igrače koji bi mogli biti potpisani za tim po relativno niskoj cijeni.

Analiza prometnih obrazaca ključna je za stvaranje samovozećih vozila. Samovozeća vozila moraju moći predvidjeti aktivnosti oko sebe i odgovoriti na promjene u uvjetima na cesti, poput potrebnog dužeg zaustavnog puta kada pada kiša, kao i prisutnost većeg broja automobila na cesti tijekom špice. Osim samovozećih vozila, aplikacije poput Google Maps analiziraju prometne obrasce kako bi putnicima rekli koliko će im vremena trebati da dođu do odredišta koristeći različite rute i oblike prijevoza.

U smislu znanosti o zdravstvenim podacima, računalni vid se često kombinira sa strojnim učenjem i drugim tehnikama umjetne inteligencije kako bi se stvorili klasifikatori slika koji mogu pregledati stvari kao što su X-zrake, FMRI i ultrazvuk kako bi vidjeli postoje li potencijalni medicinski problemi koji bi se mogli pojaviti u skeniranju. Ovi se algoritmi mogu koristiti kao pomoć kliničarima u dijagnosticiranju bolesti.

U konačnici, znanost o podacima pokriva brojne aktivnosti i spaja aspekte različitih disciplina. Međutim, znanost o podacima uvijek se bavi pričanjem uvjerljivih, zanimljivih priča iz podataka i korištenjem podataka za bolje razumijevanje svijeta.

Bloger i programer sa specijalnošću u Strojno učenje i Duboko učenje temama. Daniel se nada pomoći drugima da iskoriste snagu umjetne inteligencije za društveno dobro.