AI 101

Mi az adattudomány?

korszerűsített on 23. augusztus 2020.

Úgy tűnik, hogy az adattudomány területe napról napra egyre nagyobb és népszerűbb lesz. A LinkedIn szerint az adattudomány 2017-ben az egyik leggyorsabban növekvő munkaterület volt 2020-ban pedig a Glassdoor rangsorolta az adattudományi munkát a három legjobb állás egyike az Egyesült Államokban. Tekintettel az adattudomány növekvő népszerűségére, nem meglepő, hogy egyre többen érdeklődnek a terület iránt. Mégis mi is pontosan az adattudomány?

Ismerkedjünk meg az adattudományokkal, szánjunk egy kis időt az adattudomány meghatározására, fedezzük fel, hogyan változtatja meg a területet a big data és a mesterséges intelligencia, ismerkedjünk meg néhány általános adattudományi eszközzel, és vizsgáljunk meg néhány adattudományi példát.

Mi az adattudomány?

Mielőtt bármilyen adattudományi eszközt vagy példát megvizsgálnánk, szeretnénk egy tömör definíciót kapni adat-tudomány.

Az „adattudomány” meghatározása valójában kissé körülményes, mert a kifejezést sokféle feladatra és kutatási és elemzési módszerre alkalmazzák. Kezdhetjük azzal, hogy emlékeztessük magunkat a „tudomány” kifejezés jelentésére. A tudomány a fizikai és a természeti világ szisztematikus tanulmányozása megfigyelés és kísérletezés révén, amelynek célja a természeti folyamatok emberi megértésének elősegítése. Ebben a meghatározásban a fontos szavak a „megfigyelés” és a „megértés”.

Ha az adattudomány a világ megértésének folyamata az adatok mintáiból, akkor a adattudós felelőssége az adatok átalakítása, elemzése és minták kinyerése az adatokból. Más szóval, az adattudósok megkapják az adatokat, és számos különböző eszközt és technikát használnak az adatok előfeldolgozására (elemzésre való előkészítésére), majd az adatok elemzésére értelmes minták keresésére.

Az adattudós szerepe hasonló a hagyományos tudós szerepéhez. Mindkettő az adatok elemzésével foglalkozik hipotézisek alátámasztására vagy elutasítására arról, hogyan működik a világ, és megpróbáljuk értelmezni az adatok mintáit, hogy jobban megértsük a világot. Az adattudósok ugyanazokat a tudományos módszereket alkalmazzák, mint a hagyományos tudósok. Egy adatkutató azzal kezdi, hogy megfigyeléseket gyűjt néhány olyan jelenségről, amelyet tanulmányozni szeretne. Ezután hipotézist fogalmaznak meg a kérdéses jelenségről, és megpróbálnak olyan adatokat találni, amelyek valamilyen módon érvénytelenítik a hipotézisüket.

Ha az adatok nem mondanak ellent a hipotézisnek, képesek lehetnek elméletet vagy modellt alkotni a jelenség működéséről, amelyet újra és újra tesztelhetnek, megnézve, hogy igaz-e más hasonló adatkészletekre. Ha egy modell kellően robusztus, ha jól magyarázza a mintákat, és nem semmisül meg más tesztek során, akkor akár a jelenség jövőbeli előfordulásának előrejelzésére is használható.

Egy adattudós általában nem gyűjti össze saját adatait egy kísérlet során. Általában nem terveznek kísérleteket kontrollokkal és kettős vak kísérletekkel, hogy olyan zavaró változókat fedezzenek fel, amelyek megzavarhatják a hipotézist. Az adattudós által elemzett adatok többsége megfigyelési tanulmányok és rendszerek révén nyert adat, ami egy olyan módszer, amelyben az adatkutató munkája eltérhet egy hagyományos tudósétól, aki hajlamos több kísérletet végezni.

Ennek ellenére egy adatkutatót felkérhetnek egyfajta kísérletezésre úgynevezett A/B tesztelés ahol módosításokat végeznek egy olyan rendszeren, amely adatokat gyűjt, hogy lássa, hogyan változnak az adatminták.

A használt technikáktól és eszközöktől függetlenül az adattudomány végső soron arra törekszik, hogy javítsa a világ megértését azáltal, hogy értelmet nyer az adatokból, és az adatok megfigyelés és kísérletezés révén nyerhetők. Az adattudomány az a folyamat, amelynek során algoritmusokat, statisztikai alapelveket és különféle eszközöket és gépeket használnak, hogy betekintést nyerjünk az adatokból, olyan betekintéseket, amelyek segítenek megérteni a minket körülvevő világ mintáit.

Mit csinálnak az adattudósok?

Talán azt látja, hogy minden olyan tevékenység, amely az adatok tudományos módon történő elemzésével jár, adattudománynak nevezhető, ami része annak, ami annyira megnehezíti az adattudomány meghatározását. A világosabbá tétel érdekében vizsgáljunk meg néhány adattudós tevékenységet talán megteszi naponta.

Az adattudomány számos különböző tudományágat és szakterületet egyesít. Fotó: Calvin Andrus a Wikimeedia Commons-on keresztül, CC BY SA 3.0 (https://commons.wikimedia.org/wiki/File:DataScienceDisciplines.png)

Bármely napon felkérhetik az adattudóst, hogy: hozzon létre adattárolási és -visszakeresési sémát, hozzon létre adat ETL (kivonat, átalakítás, betöltés) csővezetékeket és tisztítsa meg az adatokat, alkalmazzon statisztikai módszereket, készítsen adatvizualizációt és műszerfalakat, alkalmazzon mesterséges intelligenciát és gépi tanulási algoritmusokat, javaslatokat tesz a műveletekre az adatok alapján.

Bontsuk egy kicsit a fent felsorolt feladatokat.

Előfordulhat, hogy egy adattudósnak kell kezelnie az adatok tárolásához és visszakereséséhez szükséges technológiák telepítését, ügyelve a hardverre és a szoftverre egyaránt. Az e pozícióért felelős személy a következő néven is szerepelhet:Az adatok Engineer”. Egyes vállalatok azonban ezeket a felelősségeket adatkutatók szerepkörébe sorolják. Előfordulhat, hogy egy adattudósnak létre kell hoznia, vagy segítenie kell a létrehozásában, ETL csővezetékek. Az adatok nagyon ritkán jönnek úgy formázott formában, ahogy egy adattudósnak szüksége van. Ehelyett az adatokat nyers formában kell megkapni az adatforrásból, használható formátumba kell alakítani, és elő kell feldolgozni (például az adatok szabványosítása, a redundanciák megszüntetése és a sérült adatok eltávolítása).

Az adattudomány statisztikai módszerei

A statisztika alkalmazása szükséges, hogy az adatok puszta szemlélése és értelmezése tényleges tudománnyá váljon. Statisztikai módszerek arra szolgálnak, hogy releváns mintákat nyerjenek ki az adatkészletekből, és az adattudósnak jól kell ismernie a statisztikai fogalmakat. Képesnek kell lenniük az értelmes összefüggések megkülönböztetésére a hamis korrelációktól a zavaró változók ellenőrzésével. Ismerniük kell a megfelelő eszközöket is annak meghatározására, hogy az adatkészlet mely jellemzői fontosak a modelljük szempontjából/vannak prediktív erejük. Az adattudósnak tudnia kell, hogy mikor kell regressziós megközelítést alkalmazni az osztályozási megközelítéssel szemben, és mikor kell törődnie a minta átlagával, illetve a minta mediánjával. Egy adattudós egyszerűen nem lenne tudós e nélkülözhetetlen képességek nélkül.

Adatok megjelenítése

Az adattudósok munkájának döntő része az, hogy eredményeiket kommunikálják másokkal. Ha egy adattudós nem tudja eredményesen közölni eredményeit másokkal, akkor az eredmények következményei nem számítanak. Az adattudósnak hatékony történetmesélőnek is kell lennie. Ez azt jelenti, hogy olyan vizualizációkat kell készíteni, amelyek releváns pontokat közölnek az adatkészletről és a benne felfedezett mintákról. Nagyszámú különböző adatmegjelenítés eszközöket, amelyeket egy adatkutató használhat, és megjeleníthetik az adatokat a kezdeti, alapvető feltárás (feltáró adatelemzés) céljaira, vagy megjeleníthetik a modell által előállított eredményeket.

Ajánlások és üzleti alkalmazások

Az adattudósnak bizonyos intuícióval kell rendelkeznie szervezete vagy vállalkozása követelményeivel és céljaival kapcsolatban. Az adattudósnak meg kell értenie ezeket a dolgokat, mert tudnia kell, hogy milyen típusú változókat és jellemzőket kell elemeznie, és fel kell tárnia azokat a mintákat, amelyek segítenek szervezetüknek elérni céljait. Az adattudósoknak tisztában kell lenniük azokkal a korlátokkal, amelyek mellett működnek, és a szervezet vezetése által megfogalmazott feltételezésekkel.

Gépi tanulás és AI

Gépi tanulás és más mesterséges intelligencia algoritmusok és modellek olyan eszközök, amelyeket az adatkutatók használnak adatok elemzésére, az adatokon belüli minták azonosítására, a változók közötti kapcsolatok felismerésére és a jövőbeli események előrejelzésére.

Hagyományos adattudomány vs. Big Data Science

Az adatgyűjtési módszerek kifinomultabbá válásával és az adatbázisok bővülésével különbség mutatkozott a hagyományos adattudomány és a "nagy adat" tudomány.

A hagyományos adatelemzés és adattudomány leíró és feltáró analitikával történik, célja a minták megtalálása és a projektek teljesítményeredményeinek elemzése. A hagyományos adatelemzési módszerek gyakran csak múltbeli és aktuális adatokra összpontosítanak. Az adatelemzők gyakran már megtisztított és szabványosított adatokkal foglalkoznak, míg az adatkutatók gyakran összetett és piszkos adatokkal. Fejlettebb adatelemzési és adattudományi technikák használhatók a jövőbeli viselkedés előrejelzésére, bár ez gyakrabban történik big data esetén, mivel a prediktív modellekhez gyakran nagy mennyiségű adatra van szükség a megbízható összeállításhoz.

A „big data” olyan adatokra utal, amelyek túl nagyok és összetettek ahhoz, hogy hagyományos adatelemzési és tudományos technikákkal és eszközökkel kezelni lehessen őket. A nagy mennyiségű adatokat gyakran online platformokon gyűjtik össze, és fejlett adatátalakítási eszközöket használnak annak érdekében, hogy a nagy mennyiségű adat készen álljon az adattudomány általi ellenőrzésre. Mivel folyamatosan több adatot gyűjtenek össze, az adattudósok feladatai közé tartozik a nagy adatok elemzése.

Data Science Tools

Közös adattudomány szerszámok tartalmaznak eszközöket adatok tárolására, feltáró adatelemzés elvégzésére, adatok modellezésére, ETL végrehajtására és adatok megjelenítésére. Az olyan platformok, mint az Amazon Web Services, a Microsoft Azure és a Google Cloud, mind olyan eszközöket kínálnak, amelyek segítenek az adatkutatóknak tárolni, átalakítani, elemezni és modellezni az adatokat. Vannak olyan önálló adattudományi eszközök is, mint az Airflow (adatinfrastruktúra) és a Tableau (adatvizualizáció és -elemzés).

Ami a gépi tanulást és az adatok modellezésére használt mesterséges intelligencia algoritmusokat illeti, ezeket gyakran adattudományi modulokon és platformokon keresztül biztosítják, mint például a TensorFlow, a PyTorch és az Azure Machine-learning stúdió. Ezek a platformok, például az adatkutatók szerkesztik adatkészleteiket, gépi tanulási architektúrákat állítanak össze, és gépi tanulási modelleket képeznek.

Egyéb elterjedt adattudományi eszközök és könyvtárak közé tartozik a SAS (statisztikai modellezéshez), az Apache Spark (az adatfolyamok elemzéséhez), a D3.js (interaktív megjelenítésekhez a böngészőben) és a Jupyter (interaktív, megosztható kódblokkokhoz és vizualizációkhoz). .

Fotó: Seonjae Jo a Flickr-en keresztül, CC BY SA 2.0 (https://www.flickr.com/photos/130860834@N02/19786840570)

Példák az adattudományra

Az adattudományra és annak alkalmazásaira mindenütt vannak példák. Az adattudománynak az élelmiszerszállítástól, a sporttól, a közlekedéstől és az egészségügytől kezdve mindenben van alkalmazása. Az adatok mindenhol jelen vannak, így az adattudomány mindenre alkalmazható.

Ami az élelmiszert illeti, az Uber az élelmiszerszállításra összpontosító telekocsi-rendszerének kibővítésébe fektet be, Uber Eats. Az Uber Eatsnek időben be kell szereznie az embereknek az ételeiket, amíg az még forró és friss. Ahhoz, hogy ez megtörténjen, a vállalat adatkutatóinak statisztikai modellezést kell alkalmazniuk, amely figyelembe veszi az olyan szempontokat, mint az éttermek és a kiszállítási pontok közötti távolság, az ünnepi rohanás, a főzési idő és még az időjárási körülmények is, mindezt a szállítási idők optimalizálása érdekében. .

A sportstatisztikát a csapatmenedzserek arra használják, hogy meghatározzák, kik a legjobb játékosok, és erős, megbízható csapatokat hozzanak létre, amelyek megnyerik a meccseket. Az egyik figyelemre méltó példa a Michael Lewis által a könyvben dokumentált adattudomány Moneyball, ahol az Oakland Athletics csapatának vezérigazgatója különféle statisztikákat elemezve azonosította azokat a minőségi játékosokat, akiket viszonylag alacsony költséggel szerződhetnének a csapathoz.

A forgalmi minták elemzése kritikus fontosságú az önvezető járművek létrehozása szempontjából. Önvezető járművek képesnek kell lennie arra, hogy előre jelezze a körülöttük zajló tevékenységeket, és reagáljon az útviszonyok változásaira, például az esőben megnövekedett féktávolságra, valamint a csúcsforgalomban több autó jelenlétére az úton. Az önvezető járműveken túl az olyan alkalmazások, mint a Google Maps, elemzik a forgalmi mintákat, hogy megmondják az ingázóknak, mennyi idő alatt érnek el úti céljukhoz különböző útvonalakon és közlekedési módokon.

Ami a egészségügyi adattudomány, a számítógépes látást gyakran kombinálják gépi tanulással és más mesterséges intelligencia technikákkal, hogy olyan képosztályozókat hozzanak létre, amelyek képesek megvizsgálni például a röntgensugarat, az FMRI-t és az ultrahangot, hogy megállapítsák, vannak-e esetleges egészségügyi problémák, amelyek a vizsgálat során felbukkanhatnak. Ezek az algoritmusok segíthetnek a klinikusoknak a betegség diagnosztizálásában.

Végső soron az adattudomány számos tevékenységet lefed, és egyesíti a különböző tudományágak szempontjait. Az adattudomány azonban mindig arra törekszik, hogy lenyűgöző, érdekes történeteket meséljen el az adatokból, és hogy az adatokat a világ jobb megértése érdekében használja fel.

Kapcsolódó témák:big adatok adatelemzés adat-tudomány

Up Next

Mi a Turing-teszt és miért számít?

Ne hagyd ki

Mik azok a kvantumszámítógépek?

Daniel Nelson

Blogger és programozó szakterületekkel Gépi tanulás és a Deep Learning témákat. Daniel abban reménykedik, hogy segíthet másoknak az AI erejét társadalmi javára használni.