Stumm Wat ass Data Science? - Unite.AI
Connect mat eis

AI 101

Wat ass Data Science?

mm
aktualiséiert on

D'Feld vun der Datewëssenschaft schéngt just all Dag méi grouss a méi populär ze ginn. Laut LinkedIn, Datenwëssenschaft war ee vun de séierst wuessend Aarbechtsfelder am Joer 2017 an 2020 huet Glassdoor den Job vun der Datewëssenschaft klasséiert als ee vun den dräi beschten Aarbechtsplazen an den USA. Wéinst der wuessender Popularitéit vun der Datewëssenschaft ass et keng Iwwerraschung datt méi Leit sech am Feld interesséieren. Awer wat ass Datewëssenschaft genee?

Loosst eis d'Datewëssenschaft kennen léieren, e bëssen Zäit huelen fir Datewëssenschaft ze definéieren, z'entdecken wéi grouss Daten a kënschtlech Intelligenz d'Feld veränneren, iwwer e puer allgemeng Datewëssenschaftsinstrumenter léieren, an e puer Beispiller vun Datewëssenschaft ënnersicht.

Wat ass Data Science?

Ier mir all Datenwëssenschaftsinstrumenter oder Beispiller kënnen entdecken, wëlle mir eng präzis Definitioun vun data science.

D'Definitioun vun "Datenwëssenschaft" ass tatsächlech e bësse komplizéiert, well de Begrëff fir vill verschidden Aufgaben a Methoden fir Ufro an Analyse applizéiert gëtt. Mir kënnen ufänken andeems mir eis drun erënneren wat de Begrëff "Wëssenschaft" bedeit. Wëssenschaft ass déi systematesch Studie vun der kierperlecher an der natierlecher Welt duerch Observatioun an Experimenter, mam Zil fir de Mënsch Verständnis vun natierleche Prozesser ze förderen. Déi wichteg Wierder an där Definitioun sinn "Observatioun" an "Verstoe".

Wann Datewëssenschaft de Prozess ass fir d'Welt aus Musteren an Daten ze verstoen, dann ass de Verantwortung vun engem Datewëssenschaftler ass Daten ze transforméieren, Daten z'analyséieren an Mustere vun Daten extrahéieren. An anere Wierder, en Datewëssenschaftler gëtt mat Daten geliwwert a si benotzen eng Zuel vu verschiddenen Tools an Techniken fir d'Daten virzebeaarbechten (kréien se prett fir Analyse) an analyséieren dann d'Donnéeën fir sënnvoll Mustere.

D'Roll vun engem Datewëssenschaftler ass ähnlech wéi d'Roll vun engem traditionelle Wëssenschaftler. Béid betreffen d'Analyse vun Daten Hypothesen z'ënnerstëtzen oder ze refuséieren iwwer wéi d'Welt funktionnéiert, probéiert Sënn vu Musteren an den Daten ze maachen fir eist Verständnis vun der Welt ze verbesseren. Datewëssenschaftler benotzen déiselwecht wëssenschaftlech Methode wéi en traditionelle Wëssenschaftler mécht. En Datewëssenschaftler fänkt un Beobachtungen ze sammelen iwwer e puer Phänomener déi se gären studéieren. Si formuléieren dann eng Hypothes iwwer dat Phänomen a probéieren Daten ze fannen déi hir Hypothes op iergendeng Manéier annuléieren.

Wann d'Hypothese net vun den Donnéeën widdersprécht, da kënne se fäeg sinn eng Theorie oder Modell ze konstruéieren iwwer wéi de Phänomen funktionnéiert, wat se weider an erëm testen kënnen andeems se kucken ob et fir aner ähnlech Datesätz stëmmt. Wann e Modell genuch robust ass, wann et Mustere gutt erkläert an net während aneren Tester annuléiert gëtt, kann et souguer benotzt ginn fir zukünfteg Optriede vun deem Phänomen virauszesoen.

En Datewëssenschaftler sammelt normalerweis net hir eege Donnéeën duerch en Experiment. Si designen normalerweis keng Experimenter mat Kontrollen an duebelblannen Studien fir konfus Variablen ze entdecken déi mat enger Hypothese stéieren kënnen. Déi meescht Donnéeën, déi vun engem Datewëssenschaftler analyséiert ginn, sinn Daten, déi duerch Observatiounsstudien a Systemer gewonnen ginn, wat e Wee ass wéi d'Aarbecht vun engem Datewëssenschaftler vun der Aarbecht vun engem traditionelle Wëssenschaftler ënnerscheede kann, deen éischter méi Experimenter ausféiert.

Dat gesot, en Datewëssenschaftler kéint opgeruff ginn fir eng Form vun Experimenter ze maachen genannt A / B Testen wou Tweaks un engem System gemaach ginn deen Daten sammelt fir ze kucken wéi d'Datemuster änneren.

Onofhängeg vun den Techniken an Tools déi benotzt ginn, zielt d'Datenwëssenschaft schlussendlech eist Verständnis vun der Welt ze verbesseren andeems se Sënn aus Daten maachen, an Daten ginn duerch Observatioun an Experimenter gewonnen. Datewëssenschaft ass de Prozess fir Algorithmen, statistesch Prinzipien a verschidde Tools a Maschinnen ze benotzen fir Abléck aus Daten ze zéien, Abléck déi eis hëllefen Mustere an der Welt ronderëm eis ze verstoen.

Wat maachen Datewëssenschaftler?

Dir gesitt vläicht datt all Aktivitéit déi d'Analyse vun Daten op eng wëssenschaftlech Manéier involvéiert kann Datewëssenschaft genannt ginn, wat en Deel vun deem ass wat d'Datewëssenschaft sou schwéier mécht. Fir et méi kloer ze maachen, loosst eis e puer vun den Aktivitéiten entdecken, déi en Datewëssenschaftler kéint maachen op eng alldeeglech Basis.

Datewëssenschaft bréngt vill verschidden Disziplinnen a Spezialitéiten zesummen. Foto: Calvin Andrus iwwer Wikimeedia Commons, CC BY SA 3.0 (https://commons.wikimedia.org/wiki/File:DataScienceDisciplines.png)

Op all Dag kann en Datewëssenschaftler opgefuerdert ginn: Datelagerung a Retrieval Schema ze kreéieren, Daten ETL (Extrait, Transform, Lueden) Pipelines ze kreéieren an Daten opzeraumen, statistesch Methoden ze benotzen, Datenvisualiséierungen an Dashboards ze kreéieren, kënschtlech Intelligenz ëmzesetzen an Maschinn Léieren Algorithmen, maachen Empfehlungen fir Aktiounen op Basis vun den Donnéeën.

Loosst eis d'Aufgaben, déi hei uewen opgezielt sinn, e bësse briechen.

En Datewëssenschaftler kann erfuerderlech sinn d'Installatioun vun Technologien ze handhaben, déi néideg sinn fir Daten ze späicheren an ze recuperéieren, oppassen op Hardware a Software. Déi verantwortlech Persoun fir dës Positioun kann och als "Daten Ingenieur". Wéi och ëmmer, e puer Firmen enthalen dës Verantwortung ënner der Roll vun Datewëssenschaftler. En Datewëssenschaftler muss och musse kreéieren oder hëllefen bei der Schafung vun, ETL Pipelines. Daten kommen ganz selten formatéiert just wéi en Datewëssenschaftler brauch. Amplaz mussen d'Donnéeën an enger rauer Form vun der Datequell opgeholl ginn, an e benotzbaren Format transforméiert a virveraarbecht ginn (Saachen wéi d'Daten standardiséieren, Redundanzen erofsetzen a korrupt Donnéeën ewechhuelen).

Statistesch Methoden vun Data Science

d' Uwendung vun Statistiken ass néideg fir einfach Daten ze kucken an se an eng tatsächlech Wëssenschaft ze interpretéieren. Statistesch Methoden gi benotzt fir relevant Musteren aus Datesätz ze extrahieren, an en Datewëssenschaftler muss gutt mat statistesche Konzepter beherrscht sinn. Si musse fäeg sinn sënnvoll Korrelatiounen aus spurious Korrelatiounen z'ënnerscheeden andeems se verwiessele Variabelen kontrolléieren. Si mussen och déi richteg Tools kennen fir ze benotzen fir ze bestëmmen wéi eng Features am Dataset fir hire Modell wichteg sinn / prévisiv Kraaft hunn. En Datewëssenschaftler muss wëssen, wéini eng Regressioun Approche vs eng Klassifikatioun Approche ze benotzen, a wéini et ëm d'Moyenne vun enger Probe versus de Median vun enger Probe ze këmmeren. En Datewëssenschaftler wier einfach kee Wëssenschaftler ouni dës entscheedend Fäegkeeten.

Datenvisiatioun

E entscheedende Bestanddeel vun der Aarbecht vun engem Datewëssenschaftler ass hir Erkenntnisser un anerer ze vermëttelen. Wann en Datewëssenschaftler hir Erkenntnisser net effektiv un anerer vermëttele kann, ass d'Implikatioune vun hiren Erkenntnisser egal. En Datewëssenschaftler soll och en effektiven Erzieler sinn. Dëst bedeit Visualiséierungen ze produzéieren déi relevant Punkten iwwer den Dataset an d'Musteren, déi dobannen entdeckt goufen, kommunizéieren. Et gëtt eng grouss Zuel vu verschiddene Datenvisualiséierung Tools déi en Datewëssenschaftler benotze kéint, a si kënne Daten visualiséieren fir d'Ziler vun der initialer, Basiserfuerschung (explorativ Datenanalyse) oder d'Resultater visualiséieren déi e Modell produzéiert.

Empfehlungen a Business Uwendungen

En Datewëssenschaftler muss e puer Intuition vun den Ufuerderungen an Ziler vun hirer Organisatioun oder Geschäft hunn. En Datewëssenschaftler muss dës Saache verstoen well se musse wëssen wéi eng Aarte vu Variablen a Features si solle analyséieren, Musteren exploréieren déi hir Organisatioun hëllefen hir Ziler z'erreechen. D'Datewëssenschaftler musse sech bewosst sinn iwwer d'Aschränkungen, ënner deenen se operéieren an d'Annahmen, déi d'Leedung vun der Organisatioun mécht.

Maschinn Léieren an AI

Machine learning an aner kënschtlech Intelligenz Algorithmen a Modeller sinn Tools vun Datewëssenschaftler benotzt fir Daten ze analyséieren, Mustere bannent Daten z'identifizéieren, Bezéiungen tëscht Variabelen z'ënnerscheeden an Prognosen iwwer zukünfteg Eventer ze maachen.

Traditionell Data Science vs Big Data Science

Wéi Datesammlungsmethoden méi raffinéiert ginn an Datenbanken méi grouss ginn, ass en Ënnerscheed tëscht traditioneller Datewëssenschaft an "Big Data" Wëssenschaft.

Traditionell Datenanalyse an Datewëssenschaft gëtt mat deskriptiven an explorativen Analyse gemaach, mam Zil Musteren ze fannen an d'Leeschtungsresultater vu Projeten ze analyséieren. Traditionell Dateanalysemethoden konzentréiere sech dacks op just vergaangen Donnéeën an aktuell Donnéeën. Dateanalytiker beschäftegen sech dacks mat Daten déi scho gebotzt a standardiséiert goufen, während Datewëssenschaftler dacks mat komplexen an dreckeg Daten beschäftegen. Méi fortgeschratt Datenanalytik an Datewëssenschaftstechnike kënne benotzt ginn fir zukünfteg Verhalen virauszesoen, obwuel dëst méi dacks mat Big Data gemaach gëtt, well viraussiichtlech Modeller dacks grouss Quantitéiten un Daten brauchen fir zouverlässeg konstruéiert ze ginn.

"Big Data" bezitt sech op Donnéeën déi ze grouss a komplex sinn fir mat traditionellen Datenanalytik a Wëssenschaftstechniken an Tools gehandhabt ze ginn. Big Data ginn dacks iwwer Online Plattformen gesammelt a fortgeschratt Datentransformatiounsinstrumenter gi benotzt fir déi grouss Bänn vun Daten prett ze maachen fir d'Inspektioun vun der Datewëssenschaft. Wéi méi Daten déi ganzen Zäit gesammelt ginn, involvéiert méi eng Datewëssenschaftler Aarbecht d'Analyse vu Big Data.

Data Science Tools

Gemeinsam Daten Wëssenschaft Handwierksgeschir enthalen Tools fir Daten ze späicheren, explorativ Datenanalyse auszeféieren, Modelldaten, ETL auszeféieren an Daten ze visualiséieren. Plattforme wéi Amazon Web Services, Microsoft Azure a Google Cloud bidden all Tools fir Datenwëssenschaftler ze hëllefen Daten ze späicheren, transforméieren, analyséieren a modelléieren. Et ginn och standalone Datenwëssenschaftsinstrumenter wéi Airflow (Dateninfrastruktur) an Tableau (Datevisualiséierung an Analyse).

Wat d'Maschinn léieren a kënschtlech Intelligenz Algorithmen benotzt fir Daten ze modelléieren, gi se dacks duerch Datewëssenschaftsmoduler a Plattforme wéi TensorFlow, PyTorch, an den Azure Machine-Learning Studio geliwwert. Dës Plattforme wéi Datewëssenschaftler maachen Ännerungen un hir Datesätz, komponéieren Maschinnléierarchitekturen a trainéieren Maschinnléiermodeller.

Aner allgemeng Datewëssenschaftsinstrumenter a Bibliothéike enthalen SAS (fir statistesch Modeller), Apache Spark (fir d'Analyse vu Streamingdaten), D3.js (fir interaktiv Visualiséierungen am Browser), a Jupyter (fir interaktiv, deelbar Codeblocken a Visualiséierungen) .

Foto: Seonjae Jo via Flickr, CC BY SA 2.0 (https://www.flickr.com/photos/130860834@N02/19786840570)

Beispiller vun Data Science

Beispiller vun Datewëssenschaft a seng Uwendungen sinn iwwerall. Datewëssenschaft huet Uwendungen an alles vu Liewensmëttel Liwwerung, Sport, Traffic, a Gesondheet. Date sinn iwwerall an dofir kann Datenwëssenschaft op alles applizéiert ginn.

Wat d'Liewensmëttel ugeet, investéiert Uber an eng Expansioun vu sengem Ride-Sharing System konzentréiert op d'Liwwerung vu Liewensmëttel, Uber Eats. Uber Eats muss d'Leit fristgerecht hiert Iessen kréien, während et nach ëmmer waarm a frësch ass. Fir dëst ze geschéien, mussen Datewëssenschaftler fir d'Firma statistesch Modeller benotzen déi Aspekter berücksichtegt wéi Distanz vu Restauranten op Liwwerpunkten, Vakanzenzäit, Kachzäit a souguer Wiederkonditiounen, alles berücksichtegt mam Zil d'Liwwerzäiten ze optimiséieren .

Sportsstatistike gi vun Teammanager benotzt fir ze bestëmmen wien déi bescht Spiller sinn a staark, zouverlässeg Équipen bilden déi Spiller gewannen. Ee bemierkenswäert Beispill ass d'Datenwëssenschaft dokumentéiert vum Michael Lewis am Buch Moneyball, wou de Generaldirekter vun der Oakland Athletics Team eng Vielfalt vu Statistiken analyséiert huet fir Qualitéitsspiller z'identifizéieren, déi an d'Team op relativ niddrege Käschten ënnerschriwwe ginn.

D'Analyse vu Verkéiersmuster ass kritesch fir d'Schafung vu selbstfahrend Gefierer. Self-fueren Gefierer muss fäeg sinn d'Aktivitéit ronderëm si virauszesoen an op Ännerungen an de Stroossebedéngungen z'äntwerten, wéi déi erfuerderlech Stoppdistanz wann et reent, souwéi d'Präsenz vu méi Autoen op der Strooss während der Spëtzt. Nieft selbstfahrend Gefierer, Apps wéi Google Maps analyséieren Trafficmuster fir Pendler ze soen wéi laang et se dauert fir op hir Destinatioun ze kommen mat verschiddene Strecken a Forme vum Transport.

Am Sënn vun Gesondheet Daten Wëssenschaft, Computervisioun gëtt dacks kombinéiert mat Maschinnléieren an aner AI Techniken fir Bildklassifizéierer ze kreéieren déi fäeg sinn Saachen wéi Röntgenstrahlen, FMRIs an Ultraschallen z'ënnersichen fir ze kucken ob et potenziell medizinesch Themen sinn, déi am Scan optrieden. Dës Algorithmen kënne benotzt ginn fir Kliniker ze hëllefen d'Krankheet ze diagnostizéieren.

Schlussendlech deckt d'Datenwëssenschaft vill Aktivitéiten a bréngt Aspekter vu verschiddenen Disziplinnen zesummen. Wéi och ëmmer, Datewëssenschaft ass ëmmer beschäftegt mat iwwerzeegend, interessant Geschichten aus Daten ze erzielen, a mat Daten ze benotzen fir d'Welt besser ze verstoen.

Blogger a Programméierer mat Spezialitéiten am Machine Learning an Deep Learning Themen. Den Daniel hofft anerer ze hëllefen d'Kraaft vun der AI fir sozial Gutt ze benotzen.