AI 101
Vad Àr Data Science?

Data science-området verkar bara bli större och mer populärt varje dag. Enligt LinkedIn var data science en av de snabbast växande jobbområdena 2017 och 2020 rankade Glassdoor jobbet som data scientist som en av de tre bästa jobben i USA. Med tanke på data sciences ökande popularitet är det inte förvånande att allt fler människor blir intresserade av området. Men vad är data science egentligen?
Låt oss bekanta oss med data science, ta lite tid att definiera data science, utforska hur stordata och artificiell intelligens förändrar området, lära oss om vanliga data science-verktyg och undersöka några exempel på data science.
Vad är Data Science?
Innan vi kan utforska några data science-verktyg eller exempel vill vi ha en koncis definition av data science.
Att definiera “data science” är faktiskt lite knepigt, eftersom termen används för många olika uppgifter och metoder för undersökning och analys. Vi kan börja med att påminna oss om vad termen “vetenskap” betyder. Vetenskap är den systematiska studien av den fysiska och naturliga världen genom observation och experiment, i syfte att främja mänsklig förståelse av naturliga processer. De viktiga orden i den definitionen är “observation” och “förståelse”.
Om data science är processen att förstå världen från mönster i data, då är ansvaret för en data scientist att omvandla data, analysera data och extrahera mönster från data. Med andra ord får en data scientist data och använder then ett antal olika verktyg och tekniker för att förbereda data (göra den redo för analys) och sedan analysera data för meningsfulla mönster.
Rollen som data scientist liknar rollen som traditionell vetenskapsman. Båda är inriktade på att analysera data för att stödja eller förkasta hypoteser om hur världen fungerar, försöka förstå mönster i data för att förbättra vår förståelse av världen. Data scientists använder samma vetenskapliga metoder som en traditionell vetenskapsman. En data scientist börjar med att samla in observationer om något fenomen de vill studera. De formulerar sedan en hypotes om fenomenet i fråga och försöker hitta data som motsäger deras hypotes på något sätt.
Om hypotesen inte motsägs av data kan de kanske konstruera en teori eller modell om hur fenomenet fungerar, som de kan testa igen och igen genom att se om den stämmer för andra liknande datamängder. Om en modell är tillräckligt robust, om den förklarar mönster bra och inte motsägs under andra tester, kan den till och med användas för att förutsäga framtida förekomster av det fenomenet.
En data scientist analyserar vanligtvis inte sin egen data genom experiment. De utför vanligtvis inte heller experiment med kontroller och dubbelblinda tester för att upptäcka störande variabler som kan påverka en hypotes. Det mesta av den data som analyseras av en data scientist kommer från observationsstudier och system, vilket är ett sätt som jobbet som data scientist kan skilja sig från jobbet som traditionell vetenskapsman, som tenderar att utföra fler experiment.
Sagt så, kan en data scientist ibland behöva göra en form av experiment kallad A/B-testning, där justeringar görs i ett system som samlar in data för att se hur datamönstren förändras.
Oavsett vilka tekniker och verktyg som används, syftar data science slutligen till att förbättra vår förståelse av världen genom att ge mening åt data, och data erhålls genom observation och experiment. Data science är processen att använda algoritmer, statistiska principer och olika verktyg och maskiner för att dra insikter ur data, insikter som hjälper oss att förstå mönster i världen runt omkring oss.
Vad gör Data Scientists?
Du kanske ser att alla aktiviteter som innefattar analys av data på ett vetenskapligt sätt kan kallas data science, vilket är en del av vad som gör det svårt att definiera data science. För att göra det tydligare, låt oss undersöka några av de aktiviteter som en data scientist kan göra varje dag.

Data science kombinerar många olika discipliner och specialområden. Foto: Calvin Andrus via Wikimeedia Commons, CC BY SA 3.0 (https://commons.wikimedia.org/wiki/File:DataScienceDisciplines.png)
På en given dag kan en data scientist bli ombedd att: skapa data lagring och hämtningsschema, skapa data ETL (extract, transform, load) pipelines och rensa data, använda statistiska metoder, skapa data visualiseringar och instrumentpaneler, implementera artificiell intelligens och maskinlärningsalgoritmer, ge rekommendationer för åtgärder baserat på data.
Låt oss bryta ner de uppgifter som nämns ovan lite.
En data scientist kan behöva hantera installationen av teknologier som behövs för att lagra och hämta data, med fokus på både hårdvara och mjukvara. Personen som ansvarar för denna position kan också kallas “Data Engineer“. Men vissa företag inkluderar dessa ansvarsområden under rollen som data scientist. En data scientist kan också behöva skapa, eller hjälpa till att skapa, ETL-pipelines. Data kommer sällan i ett format som en data scientist behöver. Istället måste data tas emot i ett rått format från datakällan, omvandlas till ett användbart format och förbehandlas (saker som standardisering av data, borttagning av redundanser och korrupt data).
Statistiska metoder för Data Science
Tillämpningen av statistik är nödvändig för att förvandla enkel datatittning och tolkning till en riktig vetenskap. Statistiska metoder används för att extrahera relevanta mönster från datamängder, och en data scientist måste vara väl förtrogen med statistiska begrepp. De måste kunna skilja meningsfulla korrelationer från slumpmässiga korrelationer genom att kontrollera för störande variabler. De måste också veta vilka verktyg som ska användas för att bestämma vilka funktioner i datamängden som är viktiga för deras modell/har prediktiv kraft. En data scientist måste veta när de ska använda en regressionsansats kontra en klassificeringsansats, och när de ska bry sig om medelvärdet av ett urval kontra medianen av ett urval. En data scientist skulle inte vara en vetenskapsman utan dessa avgörande färdigheter.
Data Visualisering
En avgörande del av en data scientists arbete är att kommunicera sina resultat till andra. Om en data scientist inte kan kommunicera sina resultat effektivt till andra, så spelar implikationerna av deras resultat ingen roll. En data scientist bör också vara en effektiv berättare. Detta innebär att producera visualiseringar som kommunicerar relevanta punkter om datamängden och de mönster som upptäckts inom den. Det finns ett stort antal olika data visualiseringsverktyg som en data scientist kan använda, och de kan visualisera data för initial, grundläggande utforskning (utforskande dataanalys) eller visualisera resultaten som en modell producerar.
Rekommendationer och affärsapplikationer
En data scientist måste ha en viss intuition om organisationens eller företagets krav och mål. En data scientist måste förstå dessa saker eftersom de måste veta vilka typer av variabler och funktioner de ska analysera, utforska mönster som kan hjälpa organisationen att uppnå sina mål. Data scientisterna måste vara medvetna om de begränsningar de arbetar under och de antaganden organisationens ledning gör.
Maskinlärning och AI
Maskinlärning och andra artificiella intelligensalgoritmer och modeller är verktyg som används av data scientists för att analysera data, identifiera mönster inom data, urskilja relationer mellan variabler och göra förutsägelser om framtida händelser.
Traditionell Data Science vs. Big Data Science
Allteftersom datainsamlingssätt har blivit mer avancerade och databaser större, har en skillnad uppstått mellan traditionell data science och “big data” science.
Traditionell dataanalys och data science görs med beskrivande och utforskande analyser, i syfte att hitta mönster och analysera prestationresultat från projekt. Traditionella dataanalysmetoder fokuserar ofta på bara tidigare data och nuvarande data. Dataanalytiker hanterar ofta data som redan har rensats och standardiserats, medan data scientists ofta hanterar komplex och smutsig data. Mer avancerad dataanalys och data science-tekniker kan användas för att förutsäga framtida beteende, även om detta oftare görs med big data, eftersom prediktiva modeller ofta behöver stora mängder data för att konstrueras tillförlitligt.
“Big data” refererar till data som är för stor och komplex för att hanteras med traditionella dataanalys- och vetenskapsverktyg. Big data samlas ofta in via onlineplattformar och avancerade dataomvandlingsverktyg används för att göra de stora datavolymerna redo för inspektion av data science. Allteftersom mer data samlas in hela tiden, blir alltmer av en data scientists arbete inriktat på analys av big data.
Data Science-verktyg
Vanliga data science-verktyg inkluderar verktyg för att lagra data, utföra utforskande dataanalys, modellera data, utföra ETL och visualisera data. Plattformar som Amazon Web Services, Microsoft Azure och Google Cloud erbjuder verktyg för att hjälpa data scientists att lagra, omvandla, analysera och modellera data. Det finns också fristående data science-verktyg som Airflow (datainfrastruktur) och Tableau (data visualisering och analys).
När det gäller maskinlärnings- och artificiell intelligensalgoritmer som används för att modellera data, tillhandahålls de ofta genom data science-moduler och plattformar som TensorFlow, PyTorch och Azure Machine Learning Studio. Dessa plattformar som data scientists gör ändringar i sina datamängder, komponerar maskinlärningsarkitektur och tränar maskinlärningsmodeller.
Andra vanliga data science-verktyg och bibliotek inkluderar SAS (för statistisk modellering), Apache Spark (för analys av strömmande data), D3.js (för interaktiva visualiseringar i webbläsaren) och Jupyter (för interaktiva, delbara kodblock och visualiseringar).

Foto: Seonjae Jo via Flickr, CC BY SA 2.0 (https://www.flickr.com/photos/130860834@N02/19786840570)
Exempel på Data Science
Exempel på data science och dess tillämpningar finns överallt. Data science har tillämpningar i allt från matleverans, sport, trafik och hälsa. Data finns överallt och data science kan därför tillämpas på allt.
När det gäller mat investerar Uber i en utvidgning av sitt delningssystem för mat, Uber Eats. Uber Eats måste få maten till människor i tid, medan den fortfarande är varm och färsk. För att detta ska ske måste data scientists för företaget använda statistisk modellering som tar hänsyn till aspekter som avstånd från restauranger till leveranspunkter, helgdagar, tillagnings tid och till och med väderförhållanden, allt med målet att optimera leveranstider.
Sportstatistik används av lagledare för att avgöra vilka de bästa spelarna är och bilda starka, tillförlitliga lag som kan vinna matcher. Ett anmärkningsvärt exempel är den data science som dokumenterats av Michael Lewis i boken Moneyball, där generalmanagern för Oakland Athletics-laget analyserade en mängd olika statistik för att identifiera kvalitetspelare som kunde skrivas på till laget till relativt låg kostnad.
Analysen av trafikmönster är avgörande för skapandet av självkörande fordon. Självkörande fordon måste kunna förutsäga aktiviteten runt omkring sig och reagera på förändringar i vägförhållanden, som den ökade stoppsträckan som krävs när det regnar, samt närvaron av fler bilar på vägen under rusningstid. Utöver självkörande fordon analyserar appar som Google Maps trafikmönster för att berätta för pendlare hur lång tid det kommer att ta att nå deras destination med hjälp av olika rutter och transportmedel.
När det gäller hälsodata science kombineras datorseende ofta med maskinlärning och andra AI-tekniker för att skapa bildklassificerare som kan undersöka saker som röntgenbilder, FMRIs och ultraljud för att se om det finns några potentiella medicinska problem som kan visas i skanningen. Dessa algoritmer kan användas för att hjälpa kliniker att diagnostisera sjukdomar.
Till slut täcker data science ett brett spektrum av aktiviteter och kombinerar aspekter av olika discipliner. Men data science är alltid inriktad på att berätta intressanta och meningsfulla historier från data, och att använda data för att bättre förstå världen.












