Conectează-te cu noi

AI 101

Ce este știința datelor?

mm

Domeniul științei datelor pare să devină mai mare și mai popular în fiecare zi. Potrivit LinkedIn, știința datelor a fost unul dintre domeniile de muncă cu cea mai rapidă creștere în 2017 iar în 2020 Glassdoor a clasat slujba științei datelor ca unul dintre cele mai bune trei locuri de muncă din Statele Unite. Având în vedere popularitatea tot mai mare a științei datelor, nu este surprinzător faptul că mai mulți oameni devin interesați de acest domeniu. Totuși, ce este exact știința datelor?

Să ne familiarizăm cu știința datelor, să ne luăm ceva timp pentru a defini știința datelor, să explorăm modul în care big data și inteligența artificială schimbă domeniul, să aflăm despre câteva instrumente comune de știință a datelor și să examinăm câteva exemple de știința datelor.

Ce este știința datelor?

Înainte de a putea explora orice instrumente sau exemple de știință a datelor, vom dori să obținem o definiție concisă a știința datelor.

Definirea „științei datelor” este de fapt puțin complicată, deoarece termenul este aplicat la multe sarcini și metode diferite de cercetare și analiză. Putem începe prin a ne aminti ce înseamnă termenul „știință”. Știința este studiul sistematic al lumii fizice și naturale prin observare și experimentare, cu scopul de a avansa înțelegerea umană a proceselor naturale. Cuvintele importante din această definiție sunt „observare” și „înțelegere”.

Dacă știința datelor este procesul de înțelegere a lumii din modele în date, atunci responsabilitatea unui cercetător de date este transformarea datelor, analizarea datelor și extragerea tiparelor din date. Cu alte cuvinte, unui cercetător de date i se oferă date și utilizează o serie de instrumente și tehnici diferite pentru a preprocesa datele (pregătește-le pentru analiză) și apoi analizează datele pentru modele semnificative.

Rolul unui cercetător de date este similar cu rolul unui om de știință tradițional. Ambii sunt preocupați de analiza datelor pentru a susține sau a respinge ipotezele despre modul în care funcționează lumea, încercând să dea un sens modelelor din date pentru a îmbunătăți înțelegerea noastră asupra lumii. Oamenii de știință de date folosesc aceleași metode științifice pe care le face un om de știință tradițional. Un cercetător de date începe prin a culege observații despre unele fenomene pe care ar dori să le studieze. Ei formulează apoi o ipoteză despre fenomenul în cauză și încearcă să găsească date care anulează într-un fel ipoteza lor.

Dacă ipoteza nu este contrazisă de date, ei ar putea fi capabili să construiască o teorie sau un model despre modul în care funcționează fenomenul, pe care îl pot testa din nou și din nou, văzând dacă este valabil și pentru alte seturi de date similare. Dacă un model este suficient de robust, dacă explică bine modelele și nu este anulat în timpul altor teste, poate fi folosit chiar și pentru a prezice aparițiile viitoare ale acelui fenomen.

De obicei, un cercetător de date nu își va aduna propriile date printr-un experiment. De obicei, ei nu vor proiecta experimente cu controale și studii dublu-orb pentru a descoperi variabile de confuzie care ar putea interfera cu o ipoteză. Majoritatea datelor analizate de un cercetător de date vor fi date obținute prin studii și sisteme observaționale, care este un mod în care meseria unui cercetător de date ar putea diferi de munca unui om de știință tradițional, care tinde să efectueze mai multe experimente.

Acestea fiind spuse, un cercetător de date ar putea fi chemat să facă o formă de experimentare numită testare A/B unde se fac ajustări la un sistem care adună date pentru a vedea cum se schimbă tiparele de date.

Indiferent de tehnicile și instrumentele folosite, știința datelor își propune în cele din urmă să îmbunătățească înțelegerea noastră asupra lumii, dând sens datelor, iar datele sunt obținute prin observare și experimentare. Știința datelor este procesul prin care se utilizează algoritmi, principii statistice și diverse instrumente și mașini pentru a extrage informații din date, informații care ne ajută să înțelegem tiparele din lumea din jurul nostru.

Ce fac oamenii de știință de date?

S-ar putea să vedeți că orice activitate care implică analiza datelor într-o manieră științifică poate fi numită știința datelor, ceea ce face parte din ceea ce face definirea științei datelor atât de dificilă. Pentru a fi mai clar, haideți să explorăm câteva dintre activitățile pe care un cercetător de date ar putea face zilnic.

Știința datelor reunește multe discipline și specialități diferite. Foto: Calvin Andrus prin Wikimeedia Commons, CC BY SA 3.0 (https://commons.wikimedia.org/wiki/File:DataScienceDisciplines.png)

În orice zi, unui om de știință de date i se poate cere: să creeze o schemă de stocare și recuperare a datelor, să creeze conducte ETL de date (extragere, transformare, încărcare) și să curețe datele, să utilizeze metode statistice, să creeze vizualizări și tablouri de bord ale datelor, să implementeze inteligența artificială și algoritmi de învățare automată, faceți recomandări pentru acțiuni bazate pe date.

Să împărțim puțin sarcinile enumerate mai sus.

Un cercetător de date poate fi necesar să se ocupe de instalarea tehnologiilor necesare pentru stocarea și preluarea datelor, acordând atenție atât hardware-ului, cât și software-ului. Persoana responsabilă cu această funcție poate fi denumită și „Inginer de date”. Cu toate acestea, unele companii includ aceste responsabilități sub rolul cercetătorilor de date. Un cercetător de date poate avea nevoie, de asemenea, să creeze sau să asiste la crearea, Conducte ETL. Datele vin foarte rar formatate exact așa cum are nevoie un om de știință de date. În schimb, datele vor trebui primite într-o formă brută de la sursa de date, transformate într-un format utilizabil și preprocesate (lucruri precum standardizarea datelor, eliminarea redundanțelor și eliminarea datelor corupte).

Metode statistice ale științei datelor

aplicarea statisticilor este necesar să transformăm simpla privire a datelor și interpretarea lor într-o știință reală. Metodele statistice sunt folosite pentru a extrage modele relevante din seturile de date, iar un cercetător de date trebuie să fie bine versat în conceptele statistice. Ei trebuie să poată discerne corelațiile semnificative de corelațiile false, controlând variabilele confuze. De asemenea, trebuie să cunoască instrumentele potrivite pe care să le folosească pentru a determina care caracteristici din setul de date sunt importante pentru modelul lor/au putere de predicție. Un cercetător de date trebuie să știe când să folosească o abordare de regresie față de o abordare de clasificare și când să-i pese de media unui eșantion față de mediana unui eșantion. Un om de știință nu ar fi un om de știință fără aceste abilități cruciale.

Vizualizarea datelor

O parte esențială a muncii unui cercetător de date este comunicarea descoperirilor lor altora. Dacă un cercetător de date nu poate comunica în mod eficient descoperirile lor altora, atunci implicațiile descoperirilor lor nu contează. Un cercetător de date ar trebui să fie și un povestitor eficient. Aceasta înseamnă producerea de vizualizări care comunică puncte relevante despre setul de date și modelele descoperite în cadrul acestuia. Există un număr mare de diferite vizualizarea datelor instrumente pe care un cercetător de date le-ar putea folosi și pot vizualiza datele în scopul explorării inițiale de bază (analiza exploratorie a datelor) sau pot vizualiza rezultatele pe care le produce un model.

Recomandări și aplicații de afaceri

Un om de știință de date trebuie să aibă o anumită intuiție a cerințelor și obiectivelor organizației sau afacerii sale. Un om de știință de date trebuie să înțeleagă aceste lucruri, deoarece trebuie să știe ce tipuri de variabile și caracteristici ar trebui să analizeze, explorând modele care îi vor ajuta organizația să-și atingă obiectivele. Oamenii de știință de date trebuie să fie conștienți de constrângerile sub care operează și de ipotezele pe care le face conducerea organizației.

Învățarea automată și AI

Invatare mecanica și alți algoritmi și modele de inteligență artificială sunt instrumente folosite de oamenii de știință în date pentru a analiza datele, a identifica modele în cadrul datelor, a discerne relațiile dintre variabile și a face predicții despre evenimentele viitoare.

Știința tradițională a datelor vs. Știința datelor mari

Pe măsură ce metodele de colectare a datelor au devenit mai sofisticate și bazele de date mai mari, a apărut o diferență între știința tradițională a datelor și "Date mare" ştiinţă.

Analiza tradițională a datelor și știința datelor se realizează cu analize descriptive și exploratorii, având ca scop găsirea tiparelor și analiza rezultatelor performanței proiectelor. Metodele tradiționale de analiză a datelor se concentrează adesea pe datele trecute și pe datele actuale. Analiștii de date se ocupă adesea de date care au fost deja curățate și standardizate, în timp ce oamenii de știință de date se ocupă adesea de date complexe și murdare. Ar putea fi utilizate tehnici mai avansate de analiză a datelor și știință a datelor pentru a prezice comportamentul viitor, deși acest lucru se face mai des cu big data, deoarece modelele predictive necesită adesea cantități mari de date pentru a fi construite în mod fiabil.

„Datele mari” se referă la date prea mari și complexe pentru a fi tratate cu tehnici și instrumente tradiționale de analiză a datelor și științifice. Datele mari sunt adesea colectate prin platforme online, iar instrumentele avansate de transformare a datelor sunt folosite pentru a pregăti volumele mari de date pentru inspecția de către știința datelor. Pe măsură ce se colectează mai multe date tot timpul, mai multă muncă de cercetător în date implică analiza datelor mari.

Instrumente pentru știința datelor

Știința comună a datelor instrumentele includ instrumente pentru stocarea datelor, efectuarea analizei exploratorii a datelor, modelarea datelor, efectuarea ETL și vizualizarea datelor. Platforme precum Amazon Web Services, Microsoft Azure și Google Cloud oferă toate instrumente pentru a ajuta oamenii de știință să stocheze, să transforme, să analizeze și să modeleze datele. Există, de asemenea, instrumente independente de știință a datelor, cum ar fi Airflow (infrastructură de date) și Tableau (vizualizare și analiză a datelor).

În ceea ce privește învățarea automată și algoritmii de inteligență artificială utilizați pentru modelarea datelor, aceștia sunt adesea furnizați prin module și platforme de știință a datelor precum TensorFlow, PyTorch și studioul Azure Machine-learning. Aceste platforme, cum ar fi oamenii de știință ai datelor, efectuează modificări la seturile lor de date, compun arhitecturi de învățare automată și antrenează modele de învățare automată.

Alte instrumente și biblioteci comune de știință a datelor includ SAS (pentru modelare statistică), Apache Spark (pentru analiza datelor în flux), D3.js (pentru vizualizări interactive în browser) și Jupyter (pentru blocuri de cod interactive și partajabile și vizualizări) .

Foto: Seonjae Jo via Flickr, CC BY SA 2.0 (https://www.flickr.com/photos/130860834@N02/19786840570)

Exemple de știință a datelor

Exemple de știință a datelor și aplicațiile sale sunt peste tot. Știința datelor are aplicații în orice, de la livrarea de alimente, sport, trafic și sănătate. Datele sunt peste tot și astfel știința datelor poate fi aplicată la orice.

În ceea ce privește produsele alimentare, Uber investește într-o extindere a sistemului său de transport partajat axat pe livrarea de alimente, Uber Eats. Uber Eats trebuie să ofere oamenilor mâncarea în timp util, în timp ce este încă cald și proaspăt. Pentru ca acest lucru să se întâmple, oamenii de știință de date pentru companie trebuie să utilizeze modele statistice care ia în considerare aspecte precum distanța de la restaurante la punctele de livrare, graba de vacanță, timpul de gătit și chiar condițiile meteorologice, toate luate în considerare cu scopul de a optimiza timpii de livrare. .

Statisticile sportive sunt folosite de managerii de echipă pentru a determina cine sunt cei mai buni jucători și pentru a forma echipe puternice, de încredere, care vor câștiga jocuri. Un exemplu notabil este știința datelor documentată de Michael Lewis în carte Moneyball, unde directorul general al echipei Oakland Athletics a analizat o varietate de statistici pentru a identifica jucători de calitate care ar putea fi înscriși la echipă la un cost relativ scăzut.

Analiza tiparelor de trafic este esențială pentru crearea de vehicule autonome. Vehicule cu conducere autonomă trebuie să fie capabil să prezică activitatea din jurul lor și să răspundă la schimbările în condițiile drumului, cum ar fi distanța de oprire crescută necesară atunci când plouă, precum și prezența mai multor mașini pe șosea în orele de vârf. Dincolo de vehiculele cu conducere autonomă, aplicații precum Google Maps analizează tiparele de trafic pentru a le spune navetiștilor cât timp le va dura să ajungă la destinație folosind diverse rute și forme de transport.

În ceea ce privește știința datelor de sănătate, viziunea computerizată este adesea combinată cu învățarea automată și alte tehnici AI pentru a crea clasificatoare de imagini capabile să examineze lucruri precum raze X, FMRI și ultrasunete pentru a vedea dacă există probleme medicale potențiale care ar putea apărea în scanare. Acești algoritmi pot fi utilizați pentru a ajuta clinicienii să diagnosticheze boala.

În cele din urmă, știința datelor acoperă numeroase activități și reunește aspecte ale diferitelor discipline. Cu toate acestea, știința datelor este întotdeauna preocupată de a spune povești convingătoare și interesante din date și de a utiliza datele pentru a înțelege mai bine lumea.

Blogger și programator cu specialități în Invatare mecanica și Invatare profunda subiecte. Daniel speră să-i ajute pe alții să folosească puterea AI pentru binele social.