IA 101
Ce este știința datelor?

Domeniul științei datelor pare să crească și să devină mai popular în fiecare zi. Conform LinkedIn, știința datelor a fost una dintre cele mai rapide domenii de creștere a locurilor de muncă în 2017 și în 2020 Glassdoor a clasat locul de muncă de știință a datelor ca unul dintre cele trei locuri de muncă din Statele Unite. Având în vedere popularitatea tot mai mare a științei datelor, nu este de mirare că tot mai multe persoane sunt interesate de acest domeniu. Și totuși, ce este exact știința datelor?
Să ne familiarizăm cu știința datelor, luând timp pentru a defini știința datelor, explorând modul în care big data și inteligența artificială schimbă domeniul, învățând despre unele instrumente comune de știință a datelor și examinând unele exemple de știință a datelor.
Ce este știința datelor?
Înainte de a putea explora orice instrumente sau exemple de știință a datelor, vom dori să obținem o definiție concisă a științei datelor.
Definirea “științei datelor” este de fapt un pic dificilă, deoarece termenul este aplicat la multe sarcini și metode de anchetă și analiză. Putem începe prin a ne aminti ce înseamnă termenul “știință”. Știința este studiul sistematic al lumii fizice și naturale prin observație și experimentare, având ca scop avansarea înțelegerii umane a proceselor naturale. Cuvintele importante din această definiție sunt “observație” și “înțelegere”.
Dacă știința datelor este procesul de înțelegere a lumii din modelele din date, atunci responsabilitatea unui specialist în știința datelor este de a transforma datele, analiza datele și extrage modele din date. Cu alte cuvinte, un specialist în știința datelor primește date și folosește o varietate de instrumente și tehnici pentru a preprocesa datele (pentru a le pregăti pentru analiză) și apoi pentru a analiza datele pentru a găsi modele semnificative.
Rolul unui specialist în știința datelor este similar cu rolul unui om de știință tradițional. Ambele sunt preocupate de analiza datelor pentru a susține sau respinge ipoteze despre modul în care funcționează lumea, încercând să înțeleagă modelele din date pentru a îmbunătăți înțelegerea noastră asupra lumii. Specialiștii în știința datelor folosesc aceleași metode științifice ca și un om de știință tradițional. Un specialist în știința datelor începe prin a colecta observații despre un fenomen pe care ar dori să îl studieze. Ei formulează apoi o ipoteză despre fenomenul în cauză și încearcă să găsească date care să infirme ipoteza într-un anumit mod.
Dacă ipoteza nu este infirmată de date, ei ar putea să poată construi o teorie sau un model despre modul în care funcționează fenomenul, pe care îl pot testa din nou și din nou pentru a vedea dacă este valabil pentru alte seturi de date similare. Dacă un model este suficient de robust, dacă explică modelele bine și nu este infirmat în timpul altor teste, el poate fi folosit chiar și pentru a prezice evenimente viitoare ale acelui fenomen.
Un specialist în știința datelor nu va colecta de obicei datele proprii prin experiment. Ei nu vor proiecta de obicei experimente cu controale și teste dublu-orb pentru a descoperi variabile care ar putea interfera cu o ipoteză. Cele mai multe date analizate de un specialist în știința datelor vor fi date obținute prin studii observaționale și sisteme, ceea ce este un mod în care sarcina unui specialist în știința datelor poate diferi de cea a unui om de știință tradițional, care are tendința de a efectua mai multe experimente.
Cu toate acestea, un specialist în știința datelor ar putea fi chemat să efectueze o formă de experimentare numită testare A/B, unde se fac ajustări la un sistem care colectează date pentru a vedea cum se schimbă modelele din date.
Indiferent de tehnicile și instrumentele folosite, știința datelor urmărește în cele din urmă să îmbunătățească înțelegerea noastră asupra lumii, dând sens datelor, iar datele sunt obținute prin observație și experimentare. Știința datelor este procesul de utilizare a algoritmilor, principiilor statistice și a diferitelor instrumente și mașini pentru a extrage insight-uri din date, insight-uri care ne ajută să înțelegem modelele din lumea din jurul nostru.
Ce fac specialiștii în știința datelor?
Poate că vedeți că orice activitate care implică analiza datelor într-un mod științific poate fi numită știință a datelor, ceea ce face parte din ceea ce face definirea științei datelor atât de dificilă. Pentru a face lucrurile mai clare, să explorăm unele dintre activitățile pe care le-ar putea face un specialist în știința datelor în fiecare zi.

Știința datelor adună multe discipline și specialități diferite. Foto: Calvin Andrus via Wikimeedia Commons, CC BY SA 3.0 (https://commons.wikimedia.org/wiki/File:DataScienceDisciplines.png)
În orice zi, un specialist în știința datelor ar putea fi solicitat să: creeze scheme de stocare și recuperare a datelor, creeze pipeline-uri ETL (extragere, transformare, încărcare) și curățe datele, să folosească metode statistice, să creeze vizualizări de date și tablouri de bord, să implementeze algoritmi de inteligență artificială și învățare automată, să facă recomandări pentru acțiuni pe baza datelor.
Să descompunem sarcinile de mai sus.
Un specialist în știința datelor poate fi necesar să se ocupe de instalarea tehnologiilor necesare pentru stocarea și recuperarea datelor, atât hardware, cât și software. Persoana responsabilă de această poziție poate fi numită și “Inginer de date“. Cu toate acestea, unele companii includ aceste responsabilități sub rolul de specialist în știința datelor. Un specialist în știința datelor poate fi necesar să creeze sau să asiste la crearea pipeline-urilor ETL. Datele vin rareori într-un format exact așa cum are nevoie un specialist în știința datelor. În schimb, datele vor trebui să fie primite într-o formă brută de la sursa de date, transformate într-un format utilizabil și prelucrate (lucruri precum standardizarea datelor, eliminarea redundanțelor și eliminarea datelor corupte).
Metode statistice de știință a datelor
Aplicarea statisticii este necesară pentru a transforma simpla examinare a datelor și interpretarea lor într-o știință reală. Metodele statistice sunt utilizate pentru a extrage modele relevante din seturi de date, iar un specialist în știința datelor trebuie să fie bine versat în concepte statistice. Ei trebuie să poată distinge corelații semnificative de corelații spurii, controlând variabilele care ar putea interfera cu o ipoteză. Ei trebuie să știe, de asemenea, ce instrumente să folosească pentru a determina care caracteristici din setul de date sunt importante pentru modelul lor / au putere predictivă. Un specialist în știința datelor trebuie să știe când să folosească o abordare de regresie versus o abordare de clasificare și când să se îngrijească de media unei mostre versus mediana unei mostre. Un specialist în știința datelor nu ar fi un om de știință fără aceste abilități esențiale.
Vizualizarea datelor
O parte crucială a sarcinii unui specialist în știința datelor este comunicarea descoperirilor sale către alții. Dacă un specialist în știința datelor nu poate comunica în mod eficient descoperirile sale către alții, atunci implicațiile descoperirilor sale nu contează. Un specialist în știința datelor ar trebui să fie un bun povestitor. Acest lucru înseamnă producerea de vizualizări care comunică puncte relevante despre setul de date și despre modelele descoperite în cadrul acestuia. Există o mulțime de instrumente de vizualizare a datelor pe care un specialist în știința datelor le-ar putea folosi, iar ei ar putea vizualiza date pentru scopuri de explorare inițială, de bază (analiză exploratorie a datelor) sau pentru a vizualiza rezultatele pe care le produce un model.
Recomandări și aplicații de afaceri
Un specialist în știința datelor trebuie să aibă o anumită intuiție a cerințelor și obiectivelor organizației sau afacerii sale. Un specialist în știința datelor trebuie să înțeleagă aceste lucruri, deoarece ei trebuie să știe ce tipuri de variabile și caracteristici ar trebui să analizeze, explorând modele care ar ajuta organizația să-și atingă obiectivele. Specialiștii în știința datelor trebuie să fie conștienți de constrângerile cu care operează și de presupunerile pe care le fac liderii organizației.
Învățarea automată și inteligența artificială
Învățarea automată și alte algoritmi și modele de inteligență artificială sunt instrumente utilizate de specialiștii în știința datelor pentru a analiza datele, a identifica modele în date, a descoperi relații între variabile și a face previziuni despre evenimente viitoare.
Știința datelor tradițională versus știința datelor Big Data
Pe măsură ce metodele de colectare a datelor au devenit mai sofisticate și bazele de date mai mari, a apărut o diferență între știința datelor tradițională și știința datelor “Big Data”.
Analiza datelor tradițională și știința datelor se fac cu analize descriptive și exploratorii, având ca scop găsirea de modele și analiza rezultatelor proiectelor. Metodele de analiză a datelor tradiționale se concentrează adesea doar pe datele trecute și actuale. Analistii de date se ocupă de obicei de date care au fost deja curățate și standardizate, în timp ce specialiștii în știința datelor se ocupă adesea de date complexe și “murdar”. Tehnicile mai avansate de analiză a datelor și știința datelor pot fi utilizate pentru a prezice comportamentul viitor, deși acest lucru se face mai des cu datele “Big Data”, deoarece modelele predictive necesită adesea cantități mari de date pentru a fi construite în mod fiabil.
“Big Data” se referă la date care sunt prea mari și complexe pentru a fi manipulate cu tehnici și instrumente de știință a datelor tradiționale. Datele “Big Data” sunt adesea colectate prin platforme online și se folosesc instrumente avansate de transformare a datelor pentru a face volumele mari de date gata pentru inspectarea de către specialiștii în știința datelor. Pe măsură ce se colectează mai multe date, sarcina unui specialist în știința datelor implică analiza datelor “Big Data”.
Instrumente de știință a datelor
Instrumentele comune de știință a datelor includ instrumente pentru stocarea datelor, efectuarea analizei exploratorii a datelor, modelarea datelor, efectuarea ETL și vizualizarea datelor. Platformele precum Amazon Web Services, Microsoft Azure și Google Cloud oferă instrumente pentru a ajuta specialiștii în știința datelor să stocheze, să transforme, să analizeze și să modeleze datele. Există, de asemenea, instrumente de știință a datelor autonome, cum ar fi Airflow (infrastructură de date) și Tableau (vizualizare și analiza datelor).
În ceea ce privește algoritmii de învățare automată și inteligență artificială utilizați pentru modelarea datelor, aceștia sunt adesea furnizați prin module și platforme de știință a datelor, cum ar fi TensorFlow, PyTorch și Azure Machine Learning Studio. Aceste platforme permit specialiștilor în știința datelor să facă modificări la seturile de date, să compună arhitecturi de învățare automată și să antreneze modele de învățare automată.
Alte instrumente și biblioteci comune de știință a datelor includ SAS (pentru modelarea statistică), Apache Spark (pentru analiza datelor în flux), D3.js (pentru vizualizări interactive în browser) și Jupyter (pentru blocuri de cod și vizualizări interactive și partajabile).

Foto: Seonjae Jo via Flickr, CC BY SA 2.0 (https://www.flickr.com/photos/130860834@N02/19786840570)
Exemple de știință a datelor
Exemplele de știință a datelor și aplicațiile sale sunt peste tot. Știința datelor are aplicații în tot, de la livrarea de alimente, sport, trafic și sănătate. Datele sunt peste tot, deci știința datelor poate fi aplicată la orice.
În ceea ce privește alimentele, Uber investește în extinderea sistemului său de ride-sharing, concentrat pe livrarea de alimente, Uber Eats. Uber Eats trebuie să livreze oamenilor alimente într-un mod oportun, în timp ce acestea sunt încă calde și proaspete. Pentru ca acest lucru să se întâmple, specialiștii în știința datelor ai companiei trebuie să folosească modelarea statistică care ia în considerare aspecte precum distanța de la restaurante la punctele de livrare, valurile de sărbători, timpul de gătit și chiar condițiile meteo, toate luate în considerare cu scopul de a optimiza timpul de livrare.
Statistici sportive sunt utilizate de managerii de echipe pentru a determina care sunt cei mai buni jucători și pentru a forma echipe puternice și fiabile care vor câștiga jocuri. Un exemplu notabil este știința datelor documentată de Michael Lewis în cartea Moneyball, unde managerul general al echipei Oakland Athletics a analizat o varietate de statistici pentru a identifica jucători de calitate care ar putea fi semnați de echipă la un cost relativ scăzut.
Analiza modelelor de trafic este esențială pentru crearea de vehicule autonome. Vehiculele autonome trebuie să poată prezice activitatea din jurul lor și să răspundă la schimbări ale condițiilor drumului, cum ar fi distanța de oprire crescută necesară atunci când plouă, precum și prezența mai multor mașini pe drum în timpul orelor de vârf. Dincolo de vehiculele autonome, aplicații precum Google Maps analizează modelele de trafic pentru a spune călătorilor cât timp le va lua să ajungă la destinație utilizând diferite rute și moduri de transport.
În ceea ce privește datele de sănătate, știința datelor combină adesea viziunea computerizată cu învățarea automată și alte tehnici de inteligență artificială pentru a crea clasificatori de imagini capabili să examineze lucruri precum radiografii, imagini RMN și ecografii pentru a vedea dacă există probleme medicale potențiale care ar putea apărea în scanare. Acești algoritmi pot fi utilizați pentru a ajuta clinicienii să diagnosticheze boli.
În cele din urmă, știința datelor acoperă o mulțime de activități și adună aspecte din diferite discipline. Cu toate acestea, știința datelor se ocupă întotdeauna de a spune povești interesante și convingătoare din date și de a folosi datele pentru a înțelege mai bine lumea.












