mozzicone Cos'è la scienza dei dati? - Unite.AI
Seguici sui social
Corso di perfezionamento sull'intelligenza artificiale:

AI 101

Che cos'è la scienza dei dati?

mm
aggiornato on

Il campo della scienza dei dati sembra diventare sempre più grande e più popolare ogni giorno. Secondo LinkedIn, scienza dei dati è stato uno dei campi di lavoro in più rapida crescita nel 2017 e nel 2020 Glassdoor ha classificato il lavoro di data science come uno dei tre migliori lavori negli Stati Uniti. Data la crescente popolarità della scienza dei dati, non sorprende che sempre più persone si stiano interessando al campo. Ma cos'è esattamente la scienza dei dati?

Facciamo conoscenza con la scienza dei dati, prendendoci del tempo per definire la scienza dei dati, esplorare come i big data e l'intelligenza artificiale stanno cambiando il campo, conoscere alcuni strumenti di scienza dei dati comuni ed esaminare alcuni esempi di scienza dei dati.

Che cos'è la scienza dei dati?

Prima di poter esplorare qualsiasi strumento o esempio di data science, vorremmo ottenere una definizione concisa di scienza dei dati.

Definire "scienza dei dati" è in realtà un po' complicato, perché il termine viene applicato a molti diversi compiti e metodi di indagine e analisi. Possiamo iniziare ricordandoci cosa significa il termine "scienza". La scienza è lo studio sistematico del mondo fisico e naturale attraverso l'osservazione e la sperimentazione, con l'obiettivo di far progredire la comprensione umana dei processi naturali. Le parole importanti in quella definizione sono "osservazione" e "comprensione".

Se la scienza dei dati è il processo di comprensione del mondo dai modelli nei dati, allora il responsabilità di un data scientist è trasformare i dati, analizzare i dati ed estrarre modelli dai dati. In altre parole, a uno scienziato dei dati vengono forniti dati e utilizza una serie di strumenti e tecniche diversi per preelaborare i dati (prepararli per l'analisi) e quindi analizzare i dati per modelli significativi.

Il ruolo di un data scientist è simile al ruolo di uno scienziato tradizionale. Entrambi si occupano dell'analisi dei dati sostenere o rifiutare ipotesi su come funziona il mondo, cercando di dare un senso ai modelli nei dati per migliorare la nostra comprensione del mondo. I data scientist utilizzano gli stessi metodi scientifici di uno scienziato tradizionale. Uno scienziato di dati inizia raccogliendo osservazioni su alcuni fenomeni che vorrebbe studiare. Quindi formulano un'ipotesi sul fenomeno in questione e cercano di trovare dati che annullino in qualche modo la loro ipotesi.

Se l'ipotesi non è contraddetta dai dati, potrebbero essere in grado di costruire una teoria, o un modello, su come funziona il fenomeno, che possono continuare a testare ancora e ancora vedendo se è vero per altri set di dati simili. Se un modello è sufficientemente robusto, se spiega bene i modelli e non viene annullato durante altri test, può anche essere utilizzato per prevedere le occorrenze future di quel fenomeno.

Un data scientist in genere non raccoglierà i propri dati attraverso un esperimento. Di solito non progettano esperimenti con controlli e prove in doppio cieco per scoprire variabili confondenti che potrebbero interferire con un'ipotesi. La maggior parte dei dati analizzati da un data scientist saranno dati acquisiti attraverso studi e sistemi osservazionali, il che è un modo in cui il lavoro di un data scientist potrebbe differire dal lavoro di uno scienziato tradizionale, che tende a eseguire più esperimenti.

Detto questo, uno scienziato dei dati potrebbe essere chiamato a fare una forma di sperimentazione chiamato test A/B dove vengono apportate modifiche a un sistema che raccoglie dati per vedere come cambiano i modelli di dati.

Indipendentemente dalle tecniche e dagli strumenti utilizzati, la scienza dei dati mira in definitiva a migliorare la nostra comprensione del mondo dando un senso ai dati e i dati vengono acquisiti attraverso l'osservazione e la sperimentazione. La scienza dei dati è il processo di utilizzo di algoritmi, principi statistici e vari strumenti e macchine per trarre intuizioni dai dati, intuizioni che ci aiutano a comprendere i modelli nel mondo che ci circonda.

Cosa fanno gli scienziati dei dati?

Potresti vedere che qualsiasi attività che implichi l'analisi dei dati in modo scientifico può essere chiamata data science, il che fa parte di ciò che rende la definizione di data science così difficile. Per renderlo più chiaro, esploriamo alcune delle attività che un data scientist potresti fare su base giornaliera.

La scienza dei dati riunisce molte discipline e specialità diverse. Foto: Calvin Andrus tramite Wikimeedia Commons, CC BY SA 3.0 (https://commons.wikimedia.org/wiki/File:DataScienceDisciplines.png)

In un dato giorno, a uno scienziato dei dati potrebbe essere chiesto di: creare schemi di archiviazione e recupero dei dati, creare pipeline ETL (estrazione, trasformazione, caricamento) dei dati e ripulire i dati, utilizzare metodi statistici, creare visualizzazioni e dashboard dei dati, implementare l'intelligenza artificiale e algoritmi di apprendimento automatico, formulano raccomandazioni per azioni basate sui dati.

Suddividiamo un po' le attività sopra elencate.

A un data scientist potrebbe essere richiesto di gestire l'installazione delle tecnologie necessarie per archiviare e recuperare i dati, prestando attenzione sia all'hardware che al software. La persona responsabile di questa posizione può anche essere indicata come "Ingegnere dati”. Tuttavia, alcune aziende includono queste responsabilità nel ruolo di data scientist. Un data scientist può anche aver bisogno di creare, o assistere nella creazione di, Pipeline ETL. I dati molto raramente vengono formattati proprio come serve a uno scienziato di dati. Invece, i dati dovranno essere ricevuti in forma grezza dall'origine dati, trasformati in un formato utilizzabile e preelaborati (cose come la standardizzazione dei dati, l'eliminazione delle ridondanze e la rimozione dei dati danneggiati).

Metodi statistici della scienza dei dati

I applicazione della statistica è necessario trasformare la semplice osservazione dei dati e la loro interpretazione in una vera e propria scienza. Metodi statistici vengono utilizzati per estrarre modelli rilevanti dai set di dati e uno scienziato dei dati deve essere esperto di concetti statistici. Devono essere in grado di discernere correlazioni significative da correlazioni spurie controllando le variabili confondenti. Devono inoltre conoscere gli strumenti giusti da utilizzare per determinare quali caratteristiche nel set di dati sono importanti per il loro modello/hanno potere predittivo. Uno scienziato di dati deve sapere quando utilizzare un approccio di regressione rispetto a un approccio di classificazione e quando preoccuparsi della media di un campione rispetto alla mediana di un campione. Un data scientist non sarebbe uno scienziato senza queste competenze cruciali.

Visualizzazione dati

Una parte cruciale del lavoro di un data scientist è comunicare le proprie scoperte ad altri. Se uno scienziato di dati non può comunicare efficacemente le proprie scoperte ad altri, le implicazioni delle loro scoperte non contano. Uno scienziato di dati dovrebbe essere anche un narratore efficace. Ciò significa produrre visualizzazioni che comunicano punti rilevanti sul set di dati e sui modelli scoperti al suo interno. C'è un gran numero di diversi visualizzazione dati strumenti che un data scientist potrebbe utilizzare e possono visualizzare i dati ai fini dell'esplorazione iniziale di base (analisi esplorativa dei dati) o visualizzare i risultati prodotti da un modello.

Raccomandazioni e applicazioni aziendali

Uno scienziato di dati deve avere una certa intuizione dei requisiti e degli obiettivi della propria organizzazione o attività. Uno scienziato di dati deve comprendere queste cose perché ha bisogno di sapere quali tipi di variabili e caratteristiche dovrebbero analizzare, esplorando modelli che aiuteranno la propria organizzazione a raggiungere i propri obiettivi. I data scientist devono essere consapevoli dei vincoli in base ai quali operano e delle ipotesi formulate dalla leadership dell'organizzazione.

Machine learning e AI

apprendimento automatico e altri algoritmi e modelli di intelligenza artificiale sono strumenti utilizzati dai data scientist per analizzare i dati, identificare modelli all'interno dei dati, discernere le relazioni tra variabili e fare previsioni su eventi futuri.

Scienza dei dati tradizionale vs Scienza dei big data

Man mano che i metodi di raccolta dei dati sono diventati più sofisticati e i database più grandi, è emersa una differenza tra la scienza dei dati tradizionale e "Big data" scienza.

L'analisi dei dati e la scienza dei dati tradizionali vengono eseguite con analisi descrittive ed esplorative, con l'obiettivo di trovare modelli e analizzare i risultati delle prestazioni dei progetti. I metodi tradizionali di analisi dei dati spesso si concentrano solo sui dati passati e sui dati attuali. Gli analisti di dati spesso si occupano di dati che sono già stati ripuliti e standardizzati, mentre i data scientist spesso si occupano di dati complessi e sporchi. Tecniche di analisi dei dati e di scienza dei dati più avanzate potrebbero essere utilizzate per prevedere il comportamento futuro, sebbene ciò avvenga più spesso con i big data, poiché i modelli predittivi spesso richiedono grandi quantità di dati per essere costruiti in modo affidabile.

"Big data" si riferisce a dati troppo grandi e complessi per essere gestiti con le tecniche e gli strumenti scientifici e di analisi dei dati tradizionali. I big data vengono spesso raccolti tramite piattaforme online e vengono utilizzati strumenti avanzati di trasformazione dei dati per rendere i grandi volumi di dati pronti per l'ispezione da parte della scienza dei dati. Poiché vengono raccolti sempre più dati, più di un lavoro di data scientist comporta l'analisi dei big data.

Strumenti di scienza dei dati

Scienza dei dati comune strumenti includono strumenti per archiviare dati, eseguire analisi esplorative dei dati, modellare i dati, eseguire ETL e visualizzare i dati. Piattaforme come Amazon Web Services, Microsoft Azure e Google Cloud offrono tutti strumenti per aiutare i data scientist ad archiviare, trasformare, analizzare e modellare i dati. Esistono anche strumenti di data science autonomi come Airflow (infrastruttura dati) e Tableau (visualizzazione e analisi dei dati).

In termini di machine learning e algoritmi di intelligenza artificiale utilizzati per modellare i dati, vengono spesso forniti tramite moduli e piattaforme di data science come TensorFlow, PyTorch e Azure Machine-learning studio. Queste piattaforme come i data scientist apportano modifiche ai propri set di dati, compongono architetture di machine learning e addestrano modelli di machine learning.

Altri strumenti e librerie di data science comuni includono SAS (per la modellazione statistica), Apache Spark (per l'analisi di dati in streaming), D3.js (per visualizzazioni interattive nel browser) e Jupyter (per blocchi di codice e visualizzazioni interattive e condivisibili) .

Foto: Seonjae Jo tramite Flickr, CC BY SA 2.0 (https://www.flickr.com/photos/130860834@N02/19786840570)

Esempi di scienza dei dati

Esempi di scienza dei dati e delle sue applicazioni sono ovunque. La scienza dei dati ha applicazioni in tutto, dalla consegna di cibo, sport, traffico e salute. I dati sono ovunque e quindi la scienza dei dati può essere applicata a tutto.

In termini di cibo, Uber sta investendo in un'espansione del suo sistema di ride-sharing incentrato sulla consegna di cibo, Uber mangia. Uber Eats ha bisogno di fornire alle persone il cibo in modo tempestivo, mentre è ancora caldo e fresco. Affinché ciò avvenga, i data scientist dell'azienda devono utilizzare modelli statistici che tengano conto di aspetti come la distanza dai ristoranti ai punti di consegna, le corse durante le vacanze, i tempi di cottura e persino le condizioni meteorologiche, tutti considerati con l'obiettivo di ottimizzare i tempi di consegna .

Le statistiche sportive vengono utilizzate dai team manager per determinare chi sono i migliori giocatori e formare squadre forti e affidabili che vinceranno le partite. Un esempio notevole è la scienza dei dati documentata da Michael Lewis nel libro Moneyball, in cui il direttore generale della squadra di Oakland Athletics ha analizzato una serie di statistiche per identificare giocatori di qualità che potrebbero essere ingaggiati per la squadra a un costo relativamente basso.

L'analisi dei modelli di traffico è fondamentale per la creazione di veicoli a guida autonoma. Veicoli a guida autonoma devono essere in grado di prevedere l'attività intorno a loro e rispondere ai cambiamenti delle condizioni stradali, come la maggiore distanza di arresto richiesta quando piove, così come la presenza di più auto sulla strada nelle ore di punta. Oltre ai veicoli a guida autonoma, app come Google Maps analizzano i modelli di traffico per indicare ai pendolari quanto tempo impiegheranno per arrivare a destinazione utilizzando vari percorsi e mezzi di trasporto.

In termini di scienza dei dati sanitari, la visione artificiale è spesso combinata con l'apprendimento automatico e altre tecniche di intelligenza artificiale per creare classificatori di immagini in grado di esaminare elementi come raggi X, FMRI ed ultrasuoni per vedere se ci sono potenziali problemi medici che potrebbero apparire nella scansione. Questi algoritmi possono essere utilizzati per aiutare i medici a diagnosticare la malattia.

In definitiva, la scienza dei dati copre numerose attività e riunisce aspetti di diverse discipline. Tuttavia, la scienza dei dati si occupa sempre di raccontare storie avvincenti e interessanti dai dati e di utilizzare i dati per comprendere meglio il mondo.

Blogger e programmatore con specialità in machine Learning ed Deep Learning temi. Daniel spera di aiutare gli altri a usare il potere dell'intelligenza artificiale per il bene sociale.