Connect with us

IA 101

Cos’è la Scienza dei Dati?

mm

Il campo della scienza dei dati sembra diventare sempre più grande e popolare ogni giorno. Secondo LinkedIn, la scienza dei dati è stata una delle aree di lavoro in più rapida crescita nel 2017 e nel 2020 Glassdoor ha classificato il lavoro di scienza dei dati come uno dei tre migliori lavori negli Stati Uniti. Data la crescente popolarità della scienza dei dati, non sorprende che sempre più persone si stanno interessando a questo campo. Eppure, cosa è esattamente la scienza dei dati?

Facciamo la conoscenza con la scienza dei dati, prendendoci il tempo di definire la scienza dei dati, esplorare come i big data e l’intelligenza artificiale stanno cambiando il campo, imparare alcuni strumenti comuni di scienza dei dati e esaminare alcuni esempi di scienza dei dati.

Cos’è la Scienza dei Dati?

Prima di poter esplorare gli strumenti o gli esempi di scienza dei dati, vogliamo ottenere una definizione concisa di scienza dei dati.

Definire “scienza dei dati” è in realtà un po’ difficile, perché il termine è applicato a molti compiti e metodi di indagine e analisi diversi. Possiamo iniziare ricordandoci cosa significa il termine “scienza”. La scienza è lo studio sistematico del mondo fisico e naturale attraverso l’osservazione e l’esperimento, con l’obiettivo di avanzare la comprensione umana dei processi naturali. Le parole importanti in questa definizione sono “osservazione” e “comprensione”.

Se la scienza dei dati è il processo di comprensione del mondo attraverso i modelli nei dati, allora la responsabilità di un data scientist è quella di trasformare i dati, analizzare i dati ed estrarre modelli dai dati. In altre parole, un data scientist riceve i dati e utilizza una serie di strumenti e tecniche diversi per preprocessare i dati (renderli pronti per l’analisi) e poi analizzare i dati per modelli significativi.

Il ruolo di un data scientist è simile a quello di uno scienziato tradizionale. Entrambi sono preoccupati dell’analisi dei dati per supportare o respingere ipotesi su come funziona il mondo, cercando di dare un senso ai modelli nei dati per migliorare la nostra comprensione del mondo. I data scientist utilizzano gli stessi metodi scientifici di uno scienziato tradizionale. Un data scientist inizia raccogliendo osservazioni su un fenomeno che desidera studiare. Quindi formula un’ipotesi sul fenomeno in questione e cerca di trovare dati che contraddicono in qualche modo la sua ipotesi.

Se l’ipotesi non è contraddetta dai dati, potrebbe essere in grado di costruire una teoria o un modello su come funziona il fenomeno, che può essere ulteriormente testato ripetutamente per vedere se è vero per altri set di dati simili. Se un modello è sufficientemente robusto, se spiega bene i modelli e non è annullato durante altri test, può anche essere utilizzato per prevedere future occorrenze di quel fenomeno.

Un data scientist di solito non raccoglie i propri dati attraverso un esperimento. Di solito non progetta esperimenti con controlli e prove in doppio cieco per scoprire variabili di confondimento che potrebbero interferire con un’ipotesi. La maggior parte dei dati analizzati da un data scientist sarà costituita da dati ottenuti attraverso studi osservazionali e sistemi, il che è un modo in cui il lavoro di un data scientist potrebbe differire da quello di uno scienziato tradizionale, che tende a eseguire più esperimenti.

Tuttavia, un data scientist potrebbe essere chiamato a eseguire una forma di sperimentazione chiamata test A/B dove vengono apportate modifiche a un sistema che raccoglie dati per vedere come cambiano i modelli dei dati.

Indipendentemente dalle tecniche e dagli strumenti utilizzati, la scienza dei dati ha l’obiettivo finale di migliorare la nostra comprensione del mondo dando un senso ai dati, e i dati sono ottenuti attraverso l’osservazione e l’esperimento. La scienza dei dati è il processo di utilizzo di algoritmi, principi statistici e vari strumenti e macchine per trarre informazioni dai dati, informazioni che ci aiutano a comprendere i modelli nel mondo intorno a noi.

Cosa Fanno i Data Scientist?

Potresti notare che qualsiasi attività che coinvolge l’analisi dei dati in modo scientifico può essere chiamata scienza dei dati, il che è parte di ciò che rende difficile definire la scienza dei dati. Per chiarire, esploriamo alcune delle attività che un data scientist potrebbe fare quotidianamente.

La scienza dei dati unisce molte discipline e specializzazioni diverse. Photo: Calvin Andrus via Wikimeedia Commons, CC BY SA 3.0 (https://commons.wikimedia.org/wiki/File:DataScienceDisciplines.png)

In qualsiasi giorno, un data scientist potrebbe essere chiamato a: creare schemi di archiviazione e recupero dei dati, creare pipeline di ETL (estrazione, trasformazione, caricamento) e pulire i dati, impiegare metodi statistici, creare visualizzazioni dei dati e dashboard, implementare algoritmi di intelligenza artificiale e apprendimento automatico, fornire raccomandazioni per azioni basate sui dati.

Vediamo di scomporre un po’ i compiti elencati sopra.

Un data scientist potrebbe essere tenuto a gestire l’installazione delle tecnologie necessarie per archiviare e recuperare i dati, prestando attenzione sia all’hardware che al software. La persona responsabile di questa posizione potrebbe anche essere chiamata “Data Engineer“. Tuttavia, alcune aziende includono queste responsabilità nel ruolo dei data scientist. Un data scientist potrebbe anche avere bisogno di creare, o assistere nella creazione di, pipeline di ETL. I dati raramente arrivano già formattati come un data scientist li necessita. Invece, i dati avranno bisogno di essere ricevuti in forma grezza dalla fonte dei dati, trasformati in un formato utilizzabile e preelaborati (cose come la standardizzazione dei dati, l’eliminazione delle ridondanze e la rimozione dei dati corrotti).

Metodi Statistici della Scienza dei Dati

L’applicazione della statistica è necessaria per trasformare il semplice esame dei dati e la loro interpretazione in una vera scienza. I metodi statistici sono utilizzati per estrarre modelli rilevanti dai set di dati, e un data scientist deve essere ben versato in concetti statistici. Devono essere in grado di discernere correlazioni significative da quelle spurie controllando le variabili di confondimento. Devono anche sapere quali strumenti utilizzare per determinare quali caratteristiche nel set di dati sono importanti per il loro modello/hanno un potere predittivo. Un data scientist deve sapere quando utilizzare un approccio di regressione rispetto a un approccio di classificazione, e quando curarsi della media di un campione rispetto alla mediana di un campione. Un data scientist non sarebbe uno scienziato senza queste abilità cruciali.

Visualizzazione dei Dati

Una parte cruciale del lavoro di un data scientist è quella di comunicare i propri risultati agli altri. Se un data scientist non può comunicare efficacemente i propri risultati agli altri, allora le implicazioni dei propri risultati non hanno importanza. Un data scientist dovrebbe essere un narratore efficace. Ciò significa produrre visualizzazioni che comunicano punti rilevanti sul set di dati e sui modelli scoperti al suo interno. Esiste un gran numero di diversi strumenti di visualizzazione dei dati che un data scientist potrebbe utilizzare, e potrebbe visualizzare i dati per scopi di esplorazione iniziale, di base (analisi dei dati esplorativa) o visualizzare i risultati che un modello produce.

Raccomandazioni e Applicazioni Aziendali

Un data scientist deve avere una certa intuizione delle esigenze e degli obiettivi della propria organizzazione o azienda. Un data scientist deve comprendere queste cose perché deve sapere quali variabili e caratteristiche dovrebbe analizzare, esplorando modelli che aiuteranno la propria organizzazione a raggiungere i propri obiettivi. I data scientist devono essere consapevoli dei vincoli operativi e delle ipotesi che la dirigenza dell’azienda sta facendo.

Apprendimento Automatico e Intelligenza Artificiale

L’apprendimento automatico e altri algoritmi e modelli di intelligenza artificiale sono strumenti utilizzati dai data scientist per analizzare i dati, identificare modelli all’interno dei dati, discernere relazioni tra variabili e prevedere eventi futuri.

Scienza dei Dati Tradizionale vs. Scienza dei Big Data

Man mano che i metodi di raccolta dei dati sono diventati più sofisticati e i database più grandi, è emersa una differenza tra la scienza dei dati tradizionale e la “scienza dei big data”.

L’analisi dei dati tradizionale e la scienza dei dati vengono eseguite con analisi descrittive ed esplorative, con l’obiettivo di trovare modelli e analizzare i risultati delle prestazioni dei progetti. I metodi di analisi dei dati tradizionali si concentrano spesso solo sui dati passati e attuali. Gli analisti dei dati di solito trattano dati che sono già stati puliti e standardizzati, mentre i data scientist di solito trattano dati complessi e “sporchi”. Le tecniche di analisi dei dati più avanzate e la scienza dei dati potrebbero essere utilizzate per prevedere il comportamento futuro, sebbene ciò sia più spesso fatto con i big data, poiché i modelli predittivi spesso richiedono grandi quantità di dati per essere costruiti in modo affidabile.

I “big data” si riferiscono ai dati che sono troppo grandi e complessi per essere gestiti con tecniche e strumenti di analisi dei dati e scienza dei dati tradizionali. I big data vengono spesso raccolti attraverso piattaforme online e strumenti avanzati di trasformazione dei dati vengono utilizzati per rendere i grandi volumi di dati pronti per l’ispezione da parte della scienza dei dati. Man mano che vengono raccolti sempre più dati, il lavoro di un data scientist coinvolge sempre più l’analisi dei big data.

Strumenti di Scienza dei Dati

Gli strumenti comuni di scienza dei dati includono strumenti per archiviare i dati, eseguire l’analisi dei dati esplorativa, modellare i dati, eseguire l’ETL e visualizzare i dati. Piattaforme come Amazon Web Services, Microsoft Azure e Google Cloud offrono strumenti per aiutare i data scientist ad archiviare, trasformare, analizzare e modellare i dati. Ci sono anche strumenti di scienza dei dati autonomi come Airflow (infrastruttura dei dati) e Tableau (analisi e visualizzazione dei dati).

Per quanto riguarda gli algoritmi di apprendimento automatico e intelligenza artificiale utilizzati per modellare i dati, vengono spesso forniti attraverso moduli e piattaforme di scienza dei dati come TensorFlow, PyTorch e Azure Machine Learning Studio. Queste piattaforme consentono ai data scientist di apportare modifiche ai propri set di dati, comporre architetture di apprendimento automatico e addestrare modelli di apprendimento automatico.

Altri strumenti comuni di scienza dei dati e librerie includono SAS (per la modellazione statistica), Apache Spark (per l’analisi dei dati in streaming), D3.js (per visualizzazioni interattive nel browser) e Jupyter (per blocchi di codice interattivi e condivisibili e visualizzazioni).

Photo: Seonjae Jo via Flickr, CC BY SA 2.0 (https://www.flickr.com/photos/130860834@N02/19786840570)

Esempi di Scienza dei Dati

Gli esempi di scienza dei dati e delle sue applicazioni sono ovunque. La scienza dei dati ha applicazioni in tutto, dalla consegna di cibo, agli sport, al traffico e alla salute. I dati sono ovunque e quindi la scienza dei dati può essere applicata a tutto.

Per quanto riguarda il cibo, Uber sta investendo in un’estensione del proprio sistema di condivisione di passaggi focalizzato sulla consegna di cibo, Uber Eats. Uber Eats deve consegnare il cibo alle persone in modo tempestivo, mentre è ancora caldo e fresco. Affinché ciò accada, i data scientist dell’azienda devono utilizzare la modellazione statistica che tiene conto di aspetti come la distanza dai ristoranti ai punti di consegna, le festività, il tempo di cottura e persino le condizioni meteorologiche, considerate con l’obiettivo di ottimizzare i tempi di consegna.

Le statistiche sportive vengono utilizzate dai manager delle squadre per determinare quali sono i migliori giocatori e formare squadre forti e affidabili che possano vincere le partite. Un esempio notevole è la scienza dei dati documentata da Michael Lewis nel libro Moneyball, in cui il direttore generale della squadra degli Oakland Athletics ha analizzato una serie di statistiche per identificare giocatori di qualità che potevano essere firmati dalla squadra a un costo relativamente basso.

L’analisi dei modelli di traffico è fondamentale per la creazione di veicoli autonomi. I veicoli autonomi devono essere in grado di prevedere l’attività intorno a loro e rispondere ai cambiamenti nelle condizioni stradali, come la maggiore distanza di frenata richiesta quando piove, nonché la presenza di più auto sulla strada durante le ore di punta. Oltre ai veicoli autonomi, app come Google Maps analizzano i modelli di traffico per dire ai pendolari quanto tempo ci vorrà per raggiungere la propria destinazione utilizzando vari percorsi e mezzi di trasporto.

Per quanto riguarda la scienza dei dati sanitari, la visione computerizzata viene spesso combinata con l’apprendimento automatico e altre tecniche di intelligenza artificiale per creare classificatori di immagini in grado di esaminare cose come radiografie, FMRi e ultrasuoni per vedere se ci sono potenziali problemi di salute che potrebbero mostrarsi nell’esame. Questi algoritmi possono essere utilizzati per aiutare i clinici a diagnosticare le malattie.

In definitiva, la scienza dei dati copre numerose attività e unisce aspetti di diverse discipline. Tuttavia, la scienza dei dati è sempre preoccupata di raccontare storie interessanti e coinvolgenti a partire dai dati, e di utilizzare i dati per migliorare la nostra comprensione del mondo.

Blogger e programmatore con specializzazioni in Machine Learning e Deep Learning argomenti. Daniel spera di aiutare gli altri a utilizzare il potere dell'AI per il bene sociale.