Leader di pensiero

I team di dati sono morti, lunga vita ai team di dati

mm

Sì, il titolo è clickbait e provocatorio, ma come CTO con molti anni di esperienza nei dati, ho assistito a una trasformazione che giustifica il dramma. Il tradizionale “team di dati” – il team di back-office che elabora report e dashboard – è effettivamente morto. Al suo posto, emerge un nuovo tipo di team di dati: un team che si concentra sull’intelligenza artificiale e sui prodotti, con un impatto diretto sulle entrate. Non sono più un centro di costo, ma un gruppo che genera profitti.

Il viaggio dall’intelligenza aziendale all’apprendimento automatico

Non molto tempo fa, i team di dati erano sinonimi di intelligenza aziendale (BI). Eravamo gli storici dei dati aziendali, vivendo in SQL e fogli di calcolo, incaricati di rispondere a “Cosa è successo lo scorso trimestre?” Quando sono emerse tecnologie di big data come Hadoop e il termine “scienziato dei dati” è diventato il nuovo lavoro alla moda, i team di dati si sono evoluti. A metà degli anni 2010, facevamo più che semplici report; ci siamo avventurati nell’analisi dei dati e nell’analisi interattiva, producendo dashboard dinamiche per ogni dipartimento. Il lavoro consisteva nel gestire i dati, mescolando set di dati da fonti e forme disparate, e cercando di comprendere la conoscenza del dominio.

Poi, alla fine degli anni 2010, è arrivata l’era dell’apprendimento automatico. I team di dati hanno iniziato ad assumere scienziati dei dati per costruire modelli predittivi e scoprire insight in vasti set di dati. Siamo passati dal descrivere il passato a prevedere il futuro: modelli di abbandono, motori di raccomandazione, previsioni della domanda – potete nominare. Ma anche allora, i nostri output erano presentazioni e insight, non prodotti live. Funzionavamo come un ufficio di servizio interno, consigliando l’azienda attraverso l’analisi. In altre parole, eravamo centri di costo – preziosi, sì, ma a un passo di distanza dal prodotto e dalle entrate.

Nei migliori casi, i team di apprendimento automatico erano dispersi in unità separate o incorporati all’interno di gruppi di prodotti, in modo che i loro modelli e inferenze potessero essere completamente integrati nelle piattaforme. La grande divisione ha portato a numerosi progetti falliti, investimenti sommersi e opportunità perse.

GenAI: dalla funzione di supporto al centro di profitto

Poi è arrivato GenAI e tutto è cambiato. Il rilascio di potenti modelli linguistici di grandi dimensioni, come la famiglia GPT e le varianti open-source come Llama, ha capovolto il paesaggio virtualmente da un giorno all’altro. Improvvisamente, i team di dati non stavano più solo analizzando l’azienda, ma stavano diventando integrali per la costruzione di prodotti e esperienze di intelligenza artificiale. Quando si integra con successo un modello LLM in un’applicazione rivolta al cliente o in un flusso di lavoro interno, non si sta più solo informando l’azienda; la si sta guidando. Un sistema GenAI ben implementato può automatizzare il supporto clienti, generare contenuti di marketing, personalizzare le esperienze utente o anche fornire i dati necessari per informare e formare sistemi di intelligenza artificiale emergenti. Queste capacità influiscono direttamente sui flussi di entrate. In effetti, il prodotto del lavoro del team di dati è passato da slide di PowerPoint a applicazioni di intelligenza artificiale live.

I team GenAI sono iniziati con gruppi di innovazione, consegnando prove di concetto che generavano “fattore wow”. E presto, tutti sono diventati ingegneri di intelligenza artificiale, diffondendo shadow IT in tutta l’organizzazione.

I team di dati si sono presto trovati di fronte a una nuova domanda: “Quando diventerete un centro di profitto?” Mentre gli ingegneri di intelligenza artificiale iniziavano a creare strumenti incredibili, era chiaro che era giunto il momento di fondere due team: quelli che controllavano i dati e quelli che costruivano le applicazioni.

Considerate un’azienda di vendita al dettaglio che distribuisce un chatbot GenAI per la gestione delle richieste di vendita, o una banca che lancia un consulente di investimenti personalizzato guidato da intelligenza artificiale. Queste non sono tradizionali attività di IT laterali – sono prodotti digitali che creano valore per il cliente e generano entrate. Tuttavia, allo stesso tempo, per creare questi sistemi su larga scala, i team di ingegneria di intelligenza artificiale devono essere in grado di accedere e operazionalizzare i dati che i team tradizionali hanno preparato.

I dirigenti se ne sono accorti. Le aspettative dei team di dati sono ora altissime, con consigli di amministrazione e CEO che si aspettano da noi il prossimo vettore di crescita alimentato da intelligenza artificiale. Siamo passati dall’essere analisti dietro le quinte a innovatori di prima linea. È una posizione emozionante in cui trovarsi, ma viene con una pressione intensa per consegnare risultati su larga scala.

Dal’esplorazione al prodotto – una porta a senso unico

Il passaggio dall’analisi esplorativa all’intelligenza artificiale centrata sul prodotto è profondo e irreversibile. Perché irreversibile? Perché l’impatto di GenAI sul business si sta rivelando troppo grande per relegarlo nuovamente a un giocattolo di R&D. Secondo un recente sondaggio globale, il 96% dei leader IT ha ora integrato l’intelligenza artificiale nei loro processi core – rispetto al 88% solo un anno fa. In altre parole, quasi ogni azienda è passata dall’esperimentare con l’intelligenza artificiale all’incorporarla in flussi di lavoro mission-critical. Una volta che si supera la soglia in cui l’intelligenza artificiale sta consegnando valore in produzione, non c’è più ritorno.

Questa nuova focalizzazione sull’intelligenza artificiale cambia il ritmo e la mentalità dei team di dati. In passato, avevamo il lusso di progetti di scoperta a lungo termine e analisi aperte. Oggi, se stiamo costruendo una funzionalità di intelligenza artificiale, deve essere pronta per la produzione, conforme e affidabile – come qualsiasi prodotto rivolto al cliente. Siamo entrati in ciò che alcuni chiamano l’“Età autonoma” della scienza dei dati. La domanda che guida il nostro lavoro non è più “quali insight possiamo scoprire?” ma “quale sistema intelligente possiamo costruire che agisce sugli insight in tempo reale?”

I sistemi GenAI non stanno più solo rispondendo a domande; stanno iniziando a prendere decisioni. È una porta a senso unico: dopo aver sperimentato questo tipo di autonomia e impatto, le aziende non si accontenteranno più di report statici e decisioni manuali. Ora più che mai, i team di dati devono essere orientati ai stakeholder e ai prodotti.

La dura verità: perché la maggior parte delle iniziative GenAI fallisce

In mezzo a tutto l’entusiasmo, c’è una realtà sobria: la maggior parte delle iniziative GenAI fallisce. Risulta che il deploy di GenAI di successo è estremamente impegnativo. Uno studio recente del MIT ha scoperto che un numero sbalorditivo del 95% dei progetti pilota di intelligenza artificiale aziendale non consegna un ROI misurabile. Solo circa il 5% dei piloti di intelligenza artificiale raggiunge effettivamente rapidi guadagni di entrate o un impatto aziendale significativo. Ciò non è dovuto alla mancanza di potenziale – è dovuto alla complessità di fare l’intelligenza artificiale nel modo giusto.

Scavando nelle cause del fallimento, la ricerca del MIT dipinge un quadro chiaro. Molti progetti inciampano a causa di “ipérbole sul lavoro duro” – i team inseguono casi d’uso dimostrativi appariscenti invece di investire nei fondamentali noiosi dell’integrazione, della convalida e del monitoraggio. Altri falliscono a causa del classico sindrome “spazzatura dentro, spazzatura fuori” – la scarsa qualità dei dati e le pipeline di dati isolate condannano il progetto prima che l’intelligenza artificiale possa fare il suo lavoro. Spesso, non è il modello di intelligenza artificiale che è difettoso, è l’ambiente circostante. Come i ricercatori lo mettono, GenAI non fallisce nel laboratorio; fallisce nell’azienda quando collide con obiettivi vaghi, dati scadenti e inerzia organizzativa. Nella pratica, la maggior parte dei piloti di intelligenza artificiale si ferma allo stadio della prova di concetto e non si laurea mai al deploy di produzione completo.

Questa verifica della realtà è una lezione preziosa. Ci dice che anche se i team di dati sono ora sotto i riflettori, la maggior parte di loro sta lottando per soddisfare le aspettative aumentate. Perché GenAI abbia successo su larga scala, dobbiamo superare una barra significativamente più alta di quella che abbiamo fatto nei vecchi giorni di intelligenza aziendale.

Oltre le promesse intelligenti: dati, governance e infrastruttura contano

Cosa separa il 5% dei progetti di intelligenza artificiale che prosperano dal 95% che inciampa? Nella mia esperienza (e come conferma la ricerca), i vincitori si concentrano su capacità fondamentali – dati, governance e infrastruttura. GenAI non è magia; è costruito sui dati. Senza pipeline di dati di alta qualità, ben governate, che alimentano i vostri modelli, anche la migliore intelligenza artificiale produrrà risultati erratici. Summit Partners lo ha espresso bene in un’analisi recente: “il successo di qualsiasi sistema o processo che utilizza l’intelligenza artificiale dipende dalla qualità, dalla struttura e dall’accessibilità dei dati che lo alimentano.”

In termini pratici, ciò significa che le organizzazioni devono raddoppiare gli sforzi sull’architettura dei dati e sulla governance man mano che adottano GenAI. Avete archivi di dati unificati e accessibili che la vostra intelligenza artificiale può attingere (e intendo tutti gli archivi di dati, compresi i centri di dati, gli iperscalers e i sistemi SaaS di terze parti, tra gli altri)? I dati sono puliti, curati e conformi alle normative? C’è una chiara discendenza dei dati e una tracciabilità (in modo da poter fidarsi degli output dell’intelligenza artificiale e sapere come sono stati generati)? Queste domande sono ora in primo piano.

GenAI sta costringendo le aziende a mettere finalmente in ordine la loro casa dei dati.

La governance ha anche assunto un nuovo significato. Quando un modello di intelligenza artificiale può potenzialmente generare una risposta errata (o offensiva), una governance robusta non è più opzionale – è obbligatoria. Controlli come la versione, i controlli di bias, la revisione umana e le misure di sicurezza rigorose per i dati sensibili sono essenziali. Senza una governance adeguata, formazione e obiettivi chiaramente definiti, anche uno strumento di intelligenza artificiale forte lotterà per guadagnare trazione nell’azienda.

E non dimentichiamo l’infrastruttura. Il deploy di GenAI su larga scala richiede una notevole potenza di calcolo e una rigorosa ingegneria. I modelli devono essere serviti in tempo reale, su possibilmente milioni di query con bassa latenza. Spesso richiedono GPU o hardware specializzato, nonché un monitoraggio, una gestione e una gestione del ciclo di vita continuo. In breve, avete bisogno di un’infrastruttura di intelligenza artificiale industriale che sia sicura, scalabile e resistente. È qui che entra in gioco il concetto di Private AI come quadro che unisce l’infrastruttura con i dati e la governance. Private AI si riferisce allo sviluppo di intelligenza artificiale all’interno di un ambiente controllato e sicuro, garantendo la sicurezza e la conformità dei dati.

Il punto fondamentale è che il successo di GenAI dipende dall’armonia di tre pilastri: dati, governance e infrastruttura. Senza uno di questi, si rischia di unirsi al 95% dei progetti che non scaleranno mai oltre lo stadio della demo.

Perché gli ingegneri di intelligenza artificiale non possono farlo da soli

Date queste esigenze, è chiaro che assumere semplicemente alcuni ingegneri di intelligenza artificiale talentuosi non è una soluzione magica. Abbiamo imparato questa lezione negli ultimi anni nell’industria dei dati. Ai primi tempi del boom della scienza dei dati, le aziende hanno cercato di trovare “unicorni” scienziati dei dati che potessero fare tutto – costruire modelli, scrivere codice, gestire i dati e il deploy. Quel mito è stato da allora smentito. Come ha detto un veterano scienziato dei dati, “un modello che siede in un notebook non fa effettivamente nulla per l’azienda.” Bisogna incorporare quel modello in un’applicazione o in un processo per creare valore. E fare ciò richiede uno sforzo di squadra che copre più set di competenze.

Nel tardo 2010, abbiamo visto i team di dati diversificarsi in ruoli distinti: gli ingegneri dei dati hanno iniziato a costruire pipeline robuste, gli ingegneri di apprendimento automatico si sono concentrati sulla produzione dei modelli, gli ingegneri di analisi hanno gestito il livello di analisi e così via.

Oggi, GenAI alza la barra ancora più in alto. Sì, avete bisogno di specialisti di intelligenza artificiale (ingegneri di prompt, sintonizzatori LLM, ecc.), ma quei specialisti si scontreranno con un muro se non avranno pipeline di dati mature, framework di governance e piattaforme sicure con cui lavorare. Un ingegnere di intelligenza artificiale può prototipare un grande modello di linguaggio in un sandbox, ma trasformarlo in un prodotto utilizzato da migliaia o milioni richiede la collaborazione con team di sicurezza, ufficiali di conformità, architetti di dati, ingegneri di affidabilità del sito e molti altri.

L’intelligenza artificiale è uno sport di squadra. È tentante pensare che si possa lasciare cadere un modello di intelligenza artificiale di stato dell’arte nel proprio business e avere improvvisamente un’azienda guidata dall’intelligenza artificiale. Le aziende che hanno successo con l’intelligenza artificiale sono quelle che hanno costruito team cross-funzionali, o “fabbriche di intelligenza artificiale”, che uniscono tutti questi pezzi. I loro team di dati si sono effettivamente evoluti in team di prodotti di intelligenza artificiale full-stack, combinando competenze di dati, modellazione, ingegneria e operazioni. Stanno costruendo e distribuendo i loro strumenti in un modo guidato dai dati e dai prodotti, con la generazione di valore incorporata in ogni KPI.

La prossima generazione di team di dati

Quindi, cosa riserva il futuro per il nuovo “team di dati”? Ecco uno sguardo a ciò che sta per arrivare per questi team nei prossimi anni:

  • Meno ETL/ELT manuale: La noiosa gestione dei dati diminuirà. Con pipeline di dati più automatizzate e l’integrazione assistita dall’intelligenza artificiale, i team non spenderanno più metà del loro tempo a pulire e spostare i dati. Il lavoro di preparazione dei dati sarà gestito in modo sempre più intelligente, permettendo agli esseri umani di concentrarsi su un controllo di qualità e progettazione di livello superiore.
  • Meno dashboard: L’era dell’infinita regolazione dei filtri dei dashboard è in declino. L’intelligenza artificiale abiliterà una query di linguaggio naturale e una consegna di insight dinamici. Invece di dashboard preconfigurate per ogni domanda, gli utenti riceveranno risposte conversazionali dall’intelligenza artificiale (con dati di origine allegati). I team di dati spenderanno meno tempo a sviluppare report statici e più tempo ad addestrare l’intelligenza artificiale a generare insight al volo.
  • Lo sviluppo di prodotti nativi di intelligenza artificiale: I team di dati saranno al cuore dell’innovazione dei prodotti. Che si tratti di sviluppare una nuova funzionalità di intelligenza artificiale rivolta al cliente o di uno strumento di intelligenza artificiale interno che ottimizza le operazioni, questi team agiranno come team di prodotti. Impiegheranno pratiche di sviluppo software, prototipazione rapida, test A/B e progettazione dell’esperienza utente – non solo analisi dei dati. Ogni team di dati diventerà, di fatto, un team di prodotti di intelligenza artificiale che consegna valore aziendale diretto.
  • L’ascesa degli agenti autonomi: Nel prossimo futuro, i team di dati distribuiranno agenti autonomi di intelligenza artificiale per gestire decisioni e attività di routine. Invece di prevedere solo gli esiti, questi agenti saranno autorizzati a prendere determinate azioni (con supervisione). Immaginate un agente di operazioni di intelligenza artificiale che può rilevare un’anomalia e aprire automaticamente un ticket di risoluzione, o un agente di vendita di intelligenza artificiale che regola i prezzi di e-commerce in tempo reale. I team di dati saranno responsabili della costruzione e della gestione di questi agenti, spingendo i limiti di ciò che l’automazione può raggiungere.

Alla luce di questi cambiamenti, si potrebbe effettivamente dire “i team di dati come li conoscevamo sono morti”. I jockey di fogli di calcolo e i idraulici di dashboard hanno ceduto il passo a qualcosa di nuovo: team che si concentrano sull’intelligenza artificiale che sono fluenti in dati, codice e strategia aziendale. Ma lungi dall’essere un elogio funebre, questo è un festeggiamento. La prossima generazione di team di dati è solo all’inizio, e sono più preziosi che mai

Quindi, ricordate, l’ingegnere dei dati è morto, lunga vita all’ingegnere dei dati! I team di dati come li conoscevamo sono andati, ma lunga vita ai nuovi team di dati – possano regnare in questo mondo guidato dall’intelligenza artificiale con insight, responsabilità e audacia.

Sergio Gago è il CTO di Cloudera, con oltre 20 anni di esperienza in AI/ML, calcolo quantistico e architetture basate sui dati. In precedenza Direttore Generale di AI/ML e Quantum presso Moody's Analytics, ha ricoperto anche ruoli di CTO presso Rakuten, Qapacity e Zinio. Sergio è un forte sostenitore dell'infrastruttura di dati affidabile, credendo che l'AI si evolverà nel sistema operativo dell'impresa entro il 2030.