Interviste

Steven Hillion, SVP di Dati e Intelligenza Artificiale presso Astronomer – Serie di Interviste

mm

Steven Hillion è il Senior Vice President di Dati e Intelligenza Artificiale presso Astronomer, dove sfrutta la sua vasta esperienza accademica nella ricerca matematica e oltre 15 anni di esperienza nello sviluppo di piattaforme di apprendimento automatico nella Silicon Valley. Presso Astronomer, è alla guida della creazione di funzionalità Apache Airflow progettate specificamente per team di ML e AI e sovraintende al team di data science interno. Sotto la sua guida, Astronomer ha avanzato la sua piattaforma di orchestrazione dei dati moderna, migliorando notevolmente le sue capacità di pipeline dei dati per supportare una vasta gamma di fonti di dati e attività attraverso apprendimento automatico.

Può condividere alcune informazioni sul suo percorso nella scienza dei dati e nell’intelligenza artificiale, e su come ha plasmato il suo approccio alla guida di team di ingegneria e analisi?

Ho avuto una formazione in ricerca matematica a Berkeley prima di trasferirmi nella Silicon Valley e lavorare come ingegnere in una serie di startup di successo. Ero felice di lasciare alle spalle la politica e la burocrazia dell’ambiente accademico, ma ho scoperto che dopo pochi anni mi mancava la matematica. Quindi mi sono spostato verso lo sviluppo di piattaforme per l’apprendimento automatico e l’analisi, e questo è più o meno ciò che ho fatto da allora.

La mia formazione in matematica pura ha comportato una preferenza per ciò che i data scientist chiamano ‘parsimonia’ — il giusto strumento per il lavoro, e nulla di più. Poiché i matematici tendono a favorire soluzioni eleganti rispetto a macchinari complessi, ho sempre cercato di enfatizzare la semplicità nell’applicazione dell’apprendimento automatico ai problemi aziendali. L’apprendimento profondo è grande per alcune applicazioni — i grandi modelli linguistici sono brillanti per riassumere documenti, ad esempio — ma a volte un semplice modello di regressione è più appropriato e più facile da spiegare.

È stato affascinante vedere il ruolo in evoluzione del data scientist e dell’ingegnere software in questi ultimi vent’anni dall’avvento dell’apprendimento automatico. Avendo indossato entrambi i cappelli, sono molto consapevole dell’importanza del ciclo di vita dello sviluppo software (in particolare l’automazione e il testing) come applicato ai progetti di apprendimento automatico.

Quali sono le sfide più grandi nel muovere, elaborare e analizzare dati non strutturati per l’AI e i grandi modelli linguistici (LLM)?

Nel mondo dell’AI generativa, i tuoi dati sono il tuo asset più prezioso. I modelli sono sempre più commodificati, quindi la tua differenziazione è tutta quella conoscenza istituzionale difficile da ottenere catturata nei tuoi set di dati proprietari e curati.

Fornire i dati giusti al momento giusto pone elevate richieste alle tue pipeline di dati — e questo si applica ai dati non strutturati tanto quanto ai dati strutturati, o forse di più. Spesso stai ingerendo dati da molte fonti diverse, in molti formati diversi. Hai bisogno di accedere a una varietà di metodi per sbloccare i dati e prepararli per l’uso nella formazione del modello o nell’inferenza del modello. Hai anche bisogno di capire la provenienza dei dati e dove finiscono per “mostrare il tuo lavoro”.

Se lo fai solo di tanto in tanto per formare un modello, va bene. Non hai necessariamente bisogno di operationalizzarlo. Se usi il modello quotidianamente, per capire il sentimento del cliente dai forum online o per riassumere e instradare le fatture, allora inizia ad assomigliare a qualsiasi altra pipeline di dati operativa, il che significa che devi pensare all’affidabilità e alla riproducibilità. O se stai regolando il modello regolarmente, allora devi preoccuparti del monitoraggio dell’accuratezza e del costo.

La buona notizia è che gli ingegneri dei dati hanno sviluppato una grande piattaforma, Airflow, per la gestione delle pipeline di dati, che è già stata applicata con successo alla gestione della distribuzione del modello e al monitoraggio da parte di alcuni dei team di ML più sofisticati del mondo. Quindi i modelli possono essere nuovi, ma l’orchestrazione non lo è.

Può spiegare ulteriormente l’uso di dati sintetici per regolare modelli più piccoli per l’accuratezza? Come si confronta con l’addestramento di modelli più grandi?

È una tecnica potente. Puoi pensare ai migliori modelli linguistici grandi come in qualche modo incarnanti ciò che hanno imparato sul mondo, e possono trasmetterlo a modelli più piccoli generando dati sintetici. I LLM incorporano immense quantità di conoscenza appresa da un’ampia formazione su set di dati diversi. Questi modelli possono generare dati sintetici che catturano i modelli, le strutture e le informazioni che hanno appreso. Questi dati sintetici possono quindi essere utilizzati per formare modelli più piccoli, trasferendo efficacemente alcune delle conoscenze dai modelli più grandi a quelli più piccoli. Questo processo è spesso chiamato “distillazione della conoscenza” e aiuta a creare modelli efficienti e più piccoli che funzionano ancora bene su attività specifiche. E con i dati sintetici, puoi evitare problemi di privacy e colmare le lacune nei dati di formazione che sono piccoli o incompleti.

Ciò può essere utile per formare un modello di intelligenza artificiale generativa più specifico del dominio e può essere anche più efficace dell’addestramento di un “modello più grande”, con un maggiore livello di controllo.

I data scientist hanno generato dati sintetici per un po’ di tempo e l’imputazione è esistita fin da quando esistono set di dati disordinati. Ma hai sempre dovuto essere molto attento a non introdurre pregiudizi o fare supposizioni errate sulla distribuzione dei dati. Ora che la sintesi dei dati è così facile e potente, devi essere ancora più attento. Gli errori possono essere amplificati.

Una mancanza di diversità nei dati generati può portare al “collasso del modello”. Il modello pensa di funzionare bene, ma solo perché non ha visto l’intero quadro. E, in generale, una mancanza di diversità nei dati di formazione è qualcosa che i team di dati dovrebbero sempre cercare.

A un livello di base, sia che si utilizzino dati sintetici o organici, la discendenza e la qualità sono fondamentali per la formazione o la regolazione di qualsiasi modello. Come sappiamo, i modelli sono solo buoni quanto i dati su cui sono stati addestrati. Mentre i dati sintetici possono essere uno strumento utile per rappresentare un set di dati sensibili senza esporlo o per colmare le lacune che potrebbero essere lasciate fuori da un set di dati rappresentativo, devi avere una documentazione che mostri da dove provengono i dati e poter dimostrare il loro livello di qualità.

Quali sono alcune tecniche innovative che il suo team presso Astronomer sta implementando per migliorare l’efficienza e l’affidabilità delle pipeline di dati?

Così tante! L’infrastruttura Astro completamente gestita e l’Astro Hypervisor supportano il scaling dinamico e il monitoraggio proattivo attraverso metriche di salute avanzate. Ciò garantisce che le risorse vengano utilizzate in modo efficiente e che i sistemi siano affidabili a qualsiasi scala. Astro fornisce un sistema di allarme robusto basato sui dati con notifiche personalizzabili che possono essere inviate attraverso vari canali come Slack e PagerDuty. Ciò garantisce un intervento tempestivo prima che i problemi si aggravino.

I test di convalida dei dati, i test unitari e i controlli di qualità dei dati svolgono ruoli vitali nel garantire l’affidabilità, l’accuratezza e l’efficienza delle pipeline di dati e, in ultima analisi, dei dati che alimentano il tuo business. Questi controlli garantiscono che, mentre costruisci rapidamente pipeline di dati per soddisfare le tue scadenze, stai attivamente catturando errori, migliorando i tempi di sviluppo e riducendo gli errori imprevisti in background. Presso Astronomer, abbiamo costruito strumenti come Astro CLI per aiutare a verificare in modo trasparente la funzionalità del codice o identificare problemi di integrazione all’interno della tua pipeline di dati.

Come vede l’evoluzione della governance dell’AI generativa e quali misure dovrebbero essere adottate per sostenere la creazione di più strumenti?

La governance è imperativa se le applicazioni dell’AI generativa devono avere successo. Si tratta di trasparenza e riproducibilità. Sai come hai ottenuto questo risultato, e da dove, e da chi? Airflow di per sé già ti dà un modo per vedere cosa stanno facendo le singole pipeline di dati. La sua interfaccia utente è stata una delle ragioni del suo rapido adozione all’inizio, e presso Astronomer abbiamo aumentato ciò con la visibilità attraverso i team e le distribuzioni. Offriamo anche ai nostri clienti Dashboard di reporting che offrono approfondimenti completi sull’utilizzo della piattaforma, le prestazioni e l’attribuzione dei costi per la presa di decisioni informate. Inoltre, l’API Astro consente ai team di distribuire, automatizzare e gestire programmaticamente le loro pipeline Airflow, mitigando i rischi associati ai processi manuali e garantendo operazioni senza problemi su larga scala nella gestione di più ambienti Airflow. Le capacità di discendenza sono incorporate nella piattaforma.

Questi sono tutti passi verso la gestione della governance dei dati e credo che le aziende di tutte le dimensioni stiano riconoscendo l’importanza della governance dei dati per garantire la fiducia nelle applicazioni AI. Questo riconoscimento e consapevolezza guideranno in gran parte la domanda di strumenti di governance dei dati e mi aspetto la creazione di più di questi strumenti per accelerare man mano che l’AI generativa si diffonde. Ma devono far parte dello stack di orchestrazione più ampio, ed è per questo che consideriamo fondamentale il modo in cui costruiamo la nostra piattaforma.

Può fornire esempi di come le soluzioni di Astronomer hanno migliorato l’efficienza operativa e la produttività per i clienti?

I processi di AI generativa coinvolgono attività complesse e intensive in termini di risorse che devono essere ottimizzate e ripetutamente eseguite. Astro, la piattaforma Airflow gestita di Astronomer, fornisce un framework al centro dello stack di app AI emergente per aiutare a semplificare queste attività e migliorare la capacità di innovare rapidamente.

Orchestrando attività di AI generativa, le aziende possono garantire che le risorse computazionali vengano utilizzate in modo efficiente e che i flussi di lavoro vengano ottimizzati e regolati in tempo reale. Ciò è particolarmente importante in ambienti in cui i modelli generativi devono essere aggiornati o riaddestrati frequentemente in base a nuovi dati.

Sfruttando la gestione dei flussi di lavoro di Airflow e le capacità di distribuzione e scaling di Astronomer, i team possono spendere meno tempo nella gestione dell’infrastruttura e concentrarsi invece sulla trasformazione dei dati e sullo sviluppo del modello, il che accelera il deploy di applicazioni AI generativa e migliora le prestazioni.

In questo modo, la piattaforma Astro di Astronomer ha aiutato i clienti a migliorare l’efficienza operativa dell’AI generativa in una vasta gamma di casi d’uso. Per citarne alcuni, i casi d’uso includono la scoperta di prodotti e-commerce, l’analisi del rischio di churn dei clienti, l’automazione del supporto, la classificazione e la riassunto di documenti legali, l’acquisizione di informazioni sui prodotti dalle recensioni dei clienti e la provision dinamica del cluster per la generazione di immagini di prodotto.

Qual è il ruolo di Astronomer nel migliorare le prestazioni e la scalabilità delle applicazioni di AI e ML?

La scalabilità è una grande sfida per le aziende che attingono all’AI generativa nel 2024. Quando si passa dal prototipo alla produzione, gli utenti si aspettano che le loro app AI generativa siano affidabili e performanti e che i risultati che producono siano attendibili. Ciò deve essere fatto in modo efficiente in termini di costo e le aziende di tutte le dimensioni devono essere in grado di sfruttarne il potenziale. Con questo in mente, utilizzando Astronomer, le attività possono essere scalate orizzontalmente per elaborare dinamicamente grandi quantità di fonti di dati. Astro può scalare elasticamente le distribuzioni e i cluster su cui sono ospitati e l’esecuzione di attività basata su code con tipi di macchina dedicati fornisce una maggiore affidabilità e un uso efficiente delle risorse di calcolo. Per aiutare con il pezzo del puzzle dei costi, Astro offre funzionalità di scaling a zero e ibernazione, che aiutano a controllare i costi in aumento e ridurre la spesa cloud. Forniamo anche una completa trasparenza sui costi della piattaforma. Il mio stesso team di dati genera report sui consumi che rendiamo disponibili quotidianamente ai nostri clienti.

Quali sono le tendenze future nell’AI e nella scienza dei dati che la entusiasmano e come Astronomer si sta preparando per loro?

L’AI spiegabile è un’area di sviluppo enormemente importante e affascinante. Essere in grado di guardare dentro il funzionamento interno di modelli molto grandi è quasi inquietante. E sono anche interessato a vedere come la comunità lotta con l’impatto ambientale della formazione e della regolazione dei modelli. Presso Astronomer, continuiamo ad aggiornare il nostro Registro con tutte le ultime integrazioni, in modo che i team di dati e ML possano connettersi ai migliori servizi di modelli e alle piattaforme di calcolo più efficienti senza alcun sforzo.

Come immagina l’integrazione di strumenti AI avanzati come i LLM con sistemi di gestione dei dati tradizionali nell’evoluzione nei prossimi anni?

Abbiamo visto sia Databricks che Snowflake fare annunci recentemente su come incorporino sia l’uso che lo sviluppo dei LLM all’interno delle loro piattaforme. Altre piattaforme DBMS e ML faranno lo stesso. È grande vedere gli ingegneri dei dati avere un accesso così facile a metodi così potenti, direttamente dalla riga di comando o dal prompt SQL.

Sono particolarmente interessato a come i database relazionali incorporano l’apprendimento automatico. Sto aspettando che i metodi di apprendimento automatico vengano incorporati nello standard SQL, ma per qualche ragione le due discipline non hanno mai realmente funzionato insieme. Forse questa volta sarà diverso.

Sono molto entusiasta del futuro dei grandi modelli linguistici per assistere il lavoro dell’ingegnere dei dati. In primo luogo, i LLM sono già stati particolarmente di successo nella generazione di codice, anche se i primi sforzi per fornire ai data scientist suggerimenti guidati dall’AI sono stati misti: Hex è grande, ad esempio, mentre Snowflake è poco ispirato finora. Ma c’è un enorme potenziale per cambiare la natura del lavoro per i team di dati, molto più che per gli sviluppatori. Perché? Per gli ingegneri software, il prompt è un nome di funzione o la documentazione, ma per gli ingegneri dei dati c’è anche il dato. C’è così tanto contesto che i modelli possono lavorare per fare suggerimenti utili e precisi.

Qual è il consiglio che darebbe ai data scientist e agli ingegneri AI aspiranti che cercano di fare un impatto nell’industria?

Impara facendo. È incredibilmente facile costruire applicazioni oggi e aumentarle con l’intelligenza artificiale. Quindi costruisci qualcosa di cool e invialo a un amico di un amico che lavora in un’azienda che ammiri. O invialo a me e prometto che darò un’occhiata!

Il trucco è trovare qualcosa che ti appassiona e trovare una buona fonte di dati correlati. Un amico mio ha fatto un’analisi affascinante di stagioni di baseball anomale risalendo al XIX secolo e ha scoperto storie che meritano di essere trasformate in un film. E alcuni ingegneri di Astronomer si sono riuniti un fine settimana per costruire una piattaforma per pipeline di dati auto-risananti. Non posso immaginare di provare a fare qualcosa del genere alcuni anni fa, ma con solo pochi giorni di sforzo abbiamo vinto l’hackathon di Cohere e abbiamo costruito il fondamento di una nuova funzionalità importante nella nostra piattaforma.

Grazie per la grande intervista, i lettori che desiderano saperne di più possono visitare Astronomer.

Antoine è un leader visionario e socio fondatore di Unite.AI, guidato da una passione incrollabile per plasmare e promuovere il futuro dell'AI e della robotica. Un imprenditore seriale, crede che l'AI sarà altrettanto disruptiva per la società quanto l'elettricità, e spesso viene colto a parlare con entusiasmo del potenziale delle tecnologie disruptive e dell'AGI.
Come futurist, è dedicato a esplorare come queste innovazioni plasmeranno il nostro mondo. Inoltre, è il fondatore di Securities.io, una piattaforma focalizzata sugli investimenti in tecnologie all'avanguardia che stanno ridefinendo il futuro e ridisegnando interi settori.