Interviste
Jeronimo De Leon, Senior Product Manager di Intelligenza Artificiale presso Backblaze – Serie di Interviste

Jeronimo De Leon è un leader di product management con oltre 10 anni di esperienza nella gestione di innovazioni guidate dall’intelligenza artificiale in ambienti aziendali e startup. Attualmente ricopre il ruolo di Senior Product Manager, Intelligenza Artificiale presso Backblaze, dove guida lo sviluppo di funzionalità di intelligenza artificiale e apprendimento automatico, si concentra su come Backblaze migliora il ciclo di vita dei dati di intelligenza artificiale per le architetture MLOps dei clienti e implementa strumenti e agenti di intelligenza artificiale per ottimizzare le operazioni interne.
Backblaze è un’azienda di cloud storage e backup che fornisce backup automatici di computer illimitati per individui e aziende, oltre a soluzioni di storage di oggetti scalabili per carichi di lavoro aziendali, mediatici e applicativi. I suoi servizi si concentrano sull’accessibilità, sulla sicurezza dei dati, sulla facilità di recupero e sulla compatibilità senza problemi con i sistemi esistenti.
Porti oltre un decennio di esperienza nella gestione di prodotti guidati dall’intelligenza artificiale – dal lavoro con LLM presso Intelas e RAG presso Welcome.AI al lancio del chatbot di Bloomberg e ora alla guida degli sforzi di intelligenza artificiale presso Backblaze. Come hanno plasmato queste esperienze la tua visione del ruolo dello storage cloud nella scalabilità dei flussi di lavoro di intelligenza artificiale/apprendimento automatico?
Da quando ho iniziato a lavorare su progetti di intelligenza artificiale presso IBM Watson, ho visto accelerare drasticamente il ritmo dell’innovazione. Ciò che un tempo richiedeva anni per passare dalla ricerca alla produzione ora avviene in mesi. Tuttavia, le sfide fondamentali relative all’infrastruttura rimangono le stesse: dove sono i dati, dove li archiviamo e come li accediamo in modo efficiente?
Prima, le limitazioni erano rappresentate dal calcolo e dai modelli, ma ora abbiamo un’abbondanza di modelli pre-addestrati e molti fornitori di calcolo. Tuttavia, quando si inizia un progetto, si deve ancora iniziare con la raccolta e l’elaborazione dei dati, proprio come accadeva in passato. Costantemente vedo organizzazioni che si scontrano con lo stesso collo di bottiglia della consolidazione dei dati da fonti disparate. Le organizzazioni che hanno successo sono quelle che risolvono la questione dell’accessibilità dei dati fin dall’inizio, creando una base che si scala con la loro maturità in materia di intelligenza artificiale. Le decisioni relative all’architettura di storage determinano quanto velocemente è possibile passare all’addestramento dei modelli e innovare.
Dove vedi lo storage cloud svolgere ruoli più critici nel ciclo di vita dell’intelligenza artificiale – dalla raccolta e dall’elaborazione dei dati all’addestramento, alla fine-tuning, all’inferenza e al monitoraggio?
Lo storage cloud è fondamentale in tutto il ciclo di vita dell’intelligenza artificiale, con fasi chiave nell’aggregazione dei dati, nell’elaborazione, nell’addestramento e nell’inferenza. All’inizio, la consolidazione sistematica, la catalogazione e la sicurezza degli archivi accelerano i nuovi progetti e rendono facile testare i modelli emergenti. I dati puliti e ben elaborati spesso battono la semplice quantità di dati, il che rende lo storage centrale per la qualità oltre che per la scala. Una delle mie frasi preferite di Backblaze è: “Non è accumulo se si tratta di dati”. Non si sa mai quanto potranno essere preziosi, quindi le organizzazioni dovrebbero raccoglierne il più possibile. Durante l’addestramento, uno storage scalabile garantisce il throughput di enormi set di dati e, durante l’inferenza, la cattura delle uscite delle previsioni e dei feedback degli utenti consente un’iterazione continua. Alla fine, lo storage è la base che determina quanto velocemente è possibile innovare con l’intelligenza artificiale.
Quali sono gli ostacoli più grandi che le organizzazioni affrontano quando scalano lo storage per l’intelligenza artificiale e come queste sfide differiscono tra le startup più piccole e le grandi aziende?
Gli ostacoli più grandi nello scalare lo storage per l’intelligenza artificiale sono il costo, la gestione dei dati e l’accessibilità. Archiviare grandi volumi di dati è solo una parte della sfida; i dati devono anche essere organizzati, recuperabili e governati con i controlli appropriati. I dati puliti e ben strutturati sono spesso più preziosi della semplice quantità di dati.
Per le startup, la sfida iniziale è acquisire abbastanza dati per addestrare e raffinare i loro modelli. Una volta che li hanno, il costo e l’architettura diventano le prossime barriere.
Per le grandi aziende, la sfida è la complessità. I loro dati sono abbondanti ma frammentati attraverso silos, sistemi legacy e regimi di conformità, rendendo difficile la consolidazione e l’accessibilità.
Le organizzazioni che hanno successo trattano lo storage come un enablement strategico che si scala in termini di costo, prestazioni e accessibilità insieme alla loro maturità in materia di intelligenza artificiale.
Tra costo, latenza, sicurezza e conformità, quale vedi come la barriera più pressante per scalare l’intelligenza artificiale oggi e come le organizzazioni dovrebbero dare priorità al suo superamento?
Tra costo, latenza, sicurezza e conformità, la latenza è una delle barriere più pressanti. Ha un impatto diretto sia sull’addestramento dei modelli che sull’inferenza e, in particolare, sull’inferenza, che plasma l’esperienza dell’utente. Le organizzazioni fanno tutto il possibile per ridurre la latenza in questa fase, poiché ritardi nel servire le previsioni possono minare l’adozione.
Il costo rimane una sfida costante man mano che crescono i volumi di dati e la conformità diventa più critica man mano che le organizzazioni si espandono, soprattutto in settori regolamentati. Le startup spesso si concentrano prima sul costo e sulla latenza, mentre le aziende devono bilanciare la latenza con la governance e le richieste regolamentari. La priorità dovrebbe essere quella di costruire uno storage che minimizzi la latenza per l’addestramento e l’inferenza, rimanendo al contempo efficiente in termini di costo e conforme all’espansione dell’adozione dell’intelligenza artificiale.
Le aziende spesso enfatizzano la necessità di flessibilità e facile accesso ai dati per guidare l’innovazione dell’intelligenza artificiale. Dal tuo punto di vista, cosa significa vera flessibilità nell’accesso ai dati e perché è così essenziale?
In una recente conferenza che ho tenuto, ho sottolineato l’idea di archiviazione intelligente. La vera flessibilità nell’accesso ai dati inizia con la centralizzazione delle informazioni in un archivio strutturato e ricercabile. Ciò significa unificare formati diversi, normalizzare e etichettare per la coerenza e abilitare l’indicizzazione per future query. Questo approccio garantisce che i dati non siano solo archiviati, ma resi utilizzabili.
È essenziale perché getta le basi per l’analisi e la modellazione. Quando i dati sono strutturati e ricercabili, i team possono muoversi più velocemente, sperimentare più liberamente e ridurre la latenza sia nell’addestramento che nell’inferenza. Senza questo tipo di flessibilità, lo storage diventa rapidamente un collo di bottiglia invece di un enablement per l’innovazione dell’intelligenza artificiale.
Puoi condividere casi d’uso reali – come ad esempio con clienti come Decart AI o Wynd Labs – che dimostrano come l’approccio giusto allo storage cloud possa abilitare direttamente l’innovazione dell’intelligenza artificiale?
Questi sono due grandi esempi di come l’approccio giusto allo storage cloud possa abilitare direttamente l’innovazione dell’intelligenza artificiale. Decart si è concentrato sull’addestramento dei modelli, dove spostare i dati verso il calcolo in modo efficiente era critico. Con Backblaze B2 hanno scalato a 16 PB in 90 giorni, addestrato su più cluster GPU con costo di uscita zero e raggiunto dieci volte l’efficienza dei concorrenti. Quella affidabilità e efficienza li hanno liberati di innovare più velocemente.
Wynd Labs si è concentrata sull’accesso dei clienti ai dati. Ingeriscono petabyte ogni giorno e servono decine di petabyte ogni mese. Con le prestazioni ad alta velocità di Backblaze e l’uscita gratuita, sono stati in grado di scalare alla domanda aziendale e di reinvestire le risorse nello sviluppo del prodotto. Quella capacità di fornire l’accesso ai dati in scala ha sbloccato nuove opportunità per la loro piattaforma.
In entrambi i casi, la strategia di storage giusta ha trasformato l’infrastruttura da un vincolo in un enablement, consentendo alle aziende di concentrarsi sull’innovazione dell’intelligenza artificiale invece di gestire il costo e la complessità.
Man mano che i modelli e i set di dati dell’intelligenza artificiale crescono in complessità, quali consigli daresti alle organizzazioni che cercano di bilanciare le prestazioni di storage con l’efficienza dei costi?
Le organizzazioni devono pensare al loro utilizzo dei dati a lungo termine con il loro prodotto in mente. La raccolta, l’elaborazione, lo spostamento e l’esecuzione dell’inferenza sui dati saranno tutti fondamentali per come il loro prodotto si evolve. Se non lo considerano ora, i costi e le sfide di storage si accumuleranno nel tempo. Poiché l’intelligenza artificiale sarà una parte centrale del loro prodotto e della loro organizzazione, lo storage deve essere progettato fin dall’inizio per bilanciare le prestazioni con l’efficienza dei costi in modo che possa scalare senza problemi man mano che crescono.
La sicurezza e la conformità sono particolarmente pressanti in settori regolamentati. Come vedi lo storage cloud evolversi per supportare le esigenze di governance pur consentendo ai team di innovare rapidamente?
La governance è una parte fondamentale dello storage. Semplificare l’accesso con una solida base per la gestione, la sicurezza e l’audit dei dati è critico. Vedrò lo storage cloud evolversi con controlli più solidi come la crittografia predefinita, autorizzazioni granulari, tracce di audit e opzioni di residenza dei dati. Altrettanto importante è la genealogia dei dati. Nell’intelligenza artificiale, sapere da dove provengono i dati, come sono stati elaborati e come alimentano i modelli è essenziale per la conformità e la fiducia.
Allo stesso tempo, le piattaforme di storage migliorano l’usabilità in modo che i team possano muoversi rapidamente. Quando la governance, la genealogia e l’accessibilità lavorano insieme, le organizzazioni possono soddisfare i requisiti regolamentari continuando a innovare con l’intelligenza artificiale a velocità sostenuta.
Per le organizzazioni che valutano o migrano verso B2, quali consigli o indicazioni fornisci in termini di implementazione – in particolare riguardo alla migrazione dei dati, all’integrazione con gli stack MLOps o di calcolo esistenti o all’ottimizzazione del throughput e dell’uscita?
Poiché B2 è compatibile con S3, si integra direttamente negli stack MLOps e di calcolo esistenti senza necessità di riarchitettura. Spesso lavoriamo con i clienti su una proof of concept per convalidare la migrazione, le prestazioni e l’integrazione prima di scalare. Da lì, l’attenzione si concentra sull’ottimizzazione del throughput, dello spostamento dei dati e dell’orchestrazione dei dati in modo che i team possano addestrare su cluster, eseguire inferenza e iterare rapidamente senza essere rallentati da collo di bottiglia infrastrutturali.
Man mano che i carichi di lavoro dell’intelligenza artificiale continuano a scalare – in particolare con tendenze intorno ai LLM, ai set di dati su scala di esabyte e alle strategie ibride o multi-cloud – come Backblaze sta evolvendo le sue offerte di storage per soddisfare queste esigenze emergenti?
Presso Backblaze, ci concentriamo non solo su come i dati vengono utilizzati oggi, ma su come saranno orchestrati in futuro. Lo storage non è più solo un archivio, sta diventando uno strumento che consente l’accesso rapido, il movimento efficiente e l’orchestrazione affidabile dei dati attraverso ambienti diversi. Con i LLM e i set di dati su scala di esabyte, questa base di facile accesso e alta velocità sarà critica non solo per l’addestramento e l’inferenza, ma anche per la classe emergente di agenti di intelligenza artificiale che si affidano ai dati per rendere i processi più autonomi. Il risultato è una base di storage che consente l’innovazione ora e prepara le organizzazioni per ciò che verrà.
Grazie per la grande intervista, i lettori che desiderano saperne di più possono visitare Backblaze.












