Leader di pensiero
Abilitare il deploy di AI nel mondo reale su larga scala

By Brad King, field CTO, Scality
Gli strumenti di AI/ML e big data hanno un filo conduttore comune – hanno bisogno di dati, e ne hanno bisogno in grande quantità. La saggezza convenzionale dice che più ce n’è, meglio è. Gli analisti prevedono che la creazione di dati a livello globale raggiungerà più di 180 zettabyte entro il 2025 – e nel 2020, la quantità di dati creati e replicati ha raggiunto un nuovo massimo di 64,2 zettabyte.
Questi dati sono estremamente preziosi – spesso insostituibili e a volte rappresentano eventi unici o irripetibili. Questi dati devono essere archiviati in modo sicuro e sicuro; e mentre si stima che solo una piccola percentuale di questi nuovi dati creati sia conservata, la domanda di capacità di archiviazione continua a crescere. In effetti, la base installata di capacità di archiviazione è prevista crescere a un tasso di crescita annuale composto del 19,2% tra il 2020 e il 2025, secondo i ricercatori di Statista.
Con più dati creati – in particolare da questi carichi di lavoro AI/ML – le organizzazioni hanno bisogno di più archiviazione, ma non tutte le soluzioni di archiviazione possono gestire questi carichi di lavoro intensivi e massicci. Ciò che è necessario è un nuovo approccio all’archiviazione. Vediamo come le organizzazioni superano queste sfide attraverso la lente di tre casi d’uso.
L’industria dei viaggi
Mentre molti di noi stanno solo iniziando a viaggiare di nuovo dopo più di un anno di lockdown, l’industria dei viaggi sta cercando di tornare ai tempi pre-pandemici in grande stile. E questo sta rendendo ancora più importante l’importanza dei dati – in particolare, l’applicazione e l’uso rilevante di quei dati.
Immagina cosa potresti fare con la conoscenza di dove la maggior parte dei viaggiatori aerei del mondo andrà a viaggiare il prossimo o dove saranno domani. Per un’agenzia di viaggi, ad esempio, sarebbe enorme.
Ma queste organizzazioni di viaggio stanno gestendo così tanti dati che setacciare attraverso di essi per capire cosa è significativo è una prospettiva schiacciante. Circa un petabyte di dati viene generato ogni giorno, e alcuni dei dati sono duplicati da siti come Kayak. Questi dati sono sensibili al tempo, e le aziende di viaggio devono scoprire rapidamente quali dati sono significativi. Hanno bisogno di uno strumento per gestire questo livello di scala in modo più efficace.
L’industria automobilistica
Un altro esempio proviene dall’industria automobilistica, che è sicuramente uno dei casi d’uso più discussi. L’industria ha lavorato duramente per lungo tempo con strumenti di assistenza come lane minders, collision avoidance e simili. Tutti questi sensori stanno portando grandi quantità di dati. E, naturalmente, stanno sviluppando, testando e verificando algoritmi di guida autonoma.
Cosa serve all’industria è un modo migliore per dare senso a questi dati archiviati in modo che possano utilizzarli per analizzare incidenti in cui qualcosa è andato storto, curare le uscite dei sensori come caso di test, testare algoritmi contro dati dei sensori e altro. Hanno bisogno di test di QA per evitare regressioni, e devono documentare i casi che falliscono.
Patologia digitale
Un altro caso d’uso interessante per AI/ML che sta anche lottando con la valanga di dati e la necessità di utilizzare meglio i dati è la patologia digitale. Proprio come gli altri esempi, cosa serve loro è la capacità di utilizzare meglio questi dati in modo che possano fare cose come rilevare automaticamente patologie in campioni di tessuto, eseguire diagnosi remote e così via.
Ma l’archiviazione odierna sta limitando l’uso. Le immagini con una risoluzione utile sono troppo grandi per essere archiviate economicamente. Tuttavia, l’archiviazione degli oggetti veloce abiliterà nuove capacità – come banche di immagini che possono essere utilizzate come risorsa di formazione chiave e l’uso di curve di riempimento dello spazio per nominare/archiviare e recuperare immagini multirisoluzione in un archivio di oggetti. Abilita anche un tagging dei metadati estensibile e flessibile, che rende più facile cercare e dare senso a queste informazioni.
I carichi di lavoro AI richiedono un nuovo approccio
Come abbiamo visto nei tre casi sopra, è fondamentale essere in grado di aggregare e orchestrare grandi quantità di dati relativi ai carichi di lavoro AI/ML. I set di dati spesso raggiungono dimensioni multi-petabyte, con richieste di prestazioni che potrebbero saturare l’intera infrastruttura. Quando si ha a che fare con set di dati di formazione e test su larga scala, superare i collo di bottiglia di archiviazione (problemi di latenza e/o di throughput) e limitazioni/barriere di capacità sono elementi chiave per il successo.
I carichi di lavoro AI/ML/DL richiedono un’architettura di archiviazione che possa mantenere i dati in flusso attraverso il pipeline, con sia una buona prestazione di I/O grezzo che una capacità di scalabilità. L’infrastruttura di archiviazione deve stare al passo con le richieste sempre più esigenti in tutte le fasi del pipeline AI/ML/DL. La soluzione è un’infrastruttura di archiviazione specificamente costruita per la velocità e la scalabilità illimitata.
Estrarre valore
Non passa una settimana senza storie sul potenziale di AI e ML per cambiare i processi aziendali e la vita quotidiana. Ci sono molti casi d’uso che dimostrano chiaramente i benefici dell’uso di queste tecnologie. La realtà di AI nell’impresa di oggi, tuttavia, è quella di insiemi di dati estremamente grandi e soluzioni di archiviazione che non possono gestire questi carichi di lavoro massicci. Le innovazioni nel settore automobilistico, sanitario e in molti altri non possono andare avanti fino a quando il problema di archiviazione non viene risolto. L’archiviazione degli oggetti veloce supera la sfida di conservare i big data in modo che le organizzazioni possano estrarre il valore da questi dati per far progredire le loro attività.










