Intelligenza artificiale
DataGen ottiene 18 milioni di dollari di investimenti per creare dati sintetici per gli AI

L’azienda startup israeliana DataGen ha recently raised $18.5 million dollars per finanziare la creazione di una piattaforma dedicata alla produzione di dati sintetici per aziende di intelligenza artificiale.
Qualsiasi azienda di intelligenza artificiale affronta la stessa sfida di base, ovvero raccogliere i dati necessari per addestrare i propri modelli di intelligenza artificiale. La necessità di dati di alta qualità per l’addestramento è così grande che ha portato a un’intera sub-industria dedicata a fornire alle aziende di intelligenza artificiale i dati di cui hanno bisogno per addestrare i propri modelli. Le aziende di intelligenza artificiale e quelle ad essa correlate stanno sempre cercando nuovi modi per ottenere i dati di cui hanno bisogno. Un modo per ottenere questi dati di addestramento è semplicemente fabbricarli o generarli.
Come ha riportato Fortune, DataGen si specializza nell’utilizzo dei propri modelli di apprendimento automatico per creare dati sintetici per altre aziende da utilizzare per addestrare i propri modelli, in particolare dati di immagini e video. I dati generati dall’azienda vengono quindi utilizzati dai propri clienti per addestrare i propri modelli di intelligenza artificiale. Secondo il CEO e fondatore di DataGen, Ofir Chakon, l’azienda può creare un intero set di dati sintetici per un’azienda cliente in poche ore. Ciò è sostanzialmente più veloce del tempo che normalmente si impiega per preparare un set di dati per l’uso, che spesso richiede settimane o addirittura mesi di etichettatura dei dati.
Ci sono altre ragioni per cui i dati sintetici sono attraenti per le aziende, oltre alla relativa velocità con cui possono essere preparati. I dati sintetici non presentano i tipi di problemi di privacy che presentano i dati reali. Man mano che vengono create leggi per proteggere la privacy dei dati delle persone, diventa più attraente avere dati di addestramento sintetici. Una stima fornita dalla società di analisi tecnologica Gartner prevede che entro il 2023 circa il 65% della popolazione mondiale avrà i propri dati protetti da qualche tipo di legge sulla privacy dei dati.
Nonostante il fatto che i dati sintetici non si basino su persone reali, possono comunque essere distorti. I dati generati da un modello di dati sintetici avranno gli stessi modelli dei dati di addestramento originali, il che significa che se un set di dati è distorto, queste distorsioni esisteranno nei nuovi dati generati. DataGen ha strategie per ridurre le distorsioni nei dati generati. Un metodo per ridurre le distorsioni nei dati sintetici consiste nell’aumentare la frequenza di eventi relativamente rari, il che significa che se una classe nel set di dati è sottorappresentata, la sua frequenza può essere aumentata fino a renderla più uguale.
La tecnica di aumento della frequenza di eventi rari è incredibilmente importante quando si creano set di dati che coinvolgono scenari potenzialmente pericolosi. Considera un set di dati utilizzato per addestrare un veicolo autonomo. Il veicolo deve rispondere in modo affidabile a eventi rari, come l’apertura di un buco sulla strada. Tuttavia, questi eventi sono molto rari e ottenere dati di addestramento per questi eventi è difficile. Per questo motivo, i dati di addestramento per questi eventi rari spesso devono essere generati.
Come ha spiegato Chakon via Fortune:
“I nostri clienti hanno il pieno controllo su tutti i parametri che vengono inseriti nei dati che creano. L’implicazione nel mondo reale è che, una volta distribuiti, puoi essere sicuro che funzioneranno bene in diversi domini, con diverse etnie, in diverse località geografiche o in qualsiasi ambiente tu possa immaginare.”
DataGen utilizza reti avversarie generative (GAN) per generare simulazioni realistiche di oggetti e eventi del mondo reale. Chakon ha spiegato che l’azienda può generare in modo affidabile esempi realistici di qualsiasi cosa che coinvolga ambienti interni o percezione umana. Ad esempio, un set di dati di immagini generato da DataGen potrebbe includere esempi di oggetti utilizzati per addestrare un braccio di raccolta robotico utilizzato per la logistica dei magazzini, con le immagini generate che appaiono indistinguibili dalle cose reali. Il software di DataGen può generare oggetti 3D combinando una rete visiva con un sistema di simulazione fisica.
Gli investitori di DataGen includono una varietà di individui e aziende di alto profilo. Gli investitori includono i direttori della divisione di ricerca sull’intelligenza artificiale di Nvidia e dell’Istituto Max Plank per i sistemi intelligenti, nonché Anthony Goldbloom, CEO di Kaggle.












