Intelligence artificielle

DataGen obtient 18 millions de dollars en investissements pour créer des données synthétiques pour les IA

Published March 19, 2021

Updated April 28, 2026

Daniel Nelson

La société de démarrage israélienne DataGen a récemment levé 18,5 millions de dollars pour financer la création d’une plateforme dédiée à la production de données synthétiques pour les sociétés d’IA.

Toute société d’intelligence artificielle est confrontée au même défi de base, la collecte des données nécessaires pour entraîner ses modèles d’IA. Le besoin de données de formation de haute qualité est tel qu’il a conduit à l’émergence d’une sous-industrie entière dédiée à la fourniture aux sociétés d’IA des données dont elles ont besoin pour entraîner leurs modèles. Les sociétés d’IA et les sociétés connexes recherchent toujours de nouvelles façons d’obtenir les données dont elles ont besoin. Une façon d’obtenir ces données de formation est de simplement les fabriquer ou les générer.

Comme l’a rapporté Fortune, DataGen se spécialise dans l’utilisation de ses propres modèles d’apprentissage automatique pour créer des données synthétiques pour d’autres sociétés afin de former leurs modèles, en particulier les données d’image et de vidéo. Les données générées par la société sont ensuite utilisées par ses clients pour former leurs propres modèles d’IA. Selon le PDG et fondateur de DataGen, Ofir Chakon, la société peut créer un ensemble de données synthétiques complet pour une société cliente en quelques heures seulement. C’est nettement plus rapide que le temps qu’il faut généralement pour préparer un ensemble de données pour une utilisation, qui peut prendre des semaines ou même des mois de marquage de données.

Il y a d’autres raisons pour lesquelles les données synthétiques sont attractives pour les sociétés, outre la rapidité relative avec laquelle elles peuvent être préparées. Les données synthétiques ne sont pas associées aux mêmes préoccupations en matière de confidentialité que les données réelles. À mesure que de nouvelles lois sont créées pour protéger la confidentialité des données des personnes, il devient plus attractif d’avoir des données de formation synthétiques. Une estimation fournie par la société d’analyse technologique Gartner prévoit qu’en 2023, environ 65 % de la population mondiale aura ses données protégées par une loi sur la confidentialité des données.

Bien que les données synthétiques ne soient pas basées sur des personnes réelles, elles peuvent toujours être biaisées. Les données générées par un modèle de données synthétiques auront les mêmes modèles que les données de formation d’origine, ce qui signifie que si un ensemble de données est biaisé, ces biais existeront dans les nouvelles données générées. DataGen a des stratégies pour réduire les biais dans les données générées. Une méthode pour réduire les biais dans les données synthétiques consiste à augmenter le taux d’apparition d’événements rares, ce qui signifie que si une classe dans l’ensemble de données est sous-représentée, son taux d’apparition peut être augmenté jusqu’à ce qu’il soit plus égal.

La technique d’augmentation du taux d’apparition d’événements rares est incroyablement importante lors de la création d’ensembles de données qui impliquent des scénarios potentiellement dangereux. Considérons un ensemble de données utilisé pour former un véhicule autonome. Le véhicule doit répondre de manière fiable à des événements rares, tels qu’un effondrement de la chaussée. Cependant, ces événements sont très rares et il est difficile d’obtenir des données de formation pour ces événements. Pour cette raison, les données de formation pour ces événements rares doivent souvent être générées.

Comme l’a expliqué Chakon via Fortune :

“Nos clients ont un contrôle total sur tous les paramètres qui entrent dans les données qu’ils créent. L’implication réelle est que, une fois déployé, vous pouvez être sûr qu’il fonctionnera bien dans différents domaines, avec différentes ethnies, dans différents emplacements géographiques ou dans tout environnement que vous pouvez imaginer.”

DataGen utilise des réseaux antagonistes génératifs (GAN) pour générer des simulations réalistes d’objets et d’événements du monde réel. Chakon a expliqué que la société peut générer de manière fiable des exemples réalistes de tout ce qui implique des environnements intérieurs ou la perception humaine. Par exemple, un ensemble de données d’images généré par DataGen pourrait inclure des exemples d’objets utilisés pour former un bras de prise robotique utilisé pour la logistique des entrepôts, avec des images générées qui sont indiscernables de la chose réelle. Le logiciel de DataGen peut générer des objets 3D en combinant une maillage visuelle avec un système de simulation physique.

Les investisseurs de DataGen comprennent une variété d’individus et de sociétés de haut profil. Les investisseurs incluent les directeurs de la division de recherche en IA de Nvidia et de l’Institut Max Planck pour les systèmes intelligents, ainsi qu’Anthony Goldbloom, PDG de Kaggle.

Daniel Nelson

Blogueur et programmeur avec des spécialités en Machine Learning et Deep Learning sujets. Daniel espère aider les autres à utiliser le pouvoir de l'IA pour le bien social.

Unite.AI

DataGen obtient 18 millions de dollars en investissements pour créer des données synthétiques pour les IA

You may like