Inteligencia artificial

DataGen obtiene $18 millones en inversiones para crear datos sintéticos para inteligencias artificiales

Published March 19, 2021

Updated April 28, 2026

Daniel Nelson

La empresa de startup israelí DataGen ha recientemente recaudado $18.5 millones de dólares para financiar la creación de una plataforma dedicada a producir datos sintéticos para empresas de inteligencia artificial.

Cualquier empresa de inteligencia artificial se enfrenta al mismo desafío fundamental, recopilar los datos necesarios para entrenar sus modelos de inteligencia artificial. La necesidad de datos de entrenamiento de alta calidad es tan grande que ha llevado a una subindustria dedicada a proporcionar a las empresas de inteligencia artificial los datos que necesitan para entrenar sus modelos. Las empresas de inteligencia artificial y empresas relacionadas con la inteligencia artificial siempre están buscando nuevas formas de obtener los datos que necesitan. Una forma de obtener estos datos de entrenamiento es simplemente fabricar o generar los datos.

Como informó Fortune, DataGen se especializa en utilizar sus propios modelos de aprendizaje automático para crear datos sintéticos para que otras empresas entrenen sus modelos, particularmente datos de imagen y video. Los datos generados por la empresa se utilizan luego por sus clientes para entrenar sus propios modelos de inteligencia artificial. Según el CEO y fundador de DataGen, Ofir Chakon, la empresa puede crear un conjunto de datos sintéticos completo para una empresa cliente en solo unas horas. Esto es sustancialmente más rápido que el tiempo que normalmente se tarda en preparar un conjunto de datos para su uso, que a menudo son semanas o incluso meses de etiquetado de datos.

Hay otras razones por las que los datos sintéticos son atractivos para las empresas, además de la velocidad relativa con la que se pueden preparar. Los datos sintéticos no conllevan los tipos de preocupaciones de privacidad que conllevan los datos reales. A medida que se crean más leyes para proteger la privacidad de los datos de las personas, se vuelve más atractivo tener datos de entrenamiento sintéticos. Una estimación proporcionada por la firma de análisis de tecnología Gartner predice que para 2023, alrededor del 65% de la población mundial tendrá sus datos protegidos por algún tipo de ley de privacidad de datos.

A pesar de que los datos sintéticos no se basan en personas reales, aún pueden estar sesgados. Los datos generados por un modelo de datos sintéticos tendrán los mismos patrones que los datos de entrenamiento originales, lo que significa que si un conjunto de datos está sesgado, esos sesgos existirán en los nuevos datos generados. DataGen tiene estrategias para reducir el sesgo de los datos en los datos generados. Un método para reducir el sesgo en los datos sintéticos es aumentar la tasa de ocurrencia de eventos relativamente raros, lo que significa que si una clase en el conjunto de datos está subrepresentada, su tasa de ocurrencia se puede aumentar hasta algo más igual.

La técnica de aumentar la ocurrencia de eventos raros es increíblemente importante al crear conjuntos de datos que involucran escenarios potencialmente peligrosos. Considere un conjunto de datos utilizado para entrenar a un vehículo autónomo. El vehículo debe responder de manera confiable a eventos raros, como un socavón que se abre en la carretera. Sin embargo, estos eventos son muy raros, y obtener datos de entrenamiento para estos eventos es difícil. Por esta razón, los datos de entrenamiento para estos eventos raros a menudo deben generarse.

Como explicó Chakon a través de Fortune:

“Nuestros clientes tienen el control total sobre todos los parámetros que se incorporan a los datos que crean. La implicación en el mundo real es que, una vez desplegado, puede estar seguro de que funcionará bien en diferentes dominios, con diferentes etnias, en diferentes ubicaciones geográficas o en cualquier entorno que pueda imaginar”.

DataGen utiliza Redes Adversarias Generativas (GAN) para generar simulaciones realistas de elementos y eventos del mundo real. Chakon explicó que la empresa puede generar de manera confiable ejemplos realistas de cualquier cosa que involucre entornos interiores o percepción humana. Por ejemplo, un conjunto de datos de imágenes generado por DataGen podría incluir ejemplos de objetos utilizados para entrenar un brazo de recolección robótica utilizado para logística de almacén, con las imágenes generadas que parecen indistinguibles de las reales. El software de DataGen puede generar objetos 3D combinando una malla visual con un sistema de simulación de física.

Los inversores de DataGen incluyen una variedad de individuos y empresas de alto perfil. Los inversores incluyen a los directores de la división de investigación de inteligencia artificial de Nvidia y el Instituto Max Plank para Sistemas Inteligentes, así como a Anthony Goldbloom, CEO de Kaggle.

Related Topics:data generation synthetic data

Daniel Nelson

Bloguero y programador con especialidades en Machine Learning y Deep Learning temas. Daniel espera ayudar a otros a utilizar el poder de la IA para el bien social.

Unite.AI

DataGen obtiene $18 millones en inversiones para crear datos sintéticos para inteligencias artificiales

You may like