toco DataGen garante US$ 18 milhões em investimentos para criar dados sintéticos para IAs - Unite.AI
Entre em contato

Inteligência artificial

DataGen garante US$ 18 milhões em investimentos para criar dados sintéticos para IAs

mm
Atualização do on

A startup israelense Geração de dados tem levantou recentemente $ 18.5 milhões de dólares financiar a criação de uma plataforma dedicada à produção de dados sintéticos para empresas de IA.

Qualquer empresa de inteligência artificial enfrenta o mesmo desafio central, coletando os dados necessários para treinar seus modelos de IA. A necessidade de dados de treinamento de alta qualidade é tão grande que levou a uma subindústria inteira dedicada a fornecer às empresas de IA os dados de que precisam para treinar seus modelos. As empresas de IA e adjacentes à IA estão sempre procurando novas maneiras de obter os dados de que precisam. Uma maneira de obter esses dados de treinamento é apenas fabricar ou gerar os dados.

Conforme relatado pela Fortune, a DataGen é especializada em usar seus próprios modelos de aprendizado de máquina para criar dados sintéticos para outras empresas treinarem seus modelos, principalmente dados de imagem e vídeo. Os dados gerados pela empresa são então utilizados por seus clientes para treinar seus próprios modelos de IA. De acordo com o CEO e fundador da DataGen, Ofir Chakon, a empresa pode criar um conjunto de dados totalmente sintético para uma empresa cliente em apenas algumas horas. Isso é substancialmente mais rápido do que o tempo normalmente necessário para preparar um conjunto de dados para uso, que geralmente leva semanas ou até meses de rotulagem de dados.

Existem outras razões pelas quais os dados sintéticos são atraentes para as empresas, além da velocidade relativa com que podem ser preparados. Os dados sintéticos não vêm com os tipos de preocupações de privacidade que os dados reais trazem. À medida que mais leis são criadas para proteger a privacidade dos dados das pessoas, torna-se mais atraente ter dados de treinamento sintéticos. Uma estimativa fornecida pela empresa de análise de tecnologia Gartner prevê que até 2023 cerca de 65% da população mundial terá seus dados protegidos por algum tipo de lei de privacidade de dados.

Apesar do fato de que os dados sintéticos não são baseados em pessoas reais, eles ainda podem ser tendenciosos. Os dados gerados por um modelo de dados sintéticos terão os mesmos padrões que os dados de treinamento originais tinham, o que significa que, se um conjunto de dados for tendencioso, esses vieses existirão nos dados recém-gerados. O DataGen possui estratégias para reduzir o viés de dados nos dados gerados. Um método para reduzir o viés em dados sintéticos é aumentar a taxa de ocorrência de eventos relativamente raros, o que significa que, se uma classe no conjunto de dados estiver sub-representada, sua taxa de ocorrência pode ser aumentada para algo mais igual.

A técnica de aumentar a ocorrência de eventos raros é incrivelmente importante ao criar conjuntos de dados que envolvem cenários potencialmente perigosos. Considere um conjunto de dados usado para treinar um veículo autônomo. O veículo deve responder de forma confiável a eventos raros, como a abertura de um sumidouro na estrada. No entanto, esses eventos são muito raros e é difícil obter dados de treinamento para esses eventos. Por esse motivo, os dados de treinamento para esses eventos raros geralmente precisam ser gerados.

Como Chakon explicou via Fortuna:

“Nossos clientes têm controle total sobre todos os parâmetros que entram nos dados que eles criam. A implicação do mundo real é que, uma vez implantado, você pode ter certeza de que funcionará bem em diferentes domínios, com diferentes etnias, em diferentes localizações geográficas ou em qualquer ambiente que você possa imaginar.”

O DataGen usa Generative Adversarial Networks (GANs) para gerar simulações realistas de itens e eventos do mundo real. Chakon explicou que a empresa pode gerar exemplos realistas de forma confiável de qualquer coisa que envolva ambientes internos ou percepção humana. Por exemplo, um conjunto de dados de imagem gerado pelo DataGen pode incluir exemplos de objetos usados ​​para treinar um braço robótico de coleta usado para logística de armazém, com as imagens geradas parecendo indistinguíveis das reais. O software da DataGen pode gerar objetos 3D combinando uma malha visual com um sistema de simulação física.

Os investidores na DataGen incluem uma variedade de indivíduos e empresas de alto nível. Os investidores incluem os diretores da divisão de pesquisa de IA da Nvidia e do Max Plank Institute for Intelligent Systems, bem como Anthony Goldbloom, CEO da Kaggle.