Inteligência artificial
DataGen Garante US$ 18 Milhões em Investimentos para Criar Dados Sintéticos para AIs

A empresa startup israelense DataGen recentemente arrecadou US$ 18,5 milhões para financiar a criação de uma plataforma dedicada à produção de dados sintéticos para empresas de AI.
Qualquer empresa de inteligência artificial enfrenta o mesmo desafio central, coletar os dados necessários para treinar seus modelos de AI. A necessidade de dados de treinamento de alta qualidade é tão grande que levou a uma sub-indústria inteira dedicada a fornecer às empresas de AI os dados de que precisam para treinar seus modelos. Empresas de AI e empresas adjacentes à AI estão sempre procurando novas maneiras de obter os dados de que precisam. Uma maneira de obter esses dados de treinamento é simplesmente fabricá-los ou gerá-los.
Como a Fortune relatou, a DataGen se especializa em usar seus próprios modelos de aprendizado de máquina para criar dados sintéticos para que outras empresas treinem seus modelos, particularmente dados de imagem e vídeo. Os dados gerados pela empresa são então utilizados por seus clientes para treinar seus próprios modelos de AI. De acordo com o CEO e fundador da DataGen, Ofir Chakon, a empresa pode criar um conjunto de dados sintéticos completo para uma empresa cliente em apenas algumas horas. Isso é substancialmente mais rápido do que o tempo que normalmente leva para preparar um conjunto de dados para uso, que é frequentemente de semanas ou até meses de rotulagem de dados.
Há outras razões pelas quais os dados sintéticos são atraentes para as empresas, além da velocidade relativa com que podem ser preparados. Os dados sintéticos não vêm com os tipos de preocupações de privacidade que os dados reais têm. À medida que mais leis são criadas para proteger a privacidade dos dados das pessoas, torna-se mais atraente ter dados de treinamento sintéticos. Uma estimativa dada pela empresa de análise de tecnologia Gartner prevê que, até 2023, cerca de 65% da população mundial terá seus dados protegidos por algum tipo de lei de privacidade de dados.
Apesar do fato de os dados sintéticos não serem baseados em pessoas reais, eles ainda podem ser tendenciosos. Os dados gerados por um modelo de dados sintéticos terão os mesmos padrões que os dados de treinamento originais tinham, o que significa que, se um conjunto de dados for tendencioso, essas tendências existirão nos novos dados gerados. A DataGen tem estratégias para reduzir o viés nos dados gerados. Um método para reduzir o viés nos dados sintéticos é aumentar a taxa de ocorrência de eventos raros, o que significa que, se uma classe no conjunto de dados estiver sub-representada, sua taxa de ocorrência pode ser aumentada para algo mais igual.
A técnica de aumentar a ocorrência de eventos raros é incrivelmente importante ao criar conjuntos de dados que envolvem cenários potencialmente perigosos. Considere um conjunto de dados usado para treinar um veículo autônomo. O veículo deve responder de forma confiável a eventos raros, como a abertura de um buraco na estrada. No entanto, esses eventos são muito raros, e obter dados de treinamento para esses eventos é difícil. Por essa razão, os dados de treinamento para esses eventos raros frequentemente precisam ser gerados.
Como Chakon explicou via Fortune:
“Nossos clientes têm controle total sobre todos os parâmetros que entram nos dados que criam. A implicação no mundo real é que, uma vez implantado, você pode ter certeza de que irá funcionar bem em diferentes domínios, com diferentes etnias, em diferentes localizações geográficas ou em qualquer ambiente que você possa imaginar.”
A DataGen usa Redes Adversárias Generativas (GANs) para gerar simulações realistas de itens e eventos do mundo real. Chakon explicou que a empresa pode gerar de forma confiável exemplos realistas de qualquer coisa que envolva ambientes internos ou percepção humana. Por exemplo, um conjunto de dados de imagem gerado pela DataGen pode incluir exemplos de objetos usados para treinar um braço de pegada robótica usado para logística de armazém, com as imagens geradas parecendo indistinguíveis da coisa real. O software da DataGen pode gerar objetos 3D combinando uma malha visual com um sistema de simulação de física.
Os investidores da DataGen incluem uma variedade de indivíduos e empresas de alto perfil. Os investidores incluem os diretores da divisão de pesquisa de AI da Nvidia e do Instituto Max Plank para Sistemas Inteligentes, bem como Anthony Goldbloom, CEO da Kaggle.








