Искусственный интеллект

DataGen получила $18 миллионов инвестиций для создания синтетических данных для ИИ

Published March 19, 2021

Updated April 28, 2026

Daniel Nelson

Израильская стартап-компания DataGen недавно привлекла $18,5 миллионов долларов для финансирования создания платформы, посвященной производству синтетических данных для компаний, занимающихся искусственным интеллектом.

Любая компания, занимающаяся искусственным интеллектом, сталкивается с одной и той же основной проблемой – сбором данных, необходимых для обучения своих моделей ИИ. Потребность в высококачественных данных для обучения так велика, что это привело к возникновению целой подотрасли, посвященной предоставлению компаниям ИИ данных, необходимых для обучения их моделей. Компании ИИ и смежные компании всегда ищут новые способы получения необходимых им данных. Одним из способов получить эти данные для обучения является простое изготовление или генерирование данных.

Как сообщает Fortune, DataGen специализируется на использовании своих собственных моделей машинного обучения для создания синтетических данных для других компаний для обучения их моделей, в частности, изображений и видеоданных. Сгенерированные компанией данные затем используются их клиентами для обучения своих собственных моделей ИИ. По словам генерального директора и основателя DataGen, Офира Чакона, компания может создать полностью синтетический набор данных для клиентской компании всего за несколько часов. Это намного быстрее, чем время, необходимое для подготовки набора данных для использования, которое часто занимает недели или даже месяцы标注 данных.

Существуют другие причины, по которым синтетические данные привлекательны для компаний, помимо относительной скорости, с которой они могут быть подготовлены. Синтетические данные не сопровождаются теми же проблемами конфиденциальности, что и реальные данные. По мере создания все большего количества законов для защиты конфиденциальности данных людей становится более привлекательным иметь синтетические данные для обучения. Одна из оценок, предоставленная технологическим аналитическим фирмой Gartner, прогнозирует, что к 2023 году около 65% населения мира будет иметь свои данные, защищенные некоторым типом закона о конфиденциальности данных.

Несмотря на то, что синтетические данные не основаны на реальных людях, они все равно могут быть предвзятыми. Данные, сгенерированные синтетической моделью данных, будут иметь те же закономерности, что и исходные данные для обучения, что означает, что если набор данных предвзят, эти предубеждения будут существовать в сгенерированных данных. DataGen имеет стратегии для снижения предубеждений в сгенерированных данных. Одним из методов снижения предубеждений в синтетических данных является увеличение частоты относительно редких событий, то есть если один класс в наборе данных недопредставлен, его частота может быть увеличена до более равной.

Техника повышения частоты редких событий невероятно важна при создании наборов данных, которые включают потенциально опасные сценарии. Рассмотрим набор данных, используемый для обучения автономного транспортного средства. Транспортное средство должно надежно реагировать на редкие события, такие как образование ямы на дороге. Однако такие события очень редки, и получение данных для обучения для этих событий очень трудно. По этой причине данные для обучения для этих редких событий часто необходимо генерировать.

Как объяснил Чакон via Fortune:

“Наши клиенты имеют полный контроль над всеми параметрами, которые входят в данные, которые они создают. Реальное последствие заключается в том, что, как только оно развернуто, вы можете быть уверены, что оно будет работать хорошо в разных доменах, с разными этническими группами, в разных географических местах или в любой среде, которую вы можете представить.”

DataGen использует сети генеративных противостояний (GANs) для генерирования реалистичных симуляций реальных объектов и событий. Чакон объяснил, что компания может надежно генерировать реалистичные примеры всего, что связано с внутренними средами или человеческим восприятием. Например, набор данных изображений, сгенерированный DataGen, может включать примеры объектов, используемых для обучения роботизированной руки для логистики склада, с сгенерированными изображениями, которые выглядят неотличимыми от реальных. Программное обеспечение DataGen может генерировать 3D-объекты, объединяя визуальную сетку с системой физического моделирования.

Инвесторами DataGen являются различные известные лица и компании. Инвесторами являются директора отдела исследований ИИ Nvidia и Институт интеллектуальных систем Макса Планка, а также Энтони Голдблум, генеральный директор Kaggle.

Daniel Nelson

Блогер и программист с специализацией в Machine Learning и Deep Learning темах. Daniel надеется помочь другим использовать силу ИИ для социального блага.

Unite.AI

DataGen получила $18 миллионов инвестиций для создания синтетических данных для ИИ

You may like