Искусственный интеллект
DataGen обеспечивает инвестиции в размере 18 миллионов долларов для создания синтетических данных для ИИ

Израильский стартап DataGen недавно привлек $18.5 млн долларов для финансирования создания платформы, предназначенной для производства синтетических данных для компаний, занимающихся искусственным интеллектом.
Любая компания, занимающаяся искусственным интеллектом, сталкивается с одной и той же основной проблемой — сбором данных, необходимых для обучения своих моделей ИИ. Потребность в высококачественных обучающих данных настолько велика, что привела к созданию целой подотрасли, занимающейся предоставлением компаниям, занимающимся искусственным интеллектом, данными, необходимыми для обучения их моделей. ИИ и смежные с ИИ компании всегда ищут новые способы получения необходимых им данных. Один из способов получить эти обучающие данные — просто сфабриковать или сгенерировать данные.
Как сообщает Fortune, DataGen специализируется на использовании собственных моделей машинного обучения для создания синтетических данных для других компаний для обучения своих моделей, в частности данных изображений и видео. Данные, генерируемые компанией, затем используются ее клиентами для обучения их собственных моделей искусственного интеллекта. По словам генерального директора и основателя DataGen Офира Чакона, компания может создать полный синтетический набор данных для компании-клиента всего за несколько часов. Это существенно быстрее, чем время, которое обычно требуется для подготовки набора данных к использованию, которое часто составляет недели или даже месяцы маркировки данных.
Есть и другие причины, по которым синтетические данные привлекательны для компаний, помимо относительной скорости, с которой они могут быть подготовлены. Синтетические данные не связаны с такими проблемами конфиденциальности, как реальные данные. По мере того, как создается больше законов для защиты конфиденциальности данных людей, становится все более привлекательным иметь синтетические обучающие данные. Одна оценка, данная технологической аналитической фирмой Gartner прогнозирует, что к 2023 году около 65% населения мира будут иметь свои данные, защищенные каким-либо законом о конфиденциальности данных.
Несмотря на то, что синтетические данные не основаны на реальных людях, они все же могут быть необъективными. Данные, сгенерированные синтетической моделью данных, будут иметь те же шаблоны, что и исходные обучающие данные, а это означает, что если набор данных смещен, эти смещения будут существовать во вновь сгенерированных данных. У DataGen есть стратегии для уменьшения смещения данных в сгенерированных данных. Один из методов уменьшения систематической ошибки в синтетических данных — увеличение частоты возникновения относительно редких событий, а это означает, что если один класс в наборе данных недопредставлен, его частота возникновения может быть повышена до чего-то более равного.
Техника повышения частоты редких событий невероятно важна при создании наборов данных, включающих потенциально опасные сценарии. Рассмотрим набор данных, используемый для обучения автономного транспортного средства. Автомобиль должен надежно реагировать на редкие события, такие как провал на дороге. Однако эти события происходят очень редко, и получение обучающих данных для этих событий затруднено. По этой причине часто необходимо генерировать обучающие данные для этих редких событий.
Как объяснил Чакон через Фортуну:
«Наши клиенты полностью контролируют все параметры создаваемых ими данных. Реальный результат заключается в том, что после внедрения решения можно быть уверенным, что оно будет хорошо работать в различных областях, с разными этническими группами, в разных географических точках и в любой среде, которую только можно себе представить».
DataGen использует генеративно-состязательные сети (GAN) для создания реалистичных симуляций реальных предметов и событий. Чакон объяснил, что компания может надежно генерировать реалистичные примеры всего, что связано с внутренней средой или человеческим восприятием. Например, набор данных изображений, сгенерированный DataGen, может включать в себя примеры объектов, используемых для обучения робота-манипулятора, используемого для складской логистики, при этом сгенерированные изображения выглядят неотличимыми от реальных вещей. Программное обеспечение DataGen может создавать трехмерные объекты, комбинируя визуальную сетку с системой физического моделирования.
Среди инвесторов DataGen множество известных людей и компаний. В число инвесторов входят директора исследовательского подразделения Nvidia по искусственному интеллекту и Института интеллектуальных систем Макса Планка, а также Энтони Голдблум, генеральный директор Kaggle.








