Штучний інтелект

DataGen Забезпечує $18 Мільйонів Інвестицій Для Створення Синтетичних Даних Для Штучного Інтелекту

Published March 19, 2021

Updated April 28, 2026

Daniel Nelson

Ізраїльська стартап-компанія DataGen нещодавно зібрала $18,5 мільйонів доларів для фінансування створення платформи, присвяченої виробництву синтетичних даних для компаній штучного інтелекту.

Будь-яка компанія штучного інтелекту стикається з однією й тією ж основною проблемою – збором даних, необхідних для навчання її моделей штучного інтелекту. Потреба у високоякісних навчальних даних така велика, що призвела до появи цілої підгалузі, присвяченої постачанню компаній штучного інтелекту даними, необхідними для навчання їхніх моделей. Компанії штучного інтелекту та суміжні компанії завжди шукають нові способи отримання необхідних даних. Одним із способів отримання цих навчальних даних є просто фабрикація або генерація даних.

Як повідомляє Fortune, DataGen спеціалізується на використанні власних моделей машинного навчання для створення синтетичних даних для інших компаній для навчання їхніх моделей, зокрема зображень і відеоданих. Дані, згенеровані компанією, потім використовуються її клієнтами для навчання їхніх власних моделей штучного інтелекту. За словами генерального директора та засновника DataGen Офіра Чакона, компанія може створити повністю синтетичний набір даних для клієнтської компанії всього за кілька годин. Це значно швидше, ніж час,必要ий для підготовки набору даних для використання, який часто становить тижні або навіть місяці маркування даних.

Є інші причини, чому синтетичні дані привабливі для компаній, окрім відносної швидкості, з якою вони можуть бути підготовлені. Синтетичні дані не супроводжуються тим же видом проблем конфіденційності, що й реальні дані. Коли створюються все більше законів для захисту конфіденційності даних людей, стає більш привабливим мати синтетичні навчальні дані. Одна з оцінок, надана технологічною аналітичною фірмою Gartner, передбачає, що до 2023 року близько 65% населення світу матиме свої дані, захищені якимись законами про конфіденційність даних.

Незважаючи на те, що синтетичні дані не засновані на реальних людях, вони все ж можуть бути упередженими. Дані, згенеровані синтетичною моделлю даних, матимуть ті ж самі закономірності, що й оригінальні навчальні дані, тобто якщо набір даних упереджений, ці упередження існуватимуть у nově згенерованих даних. DataGen має стратегії для зниження упередженості даних у згенерованих даних. Одним із методів зниження упередженості синтетичних даних є збільшення частоти відносно рідкісних подій, тобто якщо один клас у наборі даних підrepresented, його частота може бути підвищена до чогось більш рівного.

Техніка підвищення частоти рідкісних подій вкрай важлива при створенні наборів даних, які включають потенційно небезпечні сценарії. Розгляньте набір даних, використаний для навчання автономного транспортного засобу. Транспортний засіб повинен надійно реагувати на рідкісні події, наприклад, відкривання ями на дорозі. Однак ці події дуже рідкісні, і отримання навчальних даних для цих подій є складним. Через це навчальні дані для цих рідкісних подій часто потрібно генерувати.

Як пояснив Чакон через Fortune:

“Наші клієнти мають повний контроль над усіма параметрами, які входять до даних, які вони створюють. Реальне значення полягає в тому, що після розгортання ви можете бути впевнені, що воно буде добре працювати в різних доменах, з різними етнічними групами, у різних географічних місцях або в будь-якій середовищі, яке ви можете уявити.”

DataGen використовує Генеративні суперницькі мережі (GAN) для генерації реалістичних симуляцій реальних предметів і подій. Чакон пояснив, що компанія може надійно генерувати реалістичні приклади будь-чого, що включає внутрішні середовища або сприйняття людини. Наприклад, набір даних зображень, згенерований DataGen, міг би включати приклади об’єктів, використаних для навчання роботизованої руки для логістики складу, з згенерованими зображеннями, які виглядають нерозрізнимо від реального. Програмне забезпечення DataGen може генерувати 3D-об’єкти шляхом поєднання візуальної сітки з фізичною системою симуляції.

Інвесторами DataGen є різні відомі особи та компанії. Інвесторами є директори відділу досліджень штучного інтелекту Nvidia та Інституту Макса Планка для інтелектуальних систем, а також Ентоні Голдблум, генеральний директор Kaggle.

Daniel Nelson

Блогер і програміст з спеціалізацією у темах Machine Learning і Deep Learning. Даніель сподівається допомогти іншим використовувати силу штучного інтелекту для соціальної добробути.

Unite.AI

DataGen Забезпечує $18 Мільйонів Інвестицій Для Створення Синтетичних Даних Для Штучного Інтелекту

You may like