์ธ๊ณต์ง๋ฅ
DataGen, 1,800๋ง ๋ฌ๋ฌ ํฌ์ ์ ์น๋ก ์ธ๊ณต ์ง๋ฅ์ ์ํ ํฉ์ฑ ๋ฐ์ดํฐ ์์ฑ

이스라엘의 스타트업 회사 DataGen은 최근 1,850만 달러를 투자 유치하여 인공 지능 회사들을 위한 합성 데이터를 생성하는 플랫폼을 개발하기 위해 자금을 확보했습니다.
어떤 인공 지능 회사도 핵심적인 도전을 직면합니다. 즉, 인공 지능 모델을 훈련시키기 위해 필요한 데이터를 수집하는 것입니다. 높은 품질의 훈련 데이터가 필요한 정도는 인공 지능 회사들이 모델을 훈련시키기 위해 필요한 데이터를 제공하는 하위 산업이 전체적으로 형성되었습니다. 인공 지능 및 관련 회사들은 항상 필요한 데이터를 얻기 위한 새로운 방법을 찾고 있습니다. 이러한 훈련 데이터를 얻는 방법 중 하나는 단순히 데이터를 생성하거나 조작하는 것입니다.
Fortune에 따르면, DataGen은 다른 회사들이 모델을 훈련시키기 위해 사용하는 이미지 및 비디오 데이터와 같은 합성 데이터를 생성하는 데 전문적인 회사입니다. 회사가 생성한 데이터는 고객들이 자신의 인공 지능 모델을 훈련시키기 위해 사용됩니다. DataGen의 CEO이자 창립자인 Ofir Chakon에 따르면, 회사는 고객 회사에게 전체적인 합성 데이터 세트를 몇 시간 내에 생성할 수 있습니다. 이는 일반적으로 데이터 세트를 준비하는 데 걸리는 시간, 즉 주 또는 달 단위의 데이터 레이블링 시간보다 훨씬 빠릅니다.
합성 데이터가 회사에 매력적인 이유는 속도 외에도 있습니다. 합성 데이터는 실제 데이터와 달리 개인 정보 보호 문제가 없습니다. 개인 정보 보호를 보호하기 위한 법률이 더 많이 만들어짐에 따라 합성 훈련 데이터가 더 매력적으로 됩니다. 기술 분석 회사 Gartner의 한 추정에 따르면, 2023년까지 세계 인구의 약 65%가 어떤 유형의 데이터 개인 정보 보호 법률에 의해 보호될 것입니다.
합성 데이터가 실제 사람을 기반으로 하지 않는다고 해도 여전히 편향될 수 있습니다. 합성 데이터 모델이 생성한 데이터에는 원래 훈련 데이터와 동일한 패턴이 있습니다. 즉, 데이터 세트가 편향되어 있다면, 새로 생성된 데이터에도 동일한 편향이 존재할 것입니다. DataGen은 생성된 데이터에서 데이터 편향을 줄이는 전략을 가지고 있습니다. 합성 데이터에서 편향을 줄이는 방법 중 하나는 드문 이벤트의 발생 빈도를 증가시키는 것입니다. 즉, 데이터 세트에서 하나의 클래스가 과소 대표되는 경우, 그 빈도를 더 평등한 수준으로 높일 수 있습니다.
드문 이벤트의 발생 빈도를 높이는 기술은 잠재적으로 위험한 시나리오가 포함된 데이터 세트를 생성할 때 매우 중요합니다. 자율 주행 자동차를 훈련하는 데이터 세트를 고려해 보십시오. 자동차는 도로에 싱크홀과 같은 드문 이벤트에 신뢰할 수 있게 반응해야 합니다. 그러나 이러한 이벤트는 매우 드물기 때문에 이러한 이벤트에 대한 훈련 데이터를 얻는 것이 어렵습니다. 이러한 이유로 이러한 드문 이벤트에 대한 훈련 데이터는 종종 생성되어야 합니다.
Chakon은 Fortune를 통해 다음과 같이 설명했습니다.
“고객은 데이터를 생성하는 모든 매개 변수에 대해 전체적인 제어권을 가지고 있습니다. 실제 의미는, 일단 배포되면, 다양한 도메인, 다양한 민족, 지리적 위치 또는 상상할 수 있는 모든 환경에서 잘 작동할 것이라는 것을 확신할 수 있다는 것입니다.”
DataGen은 실제 세계의 항목 및 이벤트의 현실적인 시뮬레이션을 생성하기 위해 생성적 적대적 네트워크(GANs)를 사용합니다. Chakon은 회사가 실내 환경이나 인간의 인식과 관련된 모든 것을 신뢰할 수 있게 생성할 수 있다고 설명했습니다. 예를 들어, DataGen이 생성한 이미지 데이터 세트에는 로봇 팔을 훈련시키기 위해 사용되는 물체의 예가 포함될 수 있으며, 생성된 이미지들은 실제와 거의 구별할 수 없습니다. DataGen의 소프트웨어는 시각적 메시워크와 물리 시뮬레이션 시스템을 결합하여 3D 객체를 생성할 수 있습니다.
DataGen의 투자자에는 다양한 유명한 개인과 회사들이 포함됩니다. 투자자에는 Nvidia의 인공 지능 연구 부서의 책임자와 Max Plank Institute for Intelligent Systems,以及 Anthony Goldbloom, Kaggle의 CEO가 포함됩니다.








