人工知能
DataGenが1800万ドルを調達し、AIのための合成データを作成する

イスラエルのスタートアップ会社DataGenは、最近、1850万ドルを調達し、AI企業向けの合成データを生成するプラットフォームの開発を資金化した。
任意の人工知能企業は、同じ核心的な課題に直面している。つまり、AIモデルをトレーニングするために必要なデータを収集することである。高品質のトレーニングデータの需要は非常に高く、AI企業が必要なデータを入手するために、サブインダストリーが生まれている。AIおよびAI関連企業は、常に新しい方法で必要なデータを入手しようとしている。トレーニングデータを入手する方法の1つは、単にデータを生成または作成することである。
フォーチュン誌によると、DataGenは、自社の機械学習モデルを使用して、特に画像およびビデオデータを生成し、他の企業がそのデータを使用してAIモデルをトレーニングできるようにしている。同社が生成するデータは、顧客が自社のAIモデルをトレーニングするために使用する。DataGenのCEO兼創設者であるOfir Chakonによると、同社は、クライアント企業向けに完全な合成データセットをわずか数時間で生成できる。これは、通常、データセットを準備するのに数週間または数ヶ月かかるという、従来の方法よりもはるかに短い時間である。
合成データが企業に魅力的である理由は、準備のスピードだけではない。合成データには、実際のデータと比較してプライバシーに関する懸念が少ない。データのプライバシーを保護する法律が制定されるにつれ、合成トレーニングデータを使用することがより魅力的になる。テクノロジー分析会社であるGartnerの1つの推定によると、2023年までに、世界人口の約65%が某種のデータプライバシー法によって保護されることになる。
合成データは実際の人物に基づいていないが、依然として偏りを含む可能性がある。合成データモデルによって生成されるデータには、元のトレーニングデータと同じパターンが含まれるため、データセットに偏りがある場合、生成されたデータにも同様の偏りが存在する。DataGenは、生成されたデータの偏りを軽減するための戦略を講じている。合成データの偏りを軽減する方法の1つは、比較的まれなイベントの発生率を増やすことである。つまり、データセット内の1つのクラスが過小表現されている場合、その発生率をより均等なものに増やすことができる。
まれなイベントの発生率を増やすというテクニックは、潜在的に危険なシナリオを含むデータセットを作成する場合に非常に重要である。自律走行車のトレーニングに使用されるデータセットを考えてみよう。車両は、道路にシンクホールが開いたなどのまれなイベントに対して信頼性の高い応答を示す必要がある。しかし、これらのイベントは非常にまれであり、これらのイベントのトレーニングデータを入手することは困難である。したがって、これらのまれなイベントのトレーニングデータは、しばしば生成される必要がある。
Chakonは、フォーチュン誌のインタビューで次のように述べている。
「私たちの顧客は、生成されるデータのすべてのパラメータを完全に制御できる。現実世界での意味は、デプロイされた後、さまざまなドメイン、さまざまな民族、さまざまな地理的ロケーション、または想像できるすべての環境で正常に動作することを保証できる」ということである。
DataGenは、Generative Adversarial Networks(GANs)を使用して、現実世界のアイテムやイベントのリアルなシミュレーションを生成する。Chakonは、同社は、屋内環境や人間の認識に関連するものであれば、ほとんどすべてのもののリアルな例を信頼性の高い方法で生成できることを説明した。例えば、DataGenによって生成された画像データセットには、倉庫ロジスティクスに使用されるロボットアームのトレーニングに使用されるオブジェクトの例が含まれる可能性があり、生成された画像は実物と見分けがつかないほどリアルである。DataGenのソフトウェアは、視覚的なメッシュワークと物理シミュレーションシステムを組み合わせて、3Dオブジェクトを生成できる。
DataGenの投資家には、NvidiaのAI研究部門のディレクターやマックス・プランク・インテリジェント・システム研究所、KaggleのCEOであるAnthony Goldbloomなど、著名な個人や企業が含まれる。












