記事執筆

Synthesis AI CEO、ヤシャル・ベザディ氏 – インタビューシリーズ

公開済み

2年前

2022 年 2 月 7 日

Yashar Behzadi PhD は CEO 兼創設者です。合成AI。彼は、AI、医療技術、IoT 市場で革新的なビジネスを構築してきた経験豊富な起業家です。彼は過去 14 年間、シリコンバレーでデータ中心のテクノロジー企業の構築と拡大に費やしてきました。 Yashar は 30 を超える特許と出願中の特許を取得しており、博士号を取得しています。脳機能イメージングの時空間モデリングに焦点を当てた UCSD の博士号。

合成AI は、ディープラーニングと CGI が交差するスタートアップ企業であり、コンピュータービジョンモデル開発の新しいパラダイムを生み出しています。これらにより、顧客は従来の人による注釈ベースのアプローチに比べて、わずかな時間とコストで、より優れたモデルを開発できるようになります。

最初にコンピューターサイエンスと AI に関わるようになったきっかけは何ですか?

博士号を取得しました。 2006 年に UCSD で博士号を取得し、コンピュータービジョンと脳画像データの空間的および時間的モデリングに焦点を当てました。その後、私はシリコンバレーでさまざまな業界のセンサー、データ、機械学習が交わる場所で 16 年間働きました。私はいくつかの注目すべきテクノロジーに取り組む機会に恵まれたことを非常に幸運に感じており、信号処理、機械学習、データサイエンスに焦点を当てた 30 件を超える特許を発行または申請しています。

Synthesis AI の誕生秘話を教えていただけますか?

2019 年に Synthesis AI を設立する前は、大手テクノロジー企業向けのコンピュータービジョンモデルの開発に重点を置いた世界的な AI サービス会社を率いていました。会社の規模に関係なく、ラベル付きトレーニングデータの質と量によって非常に制限があることがわかりました。企業が地理的に拡大したり、顧客ベースが拡大したり、新しいモデルや新しいハードウェアを開発したりすると、モデルが適切に動作することを保証するために新しいトレーニングデータが必要になりました。また、今日の人間参加型の注釈パラダイムでは、コンピュータービジョンの将来が成功しないことも明らかになりました。自律性、ロボティクス、AR/VR/メタバースアプリケーションにおける新たなコンピュータービジョンアプリケーションには、人間がラベル付けできない 3D ラベル、深度情報、マテリアルプロパティ、詳細なセグメンテーションなどの豊富なセットが必要です。これらの新しいモデルをトレーニングするために必要な豊富なラベルのセットを提供するには、新しいパラダイムが必要でした。技術的な要因に加えて、モデルの偏見や消費者のプライバシーに関連する倫理的問題に関して、消費者および規制当局の監視が強化されていることがわかりました。

私はコンピュータービジョンのパラダイムを変革することを目的として Synthesis AI を設立しました。同社の合成データ生成プラットフォームを使用すると、3D ピクセルパーフェクトなラベルの拡張セットを使用してフォトリアリスティックな画像データをオンデマンドで生成できます。私たちの使命は、合成データ技術を開拓して、より有能なモデルの倫理的な開発を可能にすることです。

この用語に馴染みのない読者のために、合成データとは何なのかを定義していただけますか?

合成データは、現実世界のデータの代替として機能するコンピューター生成データです。合成データは、現実世界から収集または測定されるのではなく、シミュレートされたデジタル世界で作成されます。 Synthesis AI は、ビジュアルエフェクトや CGI の世界のツールを生成 AI モデルと組み合わせることで、企業がコンピュータビジョンモデルをトレーニングするためのフォトリアリスティックで多様なデータをオンデマンドで大量に作成できるようにします。同社のデータ生成プラットフォームは、プライバシーを保護しながら高品質の画像データを取得するコストと速度を桁違いに削減しました。

合成データがどのように生成されるかについて説明していただけますか?

合成データセットは、現実世界のデータではなく人工的に作成されます。視覚効果業界のテクノロジーを生成ニューラルネットワークと組み合わせて、膨大で多様なフォトリアリスティックなラベル付き画像データを作成します。合成データを使用すると、現在のアプローチの数分の一のコストと時間でトレーニングデータを作成できます。

合成データを活用すると、どのように競争力が生まれるのでしょうか?

現在、ほとんどの AI システムは、人間が画像に含まれるキーにラベルを付けてから、画像を解釈する AI アルゴリズムをトレーニングする「教師あり学習」を活用しています。これはリソースと時間がかかるプロセスであり、人間が正確にラベル付けできるものによって制限されます。さらに、AI の人口統計上の偏りや消費者のプライバシーに関する懸念が増大し、代表的な人間のデータを取得することがますます困難になっています。

私たちのアプローチは、複雑な画像データを合成してフォトリアリスティックなデジタル世界を作成することです。私たちはデータを生成するので、オブジェクトの 3D 位置、オブジェクト同士や環境との複雑な相互作用に関するこれまでに入手できなかった情報を含め、シーンに関するすべてを把握しています。現在のアプローチを使用してこの量のデータを取得してラベルを付けるには、数年とは言わないまでも、数か月かかります。この新しいパラダイムにより、効率とコストが 100 倍向上し、より高機能な新しいクラスのモデルが推進されます。

合成データは人工的に生成されるため、従来のように現実世界からデータセットを収集する場合に生じる多くのバイアスやプライバシーの懸念が解消されます。

オンデマンドのデータ生成により、どのようにしてスケーリングの加速が可能になるのでしょうか?

モデルのトレーニング用に実世界のデータを取得して準備するのは、長くて退屈なプロセスです。自動運転車、ロボット工学、衛星画像などの複雑なコンピュータービジョンシステムでは、必要なハードウェアの導入に法外な費用がかかる場合があります。データが取得されたら、人間が重要な特徴にラベルを付けて注釈を付けます。このプロセスはエラーが発生しやすく、人間が多くのアプリケーションに必要な 3D 位置などの重要な情報にラベルを付ける能力には限界があります。

合成データは、人間が注釈を付けた従来の実際のデータのアプローチよりも桁違いに高速かつ安価であり、業界全体でのより高性能な新しいモデルの展開を加速することになります。

合成データはどのようにして AI バイアスの軽減または防止を可能にするのでしょうか?

AI システムは遍在していますが、人々のグループに影響を与える可能性のある固有のバイアスが含まれている可能性があります。データセットは、特定のクラスのデータや、過小評価または過小評価される人々のグループによってバランスが崩れる可能性があります。人間中心のシステムを構築すると、性別、民族性、年齢による偏見が生じることがよくあります。対照的に、設計によって生成されたトレーニングデータは適切にバランスが取れており、人間によるバイアスがありません。

合成データは、AI のバイアス問題を解決する強力なソリューションとなる可能性があります。合成データは、現実世界の出来事や現象から測定または抽出されるのではなく、部分的または完全に人工的に生成されます。データセットが多様でないか、十分な大きさではない場合、AI が生成したデータが穴を埋めて偏りのないデータセットを形成することができます。一番良いところ？これらのデータセットを手動で作成すると、チームが完了するまでに数か月または数年かかる場合があります。合成データを使用して設計すると、一晩で完了できます。

コンピュータービジョン以外で、将来的に合成データの他の潜在的なユースケースにはどのようなものがありますか?

消費者向け製品、自律性、ロボット工学、AR/VR/メタバースなどに関連するコンピュータービジョンの多数のユースケースに加えて、合成データは他のデータモダリティにも影響を与えるでしょう。すでに、企業が構造化表データ、音声、自然言語処理に合成データのアプローチを活用しているのを目にしています。基盤となるテクノロジーと生成パイプラインはモダリティごとに異なり、近い将来、マルチモーダルシステム (例: ビデオ + 音声) が登場すると予想されます。

Synthesis AI について他に共有したいことはありますか?

昨年末にリリースしたのが、ヒューマン APISynthesis AI の合成データ機能が大幅に拡張され、何百万ものユニークで高品質な 3D デジタルヒューマンをプログラムで生成できるようになります。この発表は、大手スマートフォン、テレビ会議、自動車、テクノロジー企業に 10 万枚以上のラベル付き顔画像を提供してきた、FaceAPI 合成データ・アズ・ア・サービス製品の発売から数か月後に行われました。 HumanAPI は、高度なコンピュータービジョン人工知能 (AI) アプリケーションをサポートするという同社の取り組みの次のステップです。

また、HumanAPI は、スマート AI アシスタント、仮想フィットネスコーチ、そしてもちろんメタバースアプリケーションの世界など、お客様に無数の新しい機会を提供します。

現実世界のデジタルダブルを作成することにより、メタバースは、再考されたソーシャルネットワーク、エンターテイメントエクスペリエンス、テレビ会議、ゲームなどに至るまでの新しいアプリケーションを可能にします。コンピュータービジョン AI は、デジタル領域で現実世界を高忠実度でキャプチャし、再現する方法の基礎となります。写真のようにリアルで、表現力豊かで、行動的に正確な人間は、将来のコンピュータービジョンアプリケーションにとって不可欠な要素となるでしょう。 HumanAPI は、企業が完全にラベル付けされた大量の全身データをオンデマンドで作成し、姿勢推定、感情認識、活動と行動の特徴付け、顔の再構築などを含む、より有能な AI モデルを構築できるようにする最初の製品です。

素晴らしいインタビューをありがとうございました。さらに詳しく知りたい読者は、こちらをご覧ください。合成AI.