インタビュー
Radu Rusu, FyusionのCEO & Co-Founder – インタビュー シリーズ

Radu Rusuは、FyusionのCEO & Co-Founderです。Fyusionは、人工知能で複雑な視覚的な問題を解決できる、新しい、視覚的に美しい3D技術を構築することを目標とした会社です。彼らは一緒に、新しいファイル形式である.fyuseを開発し、特許を取得しました。これにより、スマートフォンから驚くほど美しい3D画像をキャプチャできるようになり、ソーシャルメディアでセンセーションを巻き起こし、100万を超えるユーザーをコンシューマーモバイルアプリケーションを通じて引き付けました。
2012年から3Dに取り組んでおり、現在Open Perception, Inc.の社長兼CEOです。この非営利団体の使命声明についてお話しください。
私は2000年代初頭、大学院での研究中に、3Dデータ処理のキャリアを始めました。当時私は、ロボットが視覚的に世界をより良く見ることができるようにするというアイデアを持っていました。その結果、約10年のロボティクス関連の3Dコンピュータビジョン研究につながりました。2010年代初頭に、私が取り組んでいた研究は、より広範な問題に適用できることがわかりました。Open Perceptionは、Willow Garageからスピンオフして設立され、BSDライセンスのオープンソースのPoint Cloud Library (PCL) プロジェクトを引き継ぎ、その成長を促進しました。Open Perception, Inc.は、2012年4月にカリフォルニアで独立した組織として設立され、研究、教育、製品開発における2D/3D処理のためのオープンソースソフトウェアの開発、配布、採用を支援する目的で設立されました。
2014年、Fyusion, Inc.の共同創設者兼CEOになりました。Fyusion, Inc.の創設ストーリーについてお話しください。
ロボティクス研究中に、Fyusionの共同創設者と私は、ボトルネックがアルゴリズムではなくデータ形式であることを実感しました。機械学習は、特に視覚的な形式のデータを使用している多くのドメインで、精度のピークに達していました。世界は3次元ですが、当時のデータは2次元(写真やビデオ)でした。私たちは、3Dデータを機械学習プラットフォームで活用することで、世界を理解する方法を変える潜在性を感じました。
2014年、私たちは、新しい3Dデータを生成することを決めました。コンピュータビジョンと機械学習ソフトウェアを使用して、複数のデータソースを融合し、ポケットの中にある極めてスケーラブルなコモディティハードウェア(つまりスマートフォン)を使用しました。
私たちは、Fyusionを設立し、新しい、視覚的に美しい3D技術を構築することを目標としました。これにより、誰でも人工知能で複雑な視覚的な問題を解決できるようになります。
私たちは一緒に、新しいファイル形式である.fyuseを開発し、特許を取得しました。これにより、スマートフォンから驚くほど美しい3D画像をキャプチャできるようになり、ソーシャルメディアでセンセーションを巻き起こし、100万を超えるユーザーをコンシューマーモバイルアプリケーションを通じて引き付けました。
消費者向けアプリケーションでの3Dの意味を再定義する考えに最初に惹かれたのは何ですか?
私たちは、誰もがこれを大規模に取り組んでいないことを実感しました。これは解決されていない問題でした。Ph.D.プログラムと同様に、知的好奇心を刺激するのは、本当に複雑な問題です。誰かが「これは解決できない」と言った問題です。
この場合、ある程度は正しかったです。必要なアルゴリズムは部分的にしか考えられていませんでした。ハードウェアも存在しませんでした。特にエッジデバイスであるスマートフォンで動作する必要がありました。私たちは、実際にiPhone 4Sが発売されるのを待つ必要がありました。そうすれば、スマートフォンでリアルタイムの3Dコンピュータビジョンコードを実行できるようになりました。以前のiPhoneには1つのCPUコアしかなかったからです。私たちがスマートフォンのハードウェアができることを見て始めたとき、コンピュータビジョンとロボティクス研究の専門知識を活用して、どれだけの機能をこれらの小さなカメラとCPU/GPUに詰め込めるかを見てみようとしました。光線フィールドのキャプチャと処理をすべてソフトウェアで実現する方法を再考するのに時間がかかりました。ただし、実際に動作を見てみると、Fyusionは勢いを得ました。
私たちは、2D写真をアナログ形式で持っていました。次に、それらはデジタル化されました。3D世界では、コンピュータゲームやコンピュータグラフィックスから来ている「三角形メッシュにテクスチャー」を適用した(OBJのようなファイル形式)ことがありました。これらは、ゲームで人工的に生成されたオブジェクトを表現するために使用されていました。完璧な幾何学に大きく依存していますが、これは不可能です。カメラで水や透明な物体、葉、遠くにある物体などを三角形メッシュとして表現する方法はありますか?
消費者向けの3D形式の必要性を誰かが解決する必要があることは明らかでした。これは、完全に異なるパラダイムに基づいて解決され、キャプチャ時に利用可能な情報(ジャイロスコープセンサーを介したカメラの向きなど)を含める必要がありました。通常、2D画像をキャプチャするときにこれらの情報は破棄されます。次に、機械学習を介して破棄された情報を再推定しようとしています。
これは私たちの機会でした。これは、スタートアップが夢見るべきものです。本当に難しい問題を見つけ、情熱を持ち、適切なタイミングとオープニングを待ち、解決しようと狂気的に努力するのです。
コアテクノロジーにより、誰でもカメラを人物、物体、またはシーンの周りで動かして、没入感のあるインタラクティブな3D画像(.fyuse)を作成できます。モバイルアプリを使用して.fyuseを作成するプロセスについて説明できますか?
私たちはまだこのテクノロジーの初期段階にありますが、基本的には次のようになります。FyusionまたはFyusion ALIS SDKを使用するパートナーアプリケーションによって書かれたスマートフォンアプリケーションを開き、カメラを起動します。指示に従うと、デバイス上で.fyuseが取得されます。これは、コンピュータビジョンと機械学習によって処理された「ファイルオブジェクト」で、デバイス、Web、またはAR/VR/MRヘッドセット上でレンダリングできます。
これを実現するために使用されるコンピュータビジョンと機械学習の技術について説明できますか?
ここには銀の弾丸はありませんが、3Dコンピュータビジョンと機械学習ツールの広範なコレクションがあります。写真測量法(基本的に、空間で単一のカメラを動かして仮想カメラアレイを作成しているため)、ロボティクス(巨大なセンサフュージョン問題であるため、単一のカメラではなく、問題を解決するのに役立つデータを提供するセンサーの豊富なセットがあります)、コンピュータグラフィックス(私たちのSiggraph 2019の仕事を参照して、基礎となる構造を表現する方法を理解してください)など、多くのアイデアがあります。すべての処理はデバイス上で実行され、リアルタイムで実行される必要があります。つまり、コンピュートシェーダーを使用し、アセンブリ言語でコードを記述します。前述のように、これは初めてです。さらに多くのセンサーと計算能力が利用可能になるにつれて、私たちはALISスロットルを使用してテクノロジーのさまざまな側面を改善します。これは、長期的なビジョンです。私たちには、完全に満足するまでに10年以上の仕事があります。デジタル化された複雑な現実世界のシーンがどのように見えるかという点でです。
.fyuseはVRアプリケーションにとって破壊的なものになりそうです。.fyuseを使用できる現在のVRアプリケーションの種類について説明できますか?
私たちは、実世界のオブジェクトをデジタル化し、表示する必要があるすべてのVRアプリケーションで、ALISエンジンと.fyuseを活用することで利益が得られるべきだと考えています。電子商取引、ヘルスケア、自動車、教育など、幅広い分野とアプリケーションがあり、非常に興奮しています。
FyusesのVRアプリケーションの将来についてどう見ていますか?
私たちは、現在のテクノロジーに制限は見られません。ただし、現在の焦点は、小規模から中規模のシーンやオブジェクトにあり、広大な都市景観ではありません。
Fyusesは将来的にARとMRアプリケーションで使用されることが容易に想像できます。ARとMRの設定におけるFyusesの将来についてどう考えていますか?
私たちは、AR/VR/MRアプリケーションをすべて同じように扱います。3Dオブジェクトが私たちのテクノロジーを使用してデジタル化されると、シーンから抽出されてどこにでも配置できます。
あなたのチームは、仮想アシスタントまたはAIでFyusesを作成するアイデアについて議論しましたか?
私たちは、インタラクティブな仮想アバターを作成する機会を探っていません。これは確かに興味深い可能性ですが、私たちは現在取り組んでいる問題のセットを解決することに集中しようとしています。
FyusesまたはFyusion, Inc.についてさらに共有したいことはありますか?
これはピッチのように聞こえるかもしれませんが… 私たちは、ロボティクスと3Dコンピュータビジョンの科学者、CERNの物理学者、素晴らしいハッカーとエンジニアの混合チームです。私たちは、すべての種類の多様性を好みます。なぜなら、それが私たちをより賢く、より強くするからです。私たちが取り組んでいることに関心がある場合は、遠慮なく私たちに連絡してください。私たちは、すべての質問に答えるように尽力しています。誰かがコーヒーを飲みに来て、10年間滞在することになるかもしれません。
素晴らしいインタビュー、詳細についてはFyusionを訪問してください。












