記事執筆

Lior Hakim 氏、Hour One の共同創設者兼 CTO – インタビューシリーズ

公開済み

8ヶ月前

2023 年 9 月 1 日

リオール・ハキム氏、共同創設者兼最高技術責任者 XNUMX時間目は、プロフェッショナルなビデオコミュニケーション用のバーチャルヒューマンを作成する業界のリーダーです。本物の人間だけをモデルにした本物そっくりの仮想キャラクターは、テキストを通じて人間のような表現力を伝え、企業が比類のない容易さと拡張性でメッセージングを向上できるようにします。

Hour One の誕生秘話を教えていただけますか?

Hour One の起源は、暗号ドメインへの私の関与に遡ることができます。その取り組みの後、私はマスクラウドコンピューティングが活用できる次の大きなことは何だろうと考え始めました。機械学習がレコメンデーションや予測分析で人気を集めてきたため、私はいくつかの ML インフラストラクチャ関連プロジェクトに取り組んでいました。この仕事を通じて、私は初期のジェネレーティブ作品に詳しくなり、当時特に GAN に興味を持っていました。私は、当時新しいテクノロジーをテストするために、手に入るすべてのコンピューティングを使用していました。この分野で会社を経営している友人に私の結果を見せたとき、彼は私にオーレンに会わなければならないと言った。理由を尋ねると、おそらく私たち二人とも時間を無駄にするのをやめて、お互いの時間を無駄にするだろうと彼は言いました。 Hour One の私の共同創設者兼 CEO であるオーレンは、当時 AI への初期投資家でした。そして、私たちは異なる場所に立っていましたが、二人とも同じ方向に進んでおり、バーチャルヒューマンの本拠地となる Hour One の設立は避けられない旅でした。

使用されている機械学習アルゴリズムにはどのようなものがありますか?また、生成 AI はプロセスのどの部分ですか?

ビデオ作成の分野では、機械学習アルゴリズムがあらゆる段階で役立ちます。スクリプト作成段階では、大規模言語モデル (LLM) が貴重なサポートを提供し、コンテンツを作成または調整して説得力のある物語を実現します。オーディオに移行すると、Text-to-Speech (TTS) アルゴリズムがテキストを有機的で感情的な音声に変換します。視覚的表現に移行すると、当社独自のバーチャルヒューマンのマルチモーダル基本モデルが中心になります。このモデルは、敵対的生成ネットワーク (GAN) と変分オートエンコーダー (VAE) で強化されており、状況に応じた感情、発音、明確で魅力的で本物の配信を伝えることに長けています。このような生成技術は、テキストと音声の合図を仮想人間の本物のようなビジュアルに変換し、超現実的なビデオ出力につながります。 LLM、TTS、GAN、VAE、およびマルチモーダルモデルのオーケストレーションにより、Generative AI は現代のビデオ制作の単なる一部ではなく、バックボーンとなっています。

Hour One は競合するビデオジェネレーターとどのように差別化していますか?

Hour One と他のビデオジェネレーターとの違いは、競争へのこだわりからではなく、品質、製品設計、市場戦略へのアプローチを支配する深く根付いた哲学から生じています。私たちの基本原則は、常に人間的要素を優先し、私たちの作品が信頼性と感情に共鳴するものであることを保証することです。私たちは、妥協することなく業界最高の品質を提供することに誇りを持っています。高度な 3D ビデオレンダリングを活用することで、ユーザーに本物の映画体験を提供します。さらに、私たちの戦略は独自の意見を持っています。私たちは洗練された製品から始めて、完璧を目指して迅速に反復します。このアプローチにより、当社の製品は常に一歩先を行き、ビデオ生成における新たなベンチマークを設定することができます。

GPU に関する幅広い背景をお持ちなので、GPU に関するあなたの見解についていくつかの洞察を私たちに共有していただけますか? NVIDIA 次世代 GH200 Grace Hopper スーパーチッププラットフォーム?

Grace Hopper アーキテクチャはまさにゲームチェンジャーです。計算を完全にボトルネックにすることなく、GPU がホストの RAM から効果的に動作できれば、現在は不可能なトレーニングにおけるモデル/アクセラレータの比率が解放され、その結果、トレーニングジョブサイズにおいて非常に望ましい柔軟性が得られます。 GH200 の在庫全体が LLM トレーニングによって飲み込まれないと仮定すると、将来的にはマルチモーダルアーキテクチャのプロトタイピングコストを大幅に削減するためにそれを使用したいと考えています。

現在注目されている他のチップはありますか?

私たちの主な目標は、価格競争力のあるビデオコンテンツをユーザーに提供することです。現時点では大容量メモリ GPU の需要を考慮して、トップクラウドサービスプロバイダーで提供される GPU クラウドサービスを常に最適化し、試しています。さらに、一部のワークロードについては少なくとも部分的にプラットフォームに依存しないように努めています。したがって、私たちは TPU やその他の ASIC に注目しており、AMD にも細心の注意を払っています。最終的には、より優れた FLOP/$ 比率を実現できるハードウェア主導の最適化ルートが検討されることになります。

ビデオ生成における将来の進歩についてのビジョンは何ですか?

24か月後には、生成された人間と捕らえられた人間の区別がつかなくなるでしょう。それは多くのことを変えるでしょう、そして私たちはここでそれらの進歩の最前線にいます。

現時点では、生成されたビデオのほとんどはコンピューターやモバイルデバイス向けですが、拡張現実と仮想現実の両方でフォトリアルなアバターや世界を生成する前に、何を変える必要があるでしょうか?

現時点では、拡張現実 (AR) と仮想現実 (VR) の両方でフォトリアリスティックなアバターと世界を生成する機能を備えています。主な障害は遅延です。 AR や VR ヘッドセットなどのエッジデバイスに高品質のリアルタイムグラフィックスを配信することは不可欠ですが、これをシームレスに実現するにはいくつかの要因が必要です。何よりも、当社はより高速かつ効率的な処理を保証するためにチップ製造の進歩に依存しています。これに加えて、エクスペリエンスを損なうことなく長時間使用できるようにするには、消費電力を最適化することが重要です。最後になりましたが、私たちは、生成とリアルタイムレンダリングの間のギャップを効率的に埋めることができるソフトウェアの画期的な進歩を期待しています。これらの要素が統合されると、AR と VR の両方のプラットフォームで写真のようにリアルなアバターや環境の利用が急増するでしょう。

AI における次の大きな進歩は何だと思いますか?

AI における次の重要なブレークスルーに関しては、常に興奮と期待の空気が漂います。先ほどいくつかの進歩について触れましたが、私が共有できるのは、私たちが現時点でいくつかの画期的なイノベーションに積極的に取り組んでいることです。詳細については詳しく説明したいと思いますが、今のところは、今後のリリースに注目していただくことをお勧めします。 AI の将来には大きな可能性が秘められており、私たちはこうした先駆的な取り組みの最前線に立つことに興奮しています。乞うご期待！

XNUMX 時間目について他に共有したいことはありますか?

私たちのプラットフォームに新しく追加された Discord チャンネルと API をぜひチェックしてください。 XNUMX時間目.