Connect with us

クラフトストーリーのVictor Erukhimov CEO – インタビュー シリーズ

インタビュー

クラフトストーリーのVictor Erukhimov CEO – インタビュー シリーズ

mm

Victor Erukhimov、クラフトストーリーのCEOは、コンピュータビジョンR&Dエンジニアから起業家に転身し、OpenCVの初期進化を形作り、後にItseezを共同設立し、技術スタートアップから世界をリードするコンピュータビジョン研究チームの一つに導き、インテルによる買収までを手がけた。10年以上の期間で、CTOからCEOに、そして大統領に昇進し、その軌道をItseez3Dでも続け、先進的なモバイル3Dスキャニングとアバタージェネレーションテクノロジーの開発を指揮し、同時にOpenCV.orgの長年の取締役も務めた。

クラフトストーリーでは、AIネイティブビデオ作成に注力し、シンプルな入力から非常にリアルな、クリエイター向けのビデオを変換するテクノロジーを構築している。彼の指導の下、会社は、マーケティングチーム、教育者、製品ストーリーテラー向けに、スタジオオーバーヘッドなしで高速、高品質のコンテンツを作成できる次世代の生成ビデオモデルを開発している。

あなたは、OpenCVからItseez3Dまで、最も影響力のあるコンピュータビジョンプロジェクトの背後で推進力となってきました。クラフトストーリーを設立するきっかけとなったものは何ですか。また、あなたの過去の仕事は、長編スタジオ品質のAIビデオのビジョンをどのように形作りましたか。

クラフトストーリー設立以前、私と私のチームは、Avatar SDKというツールを開発していました。これは、VR/AR、ゲーム、 마케팅、その他のアプリケーション向けにリアルなアバターを作成するツールでした。私たちはすでに数年前からデジタルヒューマンについて深く考えていました。約2年前、私たちは、GenAIテクノロジーがビデオ生成の新しい波を解放するのに十分に良くなっていることを認識し、すぐに参入しました。

クラフトストーリーは、OpenCVの創設者を中心に立ち上がりました。共通の背景は、Model 2.0の技術的方向性と研究優先順位にどのような影響を与えましたか。

私たちは、コンピュータビジョンと機械学習の進歩の時代に生きています。これは、初期の量子力学のブレークスルーが数十年かけて広がったのと同様ですが、数年で起こっています。画像の理解と生成は、OpenCVを開発していた当時よりもはるかに進歩しています。この進化を10年以上観察し、予測を行い、それが成功または失敗するのを見てきたことで、私たちには技術と市場が向かっている方向性について深い直感が得られました。この視点は、Model 2.0の研究優先順位とロードマップを直接形作りました。

Model 2.0は、多くのビデオモデルが苦労するものを解決しています。長時間の映像でアイデンティティ、感情、の一貫性を維持するという点で、どのようなブレークスルーが可能になったのでしょうか。

アイデンティティと一貫性は、私たちが最初から優先してきたものです。ネットワークのいくつかのアーキテクチャ上の選択は、これらの課題に対処するために特に設計されました。しかし、同様に重要だったのは、自分たちで収集したデータでモデルをファインチューンすることでした。プロの俳優を制御されたスタジオ環境で、高フレームレートカメラを使用して撮影し、身体、手、指の速い動きを含むすべてのフレームが鮮明であることを保証しました。そのレベルの高品質で動きのあるデータは、大きな違いをもたらしました。

あなたのチームは、長いシーケンスを一貫性を持たせるために、並列化された拡散パイプラインを導入しました。このアプローチはどのような問題を解決するために設計されましたか。また、複数分の人間ビデオではなぜ不可欠でしたか。

長いシーケンス全体で単一の拡散プロセスを実行することは、非常に課題的です。計算コストが高く、膨大な量のトレーニングデータを必要とします。私たちの並列化された拡散パイプラインは、異なる時間セグメントで複数の拡散プロセスを同時に実行することでこの課題を解決します。重要なブレークスルーは、これらのセグメントを一貫性と整合性を保つ方法で接続する方法を見つけることでした。Model 2.0は現在、5分間のビデオを生成できますが、これは主に技術的な制約です。さらにエンジニアリングを行うことで、基本的に任意の長さのビデオを生成できるようになります。

クラフトストーリーは、動きと表情の両方でリアリズムを強調しています。長時間の間で自然な手、身体、顔のダイナミクスを維持する際に、最も難しい課題は何でしたか。

最大の課題は、長時間にわたって一貫した身体と顔の動きを生成することです。小さな詳細、たとえば繊細な手の動き、姿勢の変化、またはマイクロ表現は、ほとんどのモデルではシーケンスが長くなるにつれて崩壊しやすいです。これを解決するために、私たちは、プロの俳優と高フレームレートカメラを使用して、広範囲にわたる高品質のデータセットをトレーニングしました。そのレベルの制御された、動きのある映像は、モデルに全体的なパフォーマンスを通して自然なダイナミクスを維持するためのシグナルを与えました。

多くの企業は、高価な生撮影と短く信頼できないAIクリップの間で挟まれています。長時間の人間中心のビデオに対する最大の商業需要は、どこで発生するでしょうか。

AI生成ビデオは、従来の生撮影に比べてはるかに低コストで、ほぼ同等の品質を実現しています。私たちが最初に目にする最大の需要は、企業コンテンツ、特に学習&開発分野で発生しています。ここでは、企業は大量の明確で人間中心の指導ビデオを瞬時に更新できる必要があり、これらのビデオはマルチミニットのAIプレゼンターに最適です。

また、製品紹介、チュートリアル、説明動画などのマーケティング用途での需要も増えています。テクノロジーが成熟するにつれて、長時間のAIビデオは、従来の高価な生撮影と現在のツールが生成できる短く信頼できないクリップを、ますます置き換えるでしょう。

あなたは、先進的なリップシンクとジェスチャー整列システムを構築しました。完全に信頼できるAIダイアログに到達するには、どのくらいの距離がありますか。また、改善すべき点は何ですか。

テキストからビデオへのモデルを開発中ですが、スクリプトから直接長時間の生成を実現するために、まだ克服しなければならない技術的な障害は何ですか。

カメラの動きを伴うシーケンス、たとえばウォークアンドトークショットは、映画的な自動化への大きなステップです。クラフトストーリーのアプローチは、Soraのような競合他社と比較してどのように異なりますか。

OpenAI、Googleなどが長時間のビデオに参入している中で、クラフトストーリーのこの新興市場における優位性は何ですか。

AI生成人間ビデオがよりリアルでスケーラブルになるにつれて、どのような倫理的または創造的な保護策がこのテクノロジーの普及に際して必要だと思いますか。

あらゆる強力なテクノロジーは、双刃の剣です。このテクノロジーを市場に導入する際に伴う特定のリスクを理解することが不可欠です。AI生成人間ビデオでは、身代わりが最も重大な懸念事項ですが、唯一の懸念事項ではありません。私たちはこれらのリスクを分析し、特定の有害な使用事例を防止するための保護策を実装しました。このテクノロジーがよりリアルでスケーラブルになるにつれて、強力な倫理的および創造的な保護を維持することは、全業界にとって不可欠です。

素晴らしいインタビュー、ありがとうございました。詳しく知りたい読者は、クラフトストーリーを訪れてください。

アントワーヌは、Unite.AIの創設パートナーであり、ビジョナリーなリーダーです。彼は、AIとロボティクスの未来を形作り、推進するという、揺るぎない情熱に突き動かされています。シリアルエントレプレナーである彼は、AIは電気と同じように社会に大きな変革をもたらすと信じており、破壊的な技術やAGIの潜在能力について熱く語ることがよくあります。

As a futurist、彼は、これらのイノベーションが私たちの世界をどのように形作るかを探求することに尽力しています。さらに、彼は、Securities.ioの創設者であり、未来を再定義し、全セクターを再構築する最先端技術への投資に焦点を当てたプラットフォームです。