インタビュー3 months ago
CraftStory CEO、Victor Erukhimov – インタビューシリーズ
Victor Erukhimovは、CraftStoryのCEOであり、コンピュータビジョンの研究開発エンジニアから起業家へと転身し、OpenCVの初期進化を形作る一助となり、その後Itseezを共同設立し、インテルによる買収前まで、技術系スタートアップから世界有数のコンピュータビジョン研究チームの一つへと成長を導きました。10年以上にわたり、CTOからCEO、そしてプレジデントへとキャリアを重ね、Itseez3Dでもその軌跡を継続。先進的なモバイル3Dスキャンおよびアバター生成技術の開発を主導するとともに、OpenCV.orgの長年の理事も務めました。現在、CraftStoryでは、AIネイティブな動画作成に注力し、シンプルな入力を高度にリアルでクリエイター向けの動画へと変換する技術を構築しています。彼のリーダーシップの下、同社は、スタジオ設備を必要とせずに迅速かつ高品質なコンテンツを必要とするマーケティングチーム、教育者、製品ストーリーテラー向けに設計された次世代生成動画モデルの開発を進めています。OpenCVからItseez3Dまで、最も影響力のあるコンピュータビジョンプロジェクトのいくつかを推進する原動力となってこられました。CraftStoryを設立しようと思ったきっかけは何ですか?また、過去のご経験が、長尺でスタジオ品質のAI動画に対するビジョンにどのように影響を与えましたか? CraftStory以前、私のチームと私は、VR/AR、ゲーム、マーケティングなどのアプリケーション向けにセルフィーからリアルなアバターを作成するツールであるAvatar SDKに取り組んでいました。私たちはすでに数年もの間、デジタルヒューマンについて深く考え続けていました。そして約2年前、動画生成のためのGenAI技術が、まったく新しい波のアプリケーションを解き放つほどに十分なレベルに達していることに気づき、すぐに飛び込みました。CraftStoryは、OpenCVの創設者たちを中核として立ち上げられました。その共通の背景は、Model 2.0の技術的方向性と研究の優先順位にどのように影響しましたか?私たちは、コンピュータビジョンと機械学習が並外れた進歩を遂げている時代に生きています。初期の量子力学における数十年にわたるすべてのブレークスルーが、ほんの数年で圧縮されたかのように感じられます。画像の理解と生成は、私たちがOpenCVを開発していた頃に扱っていたものからはるかに進歩しました。この進化を10年以上にわたって観察し、予測を立て、その成功と失敗を見てきたことで、技術と市場がどこに向かっているかについて深い直感を得ました。その視点が、私たちの研究の優先順位とModel 2.0のロードマップを直接的に形作りました。Model 2.0は、多くの動画モデルが苦戦していること、つまり数分間にわたる映像全体で同一性、感情、一貫性を維持するという課題に取り組んでいます。これを可能にしたブレークスルーは何ですか?同一性と一貫性は、初日から私たちの最優先事項でした。ネットワークのいくつかのアーキテクチャ上の選択は、特にこれらの課題に対処するために設計されました。しかし、同様に重要なのは、私たち自身が収集したデータでモデルを微調整したことです。私たちは、自社の高フレームレートカメラを使用して制御されたスタジオ環境でプロの俳優を撮影し、身体、手、指の素早い動きを含むすべてのフレームが鮮明に保たれるようにしました。そのレベルの高品質で動きに富んだデータが、大きな違いを生みました。あなたのチームは、長いシーケンスの一貫性を保つために並列化拡散パイプラインを導入しました。これはどのような問題を解決するために設計されたもので、なぜ数分間にわたる人間の動画にとって不可欠だったのですか?長いフレームシーケンスに対して単一の拡散プロセスを実行することは非常に困難です。計算コストが高く、膨大な量のトレーニングデータを必要とします。私たちの並列化拡散パイプラインは、異なる時間セグメントで複数の拡散プロセスを同時に実行することでこれを解決します。重要なブレークスルーは、これらのセグメントをどのように接続して、長い時間にわたって一貫性と整合性を保つかを解明したことです。Model 2.0は現在、最大5分までの動画を生成できますが、それは主に技術的な制約です。さらなるエンジニアリング作業により、事実上任意の長さの動画にこれを拡張することが可能です。CraftStoryは、動きと表情の両方におけるリアリズムを重視しています。より長い時間にわたって自然な手、身体、顔のダイナミクスを維持する上で、最も困難だった課題は何でしたか?最大の課題は、長い時間にわたってリアルな身体と顔の動きを一貫して生成することです。微妙な手の動き、姿勢の変化、微表情といった細かいディテールは、シーケンスが長くなるにつれて、ほとんどのモデルで崩れがちです。私たちは、プロの俳優と高フレームレートカメラを使用して撮影した、自社の広範で高品質なデータセットでトレーニングすることでこれを解決しました。そのレベルの制御された、動きに富んだ映像が、孤立した瞬間だけでなく、パフォーマンス全体にわたって自然なダイナミクスを維持するためにモデルが必要とする信号を与えたのです。多くの企業が、高額な実写撮影と短く信頼性の低いAIクリップの間で板挟みになっています。数分間にわたる人間中心の動画に対する最大の商業的需要は、どこから生まれるとお考えですか?AI生成動画は、カメラで撮影された映像と見分けがつかないほど急速に進化しており、従来の制作コストのほんの一部で済みます。私たちが現在見ている最大の初期需要は、企業向けコンテンツ、特にラーニング&ディベロップメント(学習開発)分野です。企業は、大量の明確で人間中心の指導動画を必要としており、それらを瞬時に更新できる必要があります。数分間にわたり一貫性のあるAIプレゼンターは、その用途に完璧に適合します。また、製品紹介、チュートリアル、説明動画などのマーケティングユースケースへの関心も高まっています。技術が成熟するにつれて、長尺のAI動画は、高額な実写撮影と、現在ほとんどのツールが生成できる短く信頼性の低いクリップの両方を、ますます置き換えていくでしょう。あなたのチームは、高度なリップシンクとジェスチャー調整システムを構築しました。完全に信じられるAI対話まで、あとどのくらいの距離があるとお考えですか?また、まだ改善が必要な点は何ですか?非常に近いところまで来ていると思います。特に、より高速化し、ネイティブの1080pを生成できるようにするという、あと一つの技術的イテレーションがあれば、完全に信じられるAI対話に到達できるでしょう。あなた方が開発しているテキストから動画へのモデルは、スクリプトから直接長尺生成を約束しています。それが主流になる前に、まだ取り組んでいる技術的障壁は何ですか?根本的な障壁はありません。ただ、多くのエンジニアリング作業が残っています。動画から動画への変換はより手の届きやすい成果だったので、まずそれを市場に投入しました。現在、私たちはスクリプトと参照画像を入力として受け取る画像から動画へのモデルに注力しています。急速に進歩しており、今後数週間以内にリリースしたいと考えています。歩きながら話すショットのような、動くカメラのシーケンスは、映画的オートメーションへの大きな一歩です。Soraのような競合他社と比較して、あなたのチームはこの課題にどのようにアプローチしていますか?私たちは、長尺の歩きながら話すシーケンス、つまり映画的で自然に感じられる数分間のショットを生成することに注力しています。私たちの目標は、顧客がジョニーウォーカーの有名な「Keep Walking」キャンペーンのようなスタイルの動画を、本格的な制作クルーなしで作成できる能力を提供することです。私たちは急速に進歩しており、非常に近い将来、一貫したキャラクター、動き、カメラのダイナミクスを持つ、数分間にわたる歩きながら話すシーケンスを制作できるようになります。OpenAI、Googleなどが長尺動画分野に参入を競う中、この新興市場におけるCraftStoryの強みは何だとお考えですか?AI動画市場は非常に競争が激しく、大手プレイヤーが技術的に追いつくことは十分に予想しています。しかし、私たちの強みは集中力とスピードです。私たちは非常に野心的なロードマップを持ち、迅速に動き、素早く反復できる少数精鋭のチームです。その機敏さ、そして長尺で人間中心の動画への集中こそが、CraftStoryを他社と差別化するものです。AI生成の人間動画がより生き生きとし、スケーラブルになるにつれて、この技術が広まる中で、どのような倫理的または創造的な保護措置が必要だとお考えですか?あらゆる強力な技術は諸刃の剣であり、それを市場に出すことによって生じる特定のリスクを理解することが極めて重要です。AI生成の人間動画において、なりすましは最も重大な(唯一ではありませんが)懸念事項です。私たちはこれらのリスクを分析する時間を費やし、特定の有害なユースケースを防ぐ保護措置を実装しました。技術がより生き生きとし、スケーラブルになるにつれて、強力な倫理的および創造的な保護を維持することは、業界全体にとって不可欠となるでしょう。素晴らしいインタビューをありがとうございました。さらに詳しく知りたい読者は、CraftStoryをご覧ください。