インタビュー

Ofir Krakowski, DeepdubのCEO兼共同創設者 – インタビューシリーズ

Published March 13, 2025

Updated April 26, 2026

Antoine Tardif, CEO & Founder of Unite.AI

Ofir Krakowskiは、Deepdubの共同創設者兼CEOです。コンピューターサイエンスと機械学習の分野で30年の経験を持つ彼は、25年間にわたりイスラエル空軍の機械学習とイノベーション部門の創設と運営に重要な役割を果たしてきました。

Deepdubは、ディープラーニングとボイスクローニングを利用したAI駆動の吹き替え会社で、映画、テレビ、デジタルコンテンツ向けの高品質でスケーラブルなローカライズを提供しています。2019年に創設された同社は、コンテンツクリエイターがオリジナルの演技を保持しながら、会話を複数の言語にシームレスに翻訳できるようにします。AI駆動のスピーチ合成と人間の言語的監視を組み合わせることで、Deepdubはグローバルコンテンツのアクセシビリティを高め、従来の吹き替えの時間とコストを削減します。同社は、イノベーションに対する業界の認識を獲得し、エンターテインメント業界全体にAIローカライズ技術を拡大するための主要なパートナーシップ、認定、資金調達を確保しています。

あなたが2019年にDeepdubを創設した動機とは何でしたか？特定の瞬間や課題がその創設につながったのでしょうか？

従来の吹き替えは、コンテンツのローカライズにおける業界標準でしたが、それは高額で時間がかかり、リソースを大量に必要とするプロセスです。AI生成ボイスソリューションは存在しましたが、俳優の演技を真正に捉えるために必要な感情の深さが欠けていたため、高品質で複雑なコンテンツには不適切でした。

私たちは、このギャップを埋める機会を特定し、オリジナルの演技の感情的真実性を維持しながら効率を大幅に改善するAI駆動のローカライズソリューションを開発することにしました。私たちは、独自のeTTS（Emotion-Text-to-Speech）技術を開発し、AI生成ボイスが人間の俳優と同じ感情の重み、トーン、ニュアンスを持つことを保証しました。

私たちは、言語や文化の壁がグローバルコンテンツのアクセシビリティの障壁ではなくなっている世界を想像しています。プラットフォームの作成において、エンターテインメント、eラーニング、FAST、その他の業界における言語の限界という課題を認識し、コンテンツローカライズを革命的に変えることを目指しました。

Deepdubのソリューションが複雑なコンテンツに対する最高品質のローカライズと吹き替えを提供することを保証するために、言語学とボイスの専門家をプロセスに組み込むことで、ハイブリッドアプローチを採用することにしました。

私たちのビジョンは、ボイスプロダクションを民主化し、大規模にスケーラブルで、普遍的にアクセス可能で、インクルーシブで、文化的に関連性のあるものにすることです。

Deepdubを立ち上げたときに直面した最大の技術的およびビジネス上の課題とは何でしたか？それらをどのように克服しましたか？

エンターテインメント業界の信頼を獲得することは、Deepdubを立ち上げたときに大きな障壁でした。ハリウッドは数十年間にわたり従来の吹き替えに頼ってきましたが、AI駆動のソリューションへの移行には、スタジオ品質の結果を提供する能力を実証する必要がありました。

この懐疑を解消するために、まず、完全にライセンスされたボイスバンクを作成して、AI生成ボイスの真実性を高めました。このバンクには、人間のボイスサンプルが組み込まれており、出力の自然性と表現力を大幅に改善しました。これは、ハリウッドでの受け入れに不可欠です。

次に、eTTSやアクセントコントロールなどの独自技術を開発しました。これらの技術により、AI生成ボイスが感情の深さとニュアンスを捉えるだけでなく、ハイクオリティな吹き替えに必要な地域の真実性にも従います。

また、テクノロジーと密接に協力する専門のインハウスポストプロダクションチームを構築しました。このチームは、AI出力を微調整して、すべてのコンテンツが業界の高い基準を満たすようにします。

さらに、世界中の人間の専門家であるボイスアクター、言語学者、ディレクターのグローバルネットワークを拡大しました。これらの専門家は、貴重な文化的洞察と創造的な専門知識を提供し、吹き替えコンテンツの文化的正確性と感情的共鳴を高めます。

私たちの言語学チームは、テクノロジーとグローバルな専門家と共同で作業し、使用される言語がターゲットオーディエンスの文化的背景に完璧に適合していることを保証し、さらに真実性と地元の規範への準拠を確保します。

これらの戦略を通じて、先進的なテクノロジーとグローバルな専門家およびインハウスポストプロダクションチームの強力な組み合わせを使用することで、Deepdubはハリウッドと世界中のトップティアの制作会社に、AIが従来の吹き替えワークフローを大幅に強化できることを実証しました。この統合により、制作が効率化され、市場拡大の可能性が拡大します。

DeepdubのAI駆動の吹き替えテクノロジーは、従来の吹き替え方法とどのように異なりますか？

従来の吹き替えは、ボイスアクター、サウンドエンジニア、ポストプロダクションチームが手動で会話を別の言語で再作成する必要があるため、時間がかかり、労力がかかり、リソースを大量に必要とするプロセスです。私たちのソリューションは、テクノロジーと人間の専門知識を組み合わせたハイブリッドなエンドツーエンドソリューションを提供することで、このプロセスを革命的に変え、ローカライズコストを最大70％、ターンアラウンド時間を最大50％削減します。

他のAI生成ボイスソリューションとは異なり、私たちの独自のeTTSテクノロジーにより、伝統的な方法では達成が難しい、感情の深さ、文化的真実性、ボイスの一貫性のレベルが実現可能になります。

Deepdubが使用するハイブリッドアプローチについて説明してください。AIと人間の専門知識はどのようにして吹き替えプロセスで協力していますか？

Deepdubのハイブリッドモデルは、AIの精度とスケーラビリティを人間の創造性と文化的感受性と組み合わせます。私たちのアプローチは、伝統的な吹き替えの芸術性を先進的なAIテクノロジーと統合し、ローカライズされたコンテンツがオリジナルの真実性と影響力を維持することを保証します。

私たちのソリューションは、AIを使用してローカライズの基礎作業を自動化し、人間の専門家が感情のニュアンス、口調、文化的詳細を微調整します。私たちは、AI生成ボイスが人間のパフォーマンスの深さとリアリズムを捉えることを保証するために、独自のeTTsとVoice-to-Voice（V2V）テクノロジーを使用します。

言語学者とボイスプロフェッショナルは、このプロセスで重要な役割を果たします。彼らは、AI生成コンテンツの文化的正確性を高めます。グローバル化がエンターテインメントの未来を形作るにつれて、AIと人間の芸術性の統合はコンテンツローカライズの金標準になります。

さらに、私たちのボイスアーティストロイヤリティプログラムは、プロのボイスアクターがAIアシスト吹き替えでボイスを使用されるたびに報酬を支払うことで、ボイスAIテクノロジーの倫理的な使用を保証します。

Deepdubの独自のeTTS（Emotion-Text-to-Speech）テクノロジーは、吹き替えコンテンツのボイスの真実性と感情的深さをどのように向上させますか？

伝統的なAI生成ボイスは、パフォーマンスを魅力的にするための微妙な感情的合図を欠いています。この欠陥に対処するために、Deepdubは独自のeTTSテクノロジーを開発しました。AIとディープラーニングモデルを使用して、オリジナルの俳優の演技の感情的深さを保持し、人間の感情的知性を自動化プロセスに統合するスピーチを生成します。この高度な機能により、AIは、喜び、怒り、悲しみなどの意図された感情を反映して、オーディエンスと真正に共鳴する合成ボイスを微調整できます。さらに、eTTSは、高忠実度のボイスレプリカを生成することに優れています。人間のスピーチの自然なニュアンス、つまりピッチ、トーン、ペースを模倣することができ、真正で魅力的なラインを提供するために不可欠です。テクノロジーはまた、文化的感受性を高めることで、アクセントを制御して、吹き替えコンテンツが文化的ニュアンスに敬意を表し、世界的な魅力と効果を高めるようにします。

AI生成ボイスは、ロボットのような音になることが多いという批判があります。Deepdubは、AI生成ボイスが自然さと感情的ニュアンスを維持するようにどのようにしていますか？

私たちの独自テクノロジーは、ディープラーニングとマシーンラーニングアルゴリズムを使用して、スケーラブルで高品質の吹き替えソリューションを提供し、オリジナルの意図、スタイル、ユーモア、文化的ニュアンスを維持します。

私たちのeTTSテクノロジーに加えて、Deepdubの革新的なスイートには、Voice-to-Voice（V2V）、Voice Cloning、Accent Control、およびVocal Emotion Bankなどの機能が含まれており、制作チームがパフォーマンスを微調整して、創造的なビジョンに合わせることができます。これらの機能により、毎回、ボイスが感情的深さとニュアンスを必要とする、説得力のある物語と影響力のあるユーザーエクスペリエンスを提供することが保証されます。

過去数年間で、私たちのソリューションのメディア＆エンターテインメント業界における成功が増加しているため、最近、ハリウッドで検証されたボイスオーバーを開発者、企業、コンテンツクリエイターにAIオーディオAPIを介して公開することを決定しました。私たちのeTTSテクノロジーによって推進されるこのAPIは、リアルタイムのボイス生成と、口調、感情的トーン、テンポ、ボーカルスタイルを含む高度なカスタマイズパラメータを提供します。

APIの主な機能は、最も要求の多いボイスオーバーのニーズに基づいて設計されたオーディオプリセットです。これらのプリセット設定により、ユーザーは、広範な手動設定や探索を必要とせずに、さまざまなコンテンツタイプを迅速に適応させることができます。利用可能なプリセットには、オーディオ記述とオーディオブック、ドキュメンタリーまたはリアリティナレーション、ドラマとエンターテインメント、ニュース配信、スポーツコメンタリー、アニメまたは漫画のボイスオーバー、インタラクティブボイスレスポンス（IVR）、およびプロモーションとコマーシャルコンテンツが含まれます。

AI吹き替えには文化的および言語的適応が含まれます。Deepdubは、吹き替えソリューションが文化的に適切で正確であることをどのように保証していますか？

ローカライズは単に言葉を翻訳することではなく、意味、意図、文化的背景を翻訳することです。Deepdubのハイブリッドアプローチは、AI駆動の自動化と人間の言語的専門知識を組み合わせ、翻訳された会話がターゲットオーディエンスの文化的および感情的ニュアンスを反映することを保証します。私たちのローカライズ専門家は、AIと共同で作業し、吹き替えコンテンツが地域の方言、表現、文化的感受性と一致することを保証します。

現在、AI吹き替えを次のレベルに引き上げるために最も興奮している革新とは何ですか？

私たちが現在取り組んでいる最も大きな革新の1つは、Live/Streaming Dubbingです。これにより、スポーツイベントやニュースメディアなどのライブ放送のリアルタイム吹き替えが可能になり、グローバルイベントを瞬時に世界中の人々にアクセス可能にします。この機能を私たちの別の革新であるeTTs機能と組み合わせることで、商業的な権利を備えた、高品質で本物のような、感情を備えたライブ吹き替えを提供することができます。

たとえば、オリンピックの開会式やその他のライブスポーツイベントを考えてみましょう。地元の放送局は通常、地域の言語と方言でコメンタリーを提供しますが、このテクノロジーにより、世界中の視聴者がイベントが進行するにつれて、母国語で体験できるようになります。

ライブ吹き替えは、世界中でのライブイベントの体験方法を再定義し、言語が障壁になることはありません。

AI生成吹き替えは、最近のいくつかのプロジェクトで批判されてきました。批判の背後にある主な要因は何だと思いますか？

主な批判は、真実性、倫理、品質に関する懸念から生じています。いくつかのAI生成ボイスは、魅力的な物語を創り出すために必要な感情的共鳴とニュアンスを欠けています。Deepdubでは、これに対処するために、感情を表現するAIボイスを開発し、オリジナルの演技の魂を保持することを保証しました。Deepdubは、すべての要素を通じて、優れたキャスティング、明瞭な会話、シームレスな同期、完璧なペースを含め、70％以上の優れたビューアーサチスフィケーションを達成しました。

別の問題は、AIボイスの倫理的な使用です。Deepdubは、AI生成パフォーマンスに対してボイスアクターに報酬を支払う業界初のロイヤリティプログラムを導入することで、責任あるAI吹き替えのリーダーです。私たちは、AIが人間の創造性を強化するべきであり、置き換えるべきではないと信じ、すべてのビルディングプロセスにこのコミットメントを反映しています。

次の5〜10年で、AI吹き替えがグローバルエンターテインメント業界をどのように変えるでしょうか？

次の10年間で、AI駆動の吹き替えは、コンテンツを前例のないほど民主化し、映画、テレビ番組、ライブ放送を、瞬時に、どこでも、誰でもが母国語でアクセスできるようにします。

私たちは、ストリーミングプラットフォームや放送局がリアルタイムの多言語吹き替えを統合し、言語の障壁を排除し、物語が従来のローカライズ方法では許可されなかったほど遠くまで、速く届くようにする世界を想像しています。

言語のアクセシビリティを超えて、AI吹き替えは、視覚障害者にとってもメディアへのアクセスを高めることができます。多くの人が視覚コンテンツをフォローするためにオーディオ記述に頼っていますが、AI吹き替えにより、彼らはサブタイトルがアクセス可能なオプションではない外国語コンテンツと関わることができます。言語的および感覚的障壁の両方を排除することで、AI駆動の吹き替えは、すべての人にとってより包括的なエンターテインメント体験を創り出すのに役立ちます。これは特に、今年世界中でメディアへのアクセシビリティに関する新しい規制が施行されるため、非常に重要です。

AI吹き替えが真にメインストリームになるために、まだ解決する必要がある最大の課題とは何ですか？

最大の課題は、超高品質を維持すること、文化的および言語的精度を確保すること、AI生成ボイスのための倫理基準を確立することです。ただし、技術的な障壁を超えて、AI吹き替えの公共の受け入れは、信頼に依存します。視聴者は、AI生成ボイスがパフォーマンスの真実性と感情的深さを保持していることを感じる必要があります。

AI吹き替えが完全に受け入れられるためには、高品質で人間の芸術性とテクノロジーを組み合わせてスケーラブルにする必要があり、創造的な完全性、言語的ニュアンス、文化的背景を尊重する必要があります。これは、ボイスがオリジナルの俳優の意図に忠実で、不正確さによって視聴者を疎外しないこと、および倫理的な懸念に対処することを意味します。

AI吹き替えがより広く普及するにつれて、テクノロジー提供者は、ボイスの真実性、セキュリティ、知的財産保護のための厳格な基準を実施する必要があります。Deepdubは、これらの分野で先導的な役割を果たしています。グローバルストーリーテリングを強化しながら、人間の才能の芸術的および専門的な貢献を尊重することを保証します。そうすることで、オーディエンス、コンテンツクリエイター、業界の利害関係者は、AI吹き替えを信頼性の高いツールとして完全に受け入れるでしょう。

素晴らしいインタビュー、詳しく知りたい読者はDeepdubを訪問してください。

Unite.AI

Ofir Krakowski, DeepdubのCEO兼共同創設者 – インタビューシリーズ

You may like