インタビュー
Dylan Fox, CEO & Founder of AssemblyAI – Interview Series

Dylan Foxは、AssemblyAIのCEO & フォウンダーです。AssemblyAIは、AssemblyAIのSpeech-to-Text APIsを使用して、オーディオとビデオファイルおよびライブオーディオストリームをテキストに自動的に変換するプラットフォームです。
あなたが最初に機械学習に惹かれたのは何ですか?
私は、プログラミングを学び始め、ワシントンDCで開催されているPython Meetupsに参加しました。大学でのコースを通じて、アルゴリズムタイプのプログラミング問題にさらに深く関わるようになり、自然と機械学習とNLPに興味を持つようになりました。
AssemblyAIを設立する前に、シスコのシニアソフトウェアエンジニアとして何をしていたんですか?
シスコでは、コラボレーション製品のためのマシンラーニングに焦点を当てたシニアソフトウェアエンジニアでした。
シスコでのあなたの仕事とスピーチ認識テクノロジーの調達に関する問題は、あなたにAssemblyAIを立ち上げることをどのようにして促しましたか?
過去の仕事では、スピーチ認識を必要とする多くのAIプロジェクトに取り組みました。しかし、スピーチ認識サービスを提供するすべての会社は、時代遅れで、購入が難しく、古いAIテクノロジーを使用していました。
AI研究にさらに興味を持つにつれて、スピーチ認識分野で行われている多くの研究と、研究の進歩の速さに気づきました。そこで、思ったのです。「もし、TwilioスタイルのAPI会社を、最新のAI研究を使用して、スピーチ認識のための最先端のAIモデルを開発者が簡単にアクセスできるようにすることができたらどうなるでしょうか。」
そして、それがAssemblyAIのアイデアが生まれたきっかけでした。
正確で信頼性の高いスピーチ認識テクノロジーを構築する背後にある最大の課題は何ですか?
コストと才能が、正確で信頼性の高いスピーチ認識テクノロジーを構築する上での最大の課題です。
データの取得は高価で、信頼性の高いスピーチ認識システムを構築するには数十万時間必要です。また、トレーニングには大量のコンピューティングリソースが必要であり、プロダクションでの提供も高価で、最適化と経済性のために専門の才能が必要です。
これらのテクノロジーを構築するには、特化したスキルセットが必要です。これは、顧客が私たちに強力なAIモデルにアクセスするために来る理由の1つです。顧客は、私たちが研究、トレーニング、社内で展開する最先端のAIモデルへのアクセスを得ることができます。すべてが、シンプルなAPIで提供されます。
オーディオとビデオコンテンツの純粋なトランスクリプション以外に、AssemblyAIは追加のモデルを提供しています。詳細について説明できますか?
私たちのAIモデルのスイートは、リアルタイムおよび非同期トランスクリプションに加えて、オーディオインテリジェンスモデルと呼ばれる追加のモデルを提供します。これらのモデルは、顧客がオーディオデータを分析してよりよく理解するのに役立ちます。
私たちの要約モデルは、全体の要約と、会話のトピックが変わるたびに自動的にセグメント化して要約を生成するタイムコード付きの要約を提供します(YouTubeのチャプターのように)。
私たちのセンチメント分析モデルは、オーディオファイルで話された各文のセンチメントを検出します。各文は、肯定的、否定的、または中立的としてマークされます。
私たちのエンティティ検出モデルは、オーディオファイルで話された幅広いエンティティを識別します。例えば、人物や会社の名前、メールアドレス、日付、場所などです。
私たちのトピック検出モデルは、オーディオおよびビデオファイルで話されているトピックをラベル付けします。予測されたトピックラベルは、IABタクソノミーに基づいています。これにより、コンテキストベースのターゲティングに適しています。
私たちのコンテンツモデレーションモデルは、オーディオおよびビデオファイル内のコンテンツを検出します。例えば、ヘイトスピーチ、暴力、デリケートな社会問題、アルコール、薬物などです。
AssemblyAIを使用する会社にとって、最大のユースケースは何ですか?
AssemblyAIを使用する会社の最大のユースケースは、4つのカテゴリにわたります。テレフォニー、ビデオ、バーチャルミーティング、メディアです。
CallRailは、テレフォニースペースの顧客の好例です。CallRailは、AssemblyAIのAIモデル(Core Transcription、Automatic Transcript Highlights、PII Redaction)を使用して、会話インテリジェンスソリューションを顧客に提供しています。
基本的に、CallRailは、電話での会話の重要なコンテンツ(例えば、特定の顧客のリクエスト、よく聞かれる質問、頻繁に使用されるキーワードやフレーズ)を自動的に顧客に提示することができます。私たちのPII Redactionモデルは、トランスクリプトテキスト内で見つかった機密データ(例えば、社会保障番号、クレジットカード番号、住所など)を自動的に検出して削除するのに役立ちます。
ビデオのユースケースは、ビデオストリーミングプラットフォームからビデオエディターのVeedまで、AssemblyAIのCore Transcriptionモデルを使用してビデオ編集プロセスを簡素化するものです。Veedは、ユーザーがビデオをトランスクリプトして、キャプションを使用して直接編集できるようにします。
バーチャルミーティングでは、ミーティングトランスクリプションソフトウェア会社のFathomは、AssemblyAIを使用して、ユーザーがZoom会議の重要な瞬間をトランスクリプトしてハイライトする機能を構築しています。これにより、ミーティングの関与が向上し、ミーティング中およびミーティング後の退屈なタスク(例えば、ノートを取る)がなくなります。
メディアでは、ポッドキャストホスティングプラットフォームは、コンテンツモデレーションとトピック検出モデルを使用して、ブランドセーフティのユースケース向けにより優れた広告ツールを提供し、ダイナミック広告でユーザー生成コンテンツを収益化できるようにします。
AssemblyAIは最近、3,000万ドルのシリーズBラウンドを調達しました。この資金は、AssemblyAIの使命をどのように加速させますか?
AI分野の進歩は非常に興奮しています。私たちの目標は、インターネット上のすべての開発者と製品チームに、シンプルなAPIを通じてこの進歩を公開することです。私たちがASRとNLPタスク(スピーチ認識、要約、言語識別など)の最先端のAIモデルを研究してトレーニングするにつれて、これらのAIモデルを開発者と製品チームにシンプルなAPIで提供し続けるでしょう。
AssemblyAIは、開発者と製品チームが必要な最先端のAIモデルにアクセスして、新しい製品、サービス、会社を構築できる場所です。
過去6ヶ月で、私たちは、15の新しい言語(スペイン語、ドイツ語、フランス語、イタリア語、ヒンディー語、日本語など)に対するASRのサポートを開始し、要約モデル、リアルタイムASRモデル、コンテンツモデレーションモデルなど、多数の製品アップデートをリリースしました。
私たちはまだシリーズAの資金をほとんど使っていないですが、この新しい資金調達により、私たちの取り組みを積極的に拡大することができます。ランウェイを妥協することなく。
この新しい資金調達により、私たちは製品ロードマップを加速し、AI研究と推論エンジンを加速するためのより優れたAIインフラストラクチャを構築し、AI研究チームを拡大することができます。現在のチームには、DeepMind、Google Brain、Meta AI、BMW、シスコからの研究者がいます。
AssemblyAIについてさらに何か共有したいことはありますか?
私たちの使命は、シンプルなAPIを通じて、最先端のAIモデルを開発者と製品チームにアクセス可能なものにすることです。
素晴らしいインタビュー、ありがとうございます。詳しく知りたい読者は、AssemblyAIを訪問してください。












