スタブ WellSaid Labs 共同創設者 Matt Hocking - インタビュー シリーズ - Unite.AI
私達と接続

記事執筆

WellSaid Labs 共同創設者マット・ホッキング – インタビュー シリーズ

mm
更新中 on

マット・ホッキングは共同創設者です。 ウェルサイッド・ラボ、 主要なエンタープライズ グレードの AI 音声ジェネレーター。彼は、チームを率い、大規模なテクノロジー ソリューションを提供してきた 15 年以上の経験があります。

あなたの経歴はかなり起業家的ですが、最初に AI に関わるようになったきっかけは何ですか?

私は自分自身をかなり起業家的だと常に思っていたと思います。私は大学を出て最初のビジネスを立ち上げ、製品デザインのバックグラウンドを持っていたため、初期段階のアイデアを持つ人々を支援することに魅力を感じていました。私のキャリアを通して、私は幸運なことに、その後かなり素晴らしい業績を上げた多くのスタートアップ企業と仕事をしてきました。そうした経験の中で、私は多くの偉大な創業者たちと直接触れ合うことができ、その結果、創業者として自分自身のアイデアを追求するようインスピレーションを受けました。 AI2 に参加したとき、私にとって AI は比較的新しいものでした。しかし、その経験は、私の製品とスタートアップのレンズをいくつかの本当に驚くべき研究に適用し、これらの新しい進歩が今後数年間に多くの人々をどのように助けることができるかを想像する機会を与えてくれました。当初からの私の目標は、実際の人々のための実際のビジネスを開発することであり、AI は慎重に適用すれば、将来に多くのエキサイティングな機会と効率を生み出す可能性があると信じています。

あなたが起業家として駐在していたときに、WellSaid Labs のアイデアがどのように思いついたのか、その経緯を教えていただけますか。 アレン AI 研究所?

私は 2 年にレジデント起業家としてアレン人工知能研究所 (AI2018) に参加しました。おそらく世界で最も革新的なインキュベーターである AI2 には、今日可能なことの最先端からのソリューションを、問題を解決する具体的な製品に適用する AI の最も聡明な人材が収容されています。世界中で起きている問題。私のデザインとテクノロジーのバックグラウンドは、クリエイティブな分野への長年の関心を育みました。今日、誰もが目の当たりにしている AI ブームに伴い、この XNUMX つを結び付ける方法を模索したいと考えました。私は、さまざまなデリケートなシナリオで患者をガイドするインタラクティブなヘルスケア アプリを開発しているときに、Michael Petrochuk (WellSaid Labs の共同創設者兼 CTO) を紹介されました。エクスペリエンス用のコンテンツを開発する過程で、私のチームは声優タレントと協力して、アバター用の数千行のナレーションを事前に録音しました。マイケルが研究中に達成したいくつかの画期的な進歩に私が接したとき、私たち二人とも、人間と同等のテキスト読み上げ (TTS) が私が取り組んでいた製品を変革するだけでなく、多くの人々に影響を与える可能性があるという価値をすぐに理解しました。他のアプリケーションや業界の。テクノロジーとツールは、音声を媒体として制作するプロデューサーのニーズに対応するのに苦労していました。私たちは、このテクノロジーをすべてのクリエイターの手に渡し、音声をすべてのストーリーに不可欠な部分にできるようにする道を見出しました。

WellSaid Labs は、声優に AI ナレーション分野への道を提供する数少ない企業の 1 つです。実際の声を製品に組み込むことが重要だと考えたのはなぜですか?

これに対する私たちの答えは 2 つあります。まず、プロの声優の能力を補完し、声の機会を拡大するソリューションを作成したいと考えました。そして第二に、私たちは製品に最高レベルの人間的品質を持たせるよう努めています。当社の声優は長期的な協力パートナーであり、音声データとそれを使用して生成されたその後のコンテンツの両方に対して報酬と収益分配を受け取ります。声の類似性に基づいて AI 音声アバターを作成するために当社が雇ったすべての声優には、その声が当社のプラットフォーム上でどれだけ使用されたかに基づいて報酬が支払われます。私たちは人材が私たちと提携することを奨励します。彼らの貢献に対する公正な報酬は、私たちにとって非常に重要です。

最高レベルの人間品質の製品を市場に提供するには、データをどこから取得するかを厳密に決める必要があります。このプロセスにより、トレーニングを行う際に品質をより細かく制御できるようになります。 深い学習 人間の同等性と特定の文脈に関連したスタイルの両方を語るモデル。私たちは、提供された入力を朗読する音声を作成するだけではありません。私たちのモデルは、ページにある内容を実行するさまざまな音声スタイルを提供します。ユーザーがライブラリのアバターを使用してナレーションを作成する場合でも、ブランド用にカスタム構築された音声でナレーションを作成する場合でも、当社は実際の音声データを使用して、シームレスなプロセスと使いやすいプラットフォームを保証します。もし顧客がポストプロダクションで私たちの声を操作、編集しなければならなかったとしたら、望ましい出力を得るまでのプロセスは面倒で長くなってしまうでしょう。私たちの声は書かれた内容の文脈を取り入れ、文脈的に正確な読みを提供します。当社は、ニュースの閲覧、音声広告の作成、コールセンターの自動サポートなど、あらゆるタイプのユースケースに音声を提供しているため、各ユースケースに特化したプロの音声人材と提携することで、コンテキストと高品質の音声データの両方を提供します。 。

当社では、お客様の声を確実に反映できるよう、アバター ライブラリを定期的に更新し、新しいスタイルやアクセントを追加しています。 WellSaid Labs のスタジオでは、顧客とブランドが地域、スタイル、ユースケースに基づいてさまざまな音声を試聴でき、メーカーのニーズに合わせてパーソナライズされたオーディオ コンテンツのよりシームレスで統一された制作が可能になります。最初の録音がサンプリングされると、ユーザーは特定の単語、スペル、発音を合図して、AI が一貫してユーザーのニーズに具体的に話しかけることができます。

WellSaid Labs は、初の倫理的な AI 音声プラットフォームとしての地位を確立しています。あなたにとって AI の倫理が重要なのはなぜですか?

AI の導入が増加し、主流になるにつれて、有害なユースケースや悪意のある行為者に対する懸念があらゆる会話の中心となっています。そして残念ながら、これらの懸念は現実世界での出来事によって検証されています。 AI音声も例外ではありません。ほぼ毎日、有名人、著名人、政治家が広告や政治目的でディープフェイクされたという新たな報告がニュースの見出しを飾ります。このテクノロジーに関する正式な連邦規制はまだ発展途上ですが、テクノロジーが進歩し続けるにつれて、悪意のある行為者や合成音声の使用を検出して対処することはますます困難になるでしょう。

AI 倫理が中心原則である AI2 の出身であるマイケルと私は、初日に次のような会話をしました。 AI 音声テクノロジーの開発には、同意、プライバシー、全体的な安全性に関する重大な責任が伴います。私たちは開発者として、テクノロジーを安全に構築し、倫理的懸念に対処し、将来の合成音声開発の基礎を築かなければならないことを理解しています。当社は、AI 音声テクノロジーが悪用される可能性を認識しており、製品の誤用の可能性を減らす責任を受け入れています。速く走って途中でミスをするのではなく、初日からこの基礎を築く必要があります。これは、高品質で信頼できる製品の構築を私たちに期待している企業顧客や声優にとって正しいことではありません。

私たちはこの分野における立法の要求を全面的に支持します。ただし、連邦規制が制定されるまで待つつもりはありません。私たちはプライバシー、セキュリティ、透明性、説明責任をサポートする実践を常に優先しており、今後も優先していきます。

私たちは、あらゆる意思決定において責任あるイノベーションを伴う構築に基づいた会社の倫理規定を厳格に遵守しています。これは、当社の世界中の顧客である企業ブランドの最大の利益になります。

倫理的な AI 音声プラットフォームを開発するにはどうすればよいですか?

WellSaid Labs は当初から倫理的イノベーションに取り組んできました。当社は、社内データ モデル、明示的な同意要件、コンテンツ モデレーション プログラム、およびブランド保護への取り組みの使用を通じて、信頼と透明性を一元化します。 WellSaid では、次の原則に基づいています。 責任あるAI 私たちの意思決定とデザインを形作るため、そしてそれらの原則は私たちの声の使用にも拡張されます。当社の倫理規定は、説明責任、透明性、プライバシーとセキュリティ、公平性としてこれらの原則を表しています。

説明責任: 当社は適切なコンテンツに関する厳格な基準を維持しており、有害、憎しみに満ちた、詐欺的、または暴力を扇動することを目的としたコンテンツに音声を使用することを禁止しています。当社の信頼と安全チームは、厳格なコンテンツ管理プログラムでこれらの基準を維持し、利用規約に違反しようとするユーザーをブロックおよび削除します。

透明性: 誰かの音声データを使用して合成音声を構築する前に、明示的な同意が必要です。ユーザーは、その人の明示的な書面による同意がない限り、政治家、有名人、その他の人の音声データをアップロードして自分の声のクローンを作成することはできません。

プライバシーとセキュリティ: 合成音声を表すためにストック画像と別名を使用することで、声優の身元を保護します。また、声が悪用される機会を減らすために、WellSaid Labs または他の合成音声会社との関係を誰とどのように共有するかについても注意することをお勧めします。

公正さ: 当社は、当社のプラットフォームに音声データを提供するすべての声優に報酬を支払い、そのデータを使用して構築した合成音声の使用に対する継続的な収益分配を彼らに提供します。

これらの原則に加えて、私たちは知的財産も厳格に尊重します。当社は、ユーザーまたは声優によって提供されたコンテンツに対する所有権を主張しません。私たちはすべての活動において誠実さ、公平性、透明性を優先し、当社の合成音声技術が責任を持って倫理的に使用されることを保証します。私たちは、すべての人に意見を提供できるよう、さまざまな背景や経験を持つ意見とのパートナーシップを積極的に模索しています。

責任あるイノベーションと倫理を念頭に置いた AI 音声テクノロジーの開発に対する当社の取り組みは、あらゆる手段を使って新しい規制のない業界を利用しようとしているこの分野の他社とは一線を画しています。倫理、安全性、プライバシーへの当社の初期投資により、声優や顧客の間で信頼と忠誠心が確立され、顧客はイノベーションの最前線に立つ企業から倫理的に作られた製品やサービスをますます求めています。

WellSaid Labs は、AI の音声が人間と同等になることを可能にする独自の社内 AI モデルを作成しました。また、人間が持つ不完全性を会話に持ち込むことでこれを実現しました。これらの欠陥の何が AI を改善するのでしょうか?また、これらの欠陥はどのように実装されているのでしょうか?

WellSaid Labs は単なる TTS ジェネレーターではありません。初期の TTS テクノロジーでは、言葉の背後にある文脈や感情を伝えるピッチ、口調、方言などの人間の音声の性質を認識できませんでしたが、WellSaid の音声は人間と同等の性能を実現し、AI が生成した音声に人間特有の不完全性をもたらしました。

私たちが声の質を測る主な尺度は、今も昔も人間の自然さです。この指針となる信念は、私たちが構築したスクリプト ライブラリから人材に与える指示、そして最近ではコア TTS アルゴリズムを反復する方法に至るまで、あらゆる段階で私たちのテクノロジーを形作ってきました。

私たちは本物の人間の発声に基づいてトレーニングします。当社の声優タレントは、録音の際に台本を忠実かつ魅力的に読み上げます。一方、音声の完璧さは機械的な概念であり、ロボットのように完璧で不自然な出力を実現します。プロの声優が演技するとき、その話す速度は変動します。音量は、読んでいるコンテンツに連動して変化します。彼らの声のピッチは、興奮した文章を必要とする部分では上がり、より陰鬱な部分では再び下がります。これらのダイナミックなバリエーションは、人間の魅力的なボーカル パフォーマンスを構成します。

プロフェッショナルな人材のダイナミックなパフォーマンスと連携して機能する AI プロセスを構築することで、真に自然な TTS プラットフォームを構築しました。私たちは、クリエイティブ プロセス全体を通じて予測制御を備えた初の長編 TTS システムを開発しました。当社の音声ライブラリには音声データの多様なコレクションが含まれており、ユーザーは制作段階で発音ガイダンスや制御性などの特定の音声キューをモデルに組み込むことができます。 WellSaid ユーザーは、外部データをインポートすることなく、1 つのプラットフォームでナレーションを録音、編集、スタイル設定できます。

Text-to-Speech (TTS) AI 企業の構築の背後にあるいくつかの課題についてお話しいただけますか?

AI 音声テクノロジーの発展により、その生産者と消費者の両方にまったく新しい一連の障害が生じています。主な課題の 1 つは、AI 分野にあふれるノイズや誇大宣伝に巻き込まれないようにすることです。新しい話題のテクノロジーとして、多くの組織が短期間の AI ナレーション開発で利益を得ようとしています。私たちは、中心となる倫理原則と信頼性に従って、すべての人に声を提供したいと考えています。この信頼性の遵守により、当社のテクノロジーの開発と展開が遅れる可能性がありますが、WellSaid の音声とそのデータの安全性とセキュリティは強化されます。

TTS プラットフォーム開発のもう 1 つの課題は、組織や個人の関係者が当社のテクノロジーを悪用しないようにするための特定の同意ガイドラインを開発することでした。この課題に対処するために、私たちは協力的で長期的なパートナーシップを模索し、説明責任、透明性、ユーザーのセキュリティを高めるためにナレーションの開発に全面的に取り組んでいます。 WellSaid Labs の音声ライブラリがそのクリエイターと視聴者を確実に反映できるよう、さまざまな背景、組織、経験を持つ音声タレントとのパートナーシップを積極的に模索しています。これらのプロセスは、当社のテクノロジーが可能な限り安全かつ倫理的に使用されるように、意図的かつ詳細に設計されており、開発と発売のスケジュールが遅れる可能性があります。

AI 音声生成の将来についてのビジョンは何ですか?

長い間、AI 音声テクノロジーは、企業が意味のあるコンテンツを大規模に作成できるほど十分な品質には達していませんでした。オーディオ技術が高価な機器やハードウェアを必要としなくなった今、すべての書かれたコンテンツをオーディオ形式で作成および公開して、魅力的でマルチモーダルなエクスペリエンスを生み出すことができます。

現在、AI 音声は人間のような音声を生成し、デジタル ストーリーテリングをよりアクセスしやすく自然にするために必要なニュアンスを捉えることができます。 AI 音声生成の未来は、私たちの生活のあらゆる側面に影響を与える、包括的な聴覚体験となるでしょう。テクノロジーが進歩し続けるにつれて、ますます自然で表現力豊かな合成音声が人間の音声と機械が生成した音声の境界線を曖昧にし、ビジネス、コミュニケーション、アクセシビリティ、そして周囲の世界との関わり方に新たな扉を開くことになるでしょう。

企業は AI 音声インターフェイスのパーソナライゼーションの強化を発見し、それを使用して仮想アシスタントとの対話をより没入型でユーザーフレンドリーなものにするでしょう。こうした機能強化は、インテリジェントなコールセンターのエージェントからファストフードのドライブスルーに至るまで、すでに行われています。広告、製品マーケティング、ニュースナレーション、ポッドキャスト、オーディオブック、その他のマルチメディアを含むコンテンツ作成は、ツールを使用して魅力的なコンテンツを開発することで効率が向上し、特に多言語モデルが企業のリーチを拡大できるようになったことで、最終的に組織の利益と収益が増加します。単一拠点から世界的な存在感まで。制作チームは、ブランドのニーズに合わせて、またはリスナーに合わせてカスタマイズされた音声を作成するために、合成音声に大きな利点を見出します。

AI が導入されるまで、TTS テクノロジーには、完全なストーリーを大規模かつ簡単に伝えるために必要な人間の感情、イントネーション、発音の重要な能力が欠けていました。 AI を活用した TTS は、リアルタイム音声機能や対話型会話エージェントなど、より没入型でアクセスしやすいエクスペリエンスを提供します。

人間のような音声機能を実現するのは長い道のりでしたが、それが達成可能になった今、私たちは AI 音声が組織に真のビジネス価値を生み出す全範囲を目の当たりにしています。

素晴らしいインタビューをありがとうございました。さらに詳しく知りたい読者は、こちらをご覧ください。 WellSaid ラボ.

Unite.AI の創設パートナーであり、 フォーブステクノロジー評議会、 アントワーヌさんは、 未来派 AI とロボット工学の未来に情熱を持っている人。

彼はの創設者でもあります 証券.io、破壊的テクノロジーへの投資に焦点を当てたウェブサイト。