ソートリーダー
2023年にビジネスでジェネレーティブAIボイスを倫理的に使用する方法

2022年の終わりは、OpenAIやChatGPTの人気により、AI技術が広く採用されるようになった。AIは、初めてビジネスで成功した成果を生み出すことで、ユーティリティと価値を証明し、大衆的な魅力を得た。
多くのAI技術は、2023年に日常の人々にとって革命的なもののように思えるが、実際には数年前から大企業やメディアで活用されていた。ジェネレーティブAIシステム、特にボイスクローニングの技術、そのビジネス上の利点、AIを使用するための倫理的なアプローチについて、詳しく見ていく。
ボイスクローニングとはどういうものか
簡単に言うと、ボイスクローニングは、一人の人が別の人の声で話すことを可能にする。
ジェネレーティブAI技術を使用して、人の声の録音を作成し、それを使用して同じ人の声で新しいオーディオコンテンツを生成する。基本的に、誰かが実際に話さなくても、誰かが何と言ったかを聞くことができる。
技術的には、複雑そうに見えないが、少し深く見てみると、開始するための最低限の要件がある。
- クローニングしたい声の高品質な録音を少なくとも5分間必要とする。これらの録音は、ノイズや歪みがなく、明瞭でなければならない。なぜなら、不完全さはモデルの出力の精度に影響を与えるからである。
- 次に、これらの録音をジェネレーティブAIモデルに食わせて「声のアバター」を作成する。
- 次に、モデルをピッチとタイミングのスピーチパターンを正確に再現するようにトレーニングする。
- 一度完成すると、このトレーニング済みモデルは、他の人の声で無限のコンテンツを生成することができ、リアルな音声レプリカを作成するための効果的なツールになる。
ここで、多くの人が倫理的な懸念を持ち出す。誰かの口から任意のテキストを挿入し、本当に言っているのか偽物なのか判断することができない場合に何が起こるのか。
はい、これはすでに現実になった。OpenAIやChatGPTの場合のように、私たちは現在、無視できない多くの倫理的な問題に直面している。
AIにおける倫理基準
多くの新しい技術と同様に、初期の採用段階では、技術そのものではなく、技術の悪用を認識し、有益な知識を得るための議論のための脅威を創造することが重要である。今日、私たちにはジェネレーティブAIの使用に関する倫理基準の3つの層がある。国家および超国家的な規制層は初期段階にある。政策世界は新興技術の開発のスピードに追いつかないかもしれないが、EUが EUのAI規制提案および2022年のデジタル情報操作に対する行動規範をリードしていることが見られる。この行動規範では、大手テクノロジー企業が悪意のあるAI操作コンテンツの拡散に対処するための期待が概説されている。国レベルでは、米国と英国がこの問題に対処するための規制の第一歩を見ている。米国の 国立ディープフェイクおよびデジタル起源タスクフォースおよび英国によるオンラインセーフティー法案である。
テクノロジー業界の層は、企業やテクノロジストが新しい現実を受け入れ、社会的セキュリティとプライバシーへの影響について議論している。ジェネレーティブAIの倫理についての対話は活発であり、ジェネレーティブAIの使用に関する行動規範(例:合成メディア行動規範)の開発につながっている。質問は、どのようにしてこの行動を実践的にすることができるか。また、製品、特定の機能、チームの手順に影響を与えることができるか。
メディアやエンターテインメント、サイバーセキュリティ、AI倫理のコミュニティとこの問題に取り組んできた経験から、私はAIコンテンツやボイスに関して実践的な原則をいくつかまとめた。
- IP所有者とクローンボイスを使用する会社は、法的合意を結ぶことで、オリジナルのボイスを使用する際に生じる可能性のある複雑さを避けることができる。
- プロジェクト所有者は、リスナーを欺かせないように、クローンボイスの使用を公に開示する必要がある。
- ボイスのためのAI技術に取り組む会社は、AI生成コンテンツを検出および識別する技術の開発に一定のリソースを割り当てる必要がある。
- AI生成コンテンツにウォーターマークを付けることで、声の認証が可能になる。
- 各AIサービスプロバイダーは、プロジェクトの社会的、ビジネス的、プライバシー上の影響を検討した上で、プロジェクトに取り組むことについて再検討する必要がある。
もちろん、AIの倫理原則は、自作のディープフェイクがオンラインで広まるのを防ぐことはできない。しかし、それらはグレーゾーンにあるプロジェクトを一般市場から遠ざけることになる。
2021年から2022年にかけて、AIボイスは、倫理と社会への重大な影響をもたらすさまざまなメインストリームプロジェクトで使用された。これには、若いルーク・スカイウォーカーのボイスクローニングによるマンダロリアンシリーズ、ゴッド・オブ・ウォー2のAIボイス、リチャード・ニクソンのボイスによる歴史的な『月の災難』などがあった。
テクノロジーに対する信頼は、メディアやエンターテインメントを超えて成長している。伝統的なビジネスは、さまざまな業界でクローンボイスをプロジェクトで使用している。以下は、最も顕著なユースケースのいくつかである。
業界のユースケース
2023年、ボイスクローニングは、さまざまなビジネスがその多数の利点を享受するために、さらに成長する。ヘルスケアやマーケティング、カスタマーサービス、広告業界など、ボイスクローニングは、組織がクライアントとの関係を構築し、ワークフローを合理化する方法を革命的に変えている。
ボイスクローニングは、オンライン環境で働く医療専門家やソーシャルワーカーに利益をもたらす。医療専門家と同じ声を持つデジタルアバターは、患者との間に強い絆を生み出し、信頼を築き、顧客を維持する。
映画やエンターテインメント業界でのボイスクローニングの潜在的な応用は広い。複数の言語への吹き替え、子供や大人の追加のダイアログ置換(ADR)、および無限のカスタマイズオプションはすべて、この技術によって可能になる。
同様に、運用部門では、AI駆動のボイスクローニングが、インタラクティブなボイスレスポンスシステムや企業向けトレーニングビデオにコスト効率の良いソリューションを必要とするブランドにとって優れた結果をもたらすことができる。ボイスシンセシステクノロジーを使用すると、俳優はリーチを拡大し、録音からの収入を増やすことができる。
最後に、広告制作スタジオでは、ボイスクローニングの出現により、コマーシャル制作に関連するコストと時間が大幅に削減された。利用可能な高品質の録音(利用できない俳優からのものでも)があれば、広告は迅速かつ以前よりも創造的に制作できる。
興味深いことに、企業や中小企業は、ボイスクローニングを使用してブランドにユニークなものを作成することができる。大規模なプロジェクトは最も野心的な計画を実現でき、小規模なビジネスは以前は高額なモデルにアクセスできる。これが真の民主化の意味である。
まとめ
AIボイスクローニングは、ビジネスに革命的な利点をもたらす。ユニークな顧客体験の創出、自然言語処理機能の製品やサービスへの統合、完全にリアルな声の擬似音声の生成などである。
2023年に競争上の優位性を維持したいビジネスは、AIボイスクローニングを検討する必要がある。企業は、このテクノロジーを使用して、市場シェアを獲得し、顧客を維持するための新しい可能性を開拓し、倫理的に責任ある方法で行うことができる。












