人工知能

ステーブルオーディオ2.0：Stability AIが提供する先進的なAI生成オーディオ

公開日 2024年4月3日

更新日 2026年5月22日

著者

Alex McFarland

Stability AIは、革新の境界を再び押し広げ、Stable Audio 2.0をリリースしました。この最先端のモデルは、その前身の成功を基にしており、画期的な機能を数多く導入し、芸術家やミュージシャンがオーディオコンテンツを作成し操作する方法を変革することを約束しています。

Stable Audio 2.0は、AI生成オーディオの進化における重要な里程標を表し、品質、多様性、創造的潜在性の新しい基準を設定しています。フルレングス曲の生成、オーディオサンプルの自然言語プロンプトを使用した変換、幅広いサウンドエフェクトの生成など、コンテンツクリエイターがさまざまな業界で活用できる多様な可能性を提供します。

革新的なオーディオソリューションの需要が増続する中、Stability AIの最新提供は、プロフェッショナルが創造的な出力を強化し、ワークフローを合理化するために不可欠なツールとなる可能性があります。先進的なAIテクノロジーの力を活用することで、Stable Audio 2.0は、音楽作曲、サウンドデザイン、オーディオポストプロダクションにおける未踏の領域を探索するためにユーザーをEmpowerします。

Stable Audio 2.0の主な機能とは

Stable Audio 2.0は、AI生成オーディオの風景を再定義する可能性のある、印象的な機能の数々を備えています。フルレングス曲の生成からオーディオツーオーディオ変換、強化されたサウンドエフェクト生成、スタイル転送まで、このモデルは、創造者が聴覚的なビジョンを実現するための包括的なツールキットを提供します。

フルレングス曲の生成

Stable Audio 2.0は、他のAI生成オーディオモデルと異なり、最大3分間のフルレングス曲を生成する能力を備えています。これらの曲は、単に延長されたスニペットではなく、イントロ、開発、そしてアウトロなどの明確なセクションを備えた構造化されたピースです。この機能により、ユーザーは、統一された物語と進行を備えた完全な音楽作品を生成できます。これにより、AI支援音楽作成の可能性が高まります。

さらに、このモデルは、生成されたオーディオにステレオサウンドエフェクトを組み込んでいます。これにより、トラックに深みと次元が加わり、リアルさと没入感が高まります。これらの空間要素の組み込みにより、トラックは、ビデオの背景音楽からスタンドアロンの音楽作品まで、幅広いアプリケーションに適しています。

オーディオツーオーディオ生成

Stable Audio 2.0の最も興奮する追加機能の1つは、オーディオツーオーディオ生成能力です。ユーザーは自分のオーディオサンプルをアップロードし、自然言語プロンプトを使用して変換できます。この機能により、芸術家やミュージシャンが、以前考えられなかった方法で音の操作と再生成を実験できるようになります。

AIの力を利用して、ユーザーは既存のオーディオアセットを簡単に変更して、特定のニーズや芸術的ビジョンに適合させることができます。楽器の音色を変更する、曲のムードを変更する、または既存のサンプルに基づいて完全に新しい音を作成するには、Stable Audio 2.0は、オーディオ変換を探索するための直感的な方法を提供します。

強化されたサウンドエフェクト生成

音楽生成機能に加えて、Stable Audio 2.0は、多様なサウンドエフェクトの生成にも優れています。葉の rustling などの繊細な背景ノイズから、機械のハムなどの複雑なサウンドスケープまで、モデルは幅広いオーディオ要素を生成できます。

この強化されたサウンドエフェクト生成機能は、映画、テレビ、ビデオゲーム、そしてマルチメディアプロジェクトでコンテンツを作成する人にとって特に貴重です。Stable Audio 2.0を使用して、ユーザーは、広範囲にわたるフォーリー作業や高価なライセンス済みアセットを必要とせずに、高品質のサウンドエフェクトを迅速かつ簡単に生成できます。

スタイル転送

Stable Audio 2.0は、スタイル転送機能を導入し、ユーザーが生成されたまたはアップロードされたオーディオの美的および音調の特性をシームレスに変更できるようにします。この機能により、クリエイターは、プロジェクトの特定のテーマ、ジャンル、または感情的下位を一致させるために、オーディオ出力を調整できます。

スタイル転送を適用することで、ユーザーはさまざまな音楽スタイルを実験したり、ジャンルをブレンドしたり、または完全に新しい音のパレットを作成したりできます。この機能は、統一されたサウンドトラックを作成する、音楽を特定の視覚コンテンツに適応させる、または創造的なマッシュアップやリミックスを探索するために特に役立ちます。

Stable Audio 2.0の技術的進歩

Stable Audio 2.0の下には、先進的なAIテクノロジーが搭載されており、モデルが印象的なパフォーマンスと高品質の出力を実現することが可能です。モデルのアーキテクチャは、完全な長さのオーディオ構成を生成しながら、詳細にわたる制御を維持するという、独自の課題に特化して設計されています。

潜在的拡散モデルアーキテクチャ

Stable Audio 2.0の核となるのは、オーディオ生成に最適化された潜在的拡散モデルアーキテクチャです。このアーキテクチャは、2つの重要なコンポーネントで構成されています。高圧縮オートエンコーダーと拡散トランスフォーマー(DiT)です。

オートエンコーダーは、生のオーディオ波形を効率的に圧縮してコンパクトな表現に変換する責任があります。この圧縮により、モデルはオーディオの重要な特徴を捉えながら、重要でない詳細をフィルタリングすることができます。結果として、生成された出力はよりまとまりがあり、構造化されたものになります。

拡散トランスフォーマー(DiT)は、Stability AIの先駆的なStable Diffusion 3モデルで採用されているものと同様です。伝統的なU-Netアーキテクチャに代わって、DiTは長いシーケンスのデータを処理することに特に適しています。これにより、拡張されたオーディオ構成の処理と生成に適したものとなります。

パフォーマンスと品質の向上

高圧縮オートエンコーダーと拡散トランスフォーマーの組み合わせにより、Stable Audio 2.0は、前身モデルと比較して、パフォーマンスと出力品質の両面で著しい向上を実現します。

オートエンコーダーの効率的な圧縮により、モデルはオーディオをより速い速度で処理および生成できます。これにより、計算リソースの必要性が減り、より幅広いユーザーがアクセスできるようになります。同時に、拡散トランスフォーマーの大規模な構造を認識して再現する能力により、生成されたオーディオは高い凝集性と音楽的完全性を維持します。

これらの技術的進歩は、フルレングスの音楽構成、複雑なサウンドスケープ、または繊細なサウンドエフェクトを生成できる、驚くほどリアルで感情的に共鳴するオーディオを生成するモデルにつながります。Stable Audio 2.0のアーキテクチャは、AI生成オーディオのさらなる進化の基礎を築き、将来の創造的表現ツールの道を開いています。

Stable Audio 2.0におけるクリエイターの権利

AI生成オーディオが進化し、よりアクセスしやすくなると、倫理的影響を考慮し、クリエイターの権利を保護することが不可欠です。Stability AIは、Stable Audio 2.0のトレーニングに貢献するアーティストの権利を優先し、公平な補償を確実にするための積極的な措置を講じています。

Stable Audio 2.0は、AudioSparxという信頼できるオーディオコンテンツのライセンスデータセットで独占的にトレーニングされています。このデータセットには、800,000以上のオーディオファイル、音楽、サウンドエフェクト、シングルインストゥルメントステム、および対応するテキストメタデータが含まれています。ライセンスデータセットを使用することで、Stability AIは、モデルが法的に取得されたオーディオデータの基盤上に構築されていることを保証します。

クリエイターの自主性の重要性を認識して、Stability AIは、AudioSparxデータセットに含まれるすべてのアーティストに、Stable Audio 2.0のトレーニングに使用されるオーディオをオプトアウトする機会を提供しました。このオプトアウトメカニズムにより、クリエイターは自分の作品の使用を管理し、データセットには、AIトレーニングに使用されることに同意しているアーティストのみが含まれることを保証します。

Stability AIは、Stable Audio 2.0の開発に貢献するクリエイターが公平に補償されることを保証することに尽力しています。AudioSparxデータセットのライセンスとオプトアウトの選択肢を提供することで、会社は、クリエイターが尊重され、貢献に対して報われる、持続可能で公平なAI生成オーディオのエコシステムを確立するというコミットメントを示しています。

クリエイターの権利を保護し、著作権侵害を防ぐために、Stability AIは、コンテンツ認識技術のリーディングプロバイダーであるAudible Magicと提携しています。オーディオアップロードプロセスにAudible Magicの先進的なコンテンツ認識(ACR)システムを統合することで、Stable Audio 2.0は、潜在的に侵害する可能性のあるコンテンツを識別してフラグを立て、プラットフォーム内で使用されるのは、オリジナルまたは適切にライセンスされたオーディオのみであることを保証します。

これらの倫理的考慮とクリエイター中心の取り組みを通じて、Stability AIは、オーディオ分野における責任あるAI開発の強い先例を示しています。クリエイターの権利を優先し、データ使用と補償に関する明確なガイドラインを確立することで、会社は、AIと人間の創造性が共存し、繁栄する、協力的な持続可能な環境を育みます。

Stability AIが創造するオーディオ創作の未来

Stable Audio 2.0は、AI生成オーディオの重要な里程標を表し、クリエイターに音楽、サウンドデザイン、オーディオ制作の新しい境界を探索するための包括的なツールセットを提供します。先進的な潜在的拡散モデルアーキテクチャ、印象的なパフォーマンス、倫理的考慮とクリエイターの権利へのコミットメントにより、Stability AIは、オーディオ創作の未来を形作る最前線に立っています。この技術が進化を続けるにつれて、AI生成オーディオが創造的景観においてますます重要な役割を果たすことは明らかであり、芸術家やミュージシャンが自分の芸術を強化し、音の世界で何が可能かを再定義するためのツールを提供します。