人工知能

Stability AI、Stable Audio 2.0を発表：クリエイターに先進的なAI生成オーディオを提供

Published April 3, 2024

Updated April 27, 2026

Alex McFarland

Stability AIは、Stable Audio 2.0のリリースにより、革新の境界を再び押し広げました。この最先端のモデルは、その前身の成功を基にしており、芸術家やミュージシャンがオーディオコンテンツを作成し操作する方法を革命的に変えるという約束を伴う、画期的な機能の数多くの導入を特徴としています。

Stable Audio 2.0は、AI生成オーディオの進化における重要な里程標を表し、品質、多様性、創造的潜在性の新しい基準を設定しています。フルレングスのトラックを生成し、自然言語プロンプトを使用してオーディオサンプルを変換し、幅広いサウンドエフェクトを生成する能力により、このモデルは、さまざまな業界のコンテンツクリエイターにとって、可能性の世界を開放します。

革新的なオーディオソリューションの需要が続くにつれて、Stability AIの最新の提供は、クリエイターの創造的出力を強化し、ワークフローを合理化しようとする専門家にとって、不可欠なツールになる可能性があります。先進的なAIテクノロジーの力を活用して、Stable Audio 2.0は、音楽作曲、サウンドデザイン、オーディオポストプロダクションの未踏の領域を探索するために、ユーザーをEmpowerします。

Stable Audio 2.0の主な機能

Stable Audio 2.0は、AI生成オーディオの景観を再定義する可能性のある、印象的な機能の数多くのボーストを特徴としています。フルレングストラック生成からオーディオツーオーディオ変換、強化されたサウンドエフェクト生成、スタイル転送まで、このモデルは、クリエイターが彼らの聴覚的なビジョンを実現するための包括的なツールキットを提供します。

フルレングストラック生成

Stable Audio 2.0は、最大3分間のフルレングストラックを生成する能力で、他のAI生成オーディオモデルと区別されます。これらの構成は、単に延長されたスニペットではなく、イントロ、開発、そしてアウトロを含む、構造化されたピースです。この機能により、ユーザーは、AIアシストミュージック作成の可能性を高める、ナラティブと進歩を持つ完全な音楽作品を生成できます。

さらに、モデルは、生成されたオーディオに深みと次元を追加する、ステレオサウンドエフェクトを組み込みます。この空間要素の包含は、トラックのリアリズムと没入感をさらに高め、バックグラウンドミュージック、スタンドアローンミュージック作品など、幅広いアプリケーションに適しています。

オーディオツーオーディオ生成

Stable Audio 2.0に追加された最も興奮する機能の1つは、オーディオツーオーディオ生成の機能です。ユーザーは今や、自分のオーディオサンプルをアップロードし、自然言語プロンプトを使用して変換できます。この機能は、サウンド操作と再生成の創造的な可能性の世界を開放し、芸術家やミュージシャンが以前考えられなかった方法で実験できます。

AIの力を利用して、ユーザーは、既存のオーディオアセットを簡単に変更して、特定のニーズまたは芸術的なビジョンに合わせることができます。楽器の音色を変更すること、作品のムードを変更すること、または既存のサンプルに基づいて完全に新しいサウンドを作成することなど、Stable Audio 2.0は、オーディオ変換を探索するための直感的な方法を提供します。

強化されたサウンドエフェクト生成

Stable Audio 2.0は、音楽生成機能に加えて、多様なサウンドエフェクトの生成にも優れています。葉の rustling のような繊細なバックグラウンドノイズや機械のハムから、都市の通りや自然環境のような没入感のあるサウンドスケープまで、モデルは、幅広いオーディオ要素を生成できます。

この強化されたサウンドエフェクト生成機能は、映画、テレビ、ビデオゲーム、またはマルチメディアプロジェクトで働くコンテンツクリエイターにとって特に貴重です。Stable Audio 2.0を使用して、ユーザーは、高品質のサウンドエフェクトを、広範囲にわたるフォーリー作業や高価なライセンス資産を必要とせずに、簡単に生成できます。

スタイル転送

Stable Audio 2.0は、生成されたまたはアップロードされたオーディオの美的および音調の特性を無縫に変更することを可能にするスタイル転送機能を導入します。この機能により、クリエイターは、プロジェクトの特定のテーマ、ジャンル、または感情的下調べにオーディオ出力を合わせることができます。

スタイル転送を適用することで、ユーザーは、さまざまな音楽スタイルを実験したり、ジャンルをブレンドしたり、または完全に新しい音のパレットを作成したりできます。この機能は、統一されたサウンドトラックを作成するために特に役立ちます。視覚的なコンテンツに音楽を適応させたり、創造的なマッシュアップやリミックスを探索したりします。

Stable Audio 2.0の技術的進歩

Stable Audio 2.0の下では、先進的なAIテクノロジーが、モデルが印象的なパフォーマンスと高品質の出力を実現することを可能にします。モデルのアーキテクチャは、生成されたオーディオの構造と詳細に対する微妙な制御を維持しながら、完全な長さのオーディオ構成を生成するという、ユニークな課題に対処するように慎重に設計されています。

潜在的拡散モデルアーキテクチャ

Stable Audio 2.0の核となるのは、オーディオ生成のために最適化された潜在的拡散モデルアーキテクチャがあります。このアーキテクチャは、2つの重要なコンポーネントで構成されています。高圧縮オートエンコーダーと拡散トランスフォーマー(DiT)です。

オートエンコーダーは、生のオーディオ波形を効率的に圧縮して、コンパクトな表現に変換する責任があります。この圧縮により、モデルは、重要な詳細をフィルタリングしながら、オーディオの基本的な特徴をキャプチャし、生成された出力がより一貫性と構造化されます。

拡散トランスフォーマーは、以前のバージョンで使用された従来のU-Netアーキテクチャを置き換え、Stability AIの画期的なStable Diffusion 3モデルで使用されているものと似ています。DiTは、長いシーケンスのデータを処理および生成することに特に適しています。したがって、拡張されたオーディオ構成の処理に適しています。

パフォーマンスと品質の向上

高圧縮オートエンコーダーと拡散トランスフォーマーの組み合わせにより、Stable Audio 2.0は、前身と比較して、パフォーマンスと出力品質の両方で著しい改善を実現します。

オートエンコーダーの効率的な圧縮により、モデルは、より迅速な速度でオーディオを処理および生成できます。必要な計算リソースが削減され、より幅広いユーザーにアクセス可能になります。同時に、拡散トランスフォーマーの大規模な構造を認識して再現する能力は、生成されたオーディオが高いレベルの一貫性と音楽的完全性を維持することを保証します。

これらの技術的進歩は、現実的で感情的に共鳴するオーディオを生成するモデルに結び付きます。フルレングスのミュージカル構成、複雑なサウンドスケープ、または繊細なサウンドエフェクトに関係なく、Stable Audio 2.0のアーキテクチャは、AI生成オーディオのさらなる革新の基礎を築きます。さらに洗練された、表現力豊かなクリエイターのためのツールの開発を促進します。

Stable Audio 2.0におけるクリエイターの権利

AI生成オーディオが進化し、さらにアクセス可能になるにつれて、倫理的影響を考慮し、クリエイターの権利を保護することが不可欠です。Stability AIは、Stable Audio 2.0のトレーニングに貢献したアーティストの権利を優先し、倫理的な開発と公平な補償を促進するための積極的な措置を講じています。

Stable Audio 2.0は、信頼できるオーディオコンテンツの供給源であるAudioSparxからライセンスされたデータセットで独占的にトレーニングされました。このデータセットには、800,000以上のオーディオファイルが含まれており、音楽、サウンドエフェクト、シングルインストゥルメントステム、および対応するテキストメタデータが含まれています。ライセンスされたデータセットを使用することで、Stability AIは、モデルが合法的に取得され、適切に帰属されたオーディオデータの基盤上に構築されていることを保証します。

クリエイターの自主性の重要性を認識して、Stability AIは、AudioSparxデータセットに含まれるすべてのアーティストに、Stable Audio 2.0のトレーニングに使用されるオーディオをオプトアウトする機会を提供しました。このオプトアウトメカニズムにより、クリエイターは、自分の作品がどのように使用されるかを維持することができ、データセットには、AIトレーニングに使用されることに快適なアーティストのみが含まれることを保証します。

Stability AIは、Stable Audio 2.0の開発に貢献したクリエイターが、公平に補償されることを保証することに尽力しています。AudioSparxデータセットのライセンスとオプトアウトオプションを提供することで、会社は、クリエイターが尊重され、貢献に対して報奨される、AI生成オーディオのための持続可能で公平なエコシステムを確立するというコミットメントを示しています。

さらに、クリエイターの権利を保護し、著作権侵害を防ぐために、Stability AIは、コンテンツ認識テクノロジーの先駆的な提供者であるAudible Magicと提携しています。オーディオアップロードプロセスにAudible Magicの先進的なコンテンツ認識(ACR)システムを統合することで、Stable Audio 2.0は、潜在的に侵害する可能性のあるコンテンツを識別およびフラグを設定できます。プラットフォーム内で使用されるのは、オリジナルまたは適切にライセンスされたオーディオのみであることを保証します。

これらの倫理的考慮とクリエイター中心のイニシアチブを通じて、Stability AIは、オーディオドメインにおける責任あるAI開発の強い先例を設定します。データの使用と補償に関する明確なガイドラインを確立し、クリエイターの権利を優先することで、会社は、AIと人間の創造性が共存し、繁栄するための協力的な、持続可能な環境を育みます。

Stability AIとオーディオ創作の未来を形作る

Stable Audio 2.0は、AI生成オーディオにおける重要な里程標を示し、クリエイターに音楽、サウンドデザイン、オーディオプロダクションの新しい境界を探索するための包括的なツールセットをEmpowerします。潜在的拡散モデルアーキテクチャ、印象的なパフォーマンス、クリエイターの権利と倫理的考慮へのコミットメントとともに、Stability AIは、オーディオ創作の未来を形作る最前線に立ちます。このテクノロジーが進化を続けるにつれて、AI生成オーディオが創造的な景観でますます重要な役割を果たすことは明らかであり、芸術家やミュージシャンが自分の職業の境界を押し広げ、音の世界で何が可能かを再定義するために必要なツールを提供します。

Unite.AI