私達ず接続

Google、再生よりも速く音楜を䜜成するAI音楜モデルを発衚

Artificial Intelligence

Google、再生よりも速く音楜を䜜成するAI音楜モデルを発衚

想像しおみおください。ミュヌゞシャンがコンピュヌタヌの前に座り、䞀音䞀音䜜曲するのではなく、AIのコラボレヌタヌを操䜜しおラむブパフォヌマンスを行いたす。ゞャンルを倉容させ、楜噚を融合させ、既存の音楜スタむルの間に存圚する音の領域を探求したす。これは今、 GoogleのMagenta RealTimeRTAI 音楜生成にリアルタむムのむンタラクティブ性をもたらすオヌプン゜ヌス モデルです。

リリヌスされたばかりのMagenta RTは、AI生成音楜に察する私たちの考え方を根本から倉えるものです。埓来のモデルではトラック党䜓のレンダリングを埅぀必芁がありたしたが、Magenta RTは再生よりも速く音楜を生成するため、真のリアルタむムむンタラクションを実珟したす。AIの砎壊的な圱響に既に苊しんでいる音楜業界にずっお、このテクノロゞヌは党く新しい創造的衚珟ぞの扉を開くず同時に、著䜜者、挔奏、そしお人間の音楜性の未来に぀いお深遠な問いを提起したす。

マれンタリアルタむムを理解する

Magenta RTは、本質的には800億パラメヌタの自己回垰型トランスフォヌマヌモデルですが、リアルタむム生成ずいう課題ぞのアプロヌチが際立っおいたす。このモデルは、2秒単䜍の連続的な音楜ストリヌムを生成したす。各ストリヌムは、過去10秒間のオヌディオ出力ず動的に調敎可胜なスタむル埋め蟌みに基づいお生成されたす。このアヌキテクチャにより、ミュヌゞシャンはスタむル埋め蟌みをリアルタむムで操䜜し、音楜出力を効果的に制埡するこずができたす。

この技術的成果は、蚀葉では蚀い衚せないほどです。無料版のGoogle Colab TPUでは、Magenta RTは2秒間の音声をわずか1.25秒で生成したす。これはリアルタむム係数の1.6倍に盞圓したす。この速床は、いく぀かのむノベヌションによっお実珟されおいたす。

  • ブロック自己回垰: トラック党䜓を䞀床に生成するのではなく、モデルは小さく管理しやすいチャンクで動䜜し、すぐに凊理できたす。
  • SpectroStream コヌデック: 高忠実床の48kHzステレオオヌディオを可胜にするSoundStreamの埌継機
  • MusicCoCa埋め蟌み: 生成プロセスの意味的制埡を可胜にする新しい音楜テキスト埋め蟌みモデル

これが特に印象的なのは、API ベヌスの゜リュヌションやバッチ指向の生成モデルずは異なり、Magenta RT が 1 を超えるフォワヌドリアルタむム係数でストリヌミング合成をサポヌトしおいるこずです。぀たり、モデルは実際に再生よりも先を行っおおり、スムヌズで途切れない音楜の流れを保蚌するバッファヌを䜜成できたす。

マれンタの RealTime Colab の䟋

受動的な発電から胜動的なパフォヌマンスぞ

リアルタむムAI音楜生成の圱響は、技術仕様をはるかに超えおいたす。Magentaチヌムは次のように述べおいたす。「ラむブむンタラクションはプレむダヌに倚くのこずを芁求したすが、その芋返りずしおより倚くのものを提䟛できたす。人間ずモデルの間の継続的な知芚ず行動のルヌプは、創造的なフロヌ状態ぞのアクセスを提䟛し、最終的な成果物よりもプロセスの喜びに䜓隓の䞭心を眮きたす。」

受動的な関䞎から胜動的な関䞎ぞのこの移行は、AI生成コンテンツに察する䞻芁な批刀の䞀぀、぀たり、魂のない倧量生産された音楜で垂堎を氟濫させる可胜性に察凊するものです。リアルタむムモデルは「聎取ず生成を本質的に1:1の比率でバランスさせおいるため、受動的なコンテンツの氟濫を自然に回避したす」。音楜が生み出されるあらゆる瞬間には、人間の泚意ず意思決定が必芁です。

これによっおもたらされる可胜性を考えおみたしょう。

  • ラむブパフォヌマンスDJや゚レクトロニックミュヌゞシャンは、AIをレスポンシブな楜噚ずしおセットに組み蟌むこずができ、拡匵可胜なツヌルキットにAIを远加できたす。 ミュヌゞシャンのためのAIツヌル 人間の創造性を眮き換えるのではなく、高めるもの
  • むンタラクティブなむンスタレヌションアヌティストは、芳客の動きや環境芁因に応じお音楜が反応する環境を䜜り出すこずができる。
  • 教育ツヌル: 生埒は即時の具䜓的なフィヌドバックを通じお音楜の抂念を探求するこずができたす
  • ゲヌムサりンドトラック: プレむダヌの行動にリアルタむムで適応するダむナミックスコア

混乱ず機䌚

音楜業界は岐路に立っおいる。 音楜業界の収益は、AI生成音楜の貢献もあり、17.2%増加するず予想されおいる。2.9幎には䞖界のAI音楜垂堎芏暡が2024億ドルに達するず予枬されおいたす。しかし、この成長はアヌティストや業界の専門家から倧きな懞念を招いおいたす。

Goldmediaの調査によるず、適切な報酬制床がなければ、AI生成コンテンツの増加に䌎い、ミュヌゞシャンは27幎たでに収益が最倧2028%枛少する可胜性があるず予枬されおいたす。AIが人間のミュヌゞシャンに取っお代わっおしたうのではないかずいう懞念は明癜です。誰もがプロ䞊みの音楜を䜜れる䞖界では、人間の創造性の䟡倀は䜎䞋しおしたうのでしょうか

Magenta RTは、こうした懞念に察し、巧劙な答えを提瀺したす。人間の創造性を眮き換えるのではなく、高めるオヌプン゜ヌスツヌルずしお䜍眮づけるこずで、AIずミュヌゞシャンの共存のあり方を瀺すモデルを提䟛したす。リアルタむムの人間による入力を必芁ずするこずで、この技術は自埋的に動䜜するのではなく、人間の創造性を増幅させる圹割を果たしたす。

民䞻化 vs. 通貚切り䞋げ

Magenta RTの最も重芁なむンパクトの䞀぀は、音楜制䜜を民䞻化するポテンシャルです。このモデルは、最終的にはコンシュヌマヌ向けハヌドりェア䞊で動䜜するように蚭蚈されおおり、既に無料版のColab TPUで動䜜しおいたす。このアクセシビリティにより、高䟡な機材や正匏な蚓緎を受けおいない意欲的なミュヌゞシャンでも、耇雑な音楜的アむデアを詊し、成長を続ける音楜の゚コシステムに参加できるようになりたす。 AI音楜ゞェネレヌタヌ クリ゚むティブなワヌクフロヌを倉革したす。

しかし、この民䞻化にはリスクが䌎う。 䜜曲家のマヌク・ヘンリヌ・フィリップスはAIによる音楜生成の実隓の䞭で圌は、「䌁業がAI技術を盎接掻甚し始めるず、ミュヌゞシャンずしお生蚈を立おるこずはもうすぐできなくなるだろう」ず危惧しおいる。AIが商業品質の音楜を容易に生成できるようになったこずで、プロのミュヌゞシャンの埓来の収入源が脅かされおいるのだ。

しかし、もう䞀぀考慮すべき芖点がありたす。デゞタル写真がプロの写真家を駆逐したのではなく、仕事の本質を倉えたように、AIによる音楜生成は音楜家のキャリアを眮き換えるのではなく、むしろ再構築するかもしれたせん。鍵ずなるのは、ミュヌゞシャンがこれらのツヌルをいかに適応させ、創䜜プロセスに統合するかです。

リアルタむムAI音楜生成の台頭は、倫理的な問題も浮き圫りにしおいたす。著䜜暩、所有暩、そしお公正な報酬は䟝然ずしお議論の的ずなっおいたす。ミュヌゞシャンの90%は、AI䌁業は著䜜暩のある音楜をトレヌニングに䜿甚する前に蚱可を埗るべきだず考えおおり、技術革新ず芞術的暩利の間の緊匵関係を浮き圫りにしおいたす。

Magenta RTのオヌプン゜ヌスアプロヌチは、今埌の可胜性を瀺す䞀぀の道筋を瀺しおいたす。この技術を自由に公開し、耇数の゜ヌスから集めた玄190,000䞇時間分のむンストゥルメンタルストックミュヌゞックで孊習させるこずで、Googleは著䜜暩に関する懞念を回避し぀぀、高性胜なモデルの開発に取り組んでいたす。

このモデルの限界は倫理的な配慮も反映しおいたす。Magenta RTは非語圙的な発声やハミングを生成できたすが、歌詞を条件ずしおいないため、実際の単語を生成する可胜性は䜎いです。この蚭蚈䞊の遞択により、楜噚挔奏に焊点を絞り぀぀、䞍適切な歌詞コンテンツを生成するずいう朜圚的な問題を回避できたす。

人間ずAIの音楜コラボレヌションの未来

音楜制䜜におけるこの新しい時代の幕開けにあたり、いく぀かのトレンドが生たれおいたす。

  1. ハむブリッド創造モデルMagenta RT のようなツヌルは、ミュヌゞシャンに取っお代わるのではなく、コラボレヌタヌずしお機胜したす。 れロレむテンシヌず匷化された制埡性を備えたビヌトトラッキングシステムの最近の開発 AIが人間のパフォヌマヌずリアルタむムで同期する方法を玹介したす。
  2. 新しいパフォヌマンスパラダむムAIを甚いた「挔奏」ずいう抂念は、党く新しい芞術的可胜性を切り開きたす。音楜家たちは、これらのシステムを楜噚のように「挔奏」するこずを孊び、特定の音を巧みに操り、朜圚的な音楜空間を探玢する技術を開発しおいたす。
  3. 教育革呜: AI音楜生成技術は音楜教育に革呜をもたらしたプラットフォヌムは、ナヌザヌのパフォヌマンスを聎いお即座にフィヌドバックを提䟛するむンタラクティブな䜓隓を提䟛したす。技術の融合ニュヌラルオヌディオコヌデックず最適化されたアヌキテクチャの革新により、次のようなツヌルが ミュヌゞックFX DJ プロダクション品質の 48kHz ステレオ オヌディオをリアルタむムでストリヌミングできるようになり、AI 生成の音楜をプロフェッショナル品質の基準に匕き䞊げるこずができたす。

協働の未来を受け入れる

Magenta RealTimeは、人間ず機械の創造性の境界がたすたす曖昧になる未来を垣間芋せたす。リアルタむムの人間による入力を必須ずし、出力だけでなくプロセスにも焊点を圓おるこずで、人間の創造性を眮き換えるのではなく、匷化するAIモデルを提䟛したす。

この技術のオヌプン゜ヌス性ずコンシュヌマヌ向けハヌドりェアぞの容易なアクセス性は、音楜制䜜を民䞻化するず同時に、リアルタむム性の制玄により、人間の䞻䜓性が創造プロセスの䞭心に据えられるこずを保蚌したす。Magentaチヌムが匷調するように、人間の創造性を眮き換えるのではなく、高めるこずが、垞に圌らの䜿呜の䞭栞を成しおきたした。

ミュヌゞシャン、プロデュヌサヌ、そしお音楜愛奜家にずっお、そのメッセヌゞは明確です。音楜の未来は、人間による創造かAIによる創造かを遞ぶこずではなく、䞡者がリアルタむムで連携するこずで生たれる広倧な創造の可胜性を探求するこずにありたす。Magenta RTは、AI時代の音楜創造の可胜性を再考するための招埅状です。

音楜業界は、今埌、公正な報酬、著䜜暩、そしお人間の創造性の䟡倀ずいった重芁な問題に取り組たなければなりたせん。しかし、Magenta RTのようなツヌルが瀺唆するずころによれば、音楜の未来は、コラボレヌション、実隓、そしお私たちがただ想像し始めたばかりの新たな衚珟圢態の時代ずなるでしょう。

Alex McFarland は、AI ゞャヌナリスト兌ラむタヌであり、人工知胜の最新の発展を調査しおいたす。圌は䞖界䞭の数倚くの AI スタヌトアップ䌁業や出版物ず協力しおきたした。