人工知能
OpenAI、ジャンルに基づいて音楽を作成する新しいAIプログラムを開発

独立した研究機関であるOpenAIは、最近、Jukeboxと呼ばれる新しい形式の生成的なAIをリリースしました。Jukeboxという名前は、音楽を生成する能力があるためにつけられました。Jukebox AIは、楽器や歌詞などの属性に基づいて音を生成できます。OpenAIの研究チームは、圧縮されたオーディオクリップやさまざまな歌詞のスニペットを使用してAIをトレーニングしました。
TechCrunch によると、OpenAIの研究者は、生のオーディオクリップを使用してモデルをトレーニングし、モデルにオーディオを生成する能力を与えました。これは、他の音楽生成アプリケーションを作成するために使用されるアプローチとは対照的です。なぜなら、これらのアプローチは、MIDIミュージックなどの「シンボリックミュージック」に頼りますが、これはノートやピッチに関する情報ですが、実際のオーディオではありません。研究者チームは、モデルをトレーニングするために畳み込みニューラルネットワークを使用し、オーディオを圧縮して、ニューラルネットワークが解釈できる形式にエンコードしました。その後、トランスフォーマーを使用して圧縮されたオーディオを生成し、データをオーディオ形式に変換するためにアップサンプリングしました。
Jukeboxを作成する際、OpenAIは、オーディオの複雑で密な性質に対処する方法を見つける必要がありました。研究者は、オーディオの連続性に対処するために、オーディオをより離散的で消化しやすいセクションに分割し、曲を1/128秒長のビットに分割しました。目標は、曲を大きすぎず、小さすぎず、問題が解決できないほど大きくすることではありませんでしたが、小さくて正確なセクションに分割して、モデルが曲のパターンを学習し、再構築できるようにすることでした。
OpenAIによって使用されたテクニックは、会社が以前制作した古い音楽生成AIであるMuseNetと共通点があります。MuseNetはMIDIファイルでトレーニングされ、様々なスタイルで音楽を生成することができましたが、曲の全体的なメロディーに焦点を当てており、歌詞を生成することはできませんでした。一方、Jukeboxは音楽に合わせて独自の歌詞を書くことができます。歌詞は、OpenAIの研究者によって「共同で書かれ」、モデルが特定のスタイルで歌詞を生成するように誘導しています。Jukeboxシステムは、LyricWikiからスクラップされた歌詞でトレーニングされ、トレーニングデータは1,200万曲のテキストとメタデータで構成されていました。
モデルについての歌詞に関して、研究者は最初に、歌詞を曲の長さに合わせて伸ばすという単純なヒューリスティックを使用し、特定のチャンク/セグメントの歌詞に対応するテキストを分析しました。この単純なアプローチは一般的にうまく機能しましたが、研究者は、歌詞が特に速い場合に壊れることがわかりました。この問題に対処するために、ボーカルが曲から抽出され、歌詞のテキストと整列して、歌詞のワードレベルの整列を取得しました。その後、歌詞に対してエンコード層と、キー値ペアを使用して音楽のセクションを歌詞にマッピングするアテンション層が使用されました。結果として、歌詞とボーカルはかなり正確に一致しました。
論文の著者は、Jukeboxにはいくつかの限界があること、および将来的にはAIの能力を向上させることを目的とすることを指摘しています。著者は、ブログ投稿で書いています。
「Jukeboxは、音楽の品質、連続性、オーディオサンプルの長さ、そしてアーティスト、ジャンル、歌詞に基づいて条件を付ける能力において、進歩を表しています。ただし、生成された音楽と人間が作成した音楽の間には、まだ大きなギャップがあります。たとえば、生成された曲は、ローカルな音楽的連続性を示し、伝統的なコードパターンに従い、甚至印象的なソロを特徴としていますが、コーラスなどの馴染みのある大きな音楽構造は聞こえません。」
現在、モデルは、特定のジャンルやアーティストのスタイルで曲を生成することができます。たとえば、エルビス・プレスリー、ケイティ・ペリー、レージ・アゲインスト・ザ・マシンのスタイルで曲を生成することができます。曲はジャンルやアーティストのスタイルに基づいて作成されていますが、粗いもので、しばしばパロディーや曲の悪いカバー・バージョンのように聞こえます。にもかかわらず、技術的な成果は印象的です。AI生成システムを作成した研究者は、特にこのタスクが難しいという理由で、音楽を生成するプログラムに取り組むことを選択しました。研究者は、技術をさらに洗練することを計画しています。你可以ここでいくつかの曲を聞くことができます。












