Artificial Intelligence

OpenAI、ジャンルに基づいて音楽を作成する新しい AI プログラムを作成

更新中 on 2022 年 12 月 9 日

独立研究組織 OpenAI は最近、「OpenAI」と呼ばれる新しい形式の生成 AI をリリースしました。ジュークボックス、音楽を生成する能力にちなんでそのように名付けられました。ジュークボックス AI は、楽器や歌詞などの属性に基づいてサウンドを生成することができ、OpenAI 研究チームは、圧縮されたオーディオクリップとさまざまな歌詞の断片を学習させて AI を作成しました。

TechCrunchとして報告OpenAI の研究者は、生のオーディオクリップを使用してモデルをトレーニングし、モデルにオーディオを生成する機能を与えました。これは、他の音楽生成アプリケーションの作成に使用されるアプローチとは対照的です。他の音楽生成アプリケーションは、実際のオーディオではなく音符やピッチに関する情報である「記号音楽」 (MIDI 音楽など) に依存することがよくあります。研究チームは畳み込みニューラルネットワークを利用してモデルをトレーニングし、音声を圧縮して、ニューラルネットワークが解釈できる形式にエンコードしました。その後、トランスを使用して圧縮オーディオを生成し、データをオーディオ形式に変換するためにアップサンプリングされました。

ジュークボックスを作成する際、OpenAI はオーディオの複雑で高密度な性質に対処する方法を作成する必要がありました。研究者らは、オーディオをより離散的で理解しやすいセクションに分割し、曲を 1/128 秒の長さのビットに分割することで、オーディオの連続的な性質に対処しました。目標は、問題が手に負えないほど十分に大きな塊に曲を分割できると同時に、モデルが曲のパターンを学習してそのパターンを再構築できるほど十分小さく正確な AI モデルを作成することでした。

OpenAI が利用する技術には、同社が開発した古い音楽生成 AI といくつかの共通点があります。ミューズネット。 MuseNet は MIDI ファイルでトレーニングされており、さまざまなスタイルの音楽を生成できましたが、曲全体のメロディーに重点を置いており、歌詞を生成することはできませんでした。対照的に、ジュークボックスは音楽に合わせて独自の歌詞を書くことができます。歌詞は OpenAI の研究者によって「共同執筆」されており、特定のスタイルで歌詞を作成する方向にモデルを導きます。ジュークボックスシステムは、LyricWiki から収集した歌詞に基づいてトレーニングされ、トレーニングデータは 1.2 万曲のテキストとメタデータで構成されています。

モデルの歌詞に関して、研究者らはまず、歌詞をほぼ曲の長さまで引き伸ばす単純なヒューリスティックを使用して、曲の特定のチャンク/セグメントに対応するテキストを分析することを試みました。この単純なアプローチは一般的にうまく機能しましたが、研究者らは、歌詞が特に速い場合にはうまく機能しないことを発見しました。この問題に対処するために、歌からボーカルを抽出し、歌詞のテキストと位置合わせして、歌詞の単語レベルの位置合わせを行いました。その後、キーと値のペアを使用して音楽のセクションを歌詞にマッピングするアテンションレイヤーとともに、エンコードレイヤーが歌詞に使用されました。その結果、歌詞とボーカルがかなり正確に一致しました。

の著者紙また、ジュークボックスにはいくつかの制限があること、および将来の作業では AI の能力の向上を目指すことにも注意してください。著者らが書いているようにブログの記事で:

「ジュークボックスは、音楽の品質、一貫性、オーディオサンプルの長さ、アーティスト、ジャンル、歌詞を条件付ける機能において一歩前進していますが、これらの世代と人間が作成した音楽の間には大きな隔たりがあります。たとえば、生成された曲は局所的な音楽的一貫性を示し、伝統的なコードパターンに従い、印象的なソロをフィーチャーすることさえできますが、繰り返されるコーラスのような、よく知られたより大きな音楽構造は聞こえません。」

現時点では、このモデルは、特定のジャンル、さらには特定のアーティストのスタイルで認識できる曲を作成できます。たとえば、エルヴィスプレスリー、ケイティペリー、レイジアゲインストザマシーンのスタイルの曲を作成できます。それらの曲は明らかに特定のジャンル内にあるか、歌手のスタイルをテーマとしていますが、かなりラフでもあり、多くの場合、曲のパロディまたは下手なカバーバージョンのように聞こえます。それにもかかわらず、技術的な成果は印象的です。 AI生成システムの作成を担当した研究者らは、特に音楽を生成できるプログラムに取り組むことを選んだのは、その作業が困難だったためであり、研究者らは今後も技術を磨き続ける予定だ。一部の曲を聴くことができますこちら.