Stummel OpenAI erstellt neues KI-Programm zur Erstellung von Musik basierend auf Genres – Unite.AI
Vernetzen Sie sich mit uns

Artificial Intelligence

OpenAI erstellt neues KI-Programm zur Erstellung von Musik basierend auf Genres

mm
Aktualisiert on

Die unabhängige Forschungsorganisation OpenAI hat kürzlich eine neue Form generativer KI mit dem Namen veröffentlicht Musikbox, so genannt wegen seiner Fähigkeit, Musik zu erzeugen. Die Jukebox-KI ist in der Lage, Sounds basierend auf Attributen wie Instrumentierung und sogar Liedtexten zu erzeugen, und das OpenAI-Forschungsteam hat die KI erstellt, indem es sie mit komprimierten Audioclips und verschiedenen Liedtextausschnitten trainiert hat.

Als TechCrunch berichtet, trainierten die OpenAI-Forscher das Modell mit rohen Audioclips und gaben dem Modell so die Fähigkeit, Audio zu produzieren. Dies steht im Gegensatz zu den Ansätzen zur Erstellung anderer Musikgenerierungsanwendungen, die oft auf „symbolischer Musik“ (wie MIDI-Musik) basieren, bei der es sich um Informationen über Noten und Tonhöhen, aber nicht um tatsächliche Audiodaten handelt. Das Forscherteam nutzte Faltungs-Neuronale Netze, um das Modell zu trainieren, das Audio zu komprimieren und es in ein Format zu kodieren, das das Neuronale Netz interpretieren konnte. Anschließend wurde mit einem Transformator komprimiertes Audio erzeugt, das hochgesampelt wurde, um die Daten in ein Audioformat umzuwandeln.

Bei der Entwicklung von Jukebox musste OpenAI eine Methode entwickeln, um mit der komplexen, dichten Natur von Audio umzugehen. Die Forscher gingen mit der kontinuierlichen Natur des Audiomaterials um, indem sie es in diskretere, besser verdauliche Abschnitte aufteilten und Lieder in Abschnitte mit einer Länge von 1/128 Sekunden aufteilten. Das Ziel bestand darin, ein KI-Modell zu schaffen, das in der Lage ist, Songs in Stücke zu zerlegen, die groß genug sind, dass das Problem nicht unlösbar wird, aber dennoch klein und präzise genug, dass die Modelle das Muster eines Songs lernen und dieses Muster rekonstruieren können.

Die von OpenAI verwendete Technik hat einige Gemeinsamkeiten mit einer älteren KI der Musikgeneration, die das Unternehmen produziert hat MuseNet. MuseNet wurde auf MIDI-Dateien trainiert und war in der Lage, Musik in einer Vielzahl von Stilen zu erzeugen, obwohl es sich auf die Gesamtmelodie eines Liedes konzentrierte und keine Texte produzieren konnte. Im Gegensatz dazu ist Jukebox in der Lage, eigene Texte zur Musik zu schreiben. Die Texte werden von den OpenAI-Forschern „mitgeschrieben“, wodurch das Modell bei der Erstellung von Texten in bestimmten Stilen angeleitet wird. Das Jukebox-System wurde anhand von LyricWiki-Texten trainiert, wobei die Trainingsdaten aus Text und Metadaten von 1.2 Millionen Songs bestanden.

Was den Liedtext des Modells betrifft, versuchten die Forscher zunächst, eine einfache Heuristik zu verwenden, die den Liedtext ungefähr auf die Dauer eines Liedes ausdehnte und den Text analysierte, der einem bestimmten Abschnitt/Segment des Liedes entsprach. Dieser einfache Ansatz funktionierte im Allgemeinen gut, obwohl die Forscher herausfanden, dass er scheiterte, wenn die Liedtexte besonders schnell waren. Um dieses Problem zu lösen, wurden Gesangsstimmen aus dem Lied extrahiert und mit dem Liedtext abgeglichen, um eine Ausrichtung auf Wortebene für die Liedtexte zu erhalten. Anschließend wurde eine Codierungsebene für die Liedtexte verwendet, zusammen mit einer Aufmerksamkeitsebene, die mithilfe von Schlüssel-Wert-Paaren Abschnitte der Musik den Liedtexten zuordnete. Das Ergebnis war, dass Texte und Gesang ziemlich genau zueinander passten.

Die Autoren das Papier Beachten Sie auch, dass Jukebox mehrere Einschränkungen aufweist und dass zukünftige Arbeiten darauf abzielen, die Fähigkeiten der KI zu verbessern. Wie die Autoren schreiben in einem Blog-Post:

„Während Jukebox einen Fortschritt in der musikalischen Qualität, Kohärenz, Länge des Audio-Samples und der Fähigkeit darstellt, sich an Künstler, Genre und Texte anzupassen, besteht zwischen diesen Generationen und der von Menschen geschaffenen Musik eine erhebliche Kluft. Während die generierten Lieder beispielsweise lokale musikalische Kohärenz aufweisen, traditionellen Akkordmustern folgen und sogar beeindruckende Soli enthalten können, hören wir keine bekannten größeren musikalischen Strukturen wie sich wiederholende Refrains.“

Derzeit ist das Modell in der Lage, einen Song zu produzieren, der erkennbar im Stil eines bestimmten Genres oder sogar eines bestimmten Künstlers ist. Es können beispielsweise Songs im Stil von Elvis Presley, Katy Perry oder Rage Against the Machine produziert werden. Obwohl die Songs erkennbar einem Genre zuzuordnen sind oder sich am Stil eines Sängers orientieren, sind sie auch ziemlich grob und klingen oft wie eine Parodie oder eine schlechte Coverversion eines Songs. Dennoch ist die technische Leistung beeindruckend. Die für die Entwicklung des KI-Generierungssystems verantwortlichen Forscher entschieden sich für die Arbeit an einem Programm, das speziell Musik erzeugen kann, weil die Aufgabe schwierig war, und die Forscher planen, ihre Techniken weiter zu verfeinern. Einige der Lieder können Sie sich anhören hier.

Blogger und Programmierer mit Spezialisierung auf Maschinelles lernen und Tiefes Lernen Themen. Daniel hofft, anderen dabei zu helfen, die Macht der KI für das soziale Wohl zu nutzen.