Künstliche Intelligenz

Text-to-Music Generative AI : Stability Audio, Google’s MusicLM und mehr

Published September 25, 2023

Updated April 28, 2026

Aayush Mittal Mittal

Musik, eine Kunstform, die mit der menschlichen Seele resoniert, ist seit jeher unser ständiger Begleiter. Die Erstellung von Musik mithilfe künstlicher Intelligenz begann bereits vor mehreren Jahrzehnten. Zunächst waren die Versuche einfach und intuitiv, mit grundlegenden Algorithmen, die monotonen Melodien erstellten. Als jedoch die Technologie fortschritt, verbesserten sich auch die Komplexität und Fähigkeiten der AI-Musikgeneratoren, was den Weg für Deep Learning und Natural Language Processing (NLP) ebnete, um eine wichtige Rolle in dieser Technologie zu spielen.

Heute nutzen Plattformen wie Spotify AI, um das Hörerlebnis ihrer Benutzer zu verfeinern. Diese Deep-Learning-Algorithmen analysieren individuelle Vorlieben basierend auf verschiedenen musikalischen Elementen wie Tempo und Stimmung, um personalisierte Liedvorschläge zu erstellen. Sie analysieren auch breitere Hörermuster und durchsuchen das Internet nach songbezogenen Diskussionen, um detaillierte Liedprofile zu erstellen.

Die Ursprünge von AI in der Musik: Eine Reise von der algorithmischen Komposition zur generativen Modellierung

In den frühen Stadien der AI-Mischung in der Musikwelt, die von den 1950er bis zu den 1970er Jahren reichte, lag der Fokus hauptsächlich auf der algorithmischen Komposition. Dies war eine Methode, bei der Computer eine definierte Menge von Regeln verwendeten, um Musik zu erstellen. Die erste bemerkenswerte Schöpfung während dieser Periode war die Illiac Suite für Streichquartett im Jahr 1957. Sie verwendete den Monte-Carlo-Algorithmus, ein Verfahren, das zufällige Zahlen verwendete, um die Tonhöhe und den Rhythmus innerhalb der Grenzen traditioneller Musiktheorie und statistischer Wahrscheinlichkeiten zu bestimmen.

Bild, das vom Autor mit Midjourney erstellt wurde

Während dieser Zeit nutzte ein weiterer Pionier, Iannis Xenakis, stochastische Prozesse, ein Konzept, das zufällige Wahrscheinlichkeitsverteilungen beinhaltet, um Musik zu erstellen. Er verwendete Computer und die FORTRAN-Sprache, um mehrere Wahrscheinlichkeitsfunktionen zu verbinden, wodurch ein Muster entstand, bei dem verschiedene grafische Darstellungen unterschiedlichen Klangräumen entsprachen.

Die Komplexität der Übersetzung von Text in Musik

Musik wird in einem reichen und mehrdimensionalen Datenformat gespeichert, das Elemente wie Melodie, Harmonie, Rhythmus und Tempo umfasst, was die Aufgabe der Übersetzung von Text in Musik sehr komplex macht. Ein Standardlied wird durch fast eine Million Zahlen in einem Computer dargestellt, eine Zahl, die erheblich höher ist als andere Datenformate wie Bilder oder Text.

Das Feld der Audiogenerierung erlebt innovative Ansätze, um die Herausforderungen der Erstellung realistischer Klänge zu überwinden. Ein Ansatz umfasst die Generierung eines Spektrograms und dessen anschließende Rückübertragung in Audio.

Ein weiterer Ansatz nutzt die symbolische Darstellung von Musik, wie Noten, die von Musikern interpretiert und gespielt werden können. Diese Methode wurde erfolgreich digitalisiert, mit Tools wie Magentas Chamber Ensemble Generator, der Musik im MIDI-Format erstellt, einem Protokoll, das die Kommunikation zwischen Computern und Musikinstrumenten ermöglicht.

Während diese Ansätze das Feld vorangebracht haben, haben sie ihre eigenen Einschränkungen, die die komplexe Natur der Audiogenerierung unterstreichen.

Transformer-basierte autoregressive Modelle und U-Net-basierte Diffusionsmodelle stehen an der Spitze der Technologie und erzeugen state-of-the-art-Ergebnisse bei der Generierung von Audio, Text, Musik und vielem mehr. OpenAIs GPT-Serie und fast alle anderen LLMs werden derzeit von Transformern angetrieben, die entweder Encoder-, Decoder- oder beide Architekturen nutzen. Auf der Kunst/Bildseite nutzen MidJourney, Stability AI und DALL-E 2 Diffusionsframeworks. Diese beiden Kerntechnologien waren entscheidend für die Erreichung von state-of-the-art-Ergebnissen im Audiosektor.

In diesem Artikel werden wir uns mit Google’s MusicLM und Stable Audio auseinandersetzen, die ein Zeugnis für die bemerkenswerten Fähigkeiten dieser Technologien sind.

Google’s MusicLM

Google’s MusicLM wurde im Mai dieses Jahres veröffentlicht. MusicLM kann hochwertige Musikstücke generieren, die genau dem in dem Text beschriebenen Gefühl entsprechen. Durch hierarchisches Sequenz-zu-Sequenz-Modellieren hat MusicLM die Fähigkeit, Textbeschreibungen in Musik umzuwandeln, die bei 24 kHz über erweiterte Zeiträume resonieren.

Das Modell operiert auf mehreren Ebenen, nicht nur entsprechend den textuellen Eingaben, sondern auch mit der Fähigkeit, auf Melodien konditioniert zu werden. Dies bedeutet, dass es eine gehumme oder gepfiffene Melodie nehmen und sie entsprechend dem in der Textbeschreibung angegebenen Stil umwandeln kann.

Technische Einblicke

MusicLM nutzt die Prinzipien von AudioLM, einem Framework, das 2022 für die Audiogenerierung eingeführt wurde. AudioLM synthesiert Audio als eine Sprachmodellierungsaufgabe in einem diskreten Repräsentationsraum, indem es eine Hierarchie von grob zu fein ausgerichteter Audio-Discreteinheiten, auch bekannt als Token, nutzt. Dieser Ansatz gewährleistet hochwertige und langfristige Kohärenz über erhebliche Zeiträume.

Um den Generierungsprozess zu erleichtern, erweitert MusicLM die Fähigkeiten von AudioLM, um Textkonditionierung zu integrieren, eine Technik, die das generierte Audio mit den Nuancen des Eingabetexts ausrichtet. Dies wird durch einen gemeinsamen Embeddingspace erreicht, der mit MuLan, einem gemeinsamen Musik-Text-Modell, erstellt wird, das trainiert wurde, Musik und ihre entsprechenden Textbeschreibungen nahe beieinander in einem Embeddingspace zu projizieren. Diese Strategie eliminiert effektiv die Notwendigkeit von Untertitelungen während des Trainings, wodurch das Modell auf massive Audio-only-Korpora trainiert werden kann.

Das MusicLM-Modell nutzt auch SoundStream als Audio-Tokenizer, der 24-kHz-Musik bei 6 kbps mit beeindruckender Treue rekonstruieren kann, indem es residuale Vektorquantisierung (RVQ) für effiziente und hochwertige Audio-Komprimierung nutzt.

Eine Illustration des unabhängigen Vortrainingsprozesses für die grundlegenden Modelle von MusicLM: SoundStream, w2v-BERT und MuLan,

Eine Illustration des Vortrainingsprozesses von MusicLM: SoundStream, w2v-BERT und MuLan | Bildquelle: hier

Darüber hinaus erweitert MusicLM seine Fähigkeiten, indem es Melodie-Konditionierung ermöglicht. Dieser Ansatz stellt sicher, dass sogar eine einfache gehumme Melodie die Grundlage für ein grandioses auditives Erlebnis legen kann, das auf die exakte textuelle Stilbeschreibung abgestimmt ist.

Die Entwickler von MusicLM haben auch MusicCaps, ein Dataset mit 5.500 Musik-Text-Paaren, veröffentlicht, jedes begleitet von reichen Textbeschreibungen, die von menschlichen Experten erstellt wurden. Sie können es hier einsehen: MusicCaps auf Hugging Face.

Bereit, AI-Soundtracks mit Google’s MusicLM zu erstellen? Hier ist, wie Sie loslegen:

Besuchen Sie die offizielle MusicLM-Website und klicken Sie auf “Loslegen”.
Treten Sie der Warteliste bei, indem Sie “Ihr Interesse anmelden” auswählen.
Melden Sie sich mit Ihrem Google-Konto an.
Sobald Ihnen der Zugang gewährt wird, klicken Sie auf “Jetzt ausprobieren”, um zu beginnen.

Unten finden Sie einige Beispiel-Prompts, mit denen ich experimentiert habe:

“Mediativer Song, beruhigend und sanft, mit Flöten und Gitarren. Die Musik ist langsam, mit Fokus auf die Schaffung eines Gefühls von Frieden und Ruhe.”

“Jazz mit Saxophon”

Im Vergleich zu früheren SOTA-Modellen wie Riffusion und Mubert in einer qualitativen Bewertung wurde MusicLM bevorzugt, mit Teilnehmern, die die Kompatibilität von Text-Untertitelungen mit 10-Sekunden-Audio-Clips positiv bewerteten.

MusicLM-Leistung, Bildquelle: hier

Stability Audio

Stability AI hat letzte Woche “Stable Audio” vorgestellt, eine latente Diffusionsmodellarchitektur, die auf Text-Metadaten sowie Audio-Dateidauer und Startzeit konditioniert ist. Dieser Ansatz, ähnlich wie Google’s MusicLM, hat die Kontrolle über den Inhalt und die Länge des generierten Audios, wodurch die Erstellung von Audio-Clips mit angegebenen Längen bis zur Trainingsfenstergröße möglich ist.

Stable Audio

Technische Einblicke

Stable Audio besteht aus mehreren Komponenten, einschließlich eines Variational Autoencoders (VAE) und eines U-Net-basierten konditionierten Diffusionsmodells, das mit einem Text-Encoder zusammenarbeitet.

Eine Illustration, die die Integration eines Variational Autoencoders (VAE), eines Text-Encoders und eines U-Net-basierten konditionierten Diffusionsmodells zeigt

Stable Audio-Architektur, Bildquelle: hier

Der VAE ermöglicht eine schnellere Generierung und ein schnelleres Training, indem er Stereo-Audio in eine Daten-komprimierte, rauschresistente und invertierbare verlustbehaftete latente Kodierung komprimiert, wodurch die Notwendigkeit, mit rohen Audio-Proben zu arbeiten, entfällt.

Der Text-Encoder, der von einem CLAP-Modell abgeleitet ist, spielt eine wichtige Rolle bei der Erfassung der komplexen Beziehungen zwischen Wörtern und Klängen, indem er eine informative Darstellung des tokenisierten Eingabetexts bietet. Dies wird durch die Verwendung von Textmerkmalen aus der vorletzten Schicht des CLAP-Text-Encoders erreicht, die dann in das Diffusions-U-Net durch Cross-Attention-Schichten integriert werden.

Ein wichtiger Aspekt ist die Integration von Timing-Embeddings, die auf zwei Eigenschaften basieren: der Startsekunde des Audio-Chunks und der Gesamtdauer der ursprünglichen Audio-Datei. Diese Werte, die in diskrete, erlernte Embeddings pro Sekunde übersetzt werden, werden mit den Prompt-Tokens kombiniert und in die Cross-Attention-Schichten des U-Nets eingegeben, wodurch Benutzer die Gesamtlänge des Ausgabe-Audios diktieren können.

Das Stable Audio-Modell wurde unter Verwendung eines umfangreichen Datensatzes von über 800.000 Audio-Dateien trainiert, in Zusammenarbeit mit dem Stock-Music-Anbieter AudioSparx.

Stable Audio-Werbespots

Stable Audio bietet eine kostenlose Version, die 20 Generierungen von bis zu 20-Sekunden-Tracks pro Monat ermöglicht, und ein 12-Dollar-pro-Monat-Pro-Plan, der 500 Generierungen von bis zu 90-Sekunden-Tracks ermöglicht.

Unten finden Sie ein Audio-Clip, den ich mit Stable Audio erstellt habe.

Bild, das vom Autor mit Midjourney erstellt wurde

“Kinematografischer Soundtrack, sanfter Regen, Ambient, beruhigend, entfernt bellende Hunde, ruhiges Blätterrasseln, subtiles Wind, 40 BPM”

Die Anwendungen solcher fein gearbeiteter Audio-Stücke sind endlos. Filmmacher können diese Technologie nutzen, um reiche und immersive Klanglandschaften zu erstellen. Im kommerziellen Sektor können Werbetreibende diese maßgeschneiderten Audio-Tracks nutzen. Darüber hinaus öffnet sich dieses Tool für einzelne Kreative und Künstler, um zu experimentieren und zu innovieren, und bietet eine Leinwand mit unbegrenztem Potenzial, um Klangstücke zu erstellen, die Geschichten erzählen, Emotionen hervorrufen und Atmosphären mit einer Tiefe schaffen, die bisher ohne erhebliches Budget oder technische Expertise schwer zu erreichen war.

Prompting-Tipps

Erstellen Sie das perfekte Audio mit Text-Prompts. Hier ist eine schnelle Anleitung, um loszulegen:

Seien Sie detailliert: Geben Sie Genres, Stimmungen und Instrumente an. Zum Beispiel: Kinematografisch, Wilder Westen, Perkussion, angespannt, atmosphärisch
Stimmungs-Setting: Kombinieren Sie musikalische und emotionale Begriffe, um die gewünschte Stimmung zu vermitteln.
Instrumentenwahl: Verwenden Sie Instrumentennamen mit Adjektiven, wie “Reverberierter Gitarre” oder “Mächtiger Chor”.
BPM: Stimmen Sie das Tempo mit dem Genre ab, um ein harmonisches Ergebnis zu erzielen, wie zum Beispiel “170 BPM” für einen Drum-and-Bass-Track.

Abschließende Hinweise

Bild, das vom Autor mit Midjourney erstellt wurde

In diesem Artikel haben wir uns mit AI-generierter Musik/Audio auseinandergesetzt, von algorithmischen Kompositionen bis hin zu den sophisticateden generativen AI-Frameworks von heute wie Google’s MusicLM und Stability Audio. Diese Technologien, die Deep Learning und state-of-the-art-Modellkomprimierung nutzen, verbessern nicht nur die Musikgenerierung, sondern verfeinern auch die Hörerfahrung.

Dennoch ist es ein Bereich in ständiger Evolution, mit Hürden wie der Aufrechterhaltung der langfristigen Kohärenz und der anhaltenden Debatte über die Echtheit von AI-erstellter Musik, die die Pioniere in diesem Bereich herausfordert. Vor nur einer Woche war das Gesprächsthema ein AI-erstelltes Lied, das die Stile von Drake und The Weeknd nachahmte, das ursprünglich online Feuer gefangen hatte, aber von der Grammy-Nominierungsliste entfernt wurde, was die anhaltende Debatte über die Legitimität von AI-generierter Musik in der Branche zeigt (Quelle). Da AI die Lücke zwischen Musik und Hörern schließt, fördert es sicherlich ein Ökosystem, in dem Technologie mit Kunst koexistiert, Innovationen fördert und Tradition respektiert.

Aayush Mittal

Ich habe die letzten fünf Jahre damit verbracht, mich in die faszinierende Welt des Machine Learning und Deep Learning zu vertiefen. Meine Leidenschaft und mein Fachwissen haben mich dazu geführt, an über 50 verschiedenen Software-Entwicklungsprojekten mitzuwirken, mit einem besonderen Fokus auf KI/ML. Meine anhaltende Neugier hat mich auch zum Natural Language Processing hingezogen, ein Feld, das ich weiter erforschen möchte.

Unite.AI

Text-to-Music Generative AI : Stability Audio, Google’s MusicLM und mehr

Die Ursprünge von AI in der Musik: Eine Reise von der algorithmischen Komposition zur generativen Modellierung

Die Komplexität der Übersetzung von Text in Musik

Google’s MusicLM

Technische Einblicke

Stability Audio

Technische Einblicke

Prompting-Tipps

Abschließende Hinweise

You may like