Συνδεθείτε μαζί μας

Text-to-Music Generative AI : Stability Audio, MusicLM της Google και άλλα

Τεχνητή νοημοσύνη

Text-to-Music Generative AI : Stability Audio, MusicLM της Google και άλλα

mm

Η μουσική, μια μορφή τέχνης που αντηχεί στην ανθρώπινη ψυχή, υπήρξε σταθερός σύντροφος όλων μας. Η δημιουργία μουσικής με χρήση τεχνητής νοημοσύνης ξεκίνησε πριν από αρκετές δεκαετίες. Αρχικά, οι προσπάθειες ήταν απλές και διαισθητικές, με βασικούς αλγόριθμους να δημιουργούν μονότονες μελωδίες. Ωστόσο, καθώς η τεχνολογία προχωρούσε, το ίδιο έκανε και η πολυπλοκότητα και οι δυνατότητες των παραγωγών μουσικής AI, ανοίγοντας το δρόμο για τη βαθιά μάθηση και την επεξεργασία φυσικής γλώσσας (NLP) να διαδραματίσουν καθοριστικούς ρόλους σε αυτήν την τεχνολογία.

Σήμερα, πλατφόρμες όπως το Spotify αξιοποιούν την Τεχνητή Νοημοσύνη για να βελτιώσουν τις ακουστικές εμπειρίες των χρηστών τους. Αυτοί οι αλγόριθμοι βαθιάς μάθησης αναλύουν τις ατομικές προτιμήσεις με βάση διάφορα μουσικά στοιχεία, όπως το τέμπο και η διάθεση, για να δημιουργήσουν εξατομικευμένες προτάσεις τραγουδιών. Αναλύουν ακόμη και ευρύτερα μοτίβα ακρόασης και αναζητούν στο διαδίκτυο συζητήσεις σχετικά με τα τραγούδια, ώστε να δημιουργήσουν λεπτομερή προφίλ τραγουδιών.

The Origin of AI in Music: A Journey from Algorithmic Composition to Generative Modeling

Στα πρώτα στάδια της μίξης της τεχνητής νοημοσύνης στον κόσμο της μουσικής, που εκτείνονται από τη δεκαετία του 1950 έως τη δεκαετία του 1970, η εστίαση ήταν κυρίως στην αλγοριθμική σύνθεση. Αυτή ήταν μια μέθοδος όπου οι υπολογιστές χρησιμοποιούσαν ένα καθορισμένο σύνολο κανόνων για τη δημιουργία μουσικής. Η πρώτη αξιοσημείωτη δημιουργία κατά την περίοδο αυτή ήταν η Illiac Σουίτα για Κουαρτέτο Εγχόρδων το 1957. Χρησιμοποίησε τον αλγόριθμο Monte Carlo, μια διαδικασία που περιελάμβανε τυχαίους αριθμούς για να υπαγορεύσει το ύψος και τον ρυθμό μέσα στα όρια της παραδοσιακής μουσικής θεωρίας και των στατιστικών πιθανοτήτων.

Εικόνα που δημιουργήθηκε από τον συγγραφέα χρησιμοποιώντας το Midjourney

Εικόνα που δημιουργήθηκε από τον συγγραφέα χρησιμοποιώντας το Midjourney

Κατά τη διάρκεια αυτής της περιόδου, ένας άλλος πρωτοπόρος, Ιάννη Ξενάκη, χρησιμοποίησε στοχαστικές διαδικασίες, μια έννοια που περιλαμβάνει τυχαίες κατανομές πιθανοτήτων, για τη δημιουργία μουσικής. Χρησιμοποίησε υπολογιστές και το ΦΟΡΤΡΑΝ γλώσσα για τη σύνδεση πολλαπλών συναρτήσεων πιθανότητας, δημιουργώντας ένα μοτίβο όπου διαφορετικές γραφικές αναπαραστάσεις αντιστοιχούν σε διαφορετικούς ηχητικούς χώρους.

Η πολυπλοκότητα της μετάφρασης κειμένου σε μουσική

Η μουσική αποθηκεύεται σε μια πλούσια και πολυδιάστατη μορφή δεδομένων που περιλαμβάνει στοιχεία όπως η μελωδία, η αρμονία, ο ρυθμός και ο ρυθμός, καθιστώντας το έργο της μετάφρασης κειμένου σε μουσική εξαιρετικά περίπλοκο. Ένα τυπικό τραγούδι αντιπροσωπεύεται από σχεδόν ένα εκατομμύριο αριθμούς σε έναν υπολογιστή, αριθμός σημαντικά υψηλότερος από άλλες μορφές δεδομένων όπως εικόνα, κείμενο κ.λπ.

Ο τομέας της παραγωγής ήχου είναι μάρτυρας καινοτόμων προσεγγίσεων για να ξεπεραστούν οι προκλήσεις της δημιουργίας ρεαλιστικού ήχου. Μια μέθοδος περιλαμβάνει τη δημιουργία ενός φασματογράμματος και στη συνέχεια τη μετατροπή του ξανά σε ήχο.

Μια άλλη στρατηγική αξιοποιεί τη συμβολική αναπαράσταση της μουσικής, όπως οι παρτιτούρες, η οποία μπορεί να ερμηνευτεί και να παιχτεί από μουσικούς. Αυτή η μέθοδος έχει ψηφιοποιηθεί με επιτυχία, με εργαλεία όπως το Magenta. Γεννήτρια Συνόλων Δωματίου δημιουργία μουσικής σε μορφή MIDI, ένα πρωτόκολλο που διευκολύνει την επικοινωνία μεταξύ υπολογιστών και μουσικών οργάνων.

Ενώ αυτές οι προσεγγίσεις έχουν προχωρήσει στον τομέα, έρχονται με το δικό τους σύνολο περιορισμών, υπογραμμίζοντας την περίπλοκη φύση της παραγωγής ήχου.

Μετασχηματιστής-βασισμένα αυτοπαλινδρομικά μοντέλα και βασισμένα σε U-Net μοντέλα διάχυσης, βρίσκονται στην πρώτη γραμμή της τεχνολογίας, παράγοντας αποτελέσματα αιχμής (SOTA) για τη δημιουργία ήχου, κειμένου, μουσικής και πολλών άλλων. Η σειρά GPT της OpenAI και σχεδόν όλα τα άλλα LLM τροφοδοτούνται αυτήν τη στιγμή από μετασχηματιστές που χρησιμοποιούν είτε κωδικοποιητή, είτε αποκωδικοποιητή είτε και τις δύο αρχιτεκτονικές. Από την πλευρά της τέχνης/εικόνας, τα MidJourney, Stability AI και DALL-E 2 αξιοποιούν όλα τα πλαίσια διάχυσης. Αυτές οι δύο βασικές τεχνολογίες έχουν διαδραματίσει καθοριστικό ρόλο στην επίτευξη αποτελεσμάτων SOTA και στον τομέα του ήχου. Σε αυτό το άρθρο, θα εμβαθύνουμε στο MusicLM και το Stable Audio της Google, τα οποία αποτελούν απόδειξη των αξιοσημείωτων δυνατοτήτων αυτών των τεχνολογιών.

MusicLM της Google

Το MusicLM της Google κυκλοφόρησε τον Μάιο του τρέχοντος έτους. Το MusicLM μπορεί να δημιουργήσει μουσικά κομμάτια υψηλής πιστότητας, τα οποία αντηχούν ακριβώς στο συναίσθημα που περιγράφεται στο κείμενο. Χρησιμοποιώντας ιεραρχική μοντελοποίηση από ακολουθία σε ακολουθία, το MusicLM έχει τη δυνατότητα να μετατρέπει τις περιγραφές κειμένου σε μουσική που αντηχεί στα 24 kHz για εκτεταμένες χρονικές περιόδους.

Το μοντέλο λειτουργεί σε πολυδιάστατο επίπεδο, όχι απλώς τηρώντας τα κειμενικά δεδομένα, αλλά και επιδεικνύοντας την ικανότητα να εξαρτάται από μελωδίες. Αυτό σημαίνει ότι μπορεί να πάρει μια μελωδία με βουητό ή σφυρίγματα και να τη μεταμορφώσει σύμφωνα με το στυλ που περιγράφεται σε μια λεζάντα κειμένου.

Τεχνικές πληροφορίες

Το MusicLM αξιοποιεί τις αρχές του AudioLM, ένα πλαίσιο που εισήχθη το 2022 για παραγωγή ήχου. Το AudioLM συνθέτει τον ήχο ως εργασία μοντελοποίησης γλώσσας μέσα σε έναν διακριτό χώρο αναπαράστασης, χρησιμοποιώντας μια ιεραρχία από χονδροειδή έως λεπτές διακριτές μονάδες ήχου, γνωστές επίσης ως μάρκες. Αυτή η προσέγγιση εξασφαλίζει υψηλή πιστότητα και μακροπρόθεσμη συνοχή για σημαντικές διάρκειες.

Για να διευκολύνει τη διαδικασία δημιουργίας, το MusicLM επεκτείνει τις δυνατότητες του AudioLM για να ενσωματώσει ρύθμιση κειμένου, μια τεχνική που ευθυγραμμίζει τον παραγόμενο ήχο με τις αποχρώσεις του κειμένου εισόδου. Αυτό επιτυγχάνεται μέσω ενός κοινόχρηστου χώρου ενσωμάτωσης που δημιουργήθηκε χρησιμοποιώντας το MuLan, ένα κοινό μοντέλο μουσικής-κειμένου που έχει εκπαιδευτεί να προβάλλει μουσική και τις αντίστοιχες περιγραφές κειμένων της κοντά η μία στην άλλη σε έναν χώρο ενσωμάτωσης. Αυτή η στρατηγική εξαλείφει αποτελεσματικά την ανάγκη για υπότιτλους κατά τη διάρκεια της εκπαίδευσης, επιτρέποντας στο μοντέλο να εκπαιδεύεται σε τεράστια σώματα μόνο ήχου.

Το μοντέλο MusicLM χρησιμοποιεί επίσης SOUNDSTREAM ως ηχητικό εργαλείο του, που μπορεί να ανακατασκευάσει μουσική 24 kHz στα 6 kbps με εντυπωσιακή πιστότητα, αξιοποιώντας υπολειπόμενη διανυσματική κβαντοποίηση (RVQ) για αποτελεσματική και υψηλής ποιότητας συμπίεση ήχου.

Μια απεικόνιση της ανεξάρτητης διαδικασίας προεκπαίδευσης για τα βασικά μοντέλα του MusicLM: SoundStream, w2v-BERT και MuLan,

Μια απεικόνιση της διαδικασίας προεκπαίδευσης του MusicLM: SoundStream, w2v-BERT και Mulan | Πηγή εικόνας: εδώ

Επιπλέον, το MusicLM επεκτείνει τις δυνατότητές του επιτρέποντας τη ρύθμιση της μελωδίας. Αυτή η προσέγγιση διασφαλίζει ότι ακόμη και μια απλή μελωδία μπορεί να θέσει τα θεμέλια για μια υπέροχη ακουστική εμπειρία, προσαρμοσμένη στις ακριβείς περιγραφές στυλ κειμένου.

Οι προγραμματιστές του MusicLM διαθέτουν επίσης MusicCaps ανοιχτού κώδικα, ένα σύνολο δεδομένων που περιλαμβάνει 5.5 χιλιάδες ζεύγη μουσικής-κειμένου, το καθένα συνοδευόμενο από περιγραφές πλούσιων κειμένων που έχουν δημιουργηθεί από ειδικούς. Μπορείτε να το ελέγξετε εδώ: MusicCaps σε αγκαλιασμένο πρόσωπο.

Είστε έτοιμοι να δημιουργήσετε soundtrack με τεχνητή νοημοσύνη με το MusicLM της Google; Δείτε πώς μπορείτε να ξεκινήσετε:

  1. Επισκεφτείτε τον επίσημο ιστότοπο της MusicLM και κάντε κλικ στο «Έναρξη».
  2. Εγγραφείτε στη λίστα αναμονής επιλέγοντας «Καταχώρηση ενδιαφέροντος».
  3. Συνδεθείτε χρησιμοποιώντας τον λογαριασμό σας Google.
  4. Μόλις σας χορηγηθεί πρόσβαση, κάντε κλικ στο «Δοκιμάστε τώρα» για να ξεκινήσετε.

Παρακάτω είναι μερικά παραδείγματα προτροπών με τα οποία πειραματίστηκα:

«Διαλογιστικό τραγούδι, ηρεμιστικό και καταπραϋντικό, με φλάουτα και κιθάρες. Η μουσική είναι αργή, με έμφαση στη δημιουργία μιας αίσθησης γαλήνης και ηρεμίας.»

“τζαζ με σαξόφωνο”

Σε σύγκριση με προηγούμενα μοντέλα SOTA, όπως το Riffusion και το Mubert σε ποιοτική αξιολόγηση, το MusicLM προτιμήθηκε περισσότερο από άλλα, με τους συμμετέχοντες να αξιολογούν ευνοϊκά τη συμβατότητα των λεζάντων κειμένου με κλιπ ήχου 10 δευτερολέπτων.

MusicLM Σύγκριση επιδόσεων

MusicLM Performance, Πηγή εικόνας: εδώ

Ήχος σταθερότητας

Το Stability AI εισήχθη την περασμένη εβδομάδα "Σταθερός ήχος«μια αρχιτεκτονική μοντέλου λανθάνουσας διάχυσης που εξαρτάται από τα μεταδεδομένα κειμένου παράλληλα με τη διάρκεια του αρχείου ήχου και τον χρόνο έναρξης. Αυτή η προσέγγιση, όπως το MusicLM της Google, έχει τον έλεγχο του περιεχομένου και της διάρκειας του παραγόμενου ήχου, επιτρέποντας τη δημιουργία ηχητικών κλιπ με καθορισμένα μήκη έως το μέγεθος του παραθύρου εκπαίδευσης».

Τεχνικές πληροφορίες

Το Stable Audio περιλαμβάνει πολλά στοιχεία, συμπεριλαμβανομένου ενός Αυτόματου Κωδικοποιητή Μεταβλητών (VAE) και ενός μοντέλου ρυθμισμένης διάχυσης που βασίζεται σε U-Net, που λειτουργούν μαζί με έναν κωδικοποιητή κειμένου.

Μια εικόνα που δείχνει την ενσωμάτωση ενός μεταβλητού αυτόματου κωδικοποιητή (VAE), ενός κωδικοποιητή κειμένου και ενός μοντέλου ρυθμισμένης διάχυσης που βασίζεται σε U-Net

Stable Audio Architecture, Πηγή εικόνας: εδώ

The VAE διευκολύνει την ταχύτερη παραγωγή και εκπαίδευση με τη συμπίεση στερεοφωνικού ήχου σε μια συμπιεσμένη σε δεδομένα, ανθεκτική στο θόρυβο και αναστρέψιμη λανθάνουσα κωδικοποίηση με απώλειες, παρακάμπτοντας την ανάγκη εργασίας με δείγματα ακατέργαστων ήχου.

Ο κωδικοποιητής κειμένου, που προέρχεται από α ΧΕΙΡΟΚΡΟΤΗΜΑ μοντέλο, διαδραματίζει κεντρικό ρόλο στην κατανόηση των περίπλοκων σχέσεων μεταξύ λέξεων και ήχων, προσφέροντας μια ενημερωτική αναπαράσταση του κειμένου εισόδου με διακριτικό. Αυτό επιτυγχάνεται μέσω της χρήσης χαρακτηριστικών κειμένου από το προτελευταίο επίπεδο του κωδικοποιητή κειμένου CLAP, τα οποία στη συνέχεια ενσωματώνονται στο U-Net διάχυσης μέσω επιπέδων διασταυρούμενης προσοχής.

Μια σημαντική πτυχή είναι η ενσωμάτωση των ενσωματώσεων χρονισμού, οι οποίες υπολογίζονται με βάση δύο ιδιότητες: το δευτερόλεπτο έναρξης του κομματιού ήχου και τη συνολική διάρκεια του αρχικού αρχείου ήχου. Αυτές οι τιμές, που μεταφράζονται σε διακριτές μαθημένες ενσωματώσεις ανά δευτερόλεπτο, συνδυάζονται με τα διακριτικά προτροπής και τροφοδοτούνται στα επίπεδα πολλαπλής προσοχής του U-Net, δίνοντας τη δυνατότητα στους χρήστες να υπαγορεύουν το συνολικό μήκος του ήχου εξόδου.

Το μοντέλο Stable Audio εκπαιδεύτηκε χρησιμοποιώντας ένα εκτεταμένο σύνολο δεδομένων με περισσότερα από 800,000 αρχεία ήχου, μέσω συνεργασίας με τον πάροχο μουσικής AudioSparx.

Σταθερές διαφημίσεις ήχου

Σταθερά διαφημιστικά μηνύματα ήχου

Το Stable Audio προσφέρει μια δωρεάν έκδοση, επιτρέποντας 20 γενιές κομματιών έως και 20 δευτερολέπτων ανά μήνα και ένα πρόγραμμα Pro $12/μήνα, που επιτρέπει 500 γενιές κομματιών έως και 90 δευτερολέπτων.

Παρακάτω είναι ένα ηχητικό κλιπ που δημιούργησα χρησιμοποιώντας σταθερό ήχο.

Εικόνα που δημιουργήθηκε από τον συγγραφέα χρησιμοποιώντας το Midjourney

Εικόνα που δημιουργήθηκε από τον συγγραφέα χρησιμοποιώντας το Midjourney

«Κινηματογραφικό, Soundtrack Ήπια βροχόπτωση, Περιβάλλον, Καταπραϋντικό, Απομακρυσμένο γάβγισμα σκύλων, Ηρεμιστικό θρόισμα φύλλων, Απαλός Άνεμος, 40 BPM»

Οι εφαρμογές τέτοιων κομψών κομματιών ήχου είναι ατελείωτες. Οι κινηματογραφιστές μπορούν να αξιοποιήσουν αυτήν την τεχνολογία για να δημιουργήσουν πλούσια και καθηλωτικά ηχοτοπία. Στον εμπορικό τομέα, οι διαφημιστές μπορούν να χρησιμοποιήσουν αυτά τα προσαρμοσμένα κομμάτια ήχου. Επιπλέον, αυτό το εργαλείο ανοίγει δρόμους σε μεμονωμένους δημιουργούς και καλλιτέχνες να πειραματιστούν και να καινοτομήσουν, προσφέροντας έναν καμβά απεριόριστων δυνατοτήτων για τη δημιουργία ηχητικών κομματιών που αφηγούνται ιστορίες, προκαλούν συναισθήματα και δημιουργούν ατμόσφαιρες με βάθος που προηγουμένως ήταν δύσκολο να επιτευχθεί χωρίς σημαντικό προϋπολογισμό. ή τεχνική εμπειρογνωμοσύνη.

Συμβουλές προτροπής

Δημιουργήστε τον τέλειο ήχο χρησιμοποιώντας μηνύματα κειμένου. Ακολουθεί ένας σύντομος οδηγός για να ξεκινήσετε:

  1. Να είστε λεπτομερείς: Προσδιορίστε είδη, διαθέσεις και όργανα. Για π.χ.: Κινηματογραφική, Άγρια Δύση, Κρουστά, Τεντική, Ατμοσφαιρική
  2. Ρύθμιση διάθεσης: Συνδυάστε μουσικούς και συναισθηματικούς όρους για να μεταφέρετε την επιθυμητή διάθεση.
  3. Επιλογή οργάνου: Βελτιώστε τα ονόματα οργάνων με επίθετα, όπως "Reverberated Guitar" ή "Powerful Choir".
  4. BPM: Ευθυγραμμίστε το ρυθμό με το είδος για μια αρμονική απόδοση, όπως το “170 BPM” για ένα κομμάτι Drum and Bass.

Σημειώσεις κλεισίματος

Εικόνα που δημιουργήθηκε από τον συγγραφέα χρησιμοποιώντας το Midjourney

Εικόνα που δημιουργήθηκε από τον συγγραφέα χρησιμοποιώντας το Midjourney

Σε αυτό το άρθρο, εμβαθύναμε στη μουσική/ήχο που παράγεται από την Τεχνητή Νοημοσύνη, από αλγοριθμικές συνθέσεις έως τα εξελιγμένα πλαίσια γενετικής Τεχνητής Νοημοσύνης του σήμερα, όπως το MusicLM και το Stability Audio της Google. Αυτές οι τεχνολογίες, αξιοποιώντας μοντέλα βαθιάς μάθησης και συμπίεσης SOTA, όχι μόνο βελτιώνουν την παραγωγή μουσικής, αλλά και βελτιώνουν τις εμπειρίες των ακροατών.

Ωστόσο, είναι ένας τομέας σε συνεχή εξέλιξη, με εμπόδια όπως η διατήρηση της μακροπρόθεσμης συνοχής και η συνεχιζόμενη συζήτηση για την αυθεντικότητα της μουσικής που έχει δημιουργηθεί από AI, που προκαλεί τους πρωτοπόρους σε αυτόν τον τομέα. Μόλις πριν από μια εβδομάδα, το buzz αφορούσε ένα τραγούδι δημιουργημένο με AI που διοχετεύει τα στυλ των Drake και The Weeknd, τα οποία αρχικά είχαν πάρει φωτιά στο διαδίκτυο νωρίτερα φέτος. Ωστόσο, αντιμετώπισε την αφαίρεση από τη λίστα υποψηφιοτήτων για Grammy, επιδεικνύοντας τη συνεχιζόμενη συζήτηση γύρω από τη νομιμότητα της μουσικής που δημιουργείται από AI στη βιομηχανία (πηγή). Καθώς η τεχνητή νοημοσύνη συνεχίζει να γεφυρώνει τα κενά μεταξύ της μουσικής και των ακροατών, σίγουρα προωθεί ένα οικοσύστημα όπου η τεχνολογία συνυπάρχει με την τέχνη, ενισχύοντας την καινοτομία σεβόμενη την παράδοση.

Έχω περάσει τα τελευταία πέντε χρόνια βυθίζοντας τον εαυτό μου στον συναρπαστικό κόσμο της Μηχανικής Μάθησης και της Βαθιάς Μάθησης. Το πάθος και η εξειδίκευσή μου με οδήγησαν να συνεισφέρω σε περισσότερα από 50 διαφορετικά έργα μηχανικής λογισμικού, με ιδιαίτερη έμφαση στην AI/ML. Η συνεχής περιέργειά μου με έχει τραβήξει επίσης προς την Επεξεργασία Φυσικής Γλώσσας, έναν τομέα που ανυπομονώ να εξερευνήσω περαιτέρω.