Τεχνητή νοημοσύνη

Text-to-Music Γεννητική AI : Stability Audio, Google’s MusicLM και Περισσότερα

Published September 25, 2023

Updated April 28, 2026

Aayush Mittal Mittal

Η μουσική, μια μορφή τέχνης που ανταποκρίνεται στην ψυχή του ανθρώπου, έχει sido ένα σταθερό σύντροφο όλων μας. Η δημιουργία μουσικής χρησιμοποιώντας τεχνητή νοημοσύνη ξεκίνησε αρκετές δεκαετίες πριν. Αρχικά, οι προσπάθειες ήταν απλές και εντιμότατες, με βασικούς αλγορίθμους που δημιουργούσαν μονότονες μελωδίες. Ωστόσο, καθώς η τεχνολογία προχώρησε, così και η πολυπλοκότητα και οι ικανότητες των γεννητών μουσικής AI, ανοίγοντας τον δρόμο για τη βαθιά μάθηση και την επεξεργασία φυσικής γλώσσας (NLP) να παίξουν ζωτικούς ρόλους σε αυτήν την τεχνολογία.

Σήμερα, πλατφόρμες όπως το Spotify χρησιμοποιούν την AI για να βελτιώσουν τις εμπειρίες ακρόασης των χρηστών. Οι αλγόριθμοι βαθιάς μάθησης αναλύουν τις ατομικές προτιμήσεις με βάση διάφορα μουσικά στοιχεία, όπως το τέμπο και τη διάθεση, για να δημιουργήσουν προσωπικές προτάσεις τραγουδιών. Αναλύουν επίσης ευρύτερες τάσεις ακρόασης και αναζητούν συζητήσεις σχετικά με τραγούδια στο διαδίκτυο για να δημιουργήσουν λεπτομερείς προφίλ τραγουδιών.

Η Προέλευση της AI στη Μουσική: Ένα Ταξίδι από τη Συμβατική Σύνθεση στη Γεννητική Μοντελοποίηση

Στα πρώτα στάδια της AI που αναμιγνύεται στον κόσμο της μουσικής, από τη δεκαετία του 1950 έως τη δεκαετία του 1970, ο焦点 ήταν πρωταρχικά στη συμβατική σύνθεση. Αυτή ήταν μια μέθοδος όπου οι υπολογιστές χρησιμοποιούσαν ένα καθορισμένο σύνολο κανόνων για να δημιουργήσουν μουσική. Η πρώτη αξιοσημείωτη δημιουργία κατά τη διάρκεια αυτής της περιόδου ήταν το Illiac Suite για Κουαρτέτο Εγχόρδων το 1957. Χρησιμοποίησε τον αλγόριθμο Monte Carlo, μια διαδικασία που涉ίζει τυχαίους αριθμούς για να καθορίσει την πίεση και το ρυθμό μέσα στα όρια της παραδοσιακής μουσικής θεωρίας και των στατιστικών πιθανοτήτων.

Εικόνα που δημιουργήθηκε από τον συγγραφέα χρησιμοποιώντας Midjourney

Κατά τη διάρκεια αυτής της περιόδου, ένας άλλος πρωτοπόρος, Ιάννης Ξενάκης, χρησιμοποίησε στοχαστικές διαδικασίες, μια έννοια που αφορά τυχαίες πιθανοτικές κατανομές, για να δημιουργήσει μουσική. Χρησιμοποίησε υπολογιστές και τη γλώσσα FORTRAN για να συνδέσει πολλές πιθανοτικές συναρτήσεις, δημιουργώντας ένα μοτίβο όπου διαφορετικές γραφικές αναπαραστάσεις αντιστοιχούσαν σε διαφορετικούς ήχους χώρους.

Η Σύνθετη Δομή της Μεταφράσεως Κειμένου σε Μουσική

Η μουσική αποθηκεύεται σε μια πλούσια και πολυδιάστατη μορφή δεδομένων που περιλαμβάνει στοιχεία όπως μελωδία, αρμονία, ρυθμός και τέμπο, καθιστώντας την εργασία της μεταφράσεως κειμένου σε μουσική εξαιρετικά σύνθετη. Ένα τυπικό τραγούδι αντιπροσωπεύεται από σχεδόν ένα εκατομμύριο αριθμούς σε einen υπολογιστή, ένας αριθμός σημαντικά υψηλότερος από άλλες μορφές δεδομένων όπως εικόνες, κείμενο κ.λπ.

Το πεδίο της γεννήσεως ήχου μαρτυρά καινοτόμες προσεγγίσεις για την υπέρβαση των προκλήσεων της δημιουργίας πραγματικού ήχου. Μια μέθοδος涉ίζει τη δημιουργία eines φασματόγραμματος και στη συνέχεια την μετατροπή του πίσω σε ήχο.

Μια άλλη στρατηγική αξιοποιεί την συμβολική αναπαράσταση της μουσικής, όπως η μουσική партίτουρα, η οποία μπορεί να ερμηνευτεί και να παιχτεί από μουσικούς. Αυτή η μέθοδος έχει ψηφιοποιηθεί επιτυχώς, με εργαλεία όπως το Chamber Ensemble Generator της Magenta, το οποίο δημιουργεί μουσική στη μορφή MIDI, einem πρωτόκολλο που διευκολύνει την επικοινωνία μεταξύ υπολογιστών και μουσικών οργάνων.

Google’s MusicLM

Το Google’s MusicLM κυκλοφόρησε τον Μάιο του τρέχοντος έτους. Το MusicLM μπορεί να γεννήσει υψηλής πιστότητας μουσικά κομμάτια, που ανταποκρίνεται στην ακριβή συναισθηματική περιγραφή που περιέχεται στο κείμενο. Χρησιμοποιώντας ιεραρχική ακολουθιακή μοντελοποίηση, το MusicLM έχει την ικανότητα να μετατρέψει περιγραφές κειμένου σε μουσική που ανταποκρίνεται στα 24 kHz για εκτεταμένα χρονικά διαστήματα.

Τεχνικές Επισκοπήσεις

Το MusicLM αξιοποιεί τις αρχές του AudioLM, ενός πλαισίου που εισήχθη το 2022 για τη γεννήσεως ήχου. Το AudioLM συνθέτει τον ήχο ως μια εργασία μοντελοποίησης γλώσσας σε ένα διακριτό χώρο αναπαράστασης, χρησιμοποιώντας μια ιεραρχία από χονδρές σε λεπτές μονάδες ήχου, επίσης γνωστές ως tokens. Αυτή η προσέγγιση εξασφαλίζει υψηλή πιστότητα και μακροχρόνια συνάφεια για εκτεταμένα χρονικά διαστήματα.

Stability Audio

Το Stability AI εισήγαγε την “Stable Audio” μια αρχιτεκτονική μοντέλου διασποράς που προϋποθέτει κείμενο και μεταδεδομένα, μαζί με τη διάρκεια και τον χρόνο έναρξης του αρχείου ήχου. Αυτή η προσέγγιση, όπως και το Google’s MusicLM, έχει έλεγχο sobre το περιεχόμενο και το μήκος του γεννημένου ήχου, επιτρέποντας τη δημιουργία κλιπ ήχου με καθορισμένα μήκη μέχρι το μέγεθος του παραθύρου εκπαίδευσης.

Τεχνικές Επισκοπήσεις

Το Stable Audio αποτελείται από πολλαπλά компонόντα, συμπεριλαμβανομένων ενός Variational Autoencoder (VAE) και ενός μοντέλου διασποράς που προϋποθέτει κείμενο, εργαζόμενα μαζί με einen κωδικοποιητή κειμένου.

Aayush Mittal

Έχω περάσει τα τελευταία πέντε χρόνια βυθισμένος στον fascinující κόσμο της Μηχανικής Μάθησης και της Βαθιάς Μάθησης. Η αγάπη και η εξειδίκευσή μου έχουν οδηγήσει στην συμβολή μου σε πάνω από 50 διαφορετικά projects μηχανικής λογισμικού, με ιδιαίτερη έμφαση στο AI/ML. Η συνεχής περιέργεια μου έχει επίσης τραβήξει την προσοχή μου προς την Επεξεργασία Φυσικής Γλώσσας, ένα πεδίο που είμαι πρόθυμος να εξερευνήσω περαιτέρω.

Unite.AI

Text-to-Music Γεννητική AI : Stability Audio, Google’s MusicLM και Περισσότερα

Η Προέλευση της AI στη Μουσική: Ένα Ταξίδι από τη Συμβατική Σύνθεση στη Γεννητική Μοντελοποίηση

Η Σύνθετη Δομή της Μεταφράσεως Κειμένου σε Μουσική

Google’s MusicLM

Τεχνικές Επισκοπήσεις

Stability Audio

Τεχνικές Επισκοπήσεις

You may like