Συνδεθείτε μαζί μας

Η Google αποκαλύπτει μοντέλο μουσικής με τεχνητή νοημοσύνη που δημιουργεί πιο γρήγορα από την αναπαραγωγή

Τεχνητή νοημοσύνη

Η Google αποκαλύπτει μοντέλο μουσικής με τεχνητή νοημοσύνη που δημιουργεί πιο γρήγορα από την αναπαραγωγή

mm

Φανταστείτε το εξής: Ένας μουσικός κάθεται μπροστά στον υπολογιστή του, όχι συνθέτοντας νότα προς νότα, αλλά καθοδηγώντας έναν συνεργάτη τεχνητής νοημοσύνης σε μια ζωντανή παράσταση—μεταμορφώνοντας είδη, συνδυάζοντας όργανα και εξερευνώντας ηχητικά εδάφη που υπάρχουν μεταξύ καθιερωμένων μουσικών στυλ. Αυτό συμβαίνει τώρα με... Magenta RealTime (RT) της Google, ένα μοντέλο ανοιχτού κώδικα που φέρνει την διαδραστικότητα σε πραγματικό χρόνο στη δημιουργία μουσικής με τεχνητή νοημοσύνη.

Μόλις κυκλοφόρησε, η Magenta RT μας αναγκάζει να αλλάξουμε τον τρόπο που σκεφτόμαστε τη μουσική που δημιουργείται από την Τεχνητή Νοημοσύνη. Σε αντίθεση με τα προηγούμενα μοντέλα που απαιτούσαν από τους χρήστες να περιμένουν για την απόδοση των ολοκληρωμένων κομματιών, η Magenta RT παράγει μουσική πιο γρήγορα από ό,τι αναπαράγεται, επιτρέποντας την πραγματική αλληλεπίδραση σε πραγματικό χρόνο. Για τη μουσική βιομηχανία -η οποία ήδη παλεύει με την ανατρεπτική επιρροή της Τεχνητής Νοημοσύνης- αυτή η τεχνολογία ανοίγει πόρτες σε εντελώς νέες μορφές δημιουργικής έκφρασης, ενώ παράλληλα εγείρει βαθιά ερωτήματα σχετικά με την πνευματική ιδιοκτησία, την ερμηνεία και το μέλλον της ανθρώπινης μουσικότητας.

Κατανόηση του Magenta RealTime

Στον πυρήνα του, το Magenta RT είναι ένα μοντέλο αυτοπαλίνδρομου μετασχηματισμού 800 εκατομμυρίων παραμέτρων, αλλά αυτό που το ξεχωρίζει είναι η προσέγγισή του στην πρόκληση της δημιουργίας σε πραγματικό χρόνο. Το μοντέλο παράγει συνεχείς ροές μουσικής σε τμήματα των 2 δευτερολέπτων, καθένα από τα οποία εξαρτάται από τα προηγούμενα 10 δευτερόλεπτα εξόδου ήχου και μια δυναμικά ρυθμιζόμενη ενσωμάτωση στυλ. Αυτή η αρχιτεκτονική επιτρέπει στους μουσικούς να χειρίζονται την ενσωμάτωση στυλ σε πραγματικό χρόνο, κατευθύνοντας αποτελεσματικά τη μουσική έξοδο καθώς αυτή ξεδιπλώνεται.

Το τεχνικό επίτευγμα εδώ είναι αδιαμφισβήτητο. Σε μια δωρεάν έκδοση Google Colab TPU, το Magenta RT παράγει 2 δευτερόλεπτα ήχου σε μόλις 1.25 δευτερόλεπτα—ένας συντελεστής πραγματικού χρόνου 1.6. Αυτή η ταχύτητα καθίσταται δυνατή χάρη σε διάφορες καινοτομίες:

  • Αυτόματη παλινδρόμηση μπλοκΑντί να δημιουργεί ολόκληρες διαδρομές ταυτόχρονα, το μοντέλο λειτουργεί σε μικρά, διαχειρίσιμα τμήματα που μπορούν να υποστούν γρήγορη επεξεργασία.
  • Κωδικοποιητής SpectroStreamΔιάδοχος του SoundStream που επιτρέπει στερεοφωνικό ήχο υψηλής πιστότητας 48kHz
  • Ενσωματώσεις MusicCoCaΈνα νέο μοντέλο ενσωμάτωσης μουσικής-κειμένου που επιτρέπει τον σημασιολογικό έλεγχο της διαδικασίας δημιουργίας

Αυτό που κάνει αυτό ιδιαίτερα εντυπωσιακό είναι ότι, σε αντίθεση με τις λύσεις που βασίζονται σε API ή τα μοντέλα δημιουργίας με βάση παρτίδες, το Magenta RT υποστηρίζει σύνθεση ροής με συντελεστή προώθησης σε πραγματικό χρόνο μεγαλύτερο από 1. Αυτό σημαίνει ότι το μοντέλο μπορεί στην πραγματικότητα να προηγείται της αναπαραγωγής, δημιουργώντας ένα buffer που εξασφαλίζει ομαλή, αδιάλειπτη μουσική ροή.

Παράδειγμα Magenta RealTime Colab

Από την Παθητική Παραγωγή στην Ενεργητική Απόδοση

Οι επιπτώσεις της δημιουργίας μουσικής με τεχνητή νοημοσύνη σε πραγματικό χρόνο εκτείνονται πολύ πέρα ​​από τις τεχνικές προδιαγραφές. Όπως σημειώνει η ομάδα της Magenta, «Η ζωντανή αλληλεπίδραση απαιτεί περισσότερα από τον παίκτη, αλλά μπορεί να προσφέρει περισσότερα σε αντάλλαγμα. Ο συνεχής βρόχος αντίληψης-δράσης μεταξύ του ανθρώπου και του μοντέλου παρέχει πρόσβαση σε μια κατάσταση δημιουργικής ροής, εστιάζοντας την εμπειρία στη χαρά της διαδικασίας έναντι του τελικού προϊόντος».

Αυτή η μετατόπιση από την παθητική στην ενεργητική εμπλοκή αντιμετωπίζει μία από τις κύριες επικρίσεις για το περιεχόμενο που δημιουργείται από την Τεχνητή Νοημοσύνη: τη δυνατότητά του να κατακλύσει την αγορά με άψυχη, μαζικής παραγωγής μουσική. Τα μοντέλα πραγματικού χρόνου «αποφεύγουν φυσικά τη δημιουργία ενός κατακλυσμού παθητικού περιεχομένου, επειδή εξισορροπούν εγγενώς την ακρόαση με την παραγωγή σε αναλογία 1:1». Κάθε στιγμή μουσικής που δημιουργείται απαιτεί μια στιγμή ανθρώπινης προσοχής και λήψης αποφάσεων.

Σκεφτείτε τις δυνατότητες που ανοίγονται:

  • Ζωντανή παράστασηΟι DJs και οι μουσικοί ηλεκτρονικής μουσικής μπορούν να ενσωματώσουν την Τεχνητή Νοημοσύνη ως ένα ευέλικτο όργανο στα σετ τους, προσθέτοντας στην επεκτεινόμενη εργαλειοθήκη Εργαλεία τεχνητής νοημοσύνης για μουσικούς που ενισχύουν αντί να αντικαθιστούν την ανθρώπινη δημιουργικότητα
  • Διαδραστικές ΕγκαταστάσειςΟι καλλιτέχνες μπορούν να δημιουργήσουν περιβάλλοντα όπου η μουσική ανταποκρίνεται στην κίνηση του κοινού ή σε περιβαλλοντικούς παράγοντες
  • Εκπαιδευτικά εργαλείαΟι μαθητές μπορούν να εξερευνήσουν μουσικές έννοιες μέσω άμεσης, απτής ανατροφοδότησης
  • Soundtrack παιχνιδιώνΔυναμικές βαθμολογίες που προσαρμόζονται στις ενέργειες των παικτών σε πραγματικό χρόνο

Ανατροπή και Ευκαιρία

Η μουσική βιομηχανία βρίσκεται σε ένα σταυροδρόμι. Τα έσοδα στη μουσική βιομηχανία αναμένεται να αυξηθούν κατά 17.2%, εν μέρει λόγω της μουσικής που παράγεται από την τεχνητή νοημοσύνη., με την παγκόσμια αγορά μουσικής τεχνητής νοημοσύνης να αποτιμάται στα 2.9 δισεκατομμύρια δολάρια το 2024. Ωστόσο, αυτή η ανάπτυξη συνοδεύεται από σημαντικές ανησυχίες από καλλιτέχνες και επαγγελματίες του κλάδου.

Έρευνα της Goldmedia προβλέπει ότι χωρίς κατάλληλα συστήματα αποζημίωσης, οι μουσικοί θα μπορούσαν να χάσουν έως και 27% των εσόδων τους έως το 2028, καθώς το περιεχόμενο που παράγεται από την Τεχνητή Νοημοσύνη αυξάνεται. Ο φόβος είναι εμφανής: θα αντικαταστήσει η Τεχνητή Νοημοσύνη τους ανθρώπους μουσικούς; Θα μειωθεί η αξία της ανθρώπινης δημιουργικότητας σε έναν κόσμο όπου ο καθένας μπορεί να δημιουργήσει μουσική με επαγγελματικό ήχο;

Το Magenta RT προσφέρει μια λεπτή απάντηση σε αυτές τις ανησυχίες. Τοποθετώντας τον εαυτό του ως ένα εργαλείο ανοιχτού κώδικα που ενισχύει αντί να αντικαθιστά την ανθρώπινη δημιουργικότητα, παρέχει ένα μοντέλο για το πώς η Τεχνητή Νοημοσύνη και οι μουσικοί μπορούν να συνυπάρχουν. Η απαίτηση για ανθρώπινη παρέμβαση σε πραγματικό χρόνο διασφαλίζει ότι η τεχνολογία ενισχύει την ανθρώπινη δημιουργικότητα αντί να λειτουργεί αυτόνομα.

Εκδημοκρατισμός έναντι Υποτίμησης

Μία από τις πιο σημαντικές επιπτώσεις του Magenta RT είναι η δυνατότητά του να εκδημοκρατικοποιήσει τη μουσική δημιουργία. Το μοντέλο έχει σχεδιαστεί για να λειτουργεί τελικά σε καταναλωτικό υλικό και είναι ήδη λειτουργικό σε TPU Colab ελεύθερης έκδοσης. Αυτή η προσβασιμότητα σημαίνει ότι οι επίδοξοι μουσικοί χωρίς ακριβό εξοπλισμό ή επίσημη εκπαίδευση μπορούν να πειραματιστούν με σύνθετες μουσικές ιδέες, εντασσόμενοι στο αναπτυσσόμενο οικοσύστημα... Γεννήτριες μουσικής AI που μεταμορφώνουν τις δημιουργικές ροές εργασίας.

Ωστόσο, αυτή η εκδημοκρατικοποίηση ενέχει κινδύνους. ο συνθέτης Μαρκ Χένρι Φίλιπς σημειώνει στα πειράματά του με την παραγωγή μουσικής με τεχνητή νοημοσύνη, υποψιάζεται ότι «σύντομα δεν θα μπορεί πλέον να βιοπορίζεται ως μουσικός, καθώς οι εταιρείες αρχίζουν να χρησιμοποιούν απευθείας την τεχνολογία οι ίδιες». Η ευκολία με την οποία η Τεχνητή Νοημοσύνη μπορεί να παράγει μουσική εμπορικής ποιότητας απειλεί τις παραδοσιακές ροές εσόδων για τους επαγγελματίες μουσικούς.

Ωστόσο, υπάρχει και μια άλλη οπτική γωνία που πρέπει να λάβουμε υπόψη. Όπως ακριβώς η ψηφιακή φωτογραφία δεν εξάλειψε τους επαγγελματίες φωτογράφους, αλλά άλλαξε τη φύση της δουλειάς τους, έτσι και η παραγωγή μουσικής μέσω τεχνητής νοημοσύνης μπορεί να αναδιαμορφώσει αντί να αντικαταστήσει τις μουσικές σταδιοδρομίες. Το κλειδί έγκειται στο πώς οι μουσικοί προσαρμόζουν και ενσωματώνουν αυτά τα εργαλεία στη δημιουργική τους διαδικασία.

Η άνοδος της παραγωγής μουσικής μέσω τεχνητής νοημοσύνης σε πραγματικό χρόνο φέρνει επίσης στο προσκήνιο επείγοντα ηθικά ζητήματα. Τα πνευματικά δικαιώματα, η ιδιοκτησία και η δίκαιη αποζημίωση παραμένουν αμφιλεγόμενα ζητήματα. Το 90% των μουσικών πιστεύει ότι οι εταιρείες τεχνητής νοημοσύνης θα πρέπει να ζητούν άδεια πριν χρησιμοποιήσουν μουσική που προστατεύεται από πνευματικά δικαιώματα για εκπαίδευση, υπογραμμίζοντας την ένταση μεταξύ τεχνολογικής καινοτομίας και καλλιτεχνικών δικαιωμάτων.

Η προσέγγιση ανοιχτού κώδικα του Magenta RT προσφέρει μια πιθανή πορεία προς τα εμπρός. Διαθέτοντας ελεύθερα την τεχνολογία και εκπαιδεύοντάς την σε περίπου 190,000 ώρες μουσικής από πολλαπλές πηγές, η Google προσπάθησε να παρακάμψει ορισμένες ανησυχίες περί πνευματικών δικαιωμάτων, ενώ παράλληλα παρήγαγε ένα ικανό μοντέλο.

Οι περιορισμοί του μοντέλου αντικατοπτρίζουν επίσης ηθικούς παράγοντες. Ενώ είναι ικανό να παράγει μη λεξικές φωνητικές εκφράσεις και βουητό, το Magenta RT δεν εξαρτάται από τους στίχους και είναι απίθανο να δημιουργήσει πραγματικές λέξεις. Αυτή η επιλογή σχεδιασμού βοηθά στην αποφυγή πιθανών προβλημάτων με τη δημιουργία ακατάλληλου στιχουργικού περιεχομένου, ενώ παράλληλα εστιάζει το εργαλείο στη σύνθεση οργάνων.

Το μέλλον της μουσικής συνεργασίας ανθρώπου-τεχνητής νοημοσύνης

Καθώς βρισκόμαστε στα πρόθυρα αυτής της νέας εποχής στη μουσική δημιουργία, αναδύονται αρκετές τάσεις:

  1. Υβριδικά Μοντέλα ΔημιουργίαςΑντί να αντικαθιστούν τους μουσικούς, εργαλεία όπως το Magenta RT γίνονται συνεργάτες. Πρόσφατες εξελίξεις σε συστήματα παρακολούθησης ρυθμού με μηδενική καθυστέρηση και βελτιωμένη δυνατότητα ελέγχου Δείξτε πώς η Τεχνητή Νοημοσύνη μπορεί να συγχρονιστεί με τους ανθρώπους σε πραγματικό χρόνο.
  2. Νέα Παραδείγματα ΑπόδοσηςΗ έννοια της «εκτέλεσης» με τεχνητή νοημοσύνη ανοίγει εντελώς νέες καλλιτεχνικές δυνατότητες. Οι μουσικοί μαθαίνουν να «παίζουν» αυτά τα συστήματα σαν μουσικά όργανα, αναπτύσσοντας τεχνικές για την προσέλκυση συγκεκριμένων ήχων και την πλοήγηση σε λανθάνοντες μουσικούς χώρους.
  3. Εκπαιδευτική Επανάσταση: Η τεχνολογία τεχνητής νοημοσύνης για τη δημιουργία μουσικής έχει φέρει επανάσταση στη μουσική εκπαίδευση, με πλατφόρμες που παρέχουν διαδραστικές εμπειρίες που παρακολουθούν τις επιδόσεις των χρηστών και προσφέρουν άμεση ανατροφοδότηση.Τεχνική ΣύγκλισηΜε καινοτομίες σε νευρωνικούς κωδικοποιητές ήχου και βελτιστοποιημένες αρχιτεκτονικές, εργαλεία όπως MusicFX DJ μπορεί πλέον να μεταδώσει στερεοφωνικό ήχο 48kHz ποιότητας παραγωγής σε πραγματικό χρόνο, φέρνοντας τη μουσική που παράγεται από τεχνητή νοημοσύνη σε επαγγελματικά πρότυπα ποιότητας.

Αγκαλιάζοντας το Συνεργατικό Μέλλον

Το Magenta RealTime προσφέρει μια ματιά σε ένα μέλλον όπου τα όρια μεταξύ ανθρώπινης και μηχανικής δημιουργικότητας γίνονται ολοένα και πιο ρευστά. Απαιτώντας ανθρώπινη παρέμβαση σε πραγματικό χρόνο και εστιάζοντας στη διαδικασία και όχι μόνο στο αποτέλεσμα, προσφέρει ένα μοντέλο για την Τεχνητή Νοημοσύνη που ενισχύει αντί να αντικαθιστά την ανθρώπινη δημιουργικότητα.

Η φύση ανοιχτού κώδικα της τεχνολογίας και η προσβασιμότητα σε καταναλωτικό υλικό εκδημοκρατίζουν τη δημιουργία μουσικής, ενώ οι περιορισμοί της σε πραγματικό χρόνο διασφαλίζουν ότι η ανθρώπινη δράση παραμένει κεντρικής σημασίας στη δημιουργική διαδικασία. Όπως τονίζει η ομάδα της Magenta, η ενίσχυση της ανθρώπινης δημιουργικότητας —όχι η αντικατάστασή της— ήταν πάντα στον πυρήνα της αποστολής τους.

Για τους μουσικούς, τους παραγωγούς και τους λάτρεις της μουσικής, το μήνυμα είναι σαφές: το μέλλον της μουσικής δεν έγκειται στην επιλογή μεταξύ ανθρώπινης ή τεχνητής νοημοσύνης δημιουργίας, αλλά στην εξερεύνηση των τεράστιων δημιουργικών δυνατοτήτων που προκύπτουν όταν τα δύο συνεργάζονται σε πραγματικό χρόνο. Το Magenta RT είναι μια πρόσκληση να επαναπροσδιορίσουμε τι μπορεί να είναι η μουσική δημιουργία στην εποχή της τεχνητής νοημοσύνης.

Καθώς προχωράμε, η μουσική βιομηχανία πρέπει να αντιμετωπίσει σημαντικά ερωτήματα σχετικά με τη δίκαιη αποζημίωση, τα πνευματικά δικαιώματα και την αξία της ανθρώπινης δημιουργικότητας. Αλλά αν εργαλεία όπως το Magenta RT αποτελούν κάποια ένδειξη, το μέλλον της μουσικής θα είναι ένα μέλλον συνεργασίας, πειραματισμού και νέων μορφών έκφρασης που μόλις αρχίζουμε να φανταζόμαστε.

Ο Alex McFarland είναι δημοσιογράφος και συγγραφέας AI που εξερευνά τις τελευταίες εξελίξεις στην τεχνητή νοημοσύνη. Έχει συνεργαστεί με πολλές startups και εκδόσεις AI παγκοσμίως.