Kecerdasan buatan
Text-to-Music Generative AI : Stability Audio, Google’s MusicLM dan Lainnya

Musik, sebuah bentuk seni yang meresonasi dengan jiwa manusia, telah menjadi teman setia kita semua. Menciptakan musik menggunakan kecerdasan buatan dimulai beberapa dekade yang lalu. Awalnya, upaya-upaya tersebut sederhana dan intuitif, dengan algoritma dasar yang menciptakan melodi yang monoton. Namun, seiring kemajuan teknologi, sehingga kompleksitas dan kemampuan generator musik AI juga meningkat, membuka jalan bagi pembelajaran dalam dan Pemrosesan Bahasa Alami (NLP) untuk memainkan peran penting dalam teknologi ini.
Hari ini, platform seperti Spotify menggunakan AI untuk memperbaiki pengalaman mendengarkan pengguna. Algoritma pembelajaran dalam ini menganalisis preferensi individu berdasarkan berbagai elemen musik seperti tempo dan mood untuk menciptakan saran lagu yang dipersonalisasi. Mereka bahkan menganalisis pola mendengarkan yang lebih luas dan mencari diskusi tentang lagu di internet untuk membangun profil lagu yang terperinci.
Asal Mula AI dalam Musik: Perjalanan dari Komposisi Algoritmik ke Pemodelan Generatif
Pada tahap awal AI bercampur dalam dunia musik, yang meliputi dari 1950-an hingga 1970-an, fokus utamanya adalah pada komposisi algoritmik. Ini adalah metode di mana komputer menggunakan seperangkat aturan yang ditentukan untuk menciptakan musik. Ciptaan pertama yang terkenal selama periode ini adalah Illiac Suite for String Quartet pada 1957. Ini menggunakan algoritma Monte Carlo, sebuah proses yang melibatkan angka acak untuk menentukan nada dan irama dalam batas teori musik tradisional dan probabilitas statistik.
Selama periode ini, pelopor lainnya, Iannis Xenakis, menggunakan proses stokastik, sebuah konsep yang melibatkan distribusi probabilitas acak, untuk menciptakan musik. Ia menggunakan komputer dan bahasa FORTRAN untuk menghubungkan beberapa fungsi probabilitas, menciptakan pola di mana representasi grafis yang berbeda sesuai dengan ruang suara yang beragam.
Kompleksitas Menerjemahkan Teks ke Musik
Musik disimpan dalam format data yang kaya dan multi-dimensi yang mencakup elemen seperti melodi, harmoni, irama, dan tempo, membuat tugas menerjemahkan teks ke musik sangat kompleks. Sebuah lagu standar direpresentasikan oleh hampir sejuta angka dalam komputer, sebuah angka yang jauh lebih tinggi daripada format data lain seperti gambar, teks, dll.
Bidang generasi audio sedang menyaksikan pendekatan inovatif untuk mengatasi tantangan menciptakan suara yang realistis. Salah satu metode melibatkan pembuatan spektrogram, dan kemudian mengubahnya kembali menjadi audio.
Strategi lain menggunakan representasi simbolik musik, seperti notasi musik, yang dapat diinterpretasikan dan dimainkan oleh musisi. Metode ini telah digunakan secara digital, dengan alat seperti Chamber Ensemble Generator Magenta yang menciptakan musik dalam format MIDI, sebuah protokol yang memfasilitasi komunikasi antara komputer dan instrumen musik.
Sementara pendekatan-pendekatan ini telah memajukan bidang ini, mereka memiliki keterbatasan mereka sendiri, menekankan sifat kompleks dari generasi audio.
Transformer-based autoregressive models dan U-Net-based diffusion models, berada di garis depan teknologi, menghasilkan hasil state-of-the-art (SOTA) dalam menghasilkan audio, teks, musik, dan banyak lagi. OpenAI’s GPT series dan hampir semua LLM lainnya saat ini ditenagai oleh transformer yang menggunakan arsitektur encoder, decoder, atau keduanya. Di sisi seni/gambar, MidJourney, Stability AI, dan DALL-E 2 semua menggunakan kerangka difusi. Dua teknologi inti ini telah menjadi kunci dalam mencapai hasil SOTA di sektor audio juga. Dalam artikel ini, kita akan membahas Google’s MusicLM dan Stable Audio, yang berdiri sebagai bukti kemampuan luar biasa dari teknologi ini.
Google’s MusicLM
Google’s MusicLM dirilis pada Mei tahun ini. MusicLM dapat menghasilkan potongan musik dengan kualitas tinggi, yang meresonasi dengan sentimen yang tepat yang digambarkan dalam teks. Menggunakan modelur urutan hierarkis, MusicLM memiliki kemampuan untuk mengubah deskripsi teks menjadi musik yang meresonasi pada 24 kHz selama durasi yang diperpanjang.
Model ini beroperasi pada tingkat multi-dimensi, tidak hanya mematuhi input teks tetapi juga menunjukkan kemampuan untuk dikondisikan pada melodi. Ini berarti dapat mengambil melodi yang dinyanyikan atau ditiup dan mengubahnya sesuai dengan gaya yang digambarkan dalam caption teks.
Wawasan Teknis
MusicLM memanfaatkan prinsip-prinsip AudioLM, sebuah kerangka yang diperkenalkan pada 2022 untuk generasi audio. AudioLM mensintesis audio sebagai tugas pemodelan bahasa dalam ruang representasi diskret, menggunakan hierarki unit audio diskret kasar-ke-halus, juga dikenal sebagai token. Pendekatan ini memastikan kualitas tinggi dan kohesi jangka panjang selama durasi yang substansial.
Untuk memfasilitasi proses generasi, MusicLM memperluas kemampuan AudioLM untuk mengincorporasi kondisi teks, sebuah teknik yang menyelaraskan audio yang dihasilkan dengan nuansa input teks. Ini dicapai melalui ruang embedding bersama yang dibuat menggunakan MuLan, model musik-teks gabungan yang dilatih untuk memproyeksikan musik dan deskripsi teksnya ke dekat satu sama lain dalam ruang embedding. Strategi ini secara efektif menghilangkan kebutuhan akan caption selama pelatihan, memungkinkan model untuk dilatih pada korpus audio-only yang besar.
Model MusicLM juga menggunakan SoundStream sebagai tokenizer audio, yang dapat merekonstruksi musik 24 kHz dengan kualitas yang mengesankan pada 6 kbps, menggunakan kuantifikasi vektor residu (RVQ) untuk kompresi audio yang efisien dan berkualitas tinggi.

Ilustrasi proses pelatihan MusicLM: SoundStream, w2v-BERT, dan MuLan | Sumber gambar: di sini
Lebih lanjut, MusicLM memperluas kemampuannya dengan memungkinkan kondisi melodi. Pendekatan ini memastikan bahwa bahkan sebuah melodi yang sederhana dapat menjadi dasar untuk pengalaman auditori yang luar biasa, yang disesuaikan dengan deskripsi gaya teks yang tepat.
Pengembang MusicLM juga telah membuka sumber MusicCaps, sebuah dataset yang menampilkan 5.5k pasangan musik-teks, masing-masing disertai dengan deskripsi teks yang kaya yang dibuat oleh ahli manusia. Anda dapat memeriksanya di sini: MusicCaps di Hugging Face.
Siap untuk membuat soundtrack AI dengan Google’s MusicLM? Berikut cara memulai:
- Kunjungi situs web resmi MusicLM dan klik “Get Started.”
- Daftar ke daftar tunggu dengan memilih “Register your interest.”
- Masuk menggunakan akun Google Anda.
- Sekali akses diberikan, klik “Try Now” untuk memulai.
Berikut beberapa contoh prompt yang saya coba:
“Lagu meditasi, menenangkan, dengan flute dan gitar. Musik ini lambat, dengan fokus pada menciptakan suasana damai dan tenang.”
“jazz dengan saxophone”
Ketika dibandingkan dengan model SOTA sebelumnya seperti Riffusion dan Mubert dalam evaluasi kualitatif, MusicLM lebih disukai daripada yang lain, dengan peserta yang menilai kompatibilitas caption teks dengan klip audio 10 detik.

Kinerja MusicLM, Sumber gambar: di sini
Stability Audio
Stability AI baru-baru ini memperkenalkan “Stable Audio” sebuah arsitektur model difusi laten yang dikondisikan pada metadata teks serta durasi dan waktu mulai file audio. Pendekatan ini, seperti Google’s MusicLM, memiliki kontrol atas konten dan panjang audio yang dihasilkan, memungkinkan penciptaan klip audio dengan panjang yang ditentukan hingga ukuran jendela pelatihan.
Wawasan Teknis
Stable Audio terdiri dari beberapa komponen, termasuk Variational Autoencoder (VAE) dan model difusi yang dikondisikan berbasis U-Net, bekerja sama dengan encoder teks.

Arsitektur Stable Audio, Sumber gambar: di sini
VAE memfasilitasi generasi dan pelatihan yang lebih cepat dengan mengompresi audio stereo menjadi representasi diskret yang kompres, tahan noise, dan dapat dibalik, melewati kebutuhan untuk bekerja dengan sampel audio mentah.
Encoder teks, yang berasal dari model CLAP, memainkan peran penting dalam memahami hubungan yang kompleks antara kata-kata dan suara, menawarkan representasi informatif dari teks token yang diinput. Ini dicapai melalui penggunaan fitur teks dari lapisan terakhir encoder teks CLAP, yang kemudian diintegrasikan ke dalam U-Net difusi melalui lapisan cross-attention.
Aspek penting adalah inkorporasi embedding waktu, yang dihitung berdasarkan dua properti: detik awal potongan audio dan durasi total file audio asli. Nilai-nilai ini, diterjemahkan menjadi embedding diskret yang dipelajari per detik, digabungkan dengan token prompt dan dimasukkan ke dalam lapisan cross-attention U-Net, memberdayakan pengguna untuk menentukan panjang total audio output.
Model Stable Audio dilatih menggunakan dataset ekstensif yang terdiri dari lebih dari 800.000 file audio, melalui kolaborasi dengan penyedia musik stok AudioSparx.
Stable Audio menawarkan versi gratis, yang memungkinkan 20 generasi trek hingga 20 detik per bulan, dan rencana Pro seharga $12/bulan, yang memungkinkan 500 generasi trek hingga 90 detik.
Berikut adalah klip audio yang saya buat menggunakan Stable Audio.
“Cinematic, Soundtrack Hujan Lembut, Ambient, Menenangkan, Anjing Jauh Menggonggong, Daun Bergoyang, Angin Lembut, 40 BPM”
Aplikasi dari potongan audio yang dirancang dengan baik ini tidak terbatas. Pembuat film dapat memanfaatkan teknologi ini untuk menciptakan lanskap suara yang kaya dan imersif. Di sektor komersial, pengiklan dapat menggunakan trek audio yang disesuaikan ini. Lebih lagi, alat ini membuka peluang bagi kreator dan seniman individu untuk bereksperimen dan berinovasi, menawarkan canvas dengan potensi tak terbatas untuk menciptakan potongan suara yang menceritakan kisah, membangkitkan emosi, dan menciptakan atmosfer dengan kedalaman yang sebelumnya sulit dicapai tanpa anggaran yang substansial atau keahlian teknis.
Tips Promting
Ciptakan audio yang sempurna menggunakan prompt teks. Berikut adalah panduan cepat untuk memulai:
- Detil: Tentukan genre, mood, dan instrumen. Misal: Cinematic, Wild West, Perkusi, Tegang, Atmosferik
- Mengatur Mood: Gabungkan istilah musik dan emosi untuk mengungkapkan mood yang diinginkan.
- Pilihan Instrumen: Tingkatkan nama instrumen dengan kata sifat, seperti “Gitar yang Reverberated” atau “Koor yang Kuat”.
- BPM: Sesuaikan tempo dengan genre untuk output yang harmonis, seperti “170 BPM” untuk trek Drum dan Bass.
Catatan Penutup
Dalam artikel ini, kita telah membahas AI yang dihasilkan musik/audio, dari komposisi algoritmik ke kerangka generatif AI yang canggih seperti Google’s MusicLM dan Stability Audio. Teknologi ini, yang menggunakan pembelajaran dalam dan model kompresi SOTA, tidak hanya meningkatkan generasi musik tetapi juga memperbaiki pengalaman pendengar.
Namun, ini adalah domain yang terus berkembang, dengan hambatan seperti mempertahankan kohesi jangka panjang dan debat yang sedang berlangsung tentang otentikasi musik yang dibuat AI yang menantang pelopor di bidang ini. Baru-baru ini, ada kabar tentang sebuah lagu yang dibuat AI yang meniru gaya Drake dan The Weeknd, yang awalnya sangat populer online awal tahun ini. Namun, itu dihapus dari daftar nominasi Grammy, menunjukkan debat yang sedang berlangsung tentang legitimasi musik yang dihasilkan AI di industri (sumber). Ketika AI terus menjembatani kesenjangan antara musik dan pendengar, ini pasti mempromosikan ekosistem di mana teknologi hidup berdampingan dengan seni, mendorong inovasi sambil menghormati tradisi.

















