Kecerdasan buatan

Salmonn: Menuju Kemampuan Mendengar Generik untuk Model Bahasa Besar

Published November 28, 2023

Updated April 4, 2026

Kunal Kejriwal

Mendengar, yang melibatkan persepsi dan pemahaman informasi auditori generik, sangat penting bagi agen AI di lingkungan dunia nyata. Informasi auditori ini mencakup tiga jenis suara utama: musik, peristiwa audio, dan ucapan. Baru-baru ini, kerangka kerja Model Bahasa Besar (LLM) berbasis teks telah menunjukkan kemampuan luar biasa, mencapai kinerja tingkat manusia dalam berbagai tugas Pemrosesan Bahasa Alami (NLP). Selain itu, penyetelan instruksi, metode pelatihan menggunakan pasangan respons referensi dan prompt pengguna, telah menjadi populer. Pendekatan ini melatih model bahasa besar untuk lebih efektif mengikuti instruksi pengguna yang terbuka. Namun, penelitian saat ini semakin fokus pada meningkatkan model bahasa besar dengan kemampuan untuk memahami konten multimodal.

Fokus pada hal yang sama, dalam artikel ini, kita akan membahas tentang SALMONN atau Speech Audio Language Music Open Neural Network, sebuah kerangka kerja jaringan saraf terbuka untuk bahasa dan musik yang dibangun dengan menggabungkan pengkode suara dan audio dengan model bahasa besar berbasis teks yang sudah dilatih sebelumnya menjadi model multimodal audio-teks tunggal. Model SALMONN memungkinkan Model Bahasa Besar untuk memahami dan memproses input audio generik secara langsung, dan memberikan kinerja kompetitif pada berbagai tugas audio dan ucapan yang digunakan dalam pelatihan, termasuk jawaban pertanyaan berbasis informasi auditori, pengenalan ucapan dan terjemahan, verifikasi pembicara, pengenalan emosi, dan banyak lagi. Kita akan lebih dalam mempelajari kerangka kerja SALMONN, dan mengeksplorasi cara kerjanya, arsitektur, dan hasilnya pada berbagai tugas NLP. Jadi mari kita mulai.

SALMONN : Pengenalan Model Bahasa Besar Multimodal Audio-Teks Tunggal

SALMONN adalah singkatan dari Speech Audio Language Music Open Neural Network, dan ini adalah kerangka kerja model bahasa besar multimodal audio-teks tunggal yang dapat memahami dan mempersepsi tiga jenis suara atau audio dasar, termasuk ucapan, peristiwa audio, dan musik. Model SALMONN memungkinkan Model Bahasa Besar untuk memahami dan memproses input audio generik secara langsung, dan memberikan kinerja kompetitif pada berbagai tugas audio dan ucapan.

Untuk meningkatkan kinerjanya pada tugas ucapan dan non-ucapan, kerangka kerja SALMONN menggunakan struktur pengkode ganda yang terdiri dari pengkode audio BEATs, dan pengkode ucapan yang diambil dari model ucapan Whisper. Selain itu, kerangka kerja SALMONN juga menggunakan Q-Former tingkat jendela sebagai modul koneksi untuk mengubah urutan output pengkode menjadi token audio yang ditingkatkan dengan jumlah yang bervariasi, dan akhirnya mencapai resolusi temporal yang tinggi untuk pemosisian audio-teks. Pendekatan LoRA atau Adaptasi Peringkat Rendah digunakan sebagai adaptor cross-modal untuk kerangka kerja Vicuna untuk memosisikan ruang outputnya dengan ruang input yang ditingkatkan dalam upaya untuk lebih meningkatkan kinerjanya. Dalam kerangka kerja SALMONN, kemampuan untuk melakukan tugas cross-modal yang tidak terlihat selama fase pelatihan hilang selama pelatihan instruksi sebagai kemampuan emergen cross-modal, dan itulah alasan utama mengapa kerangka kerja SALMONN mengimplementasikan tahap aktivasi tambahan untuk mendapatkan kembali kemampuan emergen umum dari kerangka kerja LLM.

Selain itu, kerangka kerja ini menggunakan berbagai acara audio, musik, dan ucapan untuk mengevaluasi kemampuan pendengarannya, dan membagi benchmark menjadi tiga tingkat. Pada tingkat benchmark pertama, kerangka kerja ini melatih delapan tugas dalam pelatihan instruksi, termasuk terjemahan, caption audio, dan pengenalan ucapan. Dua tingkat benchmark lainnya adalah tugas yang tidak dilatih, dengan tingkat benchmark kedua terdiri dari lima tugas Pemrosesan Bahasa Alami berbasis ucapan seperti pengisian slot dan terjemahan ke bahasa yang tidak dilatih yang bergantung pada pemetaan multibahasa yang berkualitas tinggi antara token teks dan ucapan. Tugas benchmark tingkat terakhir mencoba memahami informasi ucapan dan non-ucapan untuk alasan ucapan-audio dan cerita berbasis audio.

Untuk merangkum, kerangka kerja SALMONN adalah

Model bahasa besar multimodal pertama yang dapat memahami dan mempersepsi input audio generik, termasuk peristiwa audio, ucapan, dan musik, hingga batas kemampuannya.
Upaya untuk menganalisis kemampuan emergen cross-modal yang ditawarkan dengan mengimplementasikan faktor skala LoRA, dan menggunakan tahap aktivasi tambahan selama pelatihan untuk mengaktifkan kemampuan emergen cross-modal dari kerangka kerja.

SALMONN : Arsitektur dan Metodologi

Dalam bagian ini, kita akan melihat arsitektur, metode pelatihan, dan pengaturan eksperimental untuk kerangka kerja SALMONN.

Arsitektur Model

Di inti arsitektur, kerangka kerja SALMONN menyinkronkan dan menggabungkan output dari dua pengkode auditori, kemudian kerangka kerja ini mengimplementasikan Q-Former pada tingkat bingkai sebagai modul koneksi. Urutan output yang dihasilkan oleh Q-Former digabungkan dengan prompt instruksi teks dan kemudian diberikan sebagai input ke pendekatan adaptasi LoRA untuk menghasilkan respons yang diperlukan.

Pengkode Auditori

Kerangka kerja SALMONN menggunakan dua pengkode auditori: pengkode audio BEATs non-ucapan, dan pengkode ucapan yang diambil dari kerangka kerja Whisper. Pengkode audio BEATs dilatih untuk menggunakan pendekatan pembelajaran iteratif mandiri untuk mengekstrak semantik audio tingkat tinggi non-ucapan, sedangkan pengkode ucapan dilatih pada sejumlah besar data yang lemah untuk tugas pengenalan dan terjemahan ucapan dengan fitur output pengkode yang sesuai untuk mencakup kebisingan latar belakang dan informasi ucapan. Model pertama-tama memotong input audio, dan kemudian memprediksi dan menyembunyikan dalam pelatihan. Fitur auditori yang dihasilkan dari kedua pengkode ini saling melengkapi dan sesuai untuk ucapan dan non-ucapan.

Q-Former Tingkat Jendela

Mengimplementasikan struktur Q-Former adalah pendekatan umum yang digunakan dalam kerangka kerja LLM untuk mengubah output pengkode gambar menjadi token teks, dan beberapa modifikasi diperlukan saat menangani token audio dengan panjang yang bervariasi. Lebih spesifik, kerangka kerja ini memandang output pengkode input gambar sebagai urutan output pengkode yang digabungkan, dan Q-Former mengeluarkan sejumlah query yang dapat dilatih untuk mengubah urutan output pengkode menjadi token teks menggunakan blok Q-Former yang ditumpuk. Blok Q-Former yang ditumpuk menyerupai blok decoder Transformer dengan pengecualian penghapusan masker kasual dalam lapisan perhatian diri, dan penggunaan sejumlah query statis yang dapat dilatih dalam blok awal.

LoRA dan LLM

Kerangka kerja SALMONN juga mengeluarkan model bahasa besar Vicuna yang merupakan kerangka kerja model bahasa besar LLaMA yang dilatih ulang untuk mengikuti instruksi dengan lebih akurat dan efektif. Kerangka kerja LoRA adalah metode umum yang digunakan untuk pelatihan parameter yang efisien, dan inklusinya dalam kerangka kerja SALMONN untuk menilai matriks bobot dan menyesuaikan query dalam lapisan perhatian diri.

Metode Pelatihan

Kerangka kerja SALMONN menggunakan pendekatan pelatihan cross-modal tiga tahap. Tahap pelatihan terdiri dari tahap prapelatihan, dan tahap penyetelan instruksi yang termasuk dalam sebagian besar kerangka kerja LLM visual, dan tahap aktivasi tambahan diimplementasikan untuk menyelesaikan masalah overfitting yang ditemukan dalam tugas caption audio dan pengenalan ucapan.

Tahap Prapelatihan

Untuk membatasi kesenjangan yang diamati antara parameter prapelatihan, termasuk pengkode dan LLM, dan parameter yang diinisialisasi secara acak, termasuk adaptor dan modul koneksi, kerangka kerja SALMONN menggunakan sejumlah besar data caption audio dan pengenalan ucapan untuk prapelatihan komponen LoRA dan Q-Former. Tugas-tugas ini berisi informasi auditori yang penting tentang konten kunci peristiwa audio, baik ucapan maupun non-ucapan, dan tidak memerlukan pemahaman atau penalaran yang kompleks untuk mempelajari pemosisian antara informasi teks dan auditori.

Tahap Penyetelan Instruksi

Tahap penyetelan instruksi yang diimplementasikan dalam kerangka kerja SALMONN menyerupai yang diimplementasikan dalam kerangka kerja NLP dan LLM visual dengan menggunakan daftar acara audio, tugas musik, dan ucapan untuk menyetel instruksi audio-teks. Tugas-tugas ini diprioritaskan berdasarkan kepentingannya di berbagai tes, termasuk pengenalan telepon, pengenalan ucapan tumpang tindih, dan caption musik. Selain itu, informasi teks yang dipasangkan dengan data audio membentuk dasar untuk menghasilkan prompt instruksi.

Overfitting Tugas

Meskipun hanya mengimplementasikan dua tahap pelatihan pertama, kerangka kerja SALMONN memberikan hasil kompetitif pada tugas penyetelan instruksi, namun kinerjanya tidak memuaskan saat melakukan tugas cross-modal, terutama pada tugas yang memerlukan kemampuan ko-reasoning cross-modal. Secara khusus, model ini kadang-kadang melanggar prompt instruksi yang menghasilkan respons yang tidak relevan atau tidak benar, dan fenomena ini disebut overfitting tugas dalam kerangka kerja SALMONN, dan tahap Aktivasi diimplementasikan untuk menyelesaikan masalah overfitting ini.

Tahap Aktivasi

Pendekatan efektif untuk menyelesaikan masalah overfitting adalah dengan mengatur model bahasa kondisional intrinsik menggunakan respons yang lebih panjang dan lebih beragam seperti cerita atau pertanyaan dan jawaban berbasis informasi auditori. Kerangka kerja ini kemudian menghasilkan data pelatihan pasangan untuk tugas-tugas tersebut menggunakan teks yang dipasangkan dengan audio atau caption musik.

Spesifikasi Tugas

Untuk mengevaluasi kemampuan emergen cross-modal zero-shot SALMONN, pengembang telah memasukkan 15 tugas ucapan, audio, dan musik yang dibagi menjadi tiga tingkat.

Tingkat 1

Pada tingkat pertama, tugas-tugas digunakan untuk penyetelan instruksi, dan oleh karena itu, mereka adalah set tugas termudah yang harus dilakukan oleh kerangka kerja SALMONN.

Tingkat 2

Tingkat kedua terdiri dari tugas yang tidak dilatih, dan tingkat kesulitan lebih tinggi dibandingkan dengan tugas tingkat 1. Pada tingkat 2, tugas-tugas adalah tugas Pemrosesan Bahasa Alami berbasis ucapan, termasuk ekstraksi kata kunci ucapan yang digunakan untuk mengevaluasi akurasi kerangka kerja saat mengekstrak kata kunci tertentu menggunakan ucapan. Tugas lainnya termasuk SQQA atau Pertanyaan dan Jawaban Berbasis Ucapan yang mengevaluasi pengetahuan umum yang diekstrak menggunakan pertanyaan ucapan, tugas SF atau Pengisian Slot Berbasis Ucapan untuk mengevaluasi akurasi nilai slot, dan akhirnya, ada dua tugas AST untuk konversi bahasa Inggris ke Jerman dan Inggris ke Jepang.

Tingkat 3

Kesulitan tugas pada Tingkat 3 adalah maksimal dibandingkan dengan dua tingkat lainnya, dan termasuk tugas Ko-Reasoning Ucapan-Audio, dan tugas Cerita Berbasis Audio. Tugas SAC memerlukan kerangka kerja SALMONN untuk memahami pertanyaan yang termasuk dalam klip audio yang diberikan kepada model, menemukan bukti pendukung menggunakan peristiwa audio atau musik di latar belakang, dan akhirnya menghasilkan alasan yang tepat untuk menjawab pertanyaan. Tugas cerita berbasis audio memerlukan model untuk menghasilkan cerita yang bermakna berdasarkan informasi auditori yang diperoleh dari input audio umum.

Hasil

Tugas Tingkat 1

Tabel berikut menunjukkan hasil pada tugas Tingkat 1, dan seperti yang dapat dilihat, kerangka kerja SALMONN mengembalikan hasil kompetitif pada tugas Tingkat 1 dengan atau tanpa aktivasi-tuning.

Tugas Tingkat 2 dan 3

Meskipun kerangka kerja SALMONN mengembalikan hasil kompetitif pada tugas Tingkat 1 bahkan tanpa penyetelan, hal yang sama tidak dapat dikatakan untuk tugas Tingkat 2 dan 3 karena tanpa aktivasi, kerangka kerja SALMONN menderita overfitting pada tugas. Kinerja menurun lebih lanjut pada tugas SQQA, SAC, dan Cerita, dengan penekanan pada interaksi multimodal, dan kerangka kerja SALMONN kesulitan mengikuti instruksi tanpa aktivasi-tuning. Namun, dengan aktivasi-tuning, hasilnya meningkat secara signifikan, dan hasilnya termasuk dalam gambar berikut.

Mengurangi Faktor Skala LoRA

Mengurangi Faktor Skala LoRA mengevaluasi pengaruh menggunakan diskon waktu dari faktor skala LoRA untuk meminimalkan masalah overfitting pada tugas. Seperti yang dapat dilihat dalam gambar berikut, penurunan faktor skala LoRA menjadi 2,0 meningkatkan kemampuan penalaran cross-modal dari kerangka kerja SALMONN pada tugas ASR & PR, tugas SQQA, tugas Cerita, dan tugas SAC secara berturut-turut.

Mengevaluasi Overfitting Tugas

Untuk menekankan aktivasi-tuning, kerangka kerja SALMONN menganalisis perubahan kebingungan selama tiga tahap pelatihan, dan seperti yang dapat dilihat dalam gambar berikut, perubahan kebingungan untuk tugas AAC dan ASR memiliki nilai akhir yang kecil setelah tahap pelatihan pertama, menunjukkan bahwa model telah mempelajari pemosisian cross-modal.

Selain itu, kebingungan tugas PR juga menurun setelah penyetelan instruksi karena ketergantungannya pada komponen LoRA untuk mempelajari token output. Juga diamati bahwa meskipun penyetelan instruksi membantu mengurangi kebingungan pada tugas Cerita dan SAC, kesenjangan masih cukup besar untuk melakukan tugas-tugas tersebut dengan sukses kecuali jika tahap aktivasi tambahan ditambahkan atau komponen LoRA dihapus.

Aktivasi-Tuning

Kerangka kerja SALMONN lebih dalam mempelajari metode aktivasi yang berbeda, termasuk melatih model pada pasangan tugas pertanyaan dan jawaban berbasis teks dengan jawaban panjang, atau menggunakan cerita panjang berbasis audio, sedangkan menggunakan transkripsi ucapan panjang untuk tugas ASR. Kedua komponen Q-Former dan LoRA ditingkatkan dengan metode ini. Selain itu, kerangka kerja ini mengabaikan input audio dan Q-Former dalam upaya untuk menyetel komponen LoRA dan Vicuna sebagai model bahasa besar adaptif berbasis teks, dan hasilnya ditunjukkan dalam gambar berikut, dan seperti yang dapat dilihat, model tidak dapat diaktifkan oleh ASR (melatih ASR dengan label panjang), atau Cerita atau Teks dengan melatih komponen LoRA menggunakan input prompt teks.

Pemikiran Akhir

Dalam artikel ini, kita telah membahas tentang SALMONN atau Speech Audio Language Music Open Neural Network, sebuah kerangka kerja model bahasa besar multimodal audio-teks tunggal yang dapat memahami dan mempersepsi tiga jenis suara atau audio dasar, termasuk ucapan, peristiwa audio, dan musik. Model SALMONN memungkinkan Model Bahasa Besar untuk memahami dan memproses input audio generik secara langsung, dan memberikan kinerja kompetitif pada berbagai tugas audio dan ucapan.

Kerangka kerja SALMONN memberikan kinerja kompetitif pada berbagai tugas yang dilatih, termasuk caption audio, terjemahan dan pengenalan ucapan, dan lebih, sambil menggeneralisasi ke sejumlah tugas pemahaman yang tidak dilatih, termasuk terjemahan ucapan untuk ekstraksi kata kunci dan bahasa yang tidak dilatih. Karena kemampuannya, kerangka kerja SALMONN dapat dianggap sebagai langkah selanjutnya untuk meningkatkan kemampuan mendengar generik dari model bahasa besar.