Intelligenza artificiale

Salmonn: Verso Abilità Uditiva Generiche Per Large Language Model

Published November 28, 2023

Updated April 4, 2026

Kunal Kejriwal

L’udito, che coinvolge la percezione e la comprensione di informazioni uditive generiche, è cruciale per gli agenti di intelligenza artificiale in ambienti del mondo reale. Queste informazioni uditive comprendono tre tipi di suoni principali: musica, eventi audio e discorso. Di recente, le strutture di Large Language Model (LLM) basate su testo hanno mostrato capacità notevoli, raggiungendo prestazioni a livello umano in una vasta gamma di compiti di Natural Language Processing (NLP). Inoltre, l’istruzione di tuning, un metodo di formazione che utilizza coppie di risposte di riferimento e prompt dell’utente, è diventata popolare. Questo approccio forma grandi modelli linguistici per seguire più efficacemente le istruzioni aperte dell’utente. Tuttavia, la ricerca attuale si concentra sempre più sull’arricchimento dei grandi modelli linguistici con la capacità di percepire contenuti multimodali.

Concentrandomi sullo stesso, in questo articolo, parleremo diSALMONN o Speech Audio Language Music Open Neural Network, un modello neurale open speech audio language music di stato dell’arte costruito incorporando encoder di discorso e audio con un modello di linguaggio grande pre-addestrato basato su testo in un singolo modello audio-testo multimodale. Il modello SALMONN consente aiLarge Language Model di comprendere e elaborare input audio generici direttamente, e di fornire prestazioni competitive in una vasta gamma di compiti audio e discorso utilizzati nell’addestramento, compresi la risposta alle domande basate su informazioni uditive, il riconoscimento del discorso e la traduzione, la verifica del parlante, il riconoscimento delle emozioni, la didascalia audio e musicale e molto altro. Esamineremo più da vicino la struttura SALMONN, il suo funzionamento, l’architettura e i risultati in una vasta gamma di compiti NLP. Quindi, iniziamo.

SALMONN: Un’introduzione ai singoli modelli linguistici multimodali audio-testo

SALMONN sta per Speech Audio Language Music Open Neural Network, ed è un framework di modello linguistico multimodale audio-testo singolo in grado di percepire e comprendere tre tipi di base di suoni o audio, tra cui discorso, eventi audio e musica. Il modello SALMONN consente ai Large Language Model di comprendere e elaborare input audio generici direttamente, e di fornire prestazioni competitive in una vasta gamma di compiti audio e discorso.

Per aumentare le sue prestazioni sia sui compiti di discorso che su quelli di audio non discorsivi, la struttura SALMONN utilizza una struttura di doppio encoder costituita da un encoder audio BEATs e un encoder di discorso derivato dal modello di discorso Whisper. Inoltre, la struttura SALMONN utilizza anche un modulo di connessione Q-Former a livello di finestra come modulo di connessione per convertire efficacemente una sequenza di output di lunghezza variabile dell’encoder in token audio aumentati di un numero variabile, e raggiungere infine un’elevata risoluzione temporale per l’allineamento audio-testo. L’approccio LoRA o Low Rank Adaptation viene utilizzato come adattatore cross-modale per allineare lo spazio di output del framework Vicuna con il suo spazio di input aumentato in un tentativo di aumentare ulteriormente le sue prestazioni. Nella struttura SALMONN, la capacità di eseguire compiti cross-modali non visti durante la fase di addestramento si perde durante l’addestramento delle istruzioni come abilità emergenti cross-modali, ed è il motivo principale per cui la struttura SALMONN implementa una fase di attivazione aggiuntiva per riguadagnare le abilità emergenti generali del framework LLM.

Inoltre, il framework utilizza una vasta gamma di eventi audio, benchmark musicali e benchmark di discorso per valutare le sue capacità uditive cognitive, e divide i benchmark in tre livelli. Al primo livello di benchmark, il framework addestra otto compiti nell’addestramento delle istruzioni, tra cui traduzione, didascalia audio e riconoscimento del discorso. Gli altri due livelli di benchmark sono compiti non addestrati, con il secondo livello di benchmark costituito da cinque compiti di elaborazione del linguaggio naturale basati sul discorso, come l’estrazione di slot e la traduzione in lingue non addestrate, che si basano su allineamenti multilingui di alta qualità tra token di testo e discorso. I compiti del benchmark del livello finale tentano di comprendere informazioni uditive discorsive e non discorsive per la ragione discorso-audio e la narrazione basata sull’audio.

In sintesi, la struttura SALMONN è

Il primo modello linguistico multimodale in grado di comprendere e percepire input audio generici, tra cui eventi audio, discorso e musica, al massimo delle sue capacità.
Un tentativo di analizzare le abilità emergenti cross-modali offerte implementando il fattore di scala LoRA e utilizzando una fase di attivazione aggiuntiva durante l’addestramento per attivare le abilità emergenti cross-modali della struttura.

SALMONN: Architettura e Metodologia

In questa sezione, esamineremo l’architettura, il metodo di addestramento e l’impostazione sperimentale per la struttura SALMONN.

Architettura del Modello

Al centro della sua architettura, la struttura SALMONN sincronizza e combina gli output di due encoder uditori, dopodiché la struttura implementa un Q-Former a livello di frame come modulo di connessione. La sequenza di output generata dal Q-Former viene fusa con prompt di istruzioni di testo e viene quindi fornita come input all’approccio di adattamento LoRA per generare la risposta richiesta.

Encoder Uditori

La struttura SALMONN utilizza due encoder uditori: un encoder audio BEATs non discorsivo e un encoder di discorso derivato dal framework di discorso Whisper. L’encoder audio BEATs è addestrato per utilizzare l’approccio di apprendimento iterativo auto-supervisionato per estrarre semantica audio di alto livello non discorsiva, mentre l’encoder di discorso è addestrato su una grande quantità di dati debolmente supervisionati per compiti di riconoscimento e traduzione del discorso, con le caratteristiche di output dell’encoder adatte a includere rumore di fondo e informazioni di discorso. Il modello prima tokenizza l’input audio e poi lo maschera e lo prevede nell’addestramento. Le caratteristiche uditive di questi due encoder si complementano a vicenda e sono adatte sia per il discorso che per le informazioni non discorsive.

Q-Former a Livello di Finestra

Implementare la struttura Q-Former è un approccio comune utilizzato nei framework LLM per convertire l’output di un encoder di immagini in token di testo, e alcuni modifiche sono necessarie quando si ha a che fare con token audio di lunghezza variabile. In particolare, la struttura considera l’output dell’encoder dell’input immagine come una sequenza di output dell’encoder concatenata, e il Q-Former utilizza un numero fisso di query trainable per trasformare la sequenza di output dell’encoder in token di testo utilizzando blocchi impilati di Q-Former. Un blocco Q-Former impilato assomiglia a un blocco decodificatore di Transformer, con le eccezioni di rimuovere le maschere casuali negli strati di auto-attenzione e l’uso di un numero fisso di query statiche trainable nei blocchi iniziali.

LoRA e LLM

La struttura SALMONN utilizza anche un LLM Vicuna, che è un framework di modello linguistico grande LLaMA addestrato per seguire le istruzioni più fedelmente ed efficacemente. Il framework LoRA è un metodo comune utilizzato per l’addestramento efficiente dei parametri, e la sua inclusione nella struttura SALMONN per valutare le matrici di peso e adattare la query negli strati di auto-attenzione.

Metodo di Addestramento

La struttura SALMONN utilizza un approccio di addestramento cross-modale a tre fasi. La fase di addestramento comprende una fase di pre-addestramento e una fase di addestramento delle istruzioni che sono incluse nella maggior parte dei framework LLM visivi, e una fase di attivazione aggiuntiva è implementata per risolvere i problemi di overfitting incontrati durante i compiti di didascalia audio e riconoscimento del discorso.

Fase di Pre-Addestramento

Per limitare il divario osservato tra parametri pre-addestrati, tra cui encoder e LLM, e parametri inizializzati casualmente, tra cui adattatore e moduli di connessione, la struttura SALMONN utilizza una grande quantità di dati di didascalia audio e riconoscimento del discorso per pre-addestrare i componenti LoRA e Q-Former. Questi compiti contengono informazioni uditive vitali sui contenuti chiave degli eventi audio, sia discorsivi che non discorsivi, e nessuno di essi richiede una comprensione o un ragionamento complesso per apprendere l’allineamento tra informazioni testuali e uditive.

Fase di Addestramento delle Istruzioni

La fase di addestramento delle istruzioni implementata nella struttura SALMONN assomiglia a quella implementata nei framework NLP e LLM visivi, utilizzando un elenco di eventi audio, compiti musicali e eventi di discorso per addestrare le istruzioni audio-testo. I compiti sono prioritizzati in base alla loro importanza in diversi test, tra cui riconoscimento del telefono, riconoscimento del discorso sovrapposto e didascalie musicali. Inoltre, le informazioni testuali abbinate con i dati audio formano la base per generare prompt di istruzioni.

Overfitting del Compito

Anche quando si implementano solo le prime due fasi di addestramento, la struttura SALMONN fornisce risultati competitivi sui compiti di addestramento delle istruzioni, sebbene le prestazioni non siano all’altezza quando si eseguono compiti cross-modali, in particolare su compiti che richiedono abilità di ragionamento cross-modale. In particolare, il modello viola occasionalmente le istruzioni dei prompt, il che porta alla generazione di risposte irrilevanti o scorrette, e questo fenomeno è denominato overfitting del compito nella struttura SALMONN, e la fase di attivazione è implementata per risolvere questi problemi di overfitting.

Fase di Attivazione

Un approccio efficace per risolvere i problemi di overfitting è quello di regolarizzare i modelli linguistici condizionali intrinseci utilizzando risposte più lunghe e diverse, come la narrazione o la risposta alle domande basate su informazioni uditive. La struttura genera quindi i dati di addestramento per tali compiti utilizzando testo abbinato con audio o discorso o didascalie musicali.

Specifiche del Compito

Per valutare le abilità emergenti cross-modali zero-shot della struttura SALMONN, gli sviluppatori hanno incluso 15 compiti di discorso, audio e musica divisi in tre livelli.

Livello 1

Al primo livello, i compiti sono utilizzati per l’addestramento delle istruzioni e, pertanto, sono l’insieme più semplice di compiti che la struttura SALMONN deve eseguire.

Livello 2

Il secondo livello consiste in compiti non addestrati e il livello di complessità è più alto rispetto ai compiti del livello 1. Al livello 2, i compiti sono compiti di elaborazione del linguaggio naturale basati sul discorso, tra cui l’estrazione di parole chiave del discorso utilizzata per valutare l’accuratezza della struttura nell’estrazione di determinate parole chiave utilizzando il discorso. Altri compiti includono SQQA o risposta alle domande basate su query vocali, che valuta la conoscenza comune che la struttura estrae utilizzando le domande vocali, un compito di riempimento di slot basato sul discorso per valutare l’accuratezza dei valori di slot, e infine, ci sono due compiti AST per le conversioni da inglese a tedesco e da inglese a giapponese.

Livello 3

La complessità dei compiti del livello 3 è la massima rispetto agli altri due livelli e include compiti di ragionamento discorso-audio e narrazione basata sull’audio. Il compito di ragionamento discorso-audio richiede alla struttura SALMONN di comprendere una domanda inclusa nel clip audio alimentato al modello, trovare prove a sostegno utilizzando eventi audio o musica in sottofondo e infine generare una ragione appropriata per rispondere alla domanda. I compiti di narrazione basata sull’audio richiedono al modello di generare una storia significativa in base alle informazioni uditive derivanti da input audio generici.

Risultati

Compiti del Livello 1

La seguente tabella mostra i risultati sui compiti del livello 1 e, come si può osservare, la struttura SALMONN fornisce risultati competitivi sui compiti del livello 1 con o senza attivazione.

Compiti del Livello 2 e 3

Sebbene la struttura SALMONN fornisca risultati competitivi sui compiti del livello 1 anche senza addestramento, lo stesso non può essere detto per i compiti del livello 2 e del livello 3, poiché senza attivazione, la struttura SALMONN soffre gravemente di overfitting sui compiti. Le prestazioni peggiorano ulteriormente sui compiti SQQA, SAC e narrazione, con enfasi su interazioni multimodali, e la struttura SALMONN fatica a seguire le istruzioni senza attivazione. Tuttavia, con l’attivazione, i risultati migliorano notevolmente e i risultati sono inclusi nell’immagine seguente.

Esclusione del Fattore di Scala LoRA

La valutazione dell’influenza dell’uso del fattore di scala LoRA nel tempo per minimizzare i problemi di overfitting sui compiti. Come si può osservare nella figura seguente, una diminuzione del fattore di scala LoRA a 2,0 eleva la capacità di ragionamento cross-modale della struttura SALMONN sui compiti ASR e PR, SQQA, narrazione e SAC rispettivamente.

Valutazione dell’Overfitting del Compito

Per enfatizzare l’attivazione, la struttura SALMONN analizza i cambiamenti della perplessità durante le tre fasi di addestramento e, come si può vedere nell’immagine seguente, i cambiamenti della perplessità per i compiti AAC e ASR hanno valori finali piccoli dopo la prima fase di addestramento, indicando l’apprendimento del modello degli allineamenti cross-modali.

Inoltre, la perplessità del compito PR scende anche dopo l’addestramento delle istruzioni a causa della sua dipendenza dal componente LoRA per apprendere i token di output. Si osserva anche che, sebbene l’addestramento delle istruzioni aiuti a ridurre la perplessità sui compiti di narrazione e SAC, il divario è ancora sufficientemente grande per eseguire i compiti con successo, a meno che non venga aggiunta una fase di attivazione aggiuntiva o non venga rimosso il componente LoRA.

Attivazione

La struttura SALMONN esamina diversi metodi di attivazione, tra cui l’addestramento del modello su coppie di compiti di risposta alle domande basate su testo con risposte lunghe, o l’uso di storie scritte lunghe basate sull’audio, mentre l’uso di trascrizioni lunghe del discorso per i compiti ASR. Sia il componente Q-Former che il componente LoRA vengono addestrati utilizzando questi tre metodi. Inoltre, la struttura ignora gli input audio e Q-Former nel tentativo di addestrare il componente LoRA e il componente Vicuna come un modello linguistico grande adattivo basato sul testo e i risultati sono mostrati nell’immagine seguente e, come si può vedere, il modello non può essere attivato dall’ASR (addestrando l’ASR con etichette lunghe), né dalla storia o dal testo, addestrando il componente LoRA utilizzando input di prompt di testo.

Pensieri Finali

In questo articolo, abbiamo parlato di SALMONN o Speech Audio Language Music Open Neural Network, un framework di modello linguistico multimodale audio-testo singolo in grado di percepire e comprendere tre tipi di base di suoni o audio, tra cui discorso, eventi audio e musica. Il modello SALMONN consente ai Large Language Model di comprendere e elaborare input audio generici direttamente e di fornire prestazioni competitive in una vasta gamma di compiti audio e discorso.

La struttura SALMONN fornisce prestazioni competitive in una vasta gamma di compiti addestrati, tra cui didascalia audio, traduzione e riconoscimento del discorso, e altro, mentre generalizza un’ampia gamma di compiti di comprensione non addestrati, tra cui traduzione del discorso per l’estrazione di parole chiave e lingue non addestrate. A causa delle sue capacità, la struttura SALMONN può essere considerata il passo successivo per migliorare le capacità uditive generiche dei grandi modelli linguistici.