Intelligence artificielle

Salmonn : Vers des Capacités Auditives Générales pour les Modèles de Langage à Grande Échelle

Published November 28, 2023

Updated April 4, 2026

Kunal Kejriwal

L’audition, qui implique la perception et la compréhension d’informations auditives génériques, est cruciale pour les agents d’IA dans les environnements du monde réel. Ces informations auditives englobent trois types de sons principaux : la musique, les événements audio et la parole. Récemment, les cadres de modèles de langage à grande échelle (LLM) basés sur du texte ont montré des capacités remarquables, atteignant des performances de niveau humain dans une large gamme de tâches de traitement automatique des langues (NLP). De plus, l’ajustement d’instruction, une méthode d’entraînement utilisant des paires de réponses de référence et de prompts utilisateur, est devenu populaire. Cette approche entraîne les grands modèles de langage à suivre plus efficacement les instructions ouvertes de l’utilisateur. Cependant, la recherche actuelle se concentre de plus en plus sur l’amélioration des grands modèles de langage avec la capacité de percevoir du contenu multimodal.

En nous concentrant sur le même, dans cet article, nous allons parler de SALMONN ou Speech Audio Language Music Open Neural Network, un réseau neuronal ouvert de langage audio-musical basé sur la parole, construit en incorporant des encodeurs de parole et d’audio avec un modèle de langage à grande échelle pré-entraîné basé sur du texte dans un modèle audio-texte multimodal unique. Le modèle SALMONN permet aux grands modèles de langage de comprendre et de traiter directement les entrées audio génériques, et offre des performances compétitives sur une large gamme de tâches audio et de parole utilisées lors de l’entraînement, y compris la réponse à des questions basées sur des informations auditives, la reconnaissance et la traduction de la parole, la vérification du locuteur, la reconnaissance des émotions, la légende audio et musicale, et bien plus encore. Nous allons plonger plus profondément dans le cadre SALMONN, et explorer son fonctionnement, son architecture et ses résultats sur une large gamme de tâches NLP. Alors commençons.

SALMONN : Une Introduction aux Grands Modèles de Langage Multimodaux Audio-Texte

SALMONN signifie Speech Audio Language Music Open Neural Network, et il s’agit d’un cadre de modèle de langage à grande échelle multimodal audio-texte capable de percevoir et de comprendre trois types de sons de base, y compris la parole, les événements audio et la musique. Le modèle SALMONN permet aux grands modèles de langage de comprendre et de traiter directement les entrées audio génériques, et offre des performances compétitives sur une large gamme de tâches audio et de parole.

Pour améliorer ses performances sur les tâches de parole et de non-parole, le cadre SALMONN utilise une structure d’encodeur double composée d’un encodeur audio BEATs et d’un encodeur de parole issu du modèle de parole Whisper. De plus, le cadre SALMONN utilise également un Q-Former au niveau de la fenêtre en tant que module de connexion pour convertir efficacement une séquence de sortie d’encodeur de longueur variable en jetons audio augmentés d’un nombre variable, et atteindre ainsi une résolution temporelle élevée pour l’alignement audio-texte. L’approche LoRA ou Low Rank Adaptation est utilisée en tant qu’adaptateur cross-modal pour le cadre Vicuna afin d’aligner son espace de sortie avec son espace d’entrée augmenté dans le but d’améliorer encore ses performances. Dans le cadre SALMONN, la capacité à effectuer des tâches cross-modales non vues pendant la phase d’entraînement perdue pendant l’entraînement des instructions en tant que capacités émergentes cross-modales, ce qui est la principale raison pour laquelle le cadre SALMONN met en œuvre une étape d’activation supplémentaire pour retrouver les capacités émergentes générales du cadre LLM.

De plus, le cadre utilise une large gamme de benchmarks d’événements audio, de musique et de parole pour évaluer ses capacités auditives cognitives, et divise les benchmarks en trois niveaux. Au premier niveau de benchmark, le cadre entraîne huit tâches lors de l’entraînement d’instruction, y compris la traduction, la légende audio et la reconnaissance de la parole. Les deux autres niveaux de benchmark sont des tâches non entraînées, avec le deuxième niveau de benchmark composé de cinq tâches de traitement automatique des langues naturelles basées sur la parole, telles que le remplissage de slots et la traduction vers des langues non entraînées, en s’appuyant sur des alignements multilingues de haute qualité entre les jetons de texte et de parole. Les tâches de benchmark de niveau final tentent de comprendre les informations auditives de parole et de non-parole pour la co-raisonnement parole-audio et la narration audio.

Pour résumer, le cadre SALMONN est

Le premier modèle de langage multimodal capable de comprendre et de percevoir les entrées audio génériques, y compris les événements audio, la parole et la musique, au maximum de ses capacités.
Une tentative d’analyser les capacités émergentes cross-modales offertes par la mise en œuvre du facteur d’échelle LoRA, et en utilisant une étape d’activation supplémentaire lors de l’entraînement pour activer les capacités émergentes cross-modales du cadre.

SALMONN : Architecture et Méthodologie

Dans cette section, nous allons examiner l’architecture, la méthode d’entraînement et la configuration expérimentale pour le cadre SALMONN.

Architecture du Modèle

Au cœur de son architecture, le cadre SALMONN synchronise et combine les sorties des deux encodeurs audio, puis met en œuvre un Q-Former au niveau de la trame en tant que module de connexion. La séquence de sortie générée par le Q-Former est fusionnée avec les prompts d’instruction de texte et est ensuite fournie en tant qu’entrée à l’approche d’adaptation LoRA pour générer la réponse requise.

Encodeurs Audio

Le cadre SALMONN utilise deux encodeurs audio : un encodeur audio BEATs non parole et un encodeur de parole issu du cadre de parole Whisper d’OpenAI. L’encodeur audio BEATs est entraîné pour utiliser l’approche d’apprentissage itératif auto-supervisé pour extraire les sémantiques audio non parole de haut niveau, tandis que l’encodeur de parole est entraîné sur une grande quantité de données faiblement supervisées pour les tâches de reconnaissance et de traduction de la parole, avec les fonctionnalités de sortie de l’encodeur adaptées pour inclure le bruit de fond et les informations de parole. Le modèle tokenise d’abord l’entrée audio, puis la masque et la prédit lors de l’entraînement. Les fonctionnalités audio résultantes de ces deux encodeurs se complètent mutuellement et sont adaptées aux informations de parole et de non-parole.

Q-Former au Niveau de la Fenêtre

La mise en œuvre de la structure Q-Former est une approche courante utilisée dans les cadres LLM pour convertir la sortie d’un encodeur d’image en jetons de texte, et une modification est nécessaire lorsqu’il s’agit de jetons audio de longueurs variables. Plus précisément, le cadre considère la sortie de l’encodeur de l’entrée d’image comme une séquence de sortie d’encodeur concaténée, et le Q-Former déploie un nombre fixe de requêtes entraînables pour transformer la séquence de sortie d’encodeur en jetons de texte à l’aide de blocs empilés de Q-Former. Un bloc Q-Former empilé ressemble à un bloc de décodeur de Transformer, à l’exception de la suppression des masques de causalité dans les couches d’auto-attention et de l’utilisation d’un nombre fixe de requêtes statiques entraînables dans les blocs initiaux.

LoRA et LLM

Le cadre SALMONN déploie également un LLM Vicuna, qui est un cadre de modèle de langage à grande échelle LLaMA affiné pour suivre les instructions plus précisément et plus efficacement. Le cadre LoRA est une méthode courante utilisée pour un affinage de paramètres efficace, et son inclusion dans le cadre SALMONN pour valoriser les matrices de poids et adapter la requête dans les couches d’auto-attention.

Méthode d’Entraînement

Le cadre SALMONN utilise une approche d’entraînement cross-modal à trois étapes. L’étape d’entraînement comprend une étape de pré-entraînement et une étape d’ajustement d’instruction qui sont incluses dans la plupart des cadres LLM visuels, et une étape d’activation supplémentaire est mise en œuvre pour résoudre les problèmes de sur-ajustement rencontrés lors des tâches de légende audio et de reconnaissance de la parole.

Étape de Pré-Entraînement

Pour limiter l’écart observé entre les paramètres pré-entraînés, y compris les encodeurs et les LLM, et les paramètres initialisés aléatoirement, y compris les adaptateurs et les modules de connexion, le cadre SALMONN utilise une grande quantité de données de légende audio et de reconnaissance de la parole pour pré-entraîner les composants LoRA et Q-Former. Ces tâches contiennent des informations auditives essentielles sur le contenu clé des événements audio, tant de parole que de non-parole, et aucune d’entre elles ne nécessite une compréhension ou un raisonnement complexes pour apprendre l’alignement entre les informations textuelles et auditives.

Étape d’Ajustement d’Instruction

L’étape d’ajustement d’instruction mise en œuvre dans le cadre SALMONN ressemble à celle mise en œuvre dans les cadres NLP et LLM visuels en utilisant une liste d’événements audio, de tâches de musique et d’événements de parole pour affiner les instructions audio-texte. Les tâches sont priorisées en fonction de leur importance à travers différents tests, y compris la reconnaissance de la parole, la reconnaissance de la parole chevauchante et les légendes de musique. De plus, les informations textuelles appariées avec les données audio forment la base de la génération de prompts d’instruction.

Sur-Ajustement de Tâche

Même lors de la mise en œuvre des deux premières étapes d’entraînement, le cadre SALMONN offre des résultats compétitifs sur les tâches d’ajustement d’instruction, bien que les performances ne soient pas à la hauteur lors de l’exécution de tâches cross-modales, en particulier sur les tâches qui nécessitent des capacités de co-raisonnement cross-modal. Plus précisément, le modèle viole parfois les prompts d’instruction, ce qui entraîne la génération de réponses non pertinentes ou incorrectes, et ce phénomène est appelé sur-ajustement de tâche dans le cadre SALMONN, et l’étape d’activation est mise en œuvre pour résoudre ces problèmes de sur-ajustement.

Étape d’Activation

Une approche efficace pour résoudre les problèmes de sur-ajustement consiste à régulariser les modèles de langage conditionnels intrinsèques en utilisant des réponses plus longues et plus diversifiées, comme la narration ou la réponse à des questions basées sur des informations auditives. Le cadre génère ensuite les données d’entraînement par paires pour de telles tâches en utilisant du texte apparié avec des légendes audio ou des transcriptions de parole.

Spécifications de Tâche

Pour évaluer les capacités émergentes cross-modales à zéro tir du cadre SALMONN, les développeurs ont inclus 15 tâches de parole, d’audio et de musique réparties sur trois niveaux.

Niveau 1

Au premier niveau, les tâches sont utilisées pour l’ajustement d’instruction, et sont donc les tâches les plus faciles que le cadre SALMONN doit effectuer.

Niveau 2

Le deuxième niveau est composé de tâches non entraînées, et le niveau de complexité est plus élevé par rapport aux tâches de niveau 1. Au niveau 2, les tâches sont des tâches de traitement automatique des langues naturelles basées sur la parole, y compris l’extraction de mots clés de parole utilisée pour évaluer la précision du cadre lors de l’extraction de certains mots clés à l’aide de la parole. D’autres tâches incluent la question-réponse basée sur la parole (SQQA) qui évalue les connaissances de sens commun que le cadre extrait à l’aide de questions de parole, une tâche de remplissage de slots basée sur la parole (SF) pour évaluer la précision des valeurs de slots, et enfin, il y a deux tâches d’AST pour les conversions anglais-allemand et anglais-japonais.

Niveau 3

La complexité des tâches du niveau 3 est la plus élevée par rapport aux deux autres niveaux, et inclut des tâches de co-raisonnement parole-audio (SAC) et de narration audio. La tâche SAC nécessite que le cadre SALMONN comprenne une question incluse dans le clip audio alimenté au modèle, trouve des preuves de soutien en utilisant des événements audio ou de la musique en arrière-plan, et génère ensuite une raison appropriée pour répondre à la question. Les tâches de narration audio nécessitent que le modèle génère une histoire significative en fonction des informations auditives provenant des entrées audio génériques.

Résultats

Tâches de Niveau 1

Le tableau suivant montre les résultats sur les tâches de niveau 1, et comme on peut le voir, le cadre SALMONN retourne des résultats compétitifs sur les tâches de niveau 1 avec ou sans activation.

Tâches de Niveau 2 et 3

Bien que le cadre SALMONN retourne des résultats compétitifs sur les tâches de niveau 1 même sans affinage, la même chose ne peut pas être dite pour les tâches de niveau 2 et 3, car sans activation, le cadre SALMONN souffre fortement de sur-ajustement sur les tâches, en particulier sur les tâches qui nécessitent des capacités de co-raisonnement cross-modal. Plus précisément, le modèle viole parfois les prompts d’instruction, ce qui entraîne la génération de réponses non pertinentes ou incorrectes, et cette phénomène est appelé sur-ajustement de tâche dans le cadre SALMONN, et l’étape d’activation est mise en œuvre pour résoudre ces problèmes de sur-ajustement. Cependant, avec l’activation, les résultats s’améliorent considérablement, et les résultats sont inclus dans l’image suivante.

Discounting du Facteur d’Échelle LoRA

La discounting du facteur d’échelle LoRA évalue l’influence de l’utilisation de la discounting du facteur d’échelle LoRA pour minimiser les problèmes de sur-ajustement sur les tâches. Comme on peut le voir dans la figure suivante, une diminution du facteur d’échelle LoRA à 2,0 élève la capacité de raisonnement cross-modal du cadre SALMONN sur les tâches de reconnaissance de la parole et de traduction, les tâches de question-réponse basée sur la parole, les tâches de narration et les tâches de co-raisonnement parole-audio, respectivement.

Évaluation du Sur-Ajustement de Tâche

Pour mettre l’accent sur l’activation, le cadre SALMONN analyse les changements de perplexité au cours des trois étapes d’entraînement, et comme on peut le voir dans l’image suivante, les changements de perplexité pour les tâches de légende audio et de reconnaissance de la parole ont de petites valeurs finales après la première étape d’entraînement, indiquant que le modèle a appris les alignements cross-modaux.

De plus, la perplexité de la tâche de reconnaissance de la parole diminue également après l’ajustement d’instruction en raison de sa dépendance à l’égard du composant LoRA pour apprendre les jetons de sortie. On observe également que bien que l’ajustement d’instruction aide à réduire la perplexité sur les tâches de narration et de co-raisonnement parole-audio, l’écart est encore suffisamment grand pour effectuer les tâches avec succès, à moins qu’une étape d’activation supplémentaire ne soit ajoutée ou que le composant LoRA ne soit supprimé.

Activation

Le cadre SALMONN explore différentes méthodes d’activation, y compris l’entraînement du modèle sur des paires de tâches de question-réponse basée sur du texte avec des réponses longues, ou en utilisant des histoires audio longues écrites, alors que l’utilisation de transcriptions de parole longues pour les tâches de reconnaissance de la parole. Les composants Q-Former et LoRA sont affinés à l’aide de ces trois méthodes. De plus, le cadre ignore les entrées audio et Q-Former dans le but d’affiner les composants LoRA et Vicuna en tant que modèle de langage à grande échelle adaptatif basé sur du texte, et les résultats sont présentés dans l’image suivante, et comme on peut le voir, le modèle ne peut pas être activé par la reconnaissance de la parole (entraînement de la reconnaissance de la parole avec des étiquettes longues), ni par la narration ou le texte basé sur l’entraînement du composant LoRA en utilisant des entrées de prompt de texte.

Pensées Finales

Dans cet article, nous avons parlé de SALMONN ou Speech Audio Language Music Open Neural Network, un cadre de modèle de langage à grande échelle multimodal audio-texte capable de percevoir et de comprendre trois types de sons de base, y compris la parole, les événements audio et la musique. Le modèle SALMONN permet aux grands modèles de langage de comprendre et de traiter directement les entrées audio génériques, et offre des performances compétitives sur une large gamme de tâches audio et de parole.

Le cadre SALMONN offre des performances compétitives sur une large gamme de tâches entraînées, y compris la légende audio, la traduction et la reconnaissance de la parole, et plus encore, tout en se généralisant à un large éventail de tâches de compréhension non entraînées, y compris la traduction de parole pour l’extraction de mots clés et les langues non entraînées. En raison de ses capacités, le cadre SALMONN peut être considéré comme l’étape suivante pour améliorer les capacités auditives génériques des grands modèles de langage.