Künstliche Intelligenz

Salmonn: Auf dem Weg zu generischen Hörvermögen für Large Language Modelle

Published November 28, 2023

Updated April 4, 2026

Kunal Kejriwal

Hören, das die Wahrnehmung und das Verständnis generischer auditiver Informationen beinhaltet, ist für KI-Agenten in realen Umgebungen von entscheidender Bedeutung. Diese auditiven Informationen umfassen drei primäre Soundtypen: Musik, Audio-Ereignisse und Sprache. Kürzlich haben textbasierte Large Language Model (LLM)-Frameworks bemerkenswerte Fähigkeiten gezeigt und auf einer breiten Palette von Natural Language Processing (NLP)-Aufgaben Leistungen auf menschlichem Niveau erzielt. Darüber hinaus ist die Anweisungstuning, eine Trainingsmethode, die Paare von Referenzantworten und Benutzeranweisungen verwendet, beliebt geworden. Dieser Ansatz trainiert Large Language Modelle, um offene Benutzeranweisungen effektiver zu befolgen. Allerdings konzentriert sich die aktuelle Forschung zunehmend darauf, Large Language Modelle mit der Fähigkeit auszustatten, multimodale Inhalte wahrzunehmen.

Unter Berücksichtigung dessen werden wir in diesem Artikel über SALMONN oder Speech Audio Language Music Open Neural Network sprechen, ein state-of-the-art-Offen-Neuronales-Netzwerk für Sprache, Audio und Musik, das durch die Integration von Sprach- und Audio-Encodern mit einem vorgefertigten textbasierten Large Language Model in ein einziges audio-textuelles multimodales Modell erstellt wurde. Das SALMONN-Modell ermöglicht es Large Language Modellen, generische Audio-Eingaben direkt zu verstehen und zu verarbeiten und liefert wettbewerbsfähige Leistungen auf einer breiten Palette von Audio- und Sprachaufgaben, die während des Trainings verwendet werden, einschließlich auditiver Informationen-basierter Fragebeantwortung, Spracherkennung und -übersetzung, Sprecherüberprüfung, Emotionserkennung, Audio- und Musikbeschriftung und vielem mehr. Wir werden uns mit dem SALMONN-Rahmenwerk auseinandersetzen und seine Funktionsweise, Architektur und Ergebnisse auf einer breiten Palette von NLP-Aufgaben untersuchen. Also los geht’s.

SALMONN : Eine Einführung in Single-Audio-Text-Multimodale Large Language Modelle

SALMONN steht für Speech Audio Language Music Open Neural Network und ist ein einzelnes audio-textuelles multimodales Large Language Model-Rahmenwerk, das in der Lage ist, drei grundlegende Audio- oder Soundtypen wahrzunehmen und zu verstehen, einschließlich Sprache, Audio-Ereignissen und Musik. Das SALMONN-Modell ermöglicht es Large Language Modellen, generische Audio-Eingaben direkt zu verstehen und zu verarbeiten und liefert wettbewerbsfähige Leistungen auf einer breiten Palette von Audio- und Sprachaufgaben.

Um seine Leistung auf Sprach- und Nicht-Sprach-Audio-Aufgaben zu verbessern, verwendet das SALMONN-Rahmenwerk eine duale Encoder-Struktur, bestehend aus einem BEATs-Audio-Encoder und einem Sprach-Encoder, der aus dem Whisper-Sprachmodell stammt. Darüber hinaus verwendet das SALMONN-Rahmenwerk auch ein Fenster-Level-Q-Former oder Query-Transformer als Verbindungsmodule, um die Ausgabe-Sequenz eines variablen Längen-Encoders effektiv in augmentierte Audio-Tokens mit variabler Anzahl umzuwandeln und letztendlich eine hohe zeitliche Auflösung für Audio-Text-Alignment zu erreichen. Der LoRA oder Low-Rank-Adaptation-Ansatz wird als cross-modaler Adaptor für das Vicuna-Rahmenwerk verwendet, um seinen Ausgaberaum mit seinem augmentierten Eingaberaum in einem Versuch, seine Leistung weiter zu verbessern, auszurichten. Im SALMONN-Rahmenwerk besteht die Fähigkeit, cross-modale Aufgaben auszuführen, die während des Trainings nicht gesehen wurden, als cross-modale emergente Fähigkeiten, die während des Trainings von Anweisungen verloren gegangen sind, und daher implementiert das SALMONN-Rahmenwerk eine zusätzliche Few-Shot-Aktivierungsstufe, um die allgemeinen emergenten Fähigkeiten des LLM-Rahmenwerks wiederzuerlangen.

Darüber hinaus verwendet das Rahmenwerk eine breite Palette von Audio-Ereignissen, Musikbenchmarks und Sprachbenchmarks, um seine kognitiven Hörvermögen zu bewerten und teilt die Benchmarks in drei Ebenen ein. Auf der ersten Benchmark-Ebene trainiert das Rahmenwerk acht Aufgaben im Anweisungstraining, einschließlich Übersetzung, Audio-Beschriftung und Spracherkennung. Die anderen beiden Benchmark-Ebenen sind untrainierte Aufgaben, wobei die zweite Benchmark-Ebene aus fünf sprachbasierten NLP-Aufgaben besteht, wie z.B. Slot-Füllung und Übersetzung in untrainierte Sprachen, die auf hochwertigen multilingualen Ausrichtungen zwischen Text- und Sprach-Token basieren. Die finalen Benchmark-Aufgaben versuchen, Sprach- und Nicht-Sprach-Auditivinformationen für Sprach-Audio-Co-Reasoning und Audio-basierte Erzählung zu verstehen.

Zusammenfassend ist das SALMONN-Rahmenwerk

Das erste multimodale Large Language Model, das in der Lage ist, generische Audio-Eingaben, einschließlich Audio-Ereignissen, Sprache und Musik, zu verstehen und zu verarbeiten.
Ein Versuch, cross-modale emergente Fähigkeiten durch die Implementierung des LoRA-Skalierungsfaktors und die Verwendung einer zusätzlichen budgetfreundlichen Aktivierungsstufe während des Trainings zu aktivieren, um cross-modale emergente Fähigkeiten des Rahmenwerks zu aktivieren.

SALMONN : Architektur und Methodik

In diesem Abschnitt werden wir uns mit der Architektur, der Trainingsmethode und dem experimentellen Setup für das SALMONN-Rahmenwerk auseinandersetzen.

Modell-Architektur

Im Kern seiner Architektur synchronisiert und kombiniert das SALMONN-Rahmenwerk die Ausgaben von zwei auditiven Encodern, gefolgt von der Implementierung eines Q-Formers auf Frame-Ebene als Verbindungsmodule. Die Ausgabe-Sequenz, die vom Q-Former generiert wird, wird mit Text-Anweisungsprompts verbunden und als Eingabe für den LoRA-Adaptionsansatz verwendet, um die erforderliche Antwort zu generieren.

Auditiver Encoder

Das SALMONN-Rahmenwerk verwendet zwei auditiven Encoder: einen Nicht-Sprach-BEATs-Audio-Encoder und einen Sprach-Encoder, der aus dem OpenAI-Whisper-Rahmenwerk stammt. Der BEATs-Audio-Encoder wird trainiert, um den selbstüberwachten iterativen Lernalgorithmus zu verwenden, um Nicht-Sprach-Hochlevel-Audio-Semantik zu extrahieren, während der Sprach-Encoder auf einer großen Menge schwach überwachter Daten für Spracherkennung und Sprachübersetzungsaufgaben trainiert wird, wobei die Ausgabe-Features des Encoders geeignet sind, um Hintergrundgeräusche und Sprachinformationen zu enthalten. Das Modell tokenisiert zunächst die Eingabe-Audio und maskiert und prognostiziert sie während des Trainings. Die resultierenden auditiven Features dieser beiden Encoder ergänzen sich gegenseitig und sind geeignet für sowohl Sprach- als auch Nicht-Sprach-Informationen.

Fenster-Level-Q-Former

Die Implementierung der Q-Former-Struktur ist ein häufiger Ansatz, der in LLM-Rahmenwerken verwendet wird, um die Ausgabe eines Bild-Encoders in textuelle Eingabe-Tokens umzuwandeln, und einige Modifikationen sind erforderlich, wenn es um Audio-Tokens mit variabler Länge geht. Um genauer zu sein, betrachtet das Rahmenwerk die Ausgabe des Eingabe-Bildes als eine verkettete Ausgabe-Sequenz des Encoders, und der Q-Former setzt eine feste Anzahl trainierbarer Abfragen ein, um die Ausgabe-Sequenz des Encoders in textuelle Tokens mithilfe gestapelter Q-Former-Blöcke umzuwandeln. Ein gestapelter Q-Former-Block ähnelt einem Transformer-Decoder-Block, wobei die Ausnahmen darin bestehen, die kausalen Masken in den Selbstaufmerksamkeitsschichten zu entfernen und eine feste Anzahl trainierbarer statischer Abfragen in den anfänglichen Blöcken zu verwenden.

LoRA und LLM

Das SALMONN-Rahmenwerk setzt auch ein Vicuna-LLM ein, das ein LLaMA-Large-Language-Model-Rahmenwerk ist, das für eine genauere und effektivere Anweisungsbefolgung fein abgestimmt wurde. Der LoRA-Rahmenwerk ist eine gängige Methode, die für parameter-effizientes Feinabstimmen verwendet wird, und seine Einbeziehung in das SALMONN-Rahmenwerk, um Wert-Gewichts-Matrizen und die Abfrage in den Selbstaufmerksamkeitsschichten anzupassen.

Trainingsmethode

Das SALMONN-Rahmenwerk verwendet eine dreistufige cross-modale Trainingsmethode. Die Trainingsphase umfasst eine Vortrainingsphase und eine Anweisungsfeinabstimmungsphase, die in den meisten visuellen LLM-Rahmenwerken enthalten sind, und eine zusätzliche Aktivierungsfeinabstimmungsphase wird implementiert, um Überanpassungsprobleme bei Audio-Beschriftungs- und Spracherkennungsaufgaben zu lösen.

Vortrainingsphase

Um die Lücke zwischen vorgefertigten Parametern, einschließlich Encoder und LLM, und zufällig initialisierten Parametern, einschließlich Adaptor und Verbindungsmodule, zu begrenzen, verwendet das SALMONN-Rahmenwerk eine große Menge an Audio-Beschriftungs- und Spracherkennungsdaten, um die LoRA- und Q-Former-Komponenten vorzutrainieren. Diese Aufgaben enthalten wichtige auditiven Informationen über die Schlüsselinhalte von Audio-Ereignissen, sowohl Sprach- als auch Nicht-Sprach-, und erfordern keine komplexe Verständnis oder Argumentation, um die Ausrichtung zwischen textuellen und auditiven Informationen zu lernen.

Anweisungsfeinabstimmungsphase

Die Anweisungsfeinabstimmungsphase, die im SALMONN-Rahmenwerk implementiert wird, ähnelt derjenigen, die in NLP- und visuellen LLM-Rahmenwerken verwendet wird, indem eine Liste von Audio-Ereignissen, Musik- und Sprachaufgaben verwendet wird, um audio-textuelle Anweisungen fein abzustimmen. Die Aufgaben werden nach ihrer Bedeutung in verschiedenen Tests priorisiert, einschließlich Telefonerkennung, überlappender Spracherkennung und Musik-Beschriftung. Darüber hinaus bildet textuelle Information, die mit Audio-Daten gepaart ist, die Grundlage für die Generierung von Anweisungsprompts.

Aufgaben-Überanpassung

Selbst wenn nur die ersten beiden Trainingsphasen implementiert werden, liefert das SALMONN-Rahmenwerk wettbewerbsfähige Ergebnisse auf Anweisungsfeinabstimmungsaufgaben, obwohl die Leistung nicht den Erwartungen entspricht, wenn es um cross-modale Aufgaben geht, insbesondere bei Aufgaben, die cross-modale Co-Reasoning-Fähigkeiten erfordern. Insbesondere verletzt das Modell gelegentlich Anweisungsprompts, was zur Generierung irrelevanter oder falscher Antworten führt, und dieses Phänomen wird als Aufgaben-Überanpassung im SALMONN-Rahmenwerk bezeichnet, und die Aktivierungsfeinabstimmungsphase wird implementiert, um diese Überanpassungsprobleme zu lösen.

Aktivierungsfeinabstimmungsphase

Ein effektiver Ansatz, um Überanpassungsprobleme zu lösen, besteht darin, intrinsische bedingte Sprachmodelle mithilfe längerer und vielfältigerer Antworten wie Erzählungen oder auditiver Informationen-basierter Fragebeantwortung zu regularisieren. Das Rahmenwerk generiert dann die Paar-Trainingsdaten für solche Aufgaben mithilfe von Text, der mit Audio oder Sprache oder Musik-Beschriftungen gepaart ist.

Aufgaben-Spezifikationen

Um die Null-Shot-cross-modale emergenten Fähigkeiten des SALMONN-Rahmenwerks zu bewerten, haben die Entwickler 15 Sprach-, Audio- und Musik-Aufgaben über drei Ebenen hinweg aufgenommen.

Stufe 1

Auf der ersten Stufe werden Aufgaben für Anweisungsfeinabstimmung verwendet und sind daher die einfachste Aufgabenmenge, die das SALMONN-Rahmenwerk ausführen muss.

Stufe 2

Die zweite Stufe besteht aus untrainierten Aufgaben und die Komplexität ist höher im Vergleich zu den Aufgaben der Stufe 1. Auf der Stufe 2 sind die Aufgaben NLP-basierte Aufgaben, einschließlich Sprach-Schlüsselwort-Extraktion, die zur Bewertung der Genauigkeit des Rahmenwerks bei der Extraktion bestimmter Schlüsselwörter mithilfe von Sprache verwendet wird. Andere Aufgaben umfassen SQQA oder Sprach-basierte Fragebeantwortung, die die gemeinsame Verständnisbasis des Rahmenwerks bewertet, die mithilfe von Sprachfragen extrahiert wird, eine SF- oder Sprach-basierte Slot-Füllungsaufgabe, um die Genauigkeit der Slot-Werte zu bewerten, und schließlich zwei AST-Aufgaben für Englisch-Deutsch- und Englisch-Japanisch-Konvertierungen.

Stufe 3

Die Komplexität der Aufgaben auf Stufe 3 ist die höchste im Vergleich zu den anderen beiden Stufen und umfasst SAC oder Sprach-Audio-Co-Reasoning und Audio-basierte Erzählungsaufgaben. Die SAC-Aufgabe erfordert, dass das SALMONN-Rahmenwerk eine Frage in einem Audio-Clip versteht, der dem Modell zugeführt wird, unterstützende Beweise mithilfe von Audio-Ereignissen oder Musik im Hintergrund findet und schließlich eine angemessene Begründung generiert, um die Frage zu beantworten. Die Audio-basierten Erzählungsaufgaben erfordern, dass das Modell eine sinnvolle Geschichte auf der Grundlage der auditiven Informationen aus allgemeinen Audio-Eingaben generiert.

Ergebnisse

Stufe-1-Aufgaben

Die folgende Tabelle zeigt die Ergebnisse auf Stufe-1-Aufgaben, und wie zu sehen ist, liefert das SALMONN-Rahmenwerk wettbewerbsfähige Ergebnisse auf Stufe-1-Aufgaben mit oder ohne Aktivierungsfeinabstimmung.

Stufe-2- und Stufe-3-Aufgaben

Obwohl das SALMONN-Rahmenwerk wettbewerbsfähige Ergebnisse auf Stufe-1-Aufgaben liefert, auch ohne Feinabstimmung, kann dasselbe nicht für Stufe-2- und Stufe-3-Aufgaben gesagt werden, da das Modell ohne Aktivierungsfeinabstimmung stark unter Überanpassung auf Aufgaben leidet, insbesondere bei Aufgaben, die cross-modale Co-Reasoning-Fähigkeiten erfordern. Insbesondere leidet die Leistung weiter ab, wenn es um multimodale Interaktionen geht, und das SALMONN-Rahmenwerk hat Schwierigkeiten, Anweisungen ohne Aktivierungsfeinabstimmung zu befolgen. Allerdings verbessern sich die Ergebnisse erheblich mit Aktivierungsfeinabstimmung, und die Ergebnisse sind in der folgenden Abbildung enthalten.

Abschalten des LoRA-Skalierungsfaktors

Das Abschalten des LoRA-Skalierungsfaktors bewertet den Einfluss der Verwendung von Zeit-Test-Abzügen des LoRA-Skalierungsfaktors, um Überanpassungsprobleme auf Aufgaben zu minimieren. Wie in der folgenden Abbildung zu sehen ist, erhöht eine Verringerung des LoRA-Skalierungsfaktors auf 2,0 die cross-modale Argumentationsfähigkeit des SALMONN-Rahmenwerks auf ASR- und PR-Aufgaben, SQQA-Aufgaben, Erzählungsaufgaben und SAC-Aufgaben.

Auswertung der Aufgaben-Überanpassung

Um die Betonung auf Aktivierungsfeinabstimmung zu legen, analysiert das SALMONN-Rahmenwerk die Änderungen der Perplexität während der drei Trainingsphasen, und wie in der folgenden Abbildung zu sehen ist, haben die Änderungen der Perplexität für AAC- und ASR-Aufgaben kleine Endwerte nach der ersten Trainingsphase, was auf das Lernen des Modells von cross-modalen Ausrichtungen hinweist.

Darüber hinaus sinkt die Perplexität der PR-Aufgabe auch nach der Anweisungsfeinabstimmung aufgrund ihrer Abhängigkeit von der LoRA-Komponente, um die Ausgabe-Tokens zu lernen. Es wird auch beobachtet, dass die Anweisungsfeinabstimmung hilft, die Perplexität auf Erzählungs- und SAC-Aufgaben zu verringern, aber die Lücke ist immer noch groß genug, um die Aufgaben erfolgreich auszuführen, es sei denn, eine zusätzliche Aktivierungsstufe hinzugefügt oder die LoRA-Komponente entfernt wird.

Aktivierungsfeinabstimmung

Das SALMONN-Rahmenwerk untersucht verschiedene Aktivierungsansätze, einschließlich des Trainings des Modells auf textbasierten QA-Aufgabenpaaren mit langen Antworten oder der Verwendung von audio-basierten langen geschriebenen Erzählungen, während die Verwendung langer Sprachtranskriptionen für ASR-Aufgaben. Sowohl die Q-Former- als auch die LoRA-Komponenten werden mithilfe dieser drei Methoden fein abgestimmt. Darüber hinaus ignoriert das Rahmenwerk die Audio- und Q-Former-Eingaben, um die LoRA- und Vicuna-Komponenten als adaptives textbasiertes Large Language Model fein abzustimmen, und die Ergebnisse sind in der folgenden Abbildung enthalten, und wie zu sehen ist, kann das Modell nicht durch ASR (Trainieren von ASR mit langen Labels) oder Story oder Text-basiert durch das Trainieren der LoRA-Komponente mithilfe von Text-Prompt-Eingaben aktiviert werden.

Letzte Gedanken

In diesem Artikel haben wir über SALMONN oder Speech Audio Language Music Open Neural Network gesprochen, ein einzelnes audio-textuelles multimodales Large Language Model-Rahmenwerk, das in der Lage ist, drei grundlegende Audio- oder Soundtypen wahrzunehmen und zu verstehen, einschließlich Sprache, Audio-Ereignissen und Musik. Das SALMONN-Modell ermöglicht es Large Language Modellen, generische Audio-Eingaben direkt zu verstehen und zu verarbeiten und liefert wettbewerbsfähige Leistungen auf einer breiten Palette von Audio- und Sprachaufgaben.

Das SALMONN-Rahmenwerk liefert wettbewerbsfähige Leistungen auf einer breiten Palette von trainierten Aufgaben, einschließlich Audio-Beschriftung, Sprachübersetzung und -erkennung und mehr, während es sich auf eine Vielzahl von untrainierten Verständigungsaufgaben, einschließlich Sprachübersetzung für Schlüsselwort-Extraktion und untrainierte Sprachen, verallgemeinert. Aufgrund seiner Fähigkeiten kann das SALMONN-Rahmenwerk als der nächste Schritt zur Verbesserung der generischen Hörvermögen von Large Language Modellen betrachtet werden.