Künstliche Intelligenz

SALMONN: Einleitung in Single-Audio-Text-Multimodale Große Sprachmodelle

mm

Hören, das die Wahrnehmung und das Verständnis generischer auditorischer Informationen beinhaltet, ist für KI-Agenten in realen Umgebungen von entscheidender Bedeutung. Diese auditorischen Informationen umfassen drei primäre Soundtypen: Musik, Audio-Ereignisse und Sprache. Kürzlich haben textbasierte Große Sprachmodell-Frameworks (LLM) bemerkenswerte Fähigkeiten gezeigt und humanes Leistungsniveau in einer breiten Palette von Natural Language Processing (NLP)-Aufgaben erreicht. Darüber hinaus ist die Anweisungstuning-Methode, eine Trainingsmethode, die Paare von Referenzantworten und Benutzeranweisungen verwendet, beliebt geworden. Diese Methode trainiert große Sprachmodelle, um offene Benutzeranweisungen effektiver zu befolgen. Allerdings konzentriert sich die aktuelle Forschung zunehmend auf die Erweiterung großer Sprachmodelle um die Fähigkeit, multimodale Inhalte wahrzunehmen.

Mit demselben Fokus werden wir in diesem Artikel über SALMONN oder Speech Audio Language Music Open Neural Network sprechen, ein state-of-the-art-Offen-Sprach-Audio-Sprache-Musik-Neuronales-Netzwerk, das durch die Kombination von Sprach- und Audio-Encodern mit einem vorgefertigten textbasierten Großen Sprachmodell in ein einzelnes audio-text-multimodales Modell aufgebaut wird. Das SALMONN-Modell ermöglicht es Großen Sprachmodellen, generische Audio-Eingaben direkt zu verstehen und zu verarbeiten und liefert wettbewerbsfähige Leistungen in einer breiten Palette von Audio- und Sprachaufgaben, die während des Trainings verwendet werden, einschließlich auditorischer Informationen-basierter Fragebeantwortung, Spracherkennung und -übersetzung, Sprecherüberprüfung, Emotionserkennung, Audio- und Musikbeschreibung und vielem mehr. Wir werden einen tieferen Einblick in das SALMONN-Framework nehmen und seine Funktionsweise, Architektur und Ergebnisse in einer breiten Palette von NLP-Aufgaben untersuchen. Also los geht’s.

SALMONN: Eine Einführung in Single-Audio-Text-Multimodale Große Sprachmodelle

SALMONN steht für Speech Audio Language Music Open Neural Network und ist ein einzelnes audio-text-multimodales Großes Sprachmodell-Framework, das in der Lage ist, drei grundlegende Audio- oder Soundtypen wahrzunehmen und zu verstehen, einschließlich Sprache, Audio-Ereignissen und Musik. Das SALMONN-Modell ermöglicht es Großen Sprachmodellen, generische Audio-Eingaben direkt zu verstehen und zu verarbeiten und liefert wettbewerbsfähige Leistungen in einer breiten Palette von Audio- und Sprachaufgaben.

Um seine Leistung bei sowohl Sprach- als auch Nicht-Sprach-Audio-Aufgaben zu verbessern, verwendet das SALMONN-Framework eine duale Encoder-Struktur, bestehend aus einem BEATs-Audio-Encoder und einem Sprach-Encoder, der aus dem Whisper-Sprachmodell stammt. Darüber hinaus verwendet das SALMONN-Framework auch ein Fenster-Ebene-Q-Former oder Query-Transformer als Verbindungsmodule, um die Ausgabe-Sequenz eines variablen Längen-Encoders effektiv in augmentierte Audio-Tokens einer variablen Anzahl umzuwandeln und letztendlich eine hohe zeitliche Auflösung für Audio-Text-Alignment zu erreichen. Der LoRA- oder Low-Rank-Adaptations-Ansatz wird als cross-modaler Adapter zum Vicuna-Framework verwendet, um den Ausgabe-Raum mit dem augmentierten Eingabe-Raum auszurichten und seine Leistung weiter zu verbessern. Im SALMONN-Framework besteht die Fähigkeit, cross-modale Aufgaben zu lösen, die während des Trainings nicht gesehen wurden, als cross-modale emergente Fähigkeiten, die während des Trainings von Anweisungen verloren gehen, und dies ist der Hauptgrund, warum das SALMONN-Framework eine zusätzliche Few-Shot-Activation-Phase implementiert, um die allgemeinen emergenten Fähigkeiten des LLM-Frameworks wiederzuerlangen.

Darüber hinaus verwendet das Framework eine breite Palette von Audio-Ereignissen, Musik-Benchmarks und Sprach-Benchmarks, um seine kognitiven Hörfähigkeiten zu bewerten und teilt die Benchmarks in drei Ebenen ein. Auf der ersten Benchmark-Ebene trainiert das Framework acht Aufgaben im Anweisungstraining, einschließlich Übersetzung, Audio-Beschreibung und Spracherkennung. Die anderen beiden Benchmark-Ebenen sind untrainierte Aufgaben, wobei die zweite Benchmark-Ebene aus fünf sprachbasierten NLP-Aufgaben wie Slot-Füllung und Übersetzung in untrainierte Sprachen besteht, die auf hochwertigen multilingualen Ausrichtungen zwischen Text- und Sprach-Tokens basieren. Die letzten Benchmark-Aufgaben versuchen, Sprach- und Nicht-Sprach-auditorische Informationen für Sprach-Audio-Co-Reasoning und Audio-basierte Erzählung zu verstehen.

Zusammenfassend ist das SALMONN-Framework

  1. Das erste multimodale Große Sprachmodell, das in der Lage ist, generische Audio-Eingaben zu verstehen und wahrzunehmen, einschließlich Audio-Ereignissen, Sprache und Musik, bis zum Maximum seiner Fähigkeiten.
  2. Ein Versuch, cross-modale emergente Fähigkeiten zu analysieren, die durch die Implementierung des LoRA-Skalierungsfaktors und die Verwendung einer zusätzlichen budgetfreundlichen Activation-Phase während des Trainings zur Aktivierung cross-modaler emergenter Fähigkeiten des Frameworks angeboten werden.

SALMONN: Architektur und Methodik

In diesem Abschnitt werden wir uns mit der Architektur, der Trainingsmethode und der experimentellen Einrichtung für das SALMONN-Framework auseinandersetzen.

Modell-Architektur

Im Kern seiner Architektur synchronisiert und kombiniert das SALMONN-Framework die Ausgaben von zwei auditorischen Encodern, gefolgt von der Implementierung eines Q-Formers auf der Frame-Ebene als Verbindungsmodule. Die Ausgabe-Sequenz, die vom Q-Former generiert wird, wird mit Text-Anweisungsprompts verbunden und als Eingabe für den LoRA-Adaptions-Ansatz verwendet, um die erforderliche Antwort zu generieren.

Auditorische Encoder

Das SALMONN-Framework verwendet zwei auditorische Encoder: einen Nicht-Sprach-BEATs-Audio-Encoder und einen Sprach-Encoder, der aus dem Whisper-Sprachmodell stammt. Der BEATs-Audio-Encoder wird trainiert, um die selbstüberwachte iterative Lernmethode zu verwenden, um nicht-sprachliche hohe Audio-Semantik zu extrahieren, während der Sprach-Encoder auf einer großen Menge schwach überwachter Daten für Spracherkennung und Sprachübersetzungsaufgaben trainiert wird, wobei die Ausgabe-Features des Encoders geeignet sind, um Hintergrundgeräusche und Sprachinformationen zu enthalten. Das Modell tokenisiert zunächst die Eingabe-Audio und maskiert und prognostiziert sie während des Trainings. Die resultierenden auditorischen Features dieser beiden Encoder ergänzen sich gegenseitig und sind für sowohl Sprach- als auch Nicht-Sprach-Informationen geeignet.

Fenster-Ebene-Q-Former

Die Implementierung der Q-Former-Struktur ist ein gemeinsamer Ansatz, der in LLM-Frameworks verwendet wird, um die Ausgabe eines Bild-Encoders in textuelle Eingabe-Tokens umzuwandeln, und einige Modifikationen sind erforderlich, wenn es um Audio-Tokens mit variabler Länge geht. Um genauer zu sein, betrachtet das Framework die Ausgabe des Encoder-Outputs der Eingabe-Bildes als eine verkettete Encoder-Output-Sequenz, und der Q-Former setzt eine feste Anzahl von trainierbaren Abfragen ein, um die Encoder-Output-Sequenz in textuelle Tokens mithilfe von gestapelten Q-Former-Blöcken umzuwandeln. Ein gestapelter Q-Former-Block ähnelt einem Transformer-Decoder-Block, wobei die kausalen Masken in den Selbst-Aufmerksamkeits-Schichten entfernt und eine feste Anzahl von trainierbaren statischen Abfragen in den anfänglichen Blöcken verwendet werden.

LoRA und LLM

Das SALMONN-Framework setzt auch ein Vicuna-LLM ein, das ein LLaMA-Großes Sprachmodell-Framework ist, das für die bessere Befolgung von Anweisungen feinabgestimmt wurde, und effektiv. Der LoRA-Framework ist eine gemeinsame Methode für parameter-effizientes Feinabstimmen, und seine Einbeziehung in das SALMONN-Framework, um Wert-Gewichts-Matrizen und die Abfrage in den Selbst-Aufmerksamkeits-Schichten anzupassen.

Trainingsmethode

Das SALMONN-Framework verwendet einen dreistufigen cross-modalen Trainingsansatz. Die Trainingsphase umfasst eine Vortrainingsphase und eine Anweisungstuning-Phase, die in den meisten visuellen LLM-Frameworks enthalten sind, und eine zusätzliche Activation-Tuning-Phase wird implementiert, um Überanpassungsprobleme zu lösen, die während der Audio-Beschreibung und der Spracherkennungsaufgaben auftreten.

Vortrainingsphase

Um die Lücke zwischen vorgefertigten Parametern, einschließlich Encodern und LLM, und zufällig initialisierten Parametern, einschließlich Adapter- und Verbindungsmodule, zu begrenzen, verwendet das SALMONN-Framework eine große Menge an Audio-Beschreibung- und Spracherkennungs-Daten, um die LoRA- und Q-Former-Komponenten vorzutrainieren. Diese Aufgaben enthalten wichtige auditorische Informationen über die Schlüsselinhalte von Audio-Ereignissen, sowohl Sprach- als auch Nicht-Sprach-, und keines von ihnen erfordert komplexe Verständnis oder Argumentation, um die Ausrichtung zwischen textuellen und auditorischen Informationen zu lernen.

Anweisungstuning-Phase

Die Anweisungstuning-Phase, die im SALMONN-Framework implementiert ist, ähnelt derjenigen, die in NLP- und visuellen LLM-Frameworks verwendet wird, indem eine Liste von Audio-Ereignissen, Musik-Aufgaben und Sprach-Ereignissen verwendet wird, um die Audio-Text-Anweisungen feinabzustimmen. Die Aufgaben werden priorisiert, basierend auf ihrer Bedeutung in verschiedenen Tests, einschließlich Telefon-Erkennung, überlappender Spracherkennung und Musik-Beschreibung. Darüber hinaus bilden textuelle Informationen, die mit Audio-Daten gepaart sind, die Grundlage für die Generierung von Anweisungsprompts.

Aufgaben-Überanpassung

Selbst wenn nur die ersten beiden Trainingsphasen implementiert werden, liefert das SALMONN-Framework wettbewerbsfähige Ergebnisse auf Anweisungstuning-Aufgaben, obwohl die Leistung nicht ausreichend ist, wenn es um cross-modale Aufgaben geht, insbesondere bei Aufgaben, die cross-modale Co-Reasoning-Fähigkeiten erfordern. Insbesondere verletzt das Modell gelegentlich Anweisungsprompts, was zur Generierung von irrelevanten oder falschen Antworten führt, und dieses Phänomen wird im SALMONN-Framework als Aufgaben-Überanpassung bezeichnet, und die Activation-Tuning-Phase wird implementiert, um diese Überanpassungsprobleme zu lösen.

Activation-Tuning-Phase

Ein effektiver Ansatz, um Überanpassungsprobleme zu lösen, besteht darin, intrinsische bedingte Sprachmodelle mithilfe längerer und vielfältigerer Antworten wie Erzählungen oder auditorischer Informationen-basierter Fragebeantwortung zu regularisieren. Das Framework generiert dann die Paar-Trainingsdaten für solche Aufgaben, indem Text mit Audio- oder Sprach- oder Musik-Beschreibungen gepaart wird.

Aufgaben-Spezifikationen

Um die Null-Shot-cross-modale emergente Fähigkeiten von SALMONN zu bewerten, haben die Entwickler 15 Sprach-, Audio- und Musik-Aufgaben in drei Ebenen unterteilt.

Ebene 1

Auf der ersten Ebene werden Aufgaben für die Anweisungstuning verwendet, und daher sind sie die einfachsten Aufgaben, die das SALMONN-Framework ausführen muss.

Ebene 2

Die zweite Ebene besteht aus untrainierten Aufgaben, und das Komplexitätsniveau ist höher im Vergleich zu den Aufgaben der Ebene 1. Auf der Ebene 2 sind die Aufgaben NLP-basierte Aufgaben, einschließlich Sprach-Schlüsselwort-Extraktion, die verwendet wird, um die Genauigkeit des Frameworks bei der Extraktion bestimmter Schlüsselwörter mithilfe von Sprache zu bewerten. Andere Aufgaben umfassen SQQA oder gesprochene Query-basierte Fragebeantwortung, die die allgemeine Wissensbasis des Frameworks extrahiert, die mithilfe von Sprach-Fragen verwendet wird, eine SF- oder Sprach-basierte Slot-Füllungsaufgabe, um die Genauigkeit der Slot-Werte zu bewerten, und schließlich gibt es zwei AST-Aufgaben für Englisch-Deutsch- und Englisch-Japanisch-Konvertierungen.

Ebene 3

Die Komplexität der Aufgaben auf der Ebene 3 ist die höchste im Vergleich zu den anderen beiden Ebenen und umfasst SAC oder Sprach-Audio-Co-Reasoning und Audio-basierte Erzählungsaufgaben. Die SAC-Aufgabe erfordert, dass das SALMONN-Framework eine Frage in einem Audio-Clip versteht, der dem Modell zugeführt wird, unterstützende Beweise mithilfe von Audio-Ereignissen oder Musik im Hintergrund findet und schließlich eine angemessene Begründung zur Beantwortung der Frage generiert. Die Audio-basierten Erzählungsaufgaben erfordern, dass das Modell eine sinnvolle Geschichte auf der Grundlage der auditorischen Informationen aus allgemeinen Audio-Eingaben generiert.

Ergebnisse

Ebene 1-Aufgaben

Die folgende Tabelle zeigt die Ergebnisse auf den Ebene-1-Aufgaben, und wie es zu sehen ist, liefert das SALMONN-Framework wettbewerbsfähige Ergebnisse auf den Ebene-1-Aufgaben mit oder ohne Activation-Tuning.

Ebene 2- und 3-Aufgaben

Obwohl das SALMONN-Framework wettbewerbsfähige Ergebnisse auf den Ebene-1-Aufgaben liefert, auch ohne Feinabstimmung, kann das Gleiche nicht für die Ebene-2- und Ebene-3-Aufgaben gesagt werden, da das SALMONN-Framework ohne Activation-Tuning stark unter Überanpassung auf Aufgaben leidet. Die Leistung sinkt noch weiter auf SQQA-, SAC- und Erzählungsaufgaben mit Betonung auf multimodale Interaktionen, und das SALMONN-Framework hat Schwierigkeiten, Anweisungen ohne Activation-Tuning zu befolgen. Allerdings verbessern sich die Ergebnisse erheblich mit Activation-Tuning, und die Ergebnisse sind in der folgenden Abbildung enthalten.

LoRA-Skalierungsfaktor-Discounting

LoRA-Skalierungsfaktor-Discounting bewertet den Einfluss der Verwendung von Zeit-Test-Discounting des LoRA-Skalierungsfaktors, um Überanpassungsprobleme auf Aufgaben zu minimieren. Wie in der folgenden Abbildung zu sehen ist, erhöht eine Verringerung des LoRA-Skalierungsfaktors auf 2,0 die cross-modale Reasoning-Fähigkeit des SALMONN-Frameworks auf ASR- und PR-Aufgaben, SQQA-Aufgaben, Erzählungsaufgaben und SAC-Aufgaben.

Aufgaben-Überanpassungsbewertung

Um die Activation-Tuning zu betonen, analysiert das SALMONN-Framework die Änderungen der Perplexität während der drei Trainingsphasen, und wie es in der folgenden Abbildung zu sehen ist, haben die Perplexitätsänderungen für AAC- und ASR-Aufgaben kleine Endwerte nach der ersten Trainingsphase, was auf das Lernen der cross-modalen Ausrichtungen des Modells hinweist.

Darüber hinaus sinkt die Perplexität der PR-Aufgabe auch nach der Anweisungstuning, da sie auf die LoRA-Komponente angewiesen ist, um die Ausgabe-Tokens zu lernen. Es wird auch beobachtet, dass die Anweisungstuning hilft, die Perplexität auf Erzählung und SAC-Aufgaben zu reduzieren, aber die Lücke ist immer noch groß genug, um die Aufgaben erfolgreich auszuführen, es sei denn, eine zusätzliche Activation-Phase wird hinzugefügt oder die LoRA-Komponente wird entfernt.

Activation-Tuning

Das SALMONN-Framework untersucht verschiedene Activation-Methoden, einschließlich des Trainings des Modells auf textbasierten QA-Aufgaben-Paaren mit langen Antworten oder der Verwendung von audio-basierten langen geschriebenen Geschichten, während die Verwendung von langen Sprachtranskriptionen für ASR-Aufgaben verwendet wird. Sowohl die Q-Former- als auch die LoRA-Komponenten werden mithilfe dieser drei Methoden feinabgestimmt. Darüber hinaus ignoriert das Framework die Audio- und Q-Former-Eingaben, um die LoRA- und Vicuna-Komponenten als adaptives textbasiertes Großes Sprachmodell feinabzustimmen, und die Ergebnisse sind in der folgenden Abbildung enthalten, und wie es zu sehen ist, kann das Modell nicht durch ASR (Trainings-ASR mit langen Labels) oder Story- oder textbasierte Aktivierung durch das Training der LoRA-Komponente mit Text-Prompts aktiviert werden.

Schlussgedanken

In diesem Artikel haben wir über SALMONN oder Speech Audio Language Music Open Neural Network gesprochen, ein einzelnes audio-text-multimodales Großes Sprachmodell-Framework, das in der Lage ist, drei grundlegende Audio- oder Soundtypen wahrzunehmen und zu verstehen, einschließlich Sprache, Audio-Ereignissen und Musik. Das SALMONN-Modell ermöglicht es Großen Sprachmodellen, generische Audio-Eingaben direkt zu verstehen und zu verarbeiten und liefert wettbewerbsfähige Leistungen in einer breiten Palette von Audio- und Sprachaufgaben.

Das SALMONN-Framework liefert wettbewerbsfähige Leistungen in einer breiten Palette von trainierten Aufgaben, einschließlich Audio-Beschreibung, Sprachübersetzung und -erkennung und mehr, während es sich auf eine Vielzahl von untrainierten Verständigungsaufgaben verallgemeinert, einschließlich Sprachübersetzung für Schlüsselwort-Extraktion und untrainierte Sprachen. Aufgrund seiner Fähigkeiten kann das SALMONN-Framework als der nächste Schritt zur Verbesserung der generischen Hörfähigkeiten von Großen Sprachmodellen betrachtet werden.

Ein Ingenieur von Beruf, ein Schriftsteller von Herzen. Kunal ist ein technischer Schriftsteller mit einer tiefen Liebe und einem tiefen Verständnis für KI und ML, der sich der Aufgabe widmet, komplexe Konzepte in diesen Bereichen durch seine ansprechenden und informativen Dokumentationen zu vereinfachen.