인공지능

Salmonn: 대규모 언어 모델을 위한 일반적 청각 능력 향상

Published November 28, 2023

Updated April 4, 2026

Kunal Kejriwal

청각은 실세계 환경에서 AI 에이전트에게 필수적인 것으로, 일반적인 청각 정보의 인식과 이해를 포함한다. 이러한 청각 정보는 음악, 오디오 이벤트 및 음성의 세 가지 주요 사운드 유형으로 구성된다. 최근에는 텍스트 기반의 대규모 언어 모델(LLM) 프레임워크가 탁월한 능력을 보여주었으며, 자연어 처리(NLP) 작업의 광범위한 분야에서 인간 수준의 성능을 달성하였다. 또한, 사용자 지시를 더 효과적으로 따라가도록 대규모 언어 모델을 훈련하는 방법으로 사용되는 참조 응답과 사용자 프롬프트의 쌍을 사용하는 지시 튜닝이 인기를 얻고 있다. 그러나 현재 연구는 다중 모드 콘텐츠의 인식 능력을 대규모 언어 모델에 부여하는 데 점점 더 집중되고 있다.

同じ 것을 중점으로, 이 기사에서는 SALMONN 또는 Speech Audio Language Music Open Neural Network에 대해 이야기할 것이다. SALMONN은 사전 훈련된 텍스트 기반의 대규모 언어 모델에 음성 및 오디오 인코더를 통합하여 단일 오디오-텍스트 다중 모드 모델을 구축하는 최첨단 오픈 음성 오디오 언어 음악 신경 네트워크이다. SALMONN 모델은 대규모 언어 모델이 직접 일반적인 오디오 입력을 이해하고 처리할 수 있도록 하며, 훈련에 사용되는 오디오 및 음성 작업의 광범위한 배열에서 경쟁력 있는 성능을 제공한다. 이러한 작업에는 청각 정보 기반 질문 답변, 음성 인식 및 번역, 화자 확인, 감정 인식, 오디오 및 음악 캡션 등이 포함된다. SALMONN 프레임워크, 작동, 아키텍처 및 다양한 NLP 작업에 대한 결과를 더 깊이 있게 살펴보겠다. 시작해 보자.

SALMONN : 단일 오디오-텍스트 다중 모드 대규모 언어 모델 소개

SALMONN은 Speech Audio Language Music Open Neural Network의 약자이며, 음성, 오디오 이벤트 및 음악을 포함하는 세 가지 기본 오디오 또는 사운드 유형을 인식하고 이해할 수 있는 단일 오디오-텍스트 다중 모드 대규모 언어 모델 프레임워크이다. SALMONN 모델은 대규모 언어 모델이 직접 일반적인 오디오 입력을 이해하고 처리할 수 있도록 하며, 오디오 및 음성 작업의 광범위한 배열에서 경쟁력 있는 성능을 제공한다.

음성 및 비음성 오디오 작업 모두에서 성능을 향상시키기 위해 SALMONN 프레임워크는 BEATs 오디오 인코더와 Whisper 음성 모델에서 가져온 음성 인코더를 포함하는 쌍의 인코더 구조를 사용한다. 또한 SALMONN 프레임워크는 변수 길이의 인코더 출력 시퀀스를 변수 개수의 증강 오디오 토큰으로 효과적으로 변환하여 오디오-텍스트 정렬에 대한 높은 시간 분해능을 달성하기 위해 연결 모듈로 변수 수준 Q-Former 또는 쿼리 트랜스포머를 사용한다. LoRA 또는 Low Rank Adaptation 접근 방식은 Vicuna 프레임워크의 출력 공간을 증강 입력 공간과 일치시키기 위해 교차 모드 어댑터로 사용된다. SALMONN 프레임워크에서 훈련 단계 동안 손실된 교차 모드 작업을 다시获得하기 위해 추가로 몇 가지 샷 활성화 단계를 구현한다.

さらに, 프레임워크는 자신의 인지 청각 능력을 평가하기 위해 광범위한 오디오 이벤트, 음악 벤치마크 및 음성 벤치마크를 사용하며, 벤치마크를 세 가지 수준으로 나눈다. 첫 번째 벤치마크 수준에서는 번역, 오디오 캡션 및 음성 인식을 포함한 8개의 작업을 포함하는 지시 훈련을 수행한다. 두 번째 벤치마크 수준은 훈련되지 않은 작업으로 구성되며, 두 번째 벤치마크 수준은 슬롯 채우기 및 훈련되지 않은 언어로 번역과 같은 음성 기반 NLP 작업 5개를 포함한다. 최종 벤치마크 수준 작업은 음성 및 비음성 청각 정보를 이해하기 위해 음성-오디오 공동推論 및 오디오 기반 스토리텔링을 시도한다.

요약하면, SALMONN 프레임워크는

음성, 오디오 이벤트 및 음악을 포함하여 일반적인 오디오 입력을 최대 능력으로 이해하고 인식할 수 있는 최초의 다중 모드 대규모 언어 모델이다.
교차 모드 에이전트 능력을 제공하기 위해 LoRA 스케일링 요인을 구현하고 훈련 중에 추가로 예산 친화적인 활성화 단계를 사용하여 프레임워크의 교차 모드 에이전트 능력을 활성화하는 시도이다.

SALMONN : 아키텍처 및 방법론

이 섹션에서는 SALMONN 프레임워크의 아키텍처, 훈련 방법 및 실험 설정을 살펴보겠다.

모델 아키텍처

SALMONN 프레임워크의 핵심 아키텍처는 두 개의 청각 인코더의 출력을 동기화하고 결합한 다음 Q-Former를 프레임 수준에서 연결 모듈로 구현한다. Q-Former에서 생성된 출력 시퀀스는 텍스트 지시 프롬프트와 결합되어 LoRA 적응 접근 방식의 입력으로 제공된다.

청각 인코더

SALMONN 프레임워크는 비음성 BEATs 오디오 인코더와 OpenAI의 Whisper 프레임워크에서 가져온 음성 인코더를 사용한다. BEATs 오디오 인코더는 자기 지도적 반복 학습 접근 방식을 사용하여 비음성 고수준 오디오 의미를 추출하도록 훈련되며, 음성 인코더는 음성 인식 및 음성 번역 작업을 위한 약하게 지도된 데이터에 훈련된다. 모델은 먼저 입력 오디오를 토큰화하고, 이를 마스킹 및 예측한다. 두 인코더의 청각 특징은 서로 보완되며, 음성 및 비음성 정보 모두에 적합하다.

윈도우 수준 Q-Former

Q-Former 구조를 구현하는 것은 이미지 인코더의 출력을 텍스트 입력 토큰으로 변환하는 데 사용되는 LLM 프레임워크에서 일반적인 접근 방식이다. 그러나 변수 길이의 오디오 토큰을 다루는 경우에는 일부 수정이 필요하다. 구체적으로, 프레임워크는 입력 이미지의 인코더 출력을 연결된 인코더 출력 시퀀스로 간주하며, Q-Former는 고정된 수의 훈련 가능한 쿼리를 사용하여 인코더 출력 시퀀스를 텍스트 토큰으로 변환한다.

LoRA 및 LLM

SALMONN 프레임워크는 또한 지시를 더 정확하게 따라가도록 미세 조정된 LLaMA 대규모 언어 모델 프레임워크인 Vicuna LLM을 배포한다. LoRA 프레임워크는 매개 변수 효율적인 미세 조정을 위한 일반적인 방법으로, SALMONN 프레임워크에서 자기 주의 계층에서 쿼리 및 가중치 행렬을 적응시키기 위해 포함된다.

훈련 방법

SALMONN 프레임워크는 3단계 교차 모드 훈련 접근 방식을 사용한다. 훈련 단계는 대부분의 시각적 LLM 프레임워크에서 포함되는 사전 훈련 단계 및 지시 튜닝 단계를 포함하며, 오디오 캡션 및 음성 인식 작업에서 발생하는 과적합 문제를 해결하기 위해 추가로 활성화 튜닝 단계가 구현된다.

사전 훈련 단계

SALMONN 프레임워크는 사전 훈련된 매개 변수(인코더 및 LLM)와 임의로 초기화된 매개 변수(어댑터 및 연결 모듈) 사이의 간격을 제한하기 위해 오디오 캡션 및 음성 인식 데이터를 사용하여 LoRA 및 Q-Former 구성 요소를 사전 훈련한다. 이러한 작업에는 음성 및 비음성 오디오 이벤트의 주요 내용에 대한 중요한 청각 정보가 포함되어 있으며, 텍스트 및 청각 정보의 정렬을 학습하기 위해 복잡한 이해 또는推論이 필요하지 않다.

지시 미세 조정 단계

SALMONN 프레임워크에서 구현된 지시 미세 조정 단계는 NLP 및 시각적 LLM 프레임워크에서 사용되는 것과 유사하며, 오디오 이벤트, 음악 작업 및 음성 이벤트의 목록을 사용하여 오디오-텍스트 지시를 미세 조정한다. 작업은 전화 인식, 중첩 음성 인식 및 음악 캡션과 같은 다양한 테스트에서 작업의 중요도에 따라 우선순위가 지정된다. 또한, 텍스트 지시 프롬프트를 생성하기 위해 오디오 데이터와 결합된 텍스트 정보가 사용된다.

작업 과적합

첫 번째 두 단계만 구현하더라도 SALMONN 프레임워크는 지시 튜닝 작업에서 경쟁력 있는 결과를 반환한다. 그러나 교차 모드 작업, 특히 교차 모드 공동推論 능력이 필요한 작업에서 활성화 튜닝 없이 성능이 좋지 않다. 구체적으로, 모델은 지시 프롬프트를 위반하여 관련이 없거나 잘못된 응답을 생성하는 경우가 있다. 이는 SALMONN 프레임워크에서 작업 과적합으로 알려져 있으며, 과적합 문제를 해결하기 위해 활성화 튜닝 단계가 구현된다.

활성화 튜닝 단계

과적합 문제를 해결하는 효과적인 방법은 내재된 조건부 언어 모델을 더 긴 및 다양한 응답(예: 이야기 또는 청각 정보 기반 질문 답변)으로 정규화하는 것이다. 그런 다음 프레임워크는 이러한 작업에 대한 쌍 훈련 데이터를 생성하기 위해 텍스트와 결합된 오디오 또는 음성 또는 음악 캡션을 사용한다.

작업 사양

SALMONN의 제로샷 교차 모드 에이전트 능력을 평가하기 위해 개발자는 3つの 수준에 걸쳐 15개의 음성, 오디오 및 음악 작업을 포함시켰다.

수준 1

첫 번째 수준에서는 작업이 지시 튜닝에 사용되므로 SALMONN 프레임워크가 수행해야 하는 가장 쉬운 작업이다.

수준 2

두 번째 수준은 훈련되지 않은 작업으로 구성되며, 1단계 작업보다 복잡성 수준이 더 높다. 2단계에서는 음성 키워드 추출을 사용하여 프레임워크의 정확성을 평가하는 음성 기반 NLP 작업이 포함된다. 다른 작업에는 음성 질문을 사용하여 공통 감각 지식을 추출하는 SQQA(음성 질의 기반 질문 답변) 작업, 슬롯 값을 평가하는 음성 기반 슬롯 채우기 작업 및 마지막으로 영어-독일어 및 영어-일본어 변환을 위한 두 개의 AST 작업이 포함된다.

수준 3

3단계 작업의 복잡성은 다른 두 단계보다 최대이며, 음성-오디오 공동推論 및 오디오 기반 스토리텔링 작업을 포함한다. 음성-오디오 공동推論 작업에서는 SALMONN 프레임워크가 모델에 입력된 오디오 클립에서 질문을 이해하고, 음성 또는 음악과 같은 배경에서 지지하는 증거를 찾으며, 질문에 대한 적절한 이유를 생성해야 한다. 오디오 기반 스토리텔링 작업에서는 모델이 일반적인 오디오 입력에서 청각 정보를 사용하여 의미 있는 이야기를 생성해야 한다.

결과

수준 1 작업

다음 표는 수준 1 작업에 대한 결과를 보여주며, SALMONN 프레임워크가 활성화 튜닝 여부에 관계없이 수준 1 작업에서 경쟁력 있는 결과를 반환하는 것을 알 수 있다.

수준 2 및 3 작업

SALMONN 프레임워크는 활성화 튜닝 없이 수준 1 작업에서 경쟁력 있는 결과를 반환한다. 그러나 수준 2 및 3 작업에서는 그렇지 않다. 특히, 모델은 지시 프롬프트를 위반하여 관련이 없거나 잘못된 응답을 생성하는 경우가 있다. 이는 SALMONN 프레임워크에서 작업 과적합으로 알려져 있으며, 과적합 문제를 해결하기 위해 활성화 튜닝 단계가 구현된다. 활성화 튜닝으로 결과가 크게 향상된다.

LoRA 스케일링 요인 할인

LoRA 스케일링 요인 할인은 작업에서 과적합 문제를 최소화하기 위해 LoRA 스케일링 요인의 시간 할인 사용의 영향을 평가한다. 다음 그림에서 볼 수 있듯이, LoRA 스케일링 요인을 2.0으로 감소시키면 SALMONN 프레임워크의 교차 모드 推論 능력이 ASR 및 PR 작업, SQQA 작업, 스토리텔링 작업 및 SAC 작업에서 향상된다.

작업 과적합 평가

활성화 튜닝을 강조하기 위해 SALMONN 프레임워크는 세 가지 훈련 단계 동안 복잡도를 변경한다. 다음 이미지에서 볼 수 있듯이, AAC 및 ASR 작업의 복잡도는 첫 번째 훈련 단계 이후에 작은 최종 값을 가지며, 이는 모델이 교차 모드 정렬을 학습했다는 것을 나타낸다.

さらに, PR 작업의 복잡도도 지시 튜닝 이후에 감소하며, 이는 LoRA 구성 요소를 출력 토큰을 학습하는 데 의존하기 때문이다. 또한, 지시 튜닝은 스토리텔링 및 SAC 작업에서 복잡도를 줄이는 데 도움이 되지만, 추가 활성화 단계가 추가되거나 LoRA 구성 요소가 제거되지 않는 한 작업을 성공적으로 수행하기에는 여전히 큰 간격이 있다.

활성화 튜닝

SALMONN 프레임워크는 텍스트 기반 QA 작업 쌍에 대한 긴 답변으로 모델을 훈련하거나 오디오 기반 긴 서사를 사용하거나 ASR 작업에 대한 긴 스피치 트랜스크립션을 사용하여 다양한 활성화 방법을 탐색한다. Q-Former 및 LoRA 구성 요소는 이 세 가지 방법으로 미세 조정된다. 또한, 프레임워크는 오디오 및 Q-Former 입력을 무시하여 LoRA 및 Vicuna 구성 요소를 적응형 텍스트 기반 대규모 언어 모델로 미세 조정한다. 결과는 다음 이미지에示されて 있으며, 모델이 ASR(긴 레이블을 사용한 ASR 훈련) 또는 스토리 또는 텍스트 기반(LoRA 구성 요소를 텍스트 프롬프트 입력으로 훈련)으로 활성화되지 않는다.

최종 생각

이 기사에서, SALMONN 또는 Speech Audio Language Music Open Neural Network에 대해 이야기했다. SALMONN은 음성, 오디오 이벤트 및 음악을 포함하는 세 가지 기본 오디오 또는 사운드 유형을 인식하고 이해할 수 있는 단일 오디오-텍스트 다중 모드 대규모 언어 모델 프레임워크이다. SALMONN 모델은 대규모 언어 모델이 직접 일반적인 오디오 입력을 이해하고 처리할 수 있도록 하며, 오디오 및 음성 작업의 광범위한 배열에서 경쟁력 있는 성능을 제공한다.

SALMONN 프레임워크는 오디오 캡션, 음성 번역 및 인식 및 더 많은 작업을 포함하는 훈련된 작업에서 경쟁력 있는 성능을 제공하며, 키워드 추출 및 훈련되지 않은 언어 번역을 포함하는 음성 번역 및 비훈련 이해 작업에 일반화된다. 이러한 능력으로 인해 SALMONN 프레임워크는 대규모 언어 모델의 일반적인 청각 능력을 향상시키는 다음 단계로 간주될 수 있다.