Trí tuệ nhân tạo

Salmonn: Hướng tới khả năng nghe chung cho các mô hình ngôn ngữ lớn

Published November 28, 2023

Updated April 4, 2026

Kunal Kejriwal

Nghe, bao gồm việc nhận thức và hiểu biết thông tin âm thanh chung, là rất quan trọng đối với các tác nhân AI trong môi trường thực. Thông tin âm thanh này bao gồm ba loại âm thanh chính: âm nhạc, sự kiện âm thanh và lời nói. Gần đây, các khuôn khổ Mô hình Ngôn ngữ Lớn (LLM) dựa trên văn bản đã thể hiện khả năng đáng chú ý, đạt được hiệu suất ở mức con người trong một loạt các nhiệm vụ Xử lý Ngôn ngữ Tự nhiên (NLP). Ngoài ra, điều chỉnh hướng dẫn, một phương pháp đào tạo sử dụng các cặp phản hồi tham chiếu và lời nhắc người dùng, đã trở nên phổ biến. Cách tiếp cận này đào tạo các mô hình ngôn ngữ lớn để tuân theo hướng dẫn người dùng mở một cách hiệu quả hơn. Tuy nhiên, nghiên cứu hiện tại ngày càng tập trung vào việc tăng cường các mô hình ngôn ngữ lớn với khả năng nhận thức nội dung đa phương tiện.

Tập trung vào cùng một vấn đề, trong bài viết này, chúng tôi sẽ thảo luận về SALMONN hoặc Mạng nơ-ron ngôn ngữ âm thanh nhạc mở, một mạng nơ-ron ngôn ngữ âm thanh nhạc mở tiên tiến được xây dựng bằng cách kết hợp các bộ mã hóa âm thanh và ngôn ngữ với một mô hình ngôn ngữ lớn dựa trên văn bản được đào tạo trước vào một mô hình đa phương tiện âm thanh-văn bản duy nhất. Mô hình SALMONN cho phép Mô hình Ngôn ngữ Lớn hiểu và xử lý các đầu vào âm thanh chung trực tiếp và cung cấp hiệu suất cạnh tranh trên một loạt các nhiệm vụ âm thanh và lời nói được sử dụng trong đào tạo, bao gồm trả lời câu hỏi dựa trên thông tin âm thanh, nhận dạng và dịch lời nói, xác thực người nói, nhận dạng cảm xúc, chú thích âm thanh và nhạc, và nhiều hơn nữa. Chúng tôi sẽ đi sâu vào khuôn khổ SALMONN và khám phá cách thức hoạt động, kiến trúc và kết quả của nó trên một loạt các nhiệm vụ NLP. Vậy hãy bắt đầu.

SALMONN : Giới thiệu về Mô hình Ngôn ngữ Lớn Đa phương tiện Âm thanh-Văn bản Đơn

SALMONN là viết tắt của Mạng nơ-ron ngôn ngữ âm thanh nhạc mở, và nó là một khuôn khổ mô hình ngôn ngữ lớn đa phương tiện âm thanh-văn bản đơn có khả năng nhận thức và hiểu biết ba loại âm thanh cơ bản bao gồm lời nói, sự kiện âm thanh và âm nhạc. Mô hình SALMONN cho phép Mô hình Ngôn ngữ Lớn hiểu và xử lý các đầu vào âm thanh chung trực tiếp và cung cấp hiệu suất cạnh tranh trên một loạt các nhiệm vụ âm thanh và lời nói.

Để tăng cường hiệu suất của nó trên cả nhiệm vụ lời nói và âm thanh không phải lời nói, khuôn khổ SALMONN sử dụng một cấu trúc mã hóa kép bao gồm một bộ mã hóa âm thanh BEATs và một bộ mã hóa lời nói được lấy từ mô hình Whisper. Ngoài ra, khuôn khổ SALMONN cũng sử dụng một mô-đun kết nối Q-Former ở cấp độ khung để chuyển đổi một chuỗi đầu ra của bộ mã hóa có độ dài biến thành các token âm thanh tăng cường có số lượng biến, và cuối cùng đạt được độ phân giải thời gian cao cho việc căn chỉnh âm thanh-văn bản. Cách tiếp cận LoRA hoặc Thích nghi hạng thấp được sử dụng như một bộ điều chỉnh đa phương tiện để căn chỉnh không gian đầu ra của nó với không gian đầu vào tăng cường trong nỗ lực tăng cường hiệu suất của nó. Trong khuôn khổ SALMONN, khả năng thực hiện các nhiệm vụ đa phương tiện không được nhìn thấy trong giai đoạn đào tạo bị mất trong quá trình đào tạo hướng dẫn như các khả năng nổi bật đa phương tiện, và đây là lý do chính tại sao khuôn khổ SALMONN thực hiện một giai đoạn kích hoạt vài lần để lấy lại khả năng nổi bật chung của khuôn khổ Mô hình Ngôn ngữ Lớn.

Hơn nữa, khuôn khổ sử dụng một loạt các sự kiện âm thanh, chuẩn mực âm nhạc và chuẩn mực lời nói để đánh giá khả năng nghe nhận thức của nó và chia các chuẩn mực này thành ba cấp độ. Ở cấp độ chuẩn mực đầu tiên, khuôn khổ đào tạo tám nhiệm vụ trong đào tạo hướng dẫn bao gồm dịch, chú thích âm thanh và nhận dạng lời nói. Hai cấp độ chuẩn mực còn lại là các nhiệm vụ không được đào tạo, với cấp độ chuẩn mực thứ hai bao gồm năm nhiệm vụ Xử lý Ngôn ngữ Tự nhiên dựa trên lời nói như điền từ và dịch sang các ngôn ngữ không được đào tạo dựa trên sự căn chỉnh đa ngôn ngữ chất lượng cao giữa các token văn bản và lời nói.

Để tóm lại, khuôn khổ SALMONN là

Mô hình ngôn ngữ lớn đa phương tiện đầu tiên có khả năng hiểu và nhận thức các đầu vào âm thanh chung, bao gồm sự kiện âm thanh, lời nói và âm nhạc, ở mức tối đa của nó.
Một nỗ lực để phân tích các khả năng nổi bật đa phương tiện được cung cấp bằng cách thực hiện yếu tố quy mô LoRA và sử dụng một giai đoạn kích hoạt tiết kiệm ngân sách trong quá trình đào tạo để kích hoạt các khả năng nổi bật đa phương tiện của khuôn khổ.

SALMONN : Kiến trúc và Phương pháp

Trong phần này, chúng tôi sẽ xem xét kiến trúc, phương pháp đào tạo và thiết lập thí nghiệm cho khuôn khổ SALMONN.

Kiến trúc Mô hình

Ở cốt lõi của kiến trúc của nó, khuôn khổ SALMONN đồng bộ hóa và kết hợp các đầu ra từ hai bộ mã hóa âm thanh, sau đó khuôn khổ thực hiện một Q-Former ở cấp độ khung như một mô-đun kết nối. Chuỗi đầu ra được tạo bởi Q-Former được hợp nhất với các lời nhắc hướng dẫn văn bản và sau đó được cung cấp như một đầu vào cho cách tiếp cận thích nghi LoRA để tạo ra phản hồi cần thiết.

Bộ mã hóa Âm thanh

Khuôn khổ SALMONN sử dụng hai bộ mã hóa âm thanh: một bộ mã hóa âm thanh BEATs không phải lời nói và một bộ mã hóa lời nói được lấy từ khuôn khổ Whisper của OpenAI. Bộ mã hóa âm thanh BEATs được đào tạo để sử dụng cách tiếp cận học tự giám sát để trích xuất các ngữ nghĩa âm thanh cao cấp không phải lời nói, trong khi bộ mã hóa lời nói được đào tạo trên một lượng lớn dữ liệu yếu giám sát cho các nhiệm vụ nhận dạng và dịch lời nói, với các tính năng đầu ra của bộ mã hóa phù hợp để bao gồm tiếng ồn và thông tin lời nói.

Q-Former Cấp độ Khung

Thực hiện cấu trúc Q-Former là một cách tiếp cận phổ biến được sử dụng trong các khuôn khổ Mô hình Ngôn ngữ Lớn để chuyển đổi đầu ra của bộ mã hóa hình ảnh thành các token văn bản, và một số sửa đổi là cần thiết khi xử lý các token âm thanh có độ dài biến.

LoRA và Mô hình Ngôn ngữ Lớn

Khuôn khổ SALMONN cũng triển khai một Mô hình Ngôn ngữ Lớn Vicuna, là một khuôn khổ Mô hình Ngôn ngữ Lớn LLaMA được tinh chỉnh để tuân theo hướng dẫn một cách chính xác và hiệu quả hơn. Khuôn khổ LoRA là một phương pháp phổ biến được sử dụng để tinh chỉnh hiệu quả tham số, và sự bao gồm của nó trong khuôn khổ SALMONN để đánh giá các ma trận trọng số và thích nghi truy vấn trong các lớp tự chú ý.

Phương pháp Đào tạo

Khuôn khổ SALMONN sử dụng một phương pháp đào tạo đa phương tiện ba giai đoạn. Giai đoạn đào tạo bao gồm một giai đoạn đào tạo trước và một giai đoạn tinh chỉnh hướng dẫn được bao gồm trong hầu hết các khuôn khổ Mô hình Ngôn ngữ Lớn trực quan, và một giai đoạn kích hoạt bổ sung được thực hiện để giải quyết các vấn đề quá拟 hợp trong các nhiệm vụ chú thích âm thanh và nhận dạng lời nói.

Giai đoạn Đào tạo Trước

Để hạn chế khoảng cách giữa các tham số được đào tạo trước, bao gồm các bộ mã hóa và Mô hình Ngôn ngữ Lớn, và các tham số được khởi tạo ngẫu nhiên, bao gồm các mô-đun bộ điều chỉnh và kết nối, khuôn khổ SALMONN sử dụng một lượng lớn dữ liệu chú thích âm thanh và nhận dạng lời nói để đào tạo trước các thành phần LoRA và Q-Former.

Giai đoạn Tinh chỉnh Hướng dẫn

Giai đoạn tinh chỉnh hướng dẫn được thực hiện trong khuôn khổ SALMONN tương tự như giai đoạn được thực hiện trong các khuôn khổ NLP và Mô hình Ngôn ngữ Lớn trực quan bằng cách sử dụng một danh sách các sự kiện âm thanh, nhiệm vụ âm nhạc và lời nói để tinh chỉnh hướng dẫn âm thanh-văn bản.

Quá Nối Hợp

Ngay cả khi chỉ thực hiện hai giai đoạn đào tạo đầu tiên, khuôn khổ SALMONN vẫn cung cấp kết quả cạnh tranh trên các nhiệm vụ tinh chỉnh hướng dẫn, mặc dù hiệu suất không đạt mức mong muốn khi thực hiện các nhiệm vụ đa phương tiện, đặc biệt là trên các nhiệm vụ yêu cầu khả năng lý luận đa phương tiện.

Giai đoạn Kích hoạt

Một cách tiếp cận hiệu quả để giải quyết các vấn đề quá拟 hợp là điều chỉnh các mô hình ngôn ngữ có điều kiện nội tại bằng cách sử dụng các phản hồi dài hơn và đa dạng hơn, như câu chuyện hoặc câu hỏi và trả lời dựa trên thông tin âm thanh.

Thông số Nhiệm vụ

Để đánh giá khả năng nổi bật đa phương tiện không cần giám sát của SALMONN, các nhà phát triển đã bao gồm 15 nhiệm vụ lời nói, âm thanh và âm nhạc được chia thành ba cấp độ.

Cấp độ 1

Ở cấp độ đầu tiên, các nhiệm vụ được sử dụng cho tinh chỉnh hướng dẫn và do đó, chúng là tập hợp nhiệm vụ dễ nhất mà khuôn khổ SALMONN phải thực hiện.

Cấp độ 2

Cấp độ thứ hai bao gồm các nhiệm vụ không được đào tạo và mức độ phức tạp cao hơn so với các nhiệm vụ cấp độ 1.

Cấp độ 3

Mức độ phức tạp của các nhiệm vụ ở cấp độ 3 là tối đa so với hai cấp độ còn lại và bao gồm các nhiệm vụ lý luận âm thanh-văn bản và kể chuyện dựa trên âm thanh.

Kết quả

Nhiệm vụ Cấp độ 1

Bảng sau đây thể hiện kết quả trên các nhiệm vụ cấp độ 1 và như có thể thấy, khuôn khổ SALMONN cung cấp kết quả cạnh tranh trên các nhiệm vụ cấp độ 1 với hoặc không có kích hoạt.

Nhiệm vụ Cấp độ 2 và 3

Mặc dù khuôn khổ SALMONN cung cấp kết quả cạnh tranh trên các nhiệm vụ cấp độ 1 ngay cả khi không có tinh chỉnh, điều tương tự không thể nói về các nhiệm vụ cấp độ 2 và 3 vì khuôn khổ SALMONN gặp phải các vấn đề quá拟 hợp nặng trên các nhiệm vụ này.

Giảm Yếu tố Quy mô LoRA

Giảm yếu tố quy mô LoRA đánh giá ảnh hưởng của việc sử dụng giảm thời gian của yếu tố quy mô LoRA để giảm thiểu các vấn đề quá拟 hợp trên các nhiệm vụ.

Đánh giá Quá Nối Hợp

Để nhấn mạnh vào kích hoạt, khuôn khổ SALMONN phân tích các thay đổi về độ phức tạp trong ba giai đoạn đào tạo và như có thể thấy, độ phức tạp của các nhiệm vụ AAC và ASR có giá trị cuối cùng nhỏ sau giai đoạn đào tạo đầu tiên, chỉ ra rằng mô hình đã học được sự căn chỉnh đa phương tiện.

Kích hoạt

Khuôn khổ SALMONN đi sâu vào các phương pháp kích hoạt khác nhau, bao gồm đào tạo mô hình trên các cặp nhiệm vụ câu hỏi và trả lời dựa trên văn bản với các câu trả lời dài, hoặc sử dụng các câu chuyện dài dựa trên âm thanh.

Suy nghĩ Cuối cùng

Trong bài viết này, chúng tôi đã thảo luận về SALMONN hoặc Mạng nơ-ron ngôn ngữ âm thanh nhạc mở, một khuôn khổ mô hình ngôn ngữ lớn đa phương tiện âm thanh-văn bản đơn có khả năng nhận thức và hiểu biết ba loại âm thanh cơ bản bao gồm lời nói, sự kiện âm thanh và âm nhạc.

Khuôn khổ SALMONN cung cấp hiệu suất cạnh tranh trên một loạt các nhiệm vụ được đào tạo, bao gồm chú thích âm thanh, dịch và nhận dạng lời nói, và tổng quát hóa sang một loạt các nhiệm vụ hiểu biết không được đào tạo, bao gồm dịch lời nói cho việc trích xuất từ khóa và ngôn ngữ không được đào tạo.