Yapay Zekâ

Salmonn: Büyük Dil Modelleri için Genel İşitme Becerilerine Doğru

Published November 28, 2023

Updated April 4, 2026

Kunal Kejriwal

İşitme, generic işitsel bilgilerin algılanması ve anlaşılması ile ilgili olan, gerçek dünya ortamlarında AI ajanları için çok önemlidir. Bu işitsel bilgi, müzik, ses olayları ve konuşma dahil olmak üzere üç temel ses türünü kapsar. Son zamanlarda, metin tabanlı Büyük Dil Modeli (LLM) çerçeveleri, geniş bir yelpazede Doğal Dil İşleme (NLP) görevlerinde insan düzeyinde performans gösterme konusunda dikkat çekici yetenekler sergilediler. Ayrıca, talimat ayarlaması, referans yanıtları ve kullanıcı talimatları çiftlerini kullanarak bir eğitim yöntemi popüler hale geldi. Bu yaklaşım, büyük dil modellerini daha etkili bir şekilde açık uçlu kullanıcı talimatlarını takip etmelerini sağlar. Ancak, mevcut araştırmalar giderek büyük dil modellerine multimodal içerik algılama yeteneği kazandırma konusunda odaklanıyor.

Aynı şeyi odaklayarak, bu makalede, SALMONN veya Konuşma Ses Dili Müzik Açık Sinir Ağı hakkında konuşacağız, bir öncü açık konuşma ses dili müzik sinir ağı, konuşma ve ses kodlayıcıları ile önceden eğitilmiş metin tabanlı bir büyük dil modelini tek bir ses-metin multimodal modeline entegre ederek oluşturulan. SALMONN modeli, Büyük Dil Modelleri‘ne doğrudan generic ses girişlerini anlamak ve işlemek yeteneği sağlar ve eğitimde kullanılan geniş bir ses ve konuşma görevleri yelpazesi üzerinde rekabetçi performans gösterir, bunlar arasında işitsel bilgi tabanlı soru cevaplama, konuşma tanıma ve çevirisi, konuşmacı doğrulama, duygu tanıma, ses ve müzik altyazısı ve daha fazlası bulunur. SALMONN çerçevesinin, çalışmasını, mimarisini ve NLP görevlerinin geniş bir yelpazesi üzerindeki sonuçlarını daha derinlemesine inceleyeceğiz. Başlayalım.

SALMONN : Tek Ses-Metin Multimodal Büyük Dil Modellerine Giriş

SALMONN, Konuşma Ses Dili Müzik Açık Sinir Ağı anlamına gelir ve konuşma, ses olayları ve müzik dahil olmak üzere üç temel ses veya ses türünü algılayabilen ve anlayan tek bir ses-metin multimodal büyük dil modeli çerçevesidir. SALMONN modeli, Büyük Dil Modelleri’ne doğrudan generic ses girişlerini anlamak ve işlemek yeteneği sağlar ve geniş bir ses ve konuşma görevleri yelpazesi üzerinde rekabetçi performans gösterir.

Ses ve konuşma görevleri üzerindeki performansını artırmak için, SALMONN çerçevesi, bir BEATs ses kodlayıcısı ve Whisper konuşma modelinden alınan bir konuşma kodlayıcısı içeren çift kodlayıcı bir yapı kullanır. Ayrıca, SALMONN çerçevesi, değişken uzunluktaki kodlayıcı çıkış dizisini değişken sayıda artırılan ses tokenlerine etkili bir şekilde dönüştürmek için bir bağlantı modülü olarak bir pencere düzeyinde Q-Former veya sorgu Dönüştürücüyü kullanır. LoRA veya Düşük Rütbe Uyum yaklaşımı, Vicuna çerçevesine, çıkış alanını artırılmış girdi alanıyla hizalamak için bir cross-modal adaptör olarak kullanılır. SALMONN çerçevesinde, cross-modal görevleri gerçekleştirebilme yeteneği, eğitim aşamasında kaybedilen talimatların cross-modal ortaya çıkan yetenekleri olarak kabul edilir ve bu nedenle SALMONN çerçevesi, bu genel ortaya çıkan yetenekleri yeniden kazanmak için ek bir few-shot aktivasyon aşaması uygular.

Ayrıca, çerçevede, bilişsel işitme yeteneklerini değerlendirmek için geniş bir ses olayları, müzik benchmarkları ve konuşma benchmarkları kullanılır ve bu benchmarklar üç seviyeye ayrılır. İlk seviye benchmarkda, sekiz görev instruction eğitiminde eğitilir, bunlar arasında çeviri, ses altyazısı ve konuşma tanıma bulunur. Diğer iki seviye benchmark görevleri eğitilmemiş görevlerdir, ikinci seviye benchmarkda, yüksek kaliteli çok dilli hizalamalara dayanarak konuşma ve metin tokenleri arasında slot doldurma ve tercüme gibi beş konuşma tabanlı NLP görevi bulunur. Son seviye benchmark görevleri, konuşma ve konuşma dışı işitsel bilgilerin anlaşılmasını amaçlar ve ses-konuşma ortak akıl yürütme ve ses tabanlı hikaye anlatımı görevlerini içerir.

Özetle, SALMONN çerçevesi

Generic ses girişlerini, ses olayları, konuşma ve müziği en üst düzeyde algılayabilen ve anlayan ilk multimodal büyük dil modelidir.
Cross-modal ortaya çıkan yetenekleri sunmak için LoRA ölçek faktörünü uygulayan ve eğitim sırasında cross-modal ortaya çıkan yetenekleri etkinleştirmek için ek bir bütçe dostu aktivasyon aşaması kullanarak analiz etmeye çalışan bir girişimdir.

SALMONN : Mimarisi ve Yöntemi

Bu bölümde, SALMONN çerçevesinin mimarisini, eğitim yöntemini ve deneysel kurulumunu inceleyeceğiz.

Model Mimarisi

Mimarisinin temelinde, SALMONN çerçevesi, iki işitsel kodlayıcının çıkışlarını senkronize eder ve birleştirir, ardından Q-Former’ı bir bağlantı modülü olarak çerçevenin çerçeve düzeyinde uygular. Q-Former tarafından üretilen çıkış dizisi, metin talimat promtleriyle birleştirilir ve sonra LoRA uyum yaklaşımına girdi olarak verilir.

İşitsel Kodlayıcılar

SALMONN çerçevesi, iki işitsel kodlayıcı kullanır: konuşma dışı BEATs ses kodlayıcısı ve OpenAI’nin Whisper çerçevesinden alınan bir konuşma kodlayıcısı. BEATs ses kodlayıcısı, konuşma dışı yüksek düzeyli ses anlamlarını çıkarmak için kendi kendine eğitimli yinelemeli öğrenme yaklaşımını kullanır, konuşma kodlayıcısı ise konuşma tanıma ve konuşma çevirisi görevleri için büyük miktarda zayıf olarak gözetimli veri üzerinde eğitilir. Model, önce girdi sesini tokenize eder ve ardından eğitimde onu maskeleme ve tahmin etme işlemlerini gerçekleştirir. Bu iki kodlayıcının resulting işitsel özellikleri birbirini tamamlar ve hem konuşma hem de konuşma dışı bilgiler için uygundur.

Pencere Düzeyinde Q-Former

Q-Former yapısını uygulamak, LLM çerçevelerinde görüntü kodlayıcısının çıkışını metin girdi tokenlerine dönüştürmek için kullanılan bir ortak yaklaşım olup, değişken uzunluktaki ses tokenleriyle çalışırken bazı değişiklikler gerektirir. Daha cụ thể olarak, çerçeve, girdi görüntü kodlayıcısının çıkışını birleştirilmiş bir kodlayıcı çıkış dizisi olarak görür ve Q-Former, yığınlanmış Q-Former bloklarını kullanarak kodlayıcı çıkış dizisini metin tokenlerine dönüştürür. Yığınlanmış bir Q-Former bloğu, öz-dikkat katmanlarında casual maskeleri kaldırma ve ilk bloklarda sabit bir sayıda eğitilebilir statik sorgu kullanma dışında bir Transformer decoder bloğuna benzer.

LoRA ve LLM

SALMONN çerçevesi ayrıca, talimatları daha doğru ve etkili bir şekilde takip etmek için fine-tuned edilmiş bir LLaMA büyük dil modeli çerçevesi olan Vicuna LLM’yi kullanır. LoRA çerçevesi, parameter-efficient fine-tuning için kullanılan bir ortak yöntemdir ve SALMONN çerçevesinde, değer ağırlık matrislerini ve self-dikkat katmanlarındaki sorguyu uyumlu hale getirmek için kullanılır.

Eğitim Yöntemi

SALMONN çerçevesi, üç aşamalı cross-modal eğitim yaklaşımını kullanır. Eğitim aşaması, çoğu görsel LLM çerçevelerinde bulunan ön-eğitim aşaması ve talimat ayarlaması aşamasını içerir ve ayrıca aktivasyon ayarlaması aşaması, ses altyazısı ve konuşma tanıma görevlerinde karşılaşılan overfitting sorunlarını çözmek için uygulanır.

Ön-Eğitim Aşaması

SALMONN çerçevesi, ön-eğitim aşamasında, ses altyazısı ve konuşma tanıma verilerini kullanarak LoRA ve Q-Former bileşenlerini ön-eğitmek için büyük miktarda veri kullanır. Bu görevler, ses olaylarının hem konuşma hem de konuşma dışı ana içeriklerinin vital işitsel bilgilerini içerir ve bunlar, metin ve işitsel bilgiler arasındaki hizalamayı öğrenmek için karmaşık anlayış veya akıl yürütme gerektirmez.

Talimat Ayarlaması Aşaması

SALMONN çerçevesinde uygulanan talimat ayarlaması aşaması, NLP ve görsel LLM çerçevelerinde uygulanan approacha benzerdir, ses olayları, müzik görevleri ve konuşma olaylarını kullanarak ses-metin talimatlarını fine-tune etmek için kullanılır. Görevler, telefon tanıma, konuşma tanıma ve müzik altyazısı gibi farklı testlere göre önceliklendirilir. Ayrıca, metin bilgileri, ses verisiyle birlikte talimat promtlarını oluşturmak için kullanılır.

Görev Overfitting

Sadece ilk iki eğitim aşamasını uyguladığında, SALMONN çerçevesi, talimat ayarlaması görevlerinde rekabetçi sonuçlar verir, ancak cross-modal görevlerde, özellikle cross-modal ortak akıl yürütme yeteneklerini gerektiren görevlerde performansı beklenen düzeyde değildir. Özellikle, model bazen talimat promtlarını ihlal eder ve bu da alakasız veya yanlış yanıtların üretilmesine neden olur ve bu olgu SALMONN çerçevesinde görev overfitting olarak adlandırılır ve aktivasyon ayarlaması aşaması bu overfitting sorunlarını çözmek için uygulanır.

Aktivasyon Ayarlaması Aşaması

Overfitting sorunlarını çözmek için etkili bir yaklaşım, içsel koşullu dil modellerini daha uzun ve çeşitli yanıtlar kullanarak düzenlemektedir, bu da hikaye anlatımı veya işitsel bilgi tabanlı soru cevaplamaya benzer görevleri içerir. Çerçeve, bu görevler için eğitim veri çiftlerini, metinle birlikte ses veya konuşma veya müzik altyazısı kullanarak oluşturur.

Görev Özellikleri

SALMONN’un sıfır-shot cross-modal ortaya çıkan yeteneklerini değerlendirmek için, geliştiriciler, üç seviyeye ayrılan 15 konuşma, ses ve müzik görevi içerirler.

Seviye 1

İlk seviyede, görevler talimat ayarlaması için kullanılır ve bu nedenle SALMONN çerçevesinin gerçekleştirmesi gereken en kolay görevlerdir.

Seviye 2

İkinci seviye, eğitilmemiş görevleri içerir ve görevlerin karmaşıklık düzeyi, seviye 1 görevlerine göre daha yüksektir. İkinci seviyede, görevler NLP tabanlı görevleri içerir, bunlar arasında konuşma anahtar kelime çıkarma, konuşma tabanlı slot doldurma ve konuşma tabanlı soru cevaplama görevleri bulunur.

Seviye 3

Üçüncü seviye görevlerinin karmaşıklık düzeyi en yüksektir ve konuşma-ses ortak akıl yürütme ve ses tabanlı hikaye anlatımı görevlerini içerir. Konuşma-ses ortak akıl yürütme görevi, SALMONN çerçevesinin, ses klipindeki bir soruyu anlamasını, ses olayları veya müziği kullanarak destekleyici kanıtları bulmasını ve sonra da soruyu yanıtlamak için uygun bir neden üretmesini gerektirir. Ses tabanlı hikaye anlatımı görevi, modelin, genel ses girişlerindeki işitsel bilgilerden anlamlı bir hikaye üretmesini gerektirir.

Sonuçlar

Seviye 1 Görevleri

Aşağıdaki tablo, Seviye 1 görevlerinde alınan sonuçları gösterir ve görüldüğü gibi, SALMONN çerçevesi, aktivasyon ayarlaması olsun veya olmasın, Seviye 1 görevlerinde rekabetçi sonuçlar verir.

Seviye 2 ve 3 Görevleri

SALMONN çerçevesi, Seviye 1 görevlerinde rekabetçi sonuçlar verir, ancak aktivasyon ayarlaması olmadan, Seviye 2 ve Seviye 3 görevlerinde performansı beklenen düzeyde değildir. Özellikle, model bazen talimat promtlarını ihlal eder ve bu da alakasız veya yanlış yanıtların üretilmesine neden olur. Aktivasyon ayarlaması ile birlikte, sonuçlar önemli ölçüde iyileşir.

LoRA Ölçek Faktörünü Azaltma

LoRA Ölçek Faktörünü Azaltma, LoRA ölçek faktörünün zaman içinde azalan değerini kullanarak overfitting sorunlarını azaltmanın etkisini değerlendirir. Aşağıdaki şekil, LoRA ölçek faktörünün 2.0’a düşürülmesinin, SALMONN çerçevesinin cross-modal akıl yürütme yeteneklerini ASR ve PR görevlerinde, SQQA görevlerinde, hikaye anlatımı görevlerinde ve SAC görevlerinde artırabileceğini gösterir.

Görev Overfitting’i Değerlendirme

Aktivasyon ayarlaması üzerinde durmak için, SALMONN çerçevesi, üç eğitim aşamasında karışıklık değişikliklerini analiz eder ve aşağıdaki şekil, AAC ve ASR görevlerinde karışıklık değişikliklerini gösterir. Model, cross-modal hizalamaları öğrenmek için ilk eğitim aşamasından sonra küçük son değerlere sahiptir.

Ayrıca, PR görevinin karışıklığı da talimat ayarlaması之后 düşer, bu da LoRA bileşeninin çıktı tokenlerini öğrenmek için kullanıldığını gösterir. Ancak, talimat ayarlaması, hikaye anlatımı ve SAC görevlerinde karışıklığı azaltmasına yardımcı olur, ancak aktivasyon aşaması eklenmeden veya LoRA bileşeni kaldırılmadan görevleri başarılı bir şekilde gerçekleştirmek için yeterli değildir.

Aktivasyon Ayarlaması

SALMONN çerçevesi, farklı aktivasyon yöntemlerini araştırır, bunlar arasında, modeli uzun cevaplarla metin tabanlı soru cevaplama görevlerine eğitim vermeyi veya uzun ses transkriptlerini kullanarak ASR görevlerine eğitim vermeyi içerir. Hem Q-Former hem de LoRA bileşenleri bu üç yöntemle fine-tune edilir. Ayrıca, çerçeve, audio ve Q-Former girişlerini ignor ederek, LoRA ve Vicuna bileşenlerini bir adaptif metin tabanlı büyük dil modeli olarak fine-tune eder ve aşağıdaki şekil, sonuçları gösterir.

Son Düşünceler

Bu makalede, SALMONN veya Konuşma Ses Dili Müzik Açık Sinir Ağı hakkında konuştuk, konuşma, ses olayları ve müzik dahil olmak üzere üç temel ses veya ses türünü algılayabilen ve anlayan tek bir ses-metin multimodal büyük dil modeli çerçevesi. SALMONN modeli, Büyük Dil Modelleri’ne doğrudan generic ses girişlerini anlamak ve işlemek yeteneği sağlar ve geniş bir ses ve konuşma görevleri yelpazesi üzerinde rekabetçi performans gösterir.

SALMONN çerçevesi, geniş bir görev yelpazesi üzerinde rekabetçi performans gösterir, bunlar arasında ses altyazısı, konuşma çevirisi ve tanıma, ve daha fazlası bulunur, ve ayrıca, konuşma çevirisi için anahtar kelime çıkarma ve tercüme edilmemiş diller gibi görevleri de içerir. SALMONN çerçevesi, büyük dil modellerinin generic işitme yeteneklerini geliştirmeye yönelik bir sonraki adım olarak kabul edilebilir.