Kapcsolatba velünk

Mesterséges Intelligencia

Salmonn: A nagy nyelvű modellek általános hallási képességei felé

mm
korszerűsített on

A hallás, amely magában foglalja az általános hallási információk észlelését és megértését, alapvető fontosságú az AI-ügynökök számára a valós környezetekben. Ez a hallási információ három elsődleges hangtípust ölel fel: zenét, hangeseményeket és beszédet. A közelmúltban a szövegalapú Large Language Model (LLM) keretrendszerek figyelemre méltó képességeket mutattak, és emberi szintű teljesítményt értek el a Natural Language Processing (NLP) feladatok széles körében. Emellett népszerűvé vált az utasításhangolás, egy olyan oktatási módszer, amely referencia-válaszokat és felhasználói utasításokat használ. Ez a megközelítés nagy nyelvi modelleket képez a nyílt végű felhasználói utasítások hatékonyabb követésére. A jelenlegi kutatások azonban egyre inkább a nagy nyelvi modellek multimodális tartalom érzékelésére alkalmas fejlesztésére összpontosítanak.

Ugyanerre összpontosítva ebben a cikkben erről fogunk beszélni SALMONN vagy Speech Audio Language Music Open Neural Network, a legkorszerűbb nyílt beszédhangnyelvű zenei neurális hálózat, amely előre betanított szövegalapú nagy nyelvi modellel rendelkező beszéd- és hangkódolók egy szinguláris audio-szöveg multimodális modellbe történő beépítésével épül fel. A SALMONN modell lehetővé teszi Nagy nyelvi modellek az általános hangbemenetek közvetlen megértése és feldolgozása, valamint versenyképes teljesítmény biztosítása a képzés során használt hang- és beszédfeladatok széles skáláján, beleértve az auditív információn alapuló kérdések megválaszolását, a beszédfelismerést és -fordítást, a hangszóró ellenőrzését, az érzelemfelismerést, a hang- és zenefeliratokat, és sokkal több. Mélyebbre fogunk merülni a SALMONN keretrendszerben, és feltárjuk működését, felépítését és eredményeit az NLP feladatok széles skáláján. Tehát kezdjük. 

SALMONN: Bevezetés az egyetlen audio-szöveges multimodális nagynyelvű modellekbe

A SALMONN a Speech Audio Language Music Open Neural Network rövidítése, és ez egy egyetlen audio-szöveg multimodális nagy nyelvi modell keretrendszer, amely képes érzékelni és megérteni három alapvető hang- vagy hangtípust, beleértve a beszédet, az audio eseményeket és a zenét. A SALMONN modell lehetővé teszi a nagy nyelvű modellek számára, hogy közvetlenül megértsék és feldolgozzák az általános hangbemeneteket, és versenyképes teljesítményt nyújtsanak a hang- és beszédfeladatok széles skáláján. 

A SALMONN keretrendszer a beszéd és a beszéd nélküli hangfeladatok teljesítményének növelése érdekében kettős kódoló struktúrát alkalmaz, amely egy BEATs hangkódolóból és egy, a Whisper beszédmodellből származó beszédkódolóból áll. Ezenkívül a SALMONN keretrendszer ablakszintű Q-Former-t vagy query Transformert is használ csatlakozási modulként, hogy a változó hosszúságú kódoló kimeneti sorozatát hatékonyan konvertálja változó számú bővített hangtokenné, és végső soron magas időbeli felbontást érjen el az audio- szövegigazítás. A LoRA vagy alacsony rangú adaptáció megközelítést a Vicuna keretrendszer keresztmodális adaptereként használják, hogy a kimeneti terét a kibővített bemeneti területhez igazítsák a teljesítmény további növelése érdekében. A SALMONN keretrendszerben az utasítások betanítása során elveszett, a képzési szakaszban nem látott, intermodális feladatok végrehajtásának képessége, mint cross-modális felbukkanó képességek, az elsődleges oka annak, hogy a SALMONN keretrendszer egy további néhány lépésből álló aktiválási szakaszt valósít meg az LLM visszaszerzése érdekében. keretrendszer általános felmerülő képességei. 

Ezenkívül a keretrendszer audioesemények, zenei benchmarkok és beszéd-benchmarkok széles skáláját használja fel a kognitív hallási képességek értékelésére, és a benchmarkokat három szintre osztja. Az első benchmark szinten a keretrendszer nyolc feladatot tanít az oktatási képzésben, beleértve a fordítást, a hangfeliratozást és a beszédfelismerést. A másik két benchmark szint nem képzett feladatok, a második szintű benchmark pedig 5 beszédalapú természetes nyelvi feldolgozási feladatból áll, mint például a réskitöltés és a fordítás nem képzett nyelvekre, amelyek a szöveg és a beszédjelek kiváló minőségű többnyelvű igazításán alapulnak. Az utolsó szintű benchmark feladatok megkísérlik a beszéd és a nem beszéd hallási információkat megérteni a beszéd-audió együttgondoláshoz és a hangalapú történetmeséléshez. 

Összefoglalva a SALMONN keretrendszer

  1. Az első multimodális nagy nyelvi modell, amely képességei szerint képes megérteni és érzékelni az általános hangbemeneteket, beleértve a hangeseményeket, a beszédet és a zenét. 
  2. Kísérlet a LoRA skálázási faktor megvalósítása által kínált keresztmodális felbukkanó képességek elemzésére, és egy extra költségkímélő aktiválási szakasz használatával a képzés során, hogy aktiválja a keretrendszer keresztmodális előkelő képességeit. 

SALMONN: Építészet és módszertan

Ebben a részben a SALMONN keretrendszer architektúráját, képzési módszerét és kísérleti beállítását tekintjük át. 

Modellarchitektúra

Architektúrája lényegében a SALMONN keretrendszer szinkronizálja és kombinálja a két auditív kódoló kimeneteit, majd a keretrendszer egy Q-Formert valósít meg keret szinten, mint csatlakozási modult. A Q-Former által generált kimeneti szekvencia összevonódik szöveges utasításokkal, majd bemenetként szolgál a LoRA adaptációs megközelítéshez a szükséges válasz generálásához. 

Auditív kódolók

A SALMONN keretrendszer két hallási kódolót használ: egy beszéd nélküli BEATs hangkódolót és egy beszédkódolót, amely az OpenAI Whisper keretrendszeréből származik. A BEATs audiokódoló az önfelügyelt iteratív tanulási megközelítés használatára van kiképezve, hogy megpróbálja kivonni a nem beszédből származó magas szintű hangszemantikát, míg a beszédkódolót nagy mennyiségű gyengén felügyelt adatra képezték ki beszédfelismerési és beszédfordítási feladatokhoz. a kódoló kimeneti jellemzői, amelyek alkalmasak a háttérzaj és a beszéd információira. A modell először tokenizálja a bemeneti hangot, majd ezt követően maszkolja és előrejelzi a képzés során. Ennek a két kódolónak a hallási jellemzői kiegészítik egymást, és alkalmasak beszéd és nem beszéd információra egyaránt. 

Ablakszint Q-Former

A Q-Former struktúra megvalósítása az LLM-keretrendszerekben általánosan használt megközelítés a képkódoló kimenetének szöveges beviteli tokenekké alakítására, és bizonyos módosításokra van szükség a különböző hosszúságú audio tokenek kezelésekor. Pontosabban, a keretrendszer a bemeneti kép kódoló kimenetét egy összefűzött kódoló kimeneti sorozatnak tekinti, és a Q-Former meghatározott számú betanítható lekérdezést telepít, hogy a kódoló kimeneti sorozatát szöveges tokenekké alakítsa a Q-Former halmozott blokkjainak segítségével. . A halmozott Q-Former blokk egy Transformer dekóder blokkhoz hasonlít, azzal a kivétellel, hogy eltávolítják az alkalmi maszkokat az önfigyelő rétegekből, és rögzített számú betanítható statikus lekérdezést használnak a kezdeti blokkokban. 

LoRA és LLM

A SALMONN keretrendszer egy Vicuna LLM-et is telepít, amely egy LLaMA nagy nyelvi modell-keretrendszer, amely az utasítások pontosabb és hatékonyabb követésére van finomhangolva. A LoRA keretrendszer egy elterjedt módszer a paraméter-hatékony finomhangoláshoz, és a SALMONN keretrendszerbe való beépítése a súlymátrixok értékelésére és a lekérdezés adaptálására az önfigyelő rétegekben. 

Képzési módszer

A SALMONN keretrendszer háromlépcsős keresztmodális képzési megközelítést alkalmaz. A képzési szakasz egy előképzési szakaszból és egy oktatási hangolási szakaszból áll, amelyek a legtöbb része vizuális LLM keretrendszerek, és egy további aktiválási hangolási szakaszt alkalmaznak a hangfeliratozási és beszédfelismerési feladatok során felmerülő túlillesztési problémák megoldására. 

Előképzési szakasz

Az előre betanított paraméterek, köztük a kódolók és az LLM, valamint a véletlenszerűen inicializált paraméterek, köztük az adapter és a csatlakozási modulok közötti különbség korlátozása érdekében a SALMONN keretrendszer nagy mennyiségű hangfeliratot és beszédfelismerési adatot használ a LoRA és Q-Former összetevők előtanítására. . Ezek a feladatok létfontosságú hallási információkat tartalmaznak az audioesemények kulcsfontosságú tartalmáról, mind a beszédről, mind a nem beszédről, és egyikük sem igényel komplex megértést vagy érvelést a szöveges és az auditív információk összehangolásának megtanulásához. 

Utasítás Finomhangoló szakasz

A SALMONN keretrendszerben megvalósított utasítás-finomhangolási szakasz hasonlít az NLP és a vizuális LLM keretrendszerben megvalósítottra, mivel audioesemények, zenei feladatok és beszédesemények listáját használja a hangszöveg utasítások finomhangolásához. A feladatokat fontosságuk alapján rangsorolják a különböző tesztek során, beleértve a telefonfelismerést, az átfedő beszédfelismerést és a zenei feliratokat. Ezenkívül a hangadatokkal párosított szöveges információ képezi az utasítások generálásának alapját. 

Feladat túlillesztése

A SALMONN keretrendszer még csak az első két képzési szakasz megvalósítása esetén is versenyképes eredményeket hoz az utasítás-hangolási feladatokban, bár a teljesítmény nem éri el a határt cross-modális feladatok végrehajtása során, különösen a keresztmodális együttgondolkodási képességet igénylő feladatoknál. Pontosabban, a modell időnként megsérti az utasításokat, amelyek irreleváns vagy helytelen válaszokat generálnak, és ezt a jelenséget a SALMONN keretrendszerben feladat-túlillesztésnek nevezik, és az Aktiválási hangolás szakaszt alkalmazzák ezeknek a túlillesztési problémáknak a megoldására. 

Aktiválás Tuning Stage

A túlillesztési problémák megoldásának hatékony megközelítése a belső feltételes nyelvi modellek rendszeresítése hosszabb és változatosabb válaszok használatával, mint például a történetmesélés vagy az auditív információn alapuló kérdésmegválaszolás. A keretrendszer ezután létrehozza a pár betanítási adatokat az ilyen feladatokhoz hanggal, beszéddel vagy zenei feliratokkal párosított szöveg használatával. 

Feladat specifikációi

A SALMONN zéró-shot cross-modális felbukkanó képességeinek értékeléséhez a fejlesztők 15 beszéd-, hang- és zenei feladatot adtak meg három szintre osztva. 

Level 1

Az első szinten a feladatok az utasítások hangolására szolgálnak, így ezek a legegyszerűbb feladatkészletek, amelyeket a SALMONN keretrendszernek végre kell hajtania. 

Level 2

A második szint nem képzett feladatokból áll, és a komplexitási szint magasabb az 1. szintű feladatokhoz képest. A 2. szinten a feladatok természetes nyelvi feldolgozáson alapuló feladatok, beleértve a beszéd kulcsszavak kinyerését, amely a keretrendszer pontosságának értékelésére szolgál bizonyos kulcsszavak beszéd segítségével történő kivonásakor. A további feladatok közé tartozik az SQQA vagy beszélt lekérdezés alapú kérdések megválaszolása, amely kiértékeli a józan ész tudását, amelyet a keretrendszer beszédkérdések segítségével kivonat, egy SF vagy Speech-based Slot Filling feladat a résértékek pontosságának értékeléséhez, és végül két AST feladat van Angol-német és angol-japán konvertálás. 

Level 3

A 3. szinten a feladatok összetettsége a legmagasabb a másik két szinttel összehasonlítva, és magában foglalja a SAC vagy Speech Audio Co-okoskodást és a Hangalapú történetmesélés feladatokat. A SAC feladat megköveteli, hogy a SALMONN keretrendszer megértse a modellhez betáplált hangklipben szereplő kérdést, hangesemények vagy a háttérben lévő zene segítségével alátámasztó bizonyítékokat találjon, és végül megfelelő indokot generáljon a kérdés megválaszolásához. A hangalapú történetmesélési feladatok megkövetelik, hogy a modell értelmes történetet generáljon az általános hangbemenetekből származó hallási információk alapján.

Eredmények

1. szintű feladatok

Az alábbi táblázat bemutatja az 1. szintű feladatok eredményeit, és amint látható, a SALMONN keretrendszer versenyképes eredményeket ad vissza az 1. szintű feladatoknál, aktiválás-hangolással vagy anélkül. 

2. és 3. szintű feladatok

Bár a SALMONN keretrendszer finomhangolás nélkül is versenyképes eredményeket ad az 1. szintű feladatokon, a 2. és 3. szintű feladatokról ugyanez nem mondható el, mivel aktiválás nélkül a SALMONN keretrendszer súlyosan megszenvedi a feladatok túlzott ráillesztését. A teljesítmény még tovább süllyed az SQQA, SAC és Storytelling feladatoknál, különös tekintettel a következőkre multimodális interakciók, és a SALMONN keretrendszer nehezen követi az utasításokat az aktiválás hangolása nélkül. Az aktiválás hangolásával azonban az eredmények jelentősen javulnak, és az eredményeket a következő kép tartalmazza. 

Leszámítoló LoRA skálázási tényező

Diskontálás A LoRA skálázási tényező értékeli a LoRA skálázási tényező időteszt-leszámításának hatását a feladatok túlillesztési problémáinak minimalizálása érdekében. Amint az a következő ábrán is megfigyelhető, a LoRA skálázási tényezőjének 2.0-ra való csökkentése megemeli a SALMONN keretrendszer keresztmodális érvelési képességét az ASR és PR feladatoknál, az SQQA feladatoknál, a Storytelling feladatoknál és a SAC feladatoknál. 

Feladat-túlillesztés értékelése

Az aktiválási hangolás hangsúlyozása érdekében a SALMONN keretrendszer elemzi a zavartság változásait a három képzési szakasz során, és amint az a következő képen is látható, az AAC és ASR feladatok zavartságváltozásainak kis végső értékei vannak az első képzési szakasz után, jelezve a modell tanulása a keresztmodális igazításokról. 

Ezen túlmenően, a PR-feladat bonyolultsága az utasítás utáni hangolást is csökkenti, mivel a kimeneti tokenek megtanulása a LoRA komponensre támaszkodik. Az is megfigyelhető, hogy bár az utasítások hangolása segít csökkenteni a történetmesélési és SAC-feladatok zavarát, a rés továbbra is elég nagy a feladatok sikeres végrehajtásához, hacsak nem adunk hozzá egy további aktiválási szakaszt vagy eltávolítjuk a LoRA-komponenst. 

Aktiválási hangolás

A SALMONN keretrendszer különféle aktiválási módszerekbe merül bele, beleértve a modell betanítását hosszú válaszokat tartalmazó szöveges minőségbiztosítási feladatpárokra, vagy hangalapú hosszú írott történetek használatára, míg a hosszú beszédátírások használata az ASR-feladatokhoz. Mind a Q-Former, mind a LoRA komponensek finomhangolása ezzel a három módszerrel történik. Ezenkívül a keretrendszer figyelmen kívül hagyja az audio és Q-Former bemeneteket, hogy megpróbálja finomhangolni a LoRA és a Vicuna komponenseket adaptív szöveg alapú nagy nyelvi modellként, és az eredményeket a következő kép mutatja be, és amint látható. , a modell nem aktiválható ASR-rel (hosszú címkékkel rendelkező ASR-tanítás), sem Story- vagy Text-alapú LoRA-komponens betanításával szöveges prompt bemenetekkel. 

Záró gondolatok

Ebben a cikkben a SALMONN-ról vagy a Speech Audio Language Music Open Neural Networkről beszéltünk, amely egyetlen audio-szöveg multimodális nagy nyelvi modell keretrendszer, amely képes érzékelni és megérteni három alapvető hang- vagy hangtípust, beleértve a beszédet, a hangeseményeket és a zenét. A SALMONN modell lehetővé teszi a nagy nyelvű modellek számára, hogy közvetlenül megértsék és feldolgozzák az általános hangbemeneteket, és versenyképes teljesítményt nyújtsanak a hang- és beszédfeladatok széles skáláján. 

A SALMONN keretrendszer versenyképes teljesítményt nyújt a betanított feladatok széles skálájában, beleértve a hangfeliratozást, a beszédfordítást és -felismerést és még sok mást, miközben általánosítható egy sor képzetlen megértési feladatra, beleértve a beszédfordítást kulcsszavak kivonásához és a nem képzett nyelveket. A SALMONN keretrendszer adottságainál fogva a következő lépésnek tekinthető a nagy nyelvi modellek általános hallási képességeinek fejlesztése felé.

"Szakmailag mérnök, szívből író". Kunal egy műszaki író, aki mélyen szereti és érti az AI-t és az ML-t, és elkötelezett a komplex fogalmak egyszerűsítése ezeken a területeken lebilincselő és informatív dokumentációi révén.