Tekoäly
xLSTM: Laaja opas laajennettuun pitkäaikaiseen muistiin
Ymmärtäminen alkuperästä: LSTMin rajoitukset
Ennen kuin syventymme xLSTM:n maailmaan, on tärkeää ymmärtää rajoitukset, joita perinteiset LSTMin arkkitehtuurit ovat kohdanneet. Nämä rajoitukset ovat olleet voimavaara xLSTMin ja muiden vaihtoehtoisten lähestymistapojen kehittymiselle.
- Tallennetun tiedon revisoin kyvyttömyys: Yksi LSTMin päärajoituksista on sen taistelu revisioida tallennettuja arvoja, kun kohtaa samankaltaisemman vektorin. Tämä voi johtaa alisuorituskykyyn tehtävissä, jotka vaativat dynaamisia päivityksiä tallennettuun tietoon.
- Rajoitetut tallennuskapasiteetit: LSTMit pakkaavat tiedon skalaarimuistitilaan, mikä voi rajoittaa niiden kykyä tallentaa ja hakea monimutkaisia tietokuva-malleja, erityisesti harvinaisten tokenien ja pitkän aikavälin riippuvuuksien käsittelyssä.
- Rinnakkaisuuden puute: LSTMin muistin sekoitusmekanismi, joka sisältää piilotettu-piilotettu yhteydet aikaskipoissa, pakottaa peräkkäisen prosessoinnin, haitaten laskelmien rinnakkaisuutta ja rajoittaen skaalautuvuutta.
Nämä rajoitukset ovat avanneet tien Transformer- ja muiden arkkitehtuureiden kehittymiselle LSTMin ohittamiseksi erityisesti skaalautuvuuden suhteen.
xLSTM-arkkitehtuuri
xLSTMin ydin ovat kaksi päämuutosta perinteiseen LSTMin kehykseen: eksponentiaalinen portti ja uudet muistirakenteet. Nämä parannukset esittelevät kaksi uutta LSTMin varianttia, tunnettuja skalaari-LSTM (sLSTM) ja matriisi-LSTM (mLSTM) -nimillä.
- sLSTM: Skalaari-LSTM eksponentiaalisella portilla ja muistin sekoituksella
- Eksponentiaalinen portti: sLSTM sisältää eksponentiaalisia aktivaatiofunktioita syöttö- ja unohdusporteille, mahdollistaen joustavamman valvonnan tietovirtauksessa.
- Normalisointi ja stabilisointi: Estämään numeerisia epävakaavuuksia, sLSTM esittelee normalisoivatilan, joka seuraa syöttöporttien ja tulevien unohdusporttien tuotetta.
- Muistin sekoitus: sLSTM tukee useita muistisoluja ja sallii muistin sekoituksen toistuvien yhteyksien kautta, mahdollistaen monimutkaisten kuvioiden ja tilan seuraamisen.
- mLSTM: Matriisi-LSTM parannetuilla tallennuskapasiteeteilla
- Matriisimuisti: Sen sijaan, että skalaarimuistisolu, mLSTM käyttää matriisimuistia, kasvattaen tallennuskapasiteettia ja mahdollistaen tehokkaamman tiedon hakemisen.
- Kovarianssin päivityssääntö: mLSTM käyttää kovarianssin päivityssääntöä, joka on inspiroitu Bidirectional Associative Memories (BAMs) -tekniikasta, tallentamaan ja hakemaan avain-arvo -paria tehokkaasti.
- Rinnakkaisuus: Luopumalla muistin sekoituksesta, mLSTM saavuttaa täydellisen rinnakkaisuuden, mahdollistaen tehokkaat laskelmat modernilla laitteistokiihdyttimillä ja skaalautuvuuden suurempiin malleihin.
Nämä kaksi varianttia, sLSTM ja mLSTM, voidaan integroida residuaaliblokkien arkkitehtuureihin, muodostaen xLSTM-blokit. Residuaalisesti pinouttamalla näitä xLSTM-blokkeja, tutkijat voivat rakentaa voimakkaita xLSTM-arkkitehtuureja, jotka on suunniteltu tiettyihin tehtäviin ja sovellusalueisiin.
Matematiikka
Perinteinen LSTM:
Alkuperäinen LSTM-arkkitehtuuri esitteli vakion virhekarusellin ja porttitoiminnot ylittääkseen häviävän gradientin ongelman toistuvissa neuroverkoissa.

Toistuva moduuli LSTMissä – Lähde
LSTM-muistisolu päivittyy seuraavilla yhtälöillä:
Muistitilan päivitys: ct = ft ⊙ ct-1 + it ⊙ zt
Piilomuistin päivitys: ht = ot ⊙ tanh(ct)
Missä:
- 𝑐𝑡 on muistitilavektori aikataulussa 𝑡
- 𝑓𝑡 on unohdusporttivertori
- 𝑖𝑡 on syöttöporttivertori
- 𝑜𝑡 on porttivertori
- 𝑧𝑡 on syöttö, joka on muokattu syöttöportin kautta
- ⊙ edustaa alkioittain suoritettavaa kertolaskua
Portit ft, it, ja ot ohjaavat, mitä tietoa tallennetaan, unohdetaan ja tulostetaan muistitilasta ct, lieventäen häviävän gradientin ongelmaa.
xLSTM eksponentiaalisella portilla:
xLSTM-arkkitehtuuri esittää eksponentiaalisen portin, jotta voidaan saavuttaa joustavampi valvonta tietovirtauksessa. Skalaari-xLSTM (sLSTM) -variantille:
Muistitilan päivitys: ct = ft ⊙ ct-1 + it ⊙ zt
Normalisointitilan päivitys: nt = ft ⊙ nt-1 + it
Piilomuistin päivitys: ht = ot ⊙ (ct / nt)
Syöttö- ja unohdusportit: it = exp(W_i xt + R_i ht-1 + b_i) ft = σ(W_f xt + R_f ht-1 + b_f) TAI ft = exp(W_f xt + R_f ht-1 + b_f)
Eksponentiaaliset aktivaatiofunktiot syöttö- ja unohdusportteja varten, yhdessä normalisointitilan kanssa, mahdollistavat tehokkaamman muistin päivittämisen ja tallennettujen tietojen revisoin.
xLSTMin avainominaisuudet ja edut
- Tallennetun tiedon revisoin kyky: Kiitoksena eksponentiaalisesta portista, xLSTM voi tehokkaasti revisioida tallennettuja arvoja, kun kohtaa relevantimman tiedon, ylittäen merkittävän LSTMin rajoituksen.
- Parannetut tallennuskapasiteetit: Matriisimuisti mLSTM:ssä tarjoaa lisää tallennuskapasiteettia, mahdollistaen xLSTMin käsittelyn harvinaisia tokenia, pitkän aikavälin riippuvuuksia ja monimutkaisia tietokuva-malleja tehokkaammin.
- Rinnakkaisuus: mLSTM-variantti xLSTM:stä on täysin rinnakkaisuudelle altis, mahdollistaen tehokkaat laskelmat modernilla laitteistokiihdyttimillä, kuten GPU:illa, ja skaalautuvuuden suurempiin malleihin.
- Muistin sekoitus ja tilan seuraaminen: sLSTM-variantti xLSTM:stä säilyttää perinteisten LSTMin muistin sekoituskyvyn, mahdollistaen tilan seuraamisen ja tekevät xLSTMin ilmaisukykyisemmäksi kuin Transformerit ja tila-avaruusmallit tietyissä tehtävissä.
- Skaalautuvuus: Hyödyntämällä viimeisimpien suurten kielen mallien tekniikoita, xLSTM voidaan skaalata miljardeille parametreille, avaen uusia mahdollisuuksia kielen mallinnuksessa ja jonon käsittelytehtävissä.
Kokeellinen arviointi: xLSTMin kykyjen esittely
Tutkimusartikkeli esittää kattavan kokeellisen arvioinnin xLSTM:stä, korostaen sen suorituskykyä eri tehtävissä ja vertailukohdissa. Tässä ovat joitain avainlöydöksiä:
- Synteettiset tehtävät ja Pitkän aikavälin Arena:
- xLSTM menestyy formalikielitehtävissä, jotka vaativat tilan seuraamista, ylittäen Transformerit, tila-avaruusmallit ja muut toistuvat neuroverkkomallit.
- Moni-kysely-assosiaatiivisessa palautustehtävässä xLSTM osoittaa parannettuja muistikapasiteetteja, ylittäen non-Transformer-mallit ja kilpaillen Transformerien suorituskyvyn kanssa.
- Pitkän aikavälin Arenan vertailukohdassa xLSTM osoittaa johdonmukaista vahvaa suorituskykyä, korostaen sen tehokkuutta pitkän aikavälin ongelmissa.
- Kielen mallinnus ja alatehtävät:
- Kun xLSTM on koulutettu 15B tokenilla SlimPajama-aineistosta, se ylittää olemassa olevat menetelmät, mukaan lukien Transformerit, tila-avaruusmallit ja muut toistuvat neuroverkkomallit, validointiperpleksiteetin suhteen.
- Mallien skaalautuessa suuremmiksi, xLSTM säilyttää suorituskykyedun, osoittaen suotuisan skaalautumiskäyttäytymisen.
- Alatehtävissä, kuten yleisen viisauden päättelyssä ja kysymyksiin vastaamisessa, xLSTM nousee parhaaksi menetelmäksi useissa mallikokoissa, ylittäen valtavirta-lähestymistavat.
- Suorituskyky PALOMA-kielitehtävissä:
- Arvioiden 571 tekstidomeenia PALOMA-kielitestistä, xLSTM[1:0] (sLSTM-variantti) saavuttaa alempia perpleksiteettejä kuin muut menetelmät 99,5%:ssa domeeneista verrattuna Mambaan, 85,1%:ssa verrattuna Llamaan ja 99,8%:ssa verrattuna RWKV-4:ään.
- Skaalautumisen lait ja pituuden ekstrapolointi:
- Kun xLSTM on koulutettu 300B tokenilla SlimPajamasta, se osoittaa suotuisan skaalautumisen lait, osoittaen potentiaalia suuremmille suorituskykyille mallikoon kasvaessa.
- Jonon pituuden ekstrapolointikokeissa xLSTM-mallit säilyttävät alhaiset perpleksiteetit, jopa konteksteissa, jotka ovat merkittävästi pidemmät kuin ne, joita nähtiin koulutuksen aikana, ylittäen muut menetelmät.
Nämä kokeelliset tulokset korostavat xLSTMin merkittäviä kykyjä, asemoi sen lupaavaksi ehdokkaaksi kielen mallinnustehtävissä, jonon käsittelyssä ja laajassa sovellusalueessa.
Käytännön sovellukset ja tulevaisuuden suunnat
xLSTMin potentiaaliset sovellukset kattavat laajan alueen, luonnollisen kielen käsittelystä ja generoinnista jonon mallinnukseen, aikasarja-analyysiin ja sen ulkopuolelle. Tässä on joitain mielenkiintoisia alueita, joilla xLSTM voi tehdä merkittävän vaikutuksen:
- Kielen mallinnus ja tekstigenerointi: xLSTMin parannetut tallennuskapasiteetit ja kyky revisioida tallennettua tietoa voivat vallankumouksellisesti parantaa kielen mallinnusta ja tekstigenerointia, mahdollistaen yhdenmukaisemman, kontekstiherkkän ja sulavan tekstigeneroinnin.
- Konekäännös: xLSTMin tilan seuraamiskyky voi osoittautua äärimmäisen arvokkaaksi käännöstehtävissä, joissa ylläpitäminen kontekstuaalista tietoa ja ymmärtäminen pitkän aikavälin riippuvuuksia on välttämätöntä tarkoille käännöksille.
- Puheentunnistus ja -generointi: xLSTMin rinnakkaisuus ja skaalautuvuus tekevät siitä sopivan puheentunnistus- ja generointisovelluksille, joissa tehokas pitkien jonojen käsittely on olennainen.
- Aikasarja-analyysi ja -ennustaminen: xLSTMin kyky käsittää pitkän aikavälin riippuvuuksia ja tallentaa tehokkaasti monimutkaisia tietokuva-malleja voi johtaa merkittäviin parannuksiin aikasarja-analyysissä ja -ennustamisessa eri aloilla, kuten rahoituksessa, sääennustuksessa ja teollisuuden sovelluksissa.
- Vahvistettu oppiminen ja ohjausjärjestelmät: xLSTMin potentiaali vahvistetussa oppimisessa ja ohjausjärjestelmissä on lupaava, koska sen parannetut muistikyvyt ja tilan seuraamiskyky voivat mahdollistaa älykkämmän päätöksenteon ja ohjauksen monimutkaisissa ympäristöissä.
















