Tekoäly

xLSTM: Kattava opas laajennettuun Long Short-Term Memoryyn

Published May 16, 2024

Updated April 27, 2026

Aayush Mittal Mittal

Yli kaksi vuosikymmentä sitten Sepp Hochreiterin uraauurtava Long Short-Term Memory (LSTM) -arkkitehtuuri on ollut merkittävässä roolissa monissa syvän oppimisen läpimurroissa ja sovelluksissa. Luonnollisen kielen generoimisesta puheentunnistusjärjestelmiin, LSTMit ovat olleet voimavaikutus tekoälyvallankumouksessa.

Hochreiter itse kuitenkin tunnusti LSTMin sisäiset rajoitukset, jotka estivät niitä saavuttamasta täyttä potentiaaliaan. Heikkouksia, kuten kyky muokata tallennettua tietoa, rajoitettu muistikapasiteetti ja puute rinnakkaisuudesta, loivat tien transformer- ja muiden mallien kehittymiselle LSTMin ohittamiseksi monimutkaisemmissa kielitehtävissä.

Viimeaikaisessa kehityksessä Hochreiter ja hänen tiiminsä NXAI:ssa ovat esitelleet uuden variantin, laajennetun LSTM (xLSTM), joka ratkaisee nämä pitkään jatkuneet ongelmat. Viimeaikaisessa tutkimusartikkelissa esiteltiin xLSTM, joka perustuu LSTMin perusideoihin, mutta ylittää sen avainheikkoudet arkkitehtonisten innovaatioiden kautta.

xLSTMin ydin ovat kaksi uutta komponenttia: eksponentiaalinen portti ja parannetut muistirakenteet. Eksponentiaalinen portti sallii joustavamman valvonnan tiedonvirran yli, mahdollistaen xLSTM:lle tehokkaan päätösten tarkistamisen, kun uusi konteksti havaitaan. Samalla matriisimuisti lisää tallennuskapasiteettia perinteisiin skalaarisiin LSTMeihin verrattuna.

Parannukset eivät kuitenkaan päätty tähän. Käyttämällä suuria kielen malleja, kuten rinnakkaisuutta ja residuaalisten lohkien pinoutta, xLSTMit voivat tehokkaasti skaalata miljardeille parametreille. Tämä avaa heidän potentiaalinsa mallittaa erittäin pitkiä jonoja ja kontekstiuikkunoita – kyky, joka on kriittinen monimutkaisen kielen ymmärtämiseksi.

Hochreiterin viimeisimmän luomisen vaikutukset ovat valtavat. Kuvittele virtuaalisia avustajia, jotka voivat luotettavasti seurata kontekstia useita tunteja kestävissä keskusteluissa. Tai kielimalleja, jotka yleistävät vahvemmin uusiin alueisiin koulutuksen jälkeen laajalla aineistolla. Sovellukset kattavat jokaisen alueen, jossa LSTMit tekivät vaikutuksen – chatbotit, käännökset, puheliittymät, ohjelma-analyysi ja paljon muuta – mutta nyt xLSTMin läpimurto-ominaisuuksilla varustettuina.

Tässä syvällisessä teknisessä oppaassa tutustumme xLSTMin arkkitehtonisiin yksityiskohtiin, arvioimme sen uudet komponentit, kuten skalaari- ja matriisilaskenta, eksponentiaaliset porttitoiminnot, muistirakenteet ja paljon muuta. Saat tietoa kokeellisista tuloksista, jotka osoittavat xLSTMin vaikuttavat suorituskyvyn parantumisen ylittäen valtiokunnan arkkitehtuureja, kuten transformerit ja viimeisimmät toistuvat mallit.

Ymmärtäminen alkuperästä: LSTMin rajoitukset

Ennen kuin syventymme xLSTM:n maailmaan, on tärkeää ymmärtää rajoitukset, joita perinteiset LSTMin arkkitehtuurit ovat kohdanneet. Nämä rajoitukset ovat olleet voimavaikutus xLSTMin ja muiden vaihtoehtoisten lähestymistapojen kehittymiselle.

Tallennetun tiedon muokkaamisen kyvyttömyys: Yksi LSTMin päärajoituksista on sen kamppailu tallennettujen arvojen muokkaamisessa, kun vastaavampi vektori havaitaan. Tämä voi johtaa alhaiseen suorituskykyyn tehtävissä, jotka vaativat dynaamisia päivityksiä tallennettuun tietoon.
Rajoitettu tallennuskapasiteetti: LSTMit pakkaavat tiedon skalaarimuistitilaan, mikä voi rajoittaa niiden kykyä tallentaa ja hakea tehokkaasti monimutkaisia tietokuvioita, erityisesti harvinaisten tokenien ja pitkän aikavälin riippuvuuksien käsittelyssä.
Rinnakkaisuuden puute: LSTMin muistin sekoitusmekanismi, joka sisältää piilotettuja yhteyksiä aikaskorroissa, pakottaa peräkkäisen prosessoinnin, joka haittaa laskennan rinnakkaisuutta ja rajoittaa skaalautuvuutta.

Nämä rajoitukset ovat avaaneet tien Transformer- ja muiden arkkitehtuureille, jotka ovat ylittäneet LSTMit joissakin näkökohdissa, erityisesti skaalautuessa suurempiin malleihin.

xLSTM-arkkitehtuuri

Laajennettu LSTM (xLSTM) perhe

xLSTMin ytimessä on kaksi päämuutosta perinteiseen LSTMin kehykseen: eksponentiaalinen portti ja uudet muistirakenteet. Nämä parannukset esittelevät kaksi uutta LSTMin varianttia, tunnettuja skalaari-LSTM (sLSTM) ja matriisilaskenta-LSTM (mLSTM).

sLSTM: Skalaari-LSTM eksponentiaalisella portilla ja muistin sekoituksella
- Eksponentiaalinen portti: sLSTM sisältää eksponentiaalisia aktivaatiofunktioita syöte- ja unohdusportteja varten, mahdollistaen joustavamman valvonnan tietovirran yli.
- Normalisointi ja stabilisointi: Estämään numeerisia epävakavuuksia, sLSTM esittelee normalisaatiotilan, joka seuraa syöteporttien ja tulevien unohdusporttien tuotetta.
- Muistin sekoitus: sLSTM tukee useita muistisoluja ja sallii muistin sekoituksen toistuvien yhteyksien kautta, mahdollistaen monimutkaisten kuvioiden hakemisen ja tilan seuraamiskyvyn.
mLSTM: Matriisilaskenta-LSTM parannetuilla tallennuskapasiteeteilla
- Matriisimuisti: Sen sijaan, että skalaarimuistisolu, mLSTM käyttää matriisimuistia, joka lisää sen tallennuskapasiteettia ja mahdollistaa tehokkaamman tiedon hakemisen.
- Kovarianssin päivityssääntö: mLSTM käyttää kovarianssin päivityssääntöä, joka on inspiroitu Bidirectional Associative Memories (BAM) -muistista, tallentamaan ja hakemaan avain-arvo -pareja tehokkaasti.
- Rinnakkaisuus: Hylkäämällä muistin sekoituksen, mLSTM saavuttaa täydellisen rinnakkaisuuden, mahdollistaen tehokkaat laskelmat modernilla laitteistokiihdyttimillä, kuten GPU:illa, ja mahdollistaen skaalautuvuuden suurempiin malleihin.

Nämä kaksi varianttia, sLSTM ja mLSTM, voidaan integroida residuaalisiin lohkoihin, muodostamaan voimakkaita xLSTM-lohkia. Residuaalisesti pinouttamalla nämä xLSTM-lohkia, tutkijat voivat rakentaa tehokkaita xLSTM-arkkitehtuureja, jotka on suunniteltu tiettyihin tehtäviin ja sovellusalueisiin.

Matematiikka

Perinteinen LSTM:

Alkuperäinen LSTM-arkkitehtuuri esitteli vakion virhekarusellin ja porttitoimintoja ylittämään häviävän gradientin ongelman toistuvissa neuroverkoissa.

Toistuva moduuli LSTMissä – Lähde

LSTM-muistisolut päivitetään seuraavilla yhtälöillä:

Solun tilan päivitys: ct = ft ⊙ ct-1 + it ⊙ zt

Piilotetun tilan päivitys: ht = ot ⊙ tanh(ct)

Missä:

on solun tilavektori aikataulussa $t$
on unohdusportin vektori
on syöteportin vektori
on ulostusportin vektori
on syöte, joka on muokattu syöteportilla
edustaa alkioittain suoritettavaa kertolaskua

Portit ft, it ja ot ohjaavat, mitä tietoa tallennetaan, unohdetaan ja ulostetaan solun tilasta ct, lieventäen häviävän gradientin ongelmaa.

xLSTM eksponentiaalisella portilla:

xLSTM-arkkitehtuuri esittelee eksponentiaalisen portin, joka sallii joustavamman valvonnan tietovirran yli. Skalaari-xLSTM (sLSTM) -variantti varten:

Solun tilan päivitys: ct = ft ⊙ ct-1 + it ⊙ zt

Normalisaatiotilan päivitys: nt = ft ⊙ nt-1 + it

Piilotetun tilan päivitys: ht = ot ⊙ (ct / nt)

Syöte- ja unohdusportit: it = exp(W_i xt + R_i ht-1 + b_i) ft = σ(W_f xt + R_f ht-1 + b_f) TAI ft = exp(W_f xt + R_f ht-1 + b_f)

Eksponentiaaliset aktivaatiofunktiot syöte- (it) ja unohdusportteja (ft) varten, sekä normalisaatiotila nt, mahdollistavat tehokkaamman muistin päivittämisen ja tallennetun tiedon tarkistamisen.

xLSTM matriisimuistilla:

Matriisilaskenta-xLSTM (mLSTM) -variantti parannetulla tallennuskapasiteetilla:

Solun tilan päivitys: Ct = ft ⊙ Ct-1 + it ⊙ (vt kt^T)

Normalisaatiotilan päivitys: nt = ft ⊙ nt-1 + it ⊙ kt

Piilotetun tilan päivitys: ht = ot ⊙ (Ct qt / max(qt^T nt, 1))

Missä:

on matriisimuistitila
ja ovat arvo- ja avainvektorit
on kyselyvektori, jota käytetään hakemiseen

Nämä avainyhtälöt korostavat, miten xLSTM laajentaa alkuperäisen LSTMin muodostelmalla eksponentiaalisella portilla joustavamman muistinvalvonnan ja matriisimuistin parantamalla tallennuskapasiteetilla. Näiden innovaatioiden yhdistäminen mahdollistaa xLSTM:lle ylittää perinteisten LSTMin rajoitukset.

xLSTMin avainominaisuudet ja edut

Kyky muokata tallennettua tietoa: Kiitos eksponentiaaliselle portille, xLSTM voi tehokkaasti muokata tallennettuja arvoja, kun kohtaa relevantimman tiedon, ylittäen merkittävän LSTMin rajoituksen.
Parannetut tallennuskapasiteetit: Matriisimuisti mLSTM:ssä tarjoaa lisää tallennuskapasiteettia, mahdollistaen xLSTM:lle käsitellä harvinaisia tokenien, pitkän aikavälin riippuvuuksia ja monimutkaisia tietokuvioita tehokkaammin.
Rinnakkaisuus: mLSTM-variantti xLSTM:stä on täysin rinnakkaisuudelle altis, mahdollistaen tehokkaat laskelmat modernilla laitteistokiihdyttimillä, kuten GPU:illa, ja mahdollistaen skaalautuvuuden suurempiin malleihin.
Muistin sekoitus ja tilan seuraaminen: sLSTM-variantti xLSTM:stä säilyttää perinteisten LSTMin muistin sekoituskyvyn, mahdollistaen tilan seuraamisen ja tehden xLSTM:stä ilmaisukykyisemmän kuin Transformerit ja tila-avaruusmallit tietyissä tehtävissä.
Skaalautuvuus: Hyödyntämällä viimeisimpiä tekniikoita suurista kielimalleista (LLM), xLSTM voidaan skaalata miljardeille parametreille, avaen uusia mahdollisuuksia kielimallinnuksessa ja jonojen käsittelytehtävissä.

Kokeellinen arviointi: xLSTMin kykyjen esittely

Tutkimusartikkeli esittää kattavan kokeellisen arvioinnin xLSTM:stä, korostaa sen suorituskykyä eri tehtävissä ja vertailuissa. Tässä ovat joitakin avainlöydöksiä:

Synteettiset tehtävät ja Long Range Arena:
- xLSTM erinomaisesti ratkaisee muodolliset kielitehtävät, jotka vaativat tilan seuraamista, ylittäen Transformerit, tila-avaruusmallit ja muut toistuvat neuroverkkorakenteet.
- Moni-kyselyassosiaatiivisessa muistitehtävässä xLSTM osoittaa parannettuja muistikapasiteetteja, ylittäen ei-Transformer-malleja ja kilpaillen Transformerien suorituskyvyn kanssa.
- Pitkän aikavälin areenassa xLSTM osoittaa johdonmukaista vahvaa suorituskykyä, korostaen sen tehokkuutta pitkän kontekstin käsittelyssä.
Kielimallinnus ja alitehtävät:
- Kun xLSTM koulutetaan 15 miljardilla tokenilla SlimPajama-aineistosta, se ylittää olemassa olevat menetelmät, mukaan lukien Transformerit, tila-avaruusmallit ja muut toistuvat neuroverkkorakenteet, validointi-perpleksiteetin suhteen.
- Kun mallit skaalautuvat suuremmiksi, xLSTM jatkaa suorituskyvyn edun ylläpitämistä, osoittaen suotuisan skaalautuvuuden.
- Alitehtävissä, kuten yleisen viisauden päättelyssä ja kysymyksen vastaamisessa, xLSTM nousee parhaaksi menetelmäksi eri mallikokoja vastaan, ylittäen valtiovallan lähestymistavat.
Suorituskyky PALOMA-kielitehtävissä:
- Arvioiden 571 tekstidomeenia PALOMA-kielitestistä, xLSTM[1:0] (sLSTM-variantti) saavuttaa alempia perpleksiteettejä kuin muut menetelmät 99,5 %:ssa domeeneista verrattuna Mambaan, 85,1 %:iin verrattuna Llamaan ja 99,8 %:iin verrattuna RWKV-4:ään.
Skaalautumisen lait ja pituuden ekstrapolointi:
- Kun xLSTM koulutetaan 300 miljardilla tokenilla SlimPajama-aineistosta, se osoittaa suotuisat skaalautumisen lait, osoittaen sen potentiaalia suuremmille suorituskykyille, kun mallikoot kasvavat.
- Jonojen pituuden ekstrapolointikokeissa xLSTM-mallit ylläpitävät alhaisia perpleksiteettejä, jopa konteksteissa, jotka ovat merkittävästi pidemmät kuin ne, joita havaittiin koulutuksen aikana, ylittäen muita menetelmiä.

Nämä kokeelliset tulokset korostavat xLSTMin merkittäviä kykyjä, asettaen sen lupaavaksi ehdokkaaksi kielimallinnustehtävissä, jonojen käsittelyssä ja laajassa valikoimassa muita sovelluksia.

Reaalimaailman sovellukset ja tulevaisuuden suuntaukset

xLSTMin potentiaaliset sovellukset kattavat laajan valikoiman aloja, luonnollisen kielen käsittelystä ja generoinnista jonojen mallinnukseen, aikasarja-analyysiin ja siitä eteenpäin. Tässä on joitakin jännittäviä aloja, joissa xLSTM voi tehdä merkittävän vaikutuksen:

Kielimallinnus ja tekstigenerointi: Parannetuilla tallennuskapasiteeteilla ja kyvyllä muokata tallennettua tietoa xLSTM voi vallankumouksellisesti kielimallinnuksen ja tekstigeneroinnin tehtävissä, mahdollistaen yhdenmukaisemman, kontekstiherkkään ja sujuvan tekstin generoinnin.
Konekäännös: xLSTMin tilan seuraamiskyky voi olla arvokas konekäännöstehtävissä, joissa on tärkeää ylläpitää kontekstuaalista tietoa ja ymmärtää pitkän aikavälin riippuvuuksia tarkoissa käännöksissä.
Puheentunnistus ja -generointi: xLSTMin rinnakkaisuus ja skaalautuvuus tekevät siitä soveliaan puheentunnistus- ja generointisovelluksiin, joissa pitkien jonojen tehokas prosessointi on olennainen.
Aikasarja-analyysi ja -ennustaminen: xLSTMin kyky käsitellä pitkän aikavälin riippuvuuksia ja tallentaa monimutkaisia kuvioita voi johtaa merkittäviin parannuksiin aikasarja-analyysissä ja -ennustamisessa eri aloilla, kuten rahoituksessa, sääennustuksessa ja teollisissa sovelluksissa.
Vahvistusoppiminen ja ohjausjärjestelmät: xLSTMin potentiaali vahvistusoppimisessa ja ohjausjärjestelmissä on lupaava, koska sen parannetut muistikyvyt ja tilan seuraamiskyky voivat mahdollistaa älykkämmän päätöksenteon ja ohjauksen monimutkaisissa ympäristöissä.

Arkkitehtoniset optimoinnit ja hyperparametrien säätö

Vaikka nykyiset tulokset ovat lupaavia, on edelleen tilaa arkkitehtuurin optimoinnille ja hyperparametrien säätöön. Tutkijat voivat tutkia eri sLSTM- ja mLSTM-lohkojen yhdistelmiä, vaihdellen niiden suhteita ja sijoittelua koko arkkitehtuurissa. Lisäksi systemaattinen hyperparametrien etsintä voi johtaa edelleen parannuksiin, erityisesti suurempien mallien kohdalla.

Laitteistopohjaiset optimoinnit: xLSTM:n, erityisesti mLSTM-variantin, rinnakkaisuuden täysimäisen hyödyntämiseksi tutkijat voivat tutkia laitteistopohjaisia optimointeja, jotka on suunniteltu tiettyihin GPU-arkkitehtuureihin tai muihin kiihdyttimiin. Tämä voi sisältää CUDA-ytimien optimoinnin, muistinhallintastrategioiden kehittämisen ja erityisten ohjeiden tai kirjastojen hyödyntämisen tehokkaiden matriisilaskentojen suorittamiseksi.

Integrointi muihin neuroverkkokomponentteihin: xLSTMin integrointi muihin neuroverkkokomponentteihin, kuten huomioimekanismeihin, konvoluutioihin tai itseohjautuviin oppimismenetelmiin, voi johtaa hybridirakenteiden kehittymiseen, jotka yhdistävät eri lähestymistapojen vahvuudet. Nämä hybridimallit voivat mahdollisesti avaata uusia kykyjä ja parantaa suorituskykyä laajemmalla valikoimalla tehtäviä.

Vähäinen koulutus ja siirto-oppiminen: xLSTMin käytön tutkiminen vähäisessä koulutuksessa ja siirto-oppimisen tilanteissa voi olla jännittävä tulevaisuuden tutkimussuunta. Hyödyntämällä sen parannettuja muistikykyjä ja tilan seuraamiskykyä, xLSTM voi mahdollisesti mahdollistaa tehokkaamman tiedon siirron ja nopean sopeutumisen uusiin tehtäviin tai aloihin, joissa on rajattu koulutusaineisto.

Selittäminen ja tulkitseminen: Kuten monissa syvän oppimisen malleissa, xLSTMin sisäiset toimintamekanismit voivat olla epäselviä ja hankalia tulkitsemaan. Menetelmien kehittäminen xLSTMin päätösten tulkitsemiseksi ja selittämiseksi voi johtaa läpinäkyvämmpiin ja luotettavampiin malleihin, helpottaen niiden soveltamista kriittisissä sovelluksissa ja edistäen vastuullisuutta.

Tehokkaat ja skaalautuvat koulutusstrategiat: Kun mallit jatkavat kasvamistaan ja monimutkaisuuttaan, tehokkaat ja skaalautuvat koulutusstrategiat tulevat yhä tärkeammaksi. Tutkijat voivat tutkia menetelmiä, kuten mallin rinnakkaisuutta, datan rinnakkaisuutta ja jakautuneita koulutuslähestymistapoja, jotka on suunniteltu erityisesti xLSTM-arkkitehtuureja varten, mahdollistaen suurempien mallien koulutuksen ja mahdollisesti vähentäen laskennallisia kustannuksia.

Nämä ovat joitakin tulevaisuuden tutkimussuuntia ja aloja, joissa xLSTM voidaan edelleen kehittää.

Johtopäätös

xLSTMin esittely merkitsee merkittävää askelta kohti tehokkaampia ja tehokkaampia kielimallinnus- ja jonojen käsittelyarkkitehtuureja. Ratkaistessaan perinteisten LSTMin rajoitukset ja hyödyntäessä uusia tekniikoita, kuten eksponentiaalista porttia ja matriisimuistirakenteita, xLSTM on osoittanut merkittävää suorituskykyä laajalla valikoimalla tehtävissä ja vertailuissa.

Matka ei kuitenkaan päätty tähän. Kuten jokainen uraauurtava teknologia, xLSTM tarjoaa jännittäviä mahdollisuuksia edelleen kehittämiseen, hienosäätöön ja soveltamiseen reaalimaailman tilanteissa. Kun tutkijat jatkavat rajojen työntämistä, voimme odottaa todistavamme edelleen vaikuttavia edistysaskelia tekoäly- ja luonnollisen kielen käsittelyalueilla.

Aayush Mittal

Olen viettänyt viimeiset viisi vuotta uppoutumassa kiinnostavaan koneoppimisen ja syväoppimisen maailmaan. Intohimoni ja asiantuntemukseni ovat johtaneet minun osallistumiseen yli 50:een monipuoliseen ohjelmistosuunnitteluhankkeeseen, joissa on erityisesti painottunut tekoäly/ML. Jatkuva uteliaisuuteni on myös ohjannut minua kohti luonnollisen kielen prosessointia, alaa jota haluan tutkia tarkemmin.