Tekoäly

xLSTM: Laaja opas laajennettuun pitkäaikaiseen muistiin

mm

Yli kaksi vuosikymmentä sitten Sepp Hochreiterin uraauurtava Pitkäaikainen Muisti (LSTM) -arkkitehtuuri on ollut merkittävässä roolissa useissa syvän oppimisen läpimurroissa ja käytännön sovelluksissa. Luonnollisen kielen generoimisesta puheentunnistusjärjestelmiin, LSTMit ovat olleet voimavaara tekoälyvallankumouksessa.

Kuitenkin jopa LSTMin luoja on tunnustanut sen sisäiset rajoitukset, jotka ovat estäneet sen täysimäisen potentiaalin toteutumisen. Puutteet, kuten kyky revisioida tallennettua tietoa, rajoitetut muistikapasiteetit ja puute rinnakkaisuudesta, ovat avanneet tien Transformer- ja muiden mallien kehittymiselle LSTMin ohittamiseksi monimutkaisemmissa kielitehtävissä.

Mutta viimeaikaisessa kehityksessä Hochreiter ja hänen tiiminsä NXAI:ssa ovat esittäneet uuden variantin, laajennetun LSTMin (xLSTM), joka ratkaisee nämä pitkään jatkuneet ongelmat. Esitettyä tutkimusartikkelissa, xLSTM perustuu LSTMin perusideoihin, jotka tekivät LSTMit niin voimallisiksi, ja ylittää niiden avainheikkoudet arkkitehtonisten innovaatioiden kautta.

xLSTMin ydin ovat kaksi uutta komponenttia: eksponentiaalinen portti ja parannetut muistirakenteet. Eksponentiaalinen portti sallii joustavamman valvonnan tietovirtauksessa, mahdollistaen xLSTMin tehokkaan päätösten revisoin uuden kontekstin saatavilla ollessa. Samalla, matriisimuistin esittely laajentaa tallennuskapasiteettia perinteisiin skalaarisiin LSTMeihin verrattuna.

Parannukset eivät päätty siihen. Käyttämällä suuria kielen malleja lainattuja tekniikoita, kuten rinnakkaisuutta ja residual-blokkien pinoutta, xLSTMit voivat tehokkaasti skaalata miljardeille parametreille. Tämä avaa heidän potentiaalinsa mallittaa erittäin pitkiä jonoja ja kontekstiuikkunoita – kyky, joka on kriittinen monimutkaisen kielen ymmärtämisessä.

Hochreiterin viimeisimmän luomisen vaikutukset ovat valtavat. Kuvittele virtuaaliset avustajat, jotka voivat luotettavasti seurata kontekstia useiden tuntien keskusteluissa. Tai kielimallit, jotka yleistävät robustimmin uusiin alueisiin koulutuksen jälkeen laajalla datasta. Sovellukset kattavat kaikki alueet, joilla LSTMit tekivät vaikutuksen – chatbotit, käännökset, puheliittymät, ohjelma-analyysi ja enemmän – mutta nyt xLSTMin läpimurto-ominaisuuksilla varustettuina.

Tässä syvällisessä teknisessä oppaassa tutkimme xLSTMin arkkitehtonisia yksityiskohtia, arvioiden sen uudet komponentit kuten skalaari- ja matriisilaskenta-LSTMit, eksponentiaaliset porttitoiminnot, muistirakenteet ja enemmän. Saat tietoa kokeellisista tuloksista, jotka korostavat xLSTMin vaikuttavia suoritusparannuksia valtavirta-arkkitehtuureja, kuten Transformer- ja viimeisimpiä toistuvia malleja, vastaan.

Ymmärtäminen alkuperästä: LSTMin rajoitukset

Ennen kuin syventymme xLSTM:n maailmaan, on tärkeää ymmärtää rajoitukset, joita perinteiset LSTMin arkkitehtuurit ovat kohdanneet. Nämä rajoitukset ovat olleet voimavaara xLSTMin ja muiden vaihtoehtoisten lähestymistapojen kehittymiselle.

  1. Tallennetun tiedon revisoin kyvyttömyys: Yksi LSTMin päärajoituksista on sen taistelu revisioida tallennettuja arvoja, kun kohtaa samankaltaisemman vektorin. Tämä voi johtaa alisuorituskykyyn tehtävissä, jotka vaativat dynaamisia päivityksiä tallennettuun tietoon.
  2. Rajoitetut tallennuskapasiteetit: LSTMit pakkaavat tiedon skalaarimuistitilaan, mikä voi rajoittaa niiden kykyä tallentaa ja hakea monimutkaisia tietokuva-malleja, erityisesti harvinaisten tokenien ja pitkän aikavälin riippuvuuksien käsittelyssä.
  3. Rinnakkaisuuden puute: LSTMin muistin sekoitusmekanismi, joka sisältää piilotettu-piilotettu yhteydet aikaskipoissa, pakottaa peräkkäisen prosessoinnin, haitaten laskelmien rinnakkaisuutta ja rajoittaen skaalautuvuutta.

Nämä rajoitukset ovat avanneet tien Transformer- ja muiden arkkitehtuureiden kehittymiselle LSTMin ohittamiseksi erityisesti skaalautuvuuden suhteen.

xLSTM-arkkitehtuuri

Laajennettu LSTM (xLSTM) perhe

Laajennettu LSTM (xLSTM) perhe

xLSTMin ydin ovat kaksi päämuutosta perinteiseen LSTMin kehykseen: eksponentiaalinen portti ja uudet muistirakenteet. Nämä parannukset esittelevät kaksi uutta LSTMin varianttia, tunnettuja skalaari-LSTM (sLSTM) ja matriisi-LSTM (mLSTM) -nimillä.

  1. sLSTM: Skalaari-LSTM eksponentiaalisella portilla ja muistin sekoituksella
    • Eksponentiaalinen portti: sLSTM sisältää eksponentiaalisia aktivaatiofunktioita syöttö- ja unohdusporteille, mahdollistaen joustavamman valvonnan tietovirtauksessa.
    • Normalisointi ja stabilisointi: Estämään numeerisia epävakaavuuksia, sLSTM esittelee normalisoivatilan, joka seuraa syöttöporttien ja tulevien unohdusporttien tuotetta.
    • Muistin sekoitus: sLSTM tukee useita muistisoluja ja sallii muistin sekoituksen toistuvien yhteyksien kautta, mahdollistaen monimutkaisten kuvioiden ja tilan seuraamisen.
  2. mLSTM: Matriisi-LSTM parannetuilla tallennuskapasiteeteilla
    • Matriisimuisti: Sen sijaan, että skalaarimuistisolu, mLSTM käyttää matriisimuistia, kasvattaen tallennuskapasiteettia ja mahdollistaen tehokkaamman tiedon hakemisen.
    • Kovarianssin päivityssääntö: mLSTM käyttää kovarianssin päivityssääntöä, joka on inspiroitu Bidirectional Associative Memories (BAMs) -tekniikasta, tallentamaan ja hakemaan avain-arvo -paria tehokkaasti.
    • Rinnakkaisuus: Luopumalla muistin sekoituksesta, mLSTM saavuttaa täydellisen rinnakkaisuuden, mahdollistaen tehokkaat laskelmat modernilla laitteistokiihdyttimillä ja skaalautuvuuden suurempiin malleihin.

Nämä kaksi varianttia, sLSTM ja mLSTM, voidaan integroida residuaaliblokkien arkkitehtuureihin, muodostaen xLSTM-blokit. Residuaalisesti pinouttamalla näitä xLSTM-blokkeja, tutkijat voivat rakentaa voimakkaita xLSTM-arkkitehtuureja, jotka on suunniteltu tiettyihin tehtäviin ja sovellusalueisiin.

Matematiikka

Perinteinen LSTM:

Alkuperäinen LSTM-arkkitehtuuri esitteli vakion virhekarusellin ja porttitoiminnot ylittääkseen häviävän gradientin ongelman toistuvissa neuroverkoissa.

Toistuva moduuli LSTMissä

Toistuva moduuli LSTMissä – Lähde

LSTM-muistisolu päivittyy seuraavilla yhtälöillä:

Muistitilan päivitys: ct = ft ⊙ ct-1 + it ⊙ zt

Piilomuistin päivitys: ht = ot ⊙ tanh(ct)

Missä:

  • 𝑐𝑡 on muistitilavektori aikataulussa 𝑡
  • 𝑓𝑡 on unohdusporttivertori
  • 𝑖𝑡 on syöttöporttivertori
  • 𝑜𝑡  on porttivertori
  • 𝑧𝑡 on syöttö, joka on muokattu syöttöportin kautta
  •  edustaa alkioittain suoritettavaa kertolaskua

Portit ft, it, ja ot ohjaavat, mitä tietoa tallennetaan, unohdetaan ja tulostetaan muistitilasta ct, lieventäen häviävän gradientin ongelmaa.

xLSTM eksponentiaalisella portilla:

xLSTM-arkkitehtuuri esittää eksponentiaalisen portin, jotta voidaan saavuttaa joustavampi valvonta tietovirtauksessa. Skalaari-xLSTM (sLSTM) -variantille:

Muistitilan päivitys: ct = ft ⊙ ct-1 + it ⊙ zt

Normalisointitilan päivitys: nt = ft ⊙ nt-1 + it

Piilomuistin päivitys: ht = ot ⊙ (ct / nt)

Syöttö- ja unohdusportit: it = exp(W_i xt + R_i ht-1 + b_i) ft = σ(W_f xt + R_f ht-1 + b_f) TAI ft = exp(W_f xt + R_f ht-1 + b_f)

Eksponentiaaliset aktivaatiofunktiot syöttö- ja unohdusportteja varten, yhdessä normalisointitilan kanssa, mahdollistavat tehokkaamman muistin päivittämisen ja tallennettujen tietojen revisoin.

xLSTM matriisimuistilla:

Matriisi-xLSTM (mLSTM) -variantille parannetuilla tallennuskapasiteeteilla:

Muistitilan päivitys: Ct = ft ⊙ Ct-1 + it ⊙ (vt kt^T)

Normalisointitilan päivitys: nt = ft ⊙ nt-1 + it ⊙ kt

Piilomuistin päivitys: ht = ot ⊙ (Ct qt / max(qt^T nt, 1))

Missä:

  • 𝐶𝑡 on matriisimuistitila
  • 𝑣𝑡 ja 𝑘𝑡 ovat arvo- ja avainvektorit
  • 𝑞𝑡 on kyselyvektori, jota käytetään hakemiseen

Nämä avainyhtälöt korostavat, miten xLSTM laajentaa alkuperäisen LSTMin muodostuman eksponentiaalisella portilla joustavamman muistin valvonnan ja matriisimuistin parannetuin tallennuskapasiteetin vuoksi. Näiden innovaatioiden yhdistelmä mahdollistaa xLSTMin ylittää perinteisten LSTMin rajoitukset.

xLSTMin avainominaisuudet ja edut

  1. Tallennetun tiedon revisoin kyky: Kiitoksena eksponentiaalisesta portista, xLSTM voi tehokkaasti revisioida tallennettuja arvoja, kun kohtaa relevantimman tiedon, ylittäen merkittävän LSTMin rajoituksen.
  2. Parannetut tallennuskapasiteetit: Matriisimuisti mLSTM:ssä tarjoaa lisää tallennuskapasiteettia, mahdollistaen xLSTMin käsittelyn harvinaisia tokenia, pitkän aikavälin riippuvuuksia ja monimutkaisia tietokuva-malleja tehokkaammin.
  3. Rinnakkaisuus: mLSTM-variantti xLSTM:stä on täysin rinnakkaisuudelle altis, mahdollistaen tehokkaat laskelmat modernilla laitteistokiihdyttimillä, kuten GPU:illa, ja skaalautuvuuden suurempiin malleihin.
  4. Muistin sekoitus ja tilan seuraaminen: sLSTM-variantti xLSTM:stä säilyttää perinteisten LSTMin muistin sekoituskyvyn, mahdollistaen tilan seuraamisen ja tekevät xLSTMin ilmaisukykyisemmäksi kuin Transformerit ja tila-avaruusmallit tietyissä tehtävissä.
  5. Skaalautuvuus: Hyödyntämällä viimeisimpien suurten kielen mallien tekniikoita, xLSTM voidaan skaalata miljardeille parametreille, avaen uusia mahdollisuuksia kielen mallinnuksessa ja jonon käsittelytehtävissä.

Kokeellinen arviointi: xLSTMin kykyjen esittely

Tutkimusartikkeli esittää kattavan kokeellisen arvioinnin xLSTM:stä, korostaen sen suorituskykyä eri tehtävissä ja vertailukohdissa. Tässä ovat joitain avainlöydöksiä:

  1. Synteettiset tehtävät ja Pitkän aikavälin Arena:
    • xLSTM menestyy formalikielitehtävissä, jotka vaativat tilan seuraamista, ylittäen Transformerit, tila-avaruusmallit ja muut toistuvat neuroverkkomallit.
    • Moni-kysely-assosiaatiivisessa palautustehtävässä xLSTM osoittaa parannettuja muistikapasiteetteja, ylittäen non-Transformer-mallit ja kilpaillen Transformerien suorituskyvyn kanssa.
    • Pitkän aikavälin Arenan vertailukohdassa xLSTM osoittaa johdonmukaista vahvaa suorituskykyä, korostaen sen tehokkuutta pitkän aikavälin ongelmissa.
  2. Kielen mallinnus ja alatehtävät:
    • Kun xLSTM on koulutettu 15B tokenilla SlimPajama-aineistosta, se ylittää olemassa olevat menetelmät, mukaan lukien Transformerit, tila-avaruusmallit ja muut toistuvat neuroverkkomallit, validointiperpleksiteetin suhteen.
    • Mallien skaalautuessa suuremmiksi, xLSTM säilyttää suorituskykyedun, osoittaen suotuisan skaalautumiskäyttäytymisen.
    • Alatehtävissä, kuten yleisen viisauden päättelyssä ja kysymyksiin vastaamisessa, xLSTM nousee parhaaksi menetelmäksi useissa mallikokoissa, ylittäen valtavirta-lähestymistavat.
  3. Suorituskyky PALOMA-kielitehtävissä:
    • Arvioiden 571 tekstidomeenia PALOMA-kielitestistä, xLSTM[1:0] (sLSTM-variantti) saavuttaa alempia perpleksiteettejä kuin muut menetelmät 99,5%:ssa domeeneista verrattuna Mambaan, 85,1%:ssa verrattuna Llamaan ja 99,8%:ssa verrattuna RWKV-4:ään.
  4. Skaalautumisen lait ja pituuden ekstrapolointi:
    • Kun xLSTM on koulutettu 300B tokenilla SlimPajamasta, se osoittaa suotuisan skaalautumisen lait, osoittaen potentiaalia suuremmille suorituskykyille mallikoon kasvaessa.
    • Jonon pituuden ekstrapolointikokeissa xLSTM-mallit säilyttävät alhaiset perpleksiteetit, jopa konteksteissa, jotka ovat merkittävästi pidemmät kuin ne, joita nähtiin koulutuksen aikana, ylittäen muut menetelmät.

Nämä kokeelliset tulokset korostavat xLSTMin merkittäviä kykyjä, asemoi sen lupaavaksi ehdokkaaksi kielen mallinnustehtävissä, jonon käsittelyssä ja laajassa sovellusalueessa.

Käytännön sovellukset ja tulevaisuuden suunnat

xLSTMin potentiaaliset sovellukset kattavat laajan alueen, luonnollisen kielen käsittelystä ja generoinnista jonon mallinnukseen, aikasarja-analyysiin ja sen ulkopuolelle. Tässä on joitain mielenkiintoisia alueita, joilla xLSTM voi tehdä merkittävän vaikutuksen:

  1. Kielen mallinnus ja tekstigenerointi: xLSTMin parannetut tallennuskapasiteetit ja kyky revisioida tallennettua tietoa voivat vallankumouksellisesti parantaa kielen mallinnusta ja tekstigenerointia, mahdollistaen yhdenmukaisemman, kontekstiherkkän ja sulavan tekstigeneroinnin.
  2. Konekäännös: xLSTMin tilan seuraamiskyky voi osoittautua äärimmäisen arvokkaaksi käännöstehtävissä, joissa ylläpitäminen kontekstuaalista tietoa ja ymmärtäminen pitkän aikavälin riippuvuuksia on välttämätöntä tarkoille käännöksille.
  3. Puheentunnistus ja -generointi: xLSTMin rinnakkaisuus ja skaalautuvuus tekevät siitä sopivan puheentunnistus- ja generointisovelluksille, joissa tehokas pitkien jonojen käsittely on olennainen.
  4. Aikasarja-analyysi ja -ennustaminen: xLSTMin kyky käsittää pitkän aikavälin riippuvuuksia ja tallentaa tehokkaasti monimutkaisia tietokuva-malleja voi johtaa merkittäviin parannuksiin aikasarja-analyysissä ja -ennustamisessa eri aloilla, kuten rahoituksessa, sääennustuksessa ja teollisuuden sovelluksissa.
  5. Vahvistettu oppiminen ja ohjausjärjestelmät: xLSTMin potentiaali vahvistetussa oppimisessa ja ohjausjärjestelmissä on lupaava, koska sen parannetut muistikyvyt ja tilan seuraamiskyky voivat mahdollistaa älykkämmän päätöksenteon ja ohjauksen monimutkaisissa ympäristöissä.

Arkkitehtoniset optimoinnit ja hyperparametrien säätö

Vaikka nykyiset tulokset ovat lupaavia, on edelleen tilaa xLSTM-arkkitehtuurin optimoinnille ja hyperparametrien hienosäätölle. Tutkijat voivat tutkia eri sLSTM- ja mLSTM-blokkien yhdistelmiä, muuttaa niiden suhteita ja sijoittelua koko arkkitehtuurissa. Lisäksi systemaattinen hyperparametrien etsintä voi johtaa edelleen suorituskyvyn parantamiseen, erityisesti suuremmilla malleilla.

Laitteistopohjaiset optimoinnit: xLSTMin, erityisesti mLSTM-variantin, täydellisen rinnakkaisuuden hyödyntämiseksi tutkijat voivat tutkia laitteistopohjaisia optimointeja, jotka on suunniteltu tiettyihin GPU-arkkitehtuureihin tai muihin kiihdyttimiin. Tämä voi sisältää CUDA-ytimien optimoinnin, muistinhallintastrategiat ja erityisten ohjelmointikielten tai kirjastojen hyödyntämisen tehokkaiden matriisilaskentojen vuoksi.

Integraatio muiden neuroverkkokomponenttien kanssa: xLSTMin yhdistäminen muiden neuroverkkokomponenttien, kuten huomiomekanismien, konvoluutioitten tai itseoppien menetelmien, kanssa voi johtaa hybridimalliin, joka yhdistää eri lähestymistapojen vahvuudet. Nämä hybridimallit voivat avata uusia kykyjä ja parantaa suorituskykyä laajemmalla tehtävälueella.

Vähäinen ja siirtymällinen oppiminen: xLSTMin käytön tutkiminen vähäisissä ja siirtymällisissä oppimistilanteissa voi olla mielenkiintoinen tulevaisuuden tutkimussuunta. Hyödyntämällä sen parannettuja muistikykyjä ja tilan seuraamiskykyjä, xLSTM voi mahdollistaa tehokkaamman tiedon siirtymisen ja nopean sopeutumisen uusiin tehtäviin tai alueisiin rajallisella koulutusaineistolla.

Selittäminen ja avoimuus: Kuten monissa syvän oppimisen malleissa, xLSTMin sisäinen toiminta voi olla epäselvää ja vaikeasti tulkitettavissa. Selittämismenetelmien kehittäminen xLSTMin päätöksentekoa varten voi johtaa läpinäkyvämmpiin ja luotettavampiin malleihin, helpottaen niiden käyttöönottoa kriittisissä sovelluksissa ja edistäen vastuullisuutta.

Tehokkaat ja skaalautuvat koulutusstrategiat: Koska mallit jatkavat kasvamistaan ja monimutkaisuuttaan, tehokkaat ja skaalautuvat koulutusstrategiat tulevat yhä tärkeämmiksi. Tutkijat voivat tutkia menetelmiä, kuten mallirinnakkaisuutta, datarinnakkaisuutta ja jakautuneita koulutuslähestymistapoja, jotka on suunniteltu erityisesti xLSTM-arkkitehtuureja varten, mahdollistaen suurempien mallien kouluttamisen ja potentiaalisesti vähentäen laskennallisia kustannuksia.

Nämä ovat joitakin potentiaalisia tulevaisuuden tutkimussuuntia ja alueita, joilla xLSTM voidaan edelleen kehittää.

Johtopäätös

xLSTMin esittely merkitsee merkittävää merkkipaaluutta pyrkimyksessä kehittää tehokkaampia ja tehokkaampia kielen mallinnus- ja jonon käsittelyarkkitehtuureja. Ratkaistessaan perinteisten LSTMin rajoituksia ja hyödyntäessä uusia tekniikoita, kuten eksponentiaalista porttia ja matriisimuistirakenteita, xLSTM on osoittanut merkittäviä suorituskykyjä laajalla valikoimalla tehtävissä ja vertailukohdissa.

Kuitenkin matka ei päätty tähän. Kuten jokainen uraauurtava teknologia, xLSTM tarjoaa mielenkiintoisia mahdollisuuksia edelleen kehittämiseen, hienosäätöön ja soveltamiseen käytännön tilanteissa. Kun tutkijat jatkavat rajojen työntämistä, voimme odottaa näkevämme edelleen vaikuttavia edistysaskelia tekoälyalan tutkimuksessa.

Olen viettänyt viimeiset viisi vuotta uppoutumalla kiinnostavaan koneoppimisen ja syvän oppimisen maailmaan. Minun intohimoni ja asiantuntemukseni ovat johtaneet minun osallistumiseen yli 50:een monipuoliseen ohjelmistosuunnitteluhankkeeseen, joissa on erityisesti painottunut AI/ML. Minun jatkuva uteliaisuuteni on myös ohjannut minun luontaisen kielen prosessoinnin pariin, jota haluan tutkia tarkemmin.