Вештачка интелигенција
xLSTM: Сеопфатен водич за продолжена долгорочна меморија
![](https://www.unite.ai/wp-content/uploads/2024/05/DALL%C2%B7E-2024-05-16-11.31.26-A-futuristic-and-abstract-illustration-depicting-the-evolution-of-AI-models-from-traditional-LSTMs-to-xLSTMs.-Show-dynamic-flowing-representations-of-1.webp)
Разбирање на потеклото: Ограничувањата на LSTM
Пред да се нурнеме во светот на xLSTM, од суштинско значење е да се разберат ограничувањата со кои се соочуваат традиционалните LSTM архитектури. Овие ограничувања беа движечката сила зад развојот на xLSTM и другите алтернативни пристапи.
- Неможност за ревидирање на одлуките за складирање: Едно од основните ограничувања на LSTM е неговата борба да ги ревидира складираните вредности кога ќе се сретне со посличен вектор. Ова може да доведе до неоптимални перформанси во задачите кои бараат динамични ажурирања на зачуваните информации.
- Ограничени капацитети за складирање: LSTM ги компресираат информациите во состојби на скаларни ќелии, што може да ја ограничи нивната способност за ефективно складирање и враќање на сложени обрасци на податоци, особено кога се работи со ретки токени или зависности на долг дострел.
- Недостаток на Паралелизираност: Механизмот за мешање на меморијата во LSTM, кој вклучува скриено-скриени врски помеѓу временските чекори, наметнува секвенцијална обработка, попречувајќи ја паралелизацијата на пресметките и ограничувајќи ја приспособливоста.
Овие ограничувања го отворија патот за појава на трансформатори и други архитектури кои ги надминаа LSTM во одредени аспекти, особено при скалирање на поголеми модели.
Архитектурата xLSTM
Во сржта на xLSTM лежат две главни модификации на традиционалната LSTM рамка: експоненцијален влез и нови мемориски структури. Овие подобрувања воведуваат две нови варијанти на LSTM, познати како sLSTM (скаларен LSTM) и mLSTM (матричен LSTM).
- sLSTM: Скалар LSTM со експоненцијално портирање и мешање на меморија
- Експоненцијална порта: sLSTM вклучува експоненцијални функции за активирање за влезни и заборавени порти, овозможувајќи пофлексибилна контрола врз протокот на информации.
- Нормализација и стабилизација: За да се спречат нумерички нестабилности, sLSTM воведува состојба на нормализација која го следи производот на влезните порти и идните порти за заборавање.
- Мешање на меморија: sLSTM поддржува повеќе мемориски ќелии и овозможува мешање на меморијата преку повторливи врски, овозможувајќи екстракција на сложени обрасци и способности за следење на состојби.
- mLSTM: Matrix LSTM со зголемени капацитети за складирање
- Матрична меморија: Наместо скаларна мемориска ќелија, mLSTM користи матрична меморија, зголемувајќи го нејзиниот капацитет за складирање и овозможувајќи поефикасно пребарување на информации.
- Правило за ажурирање на коваријанса: mLSTM користи правило за ажурирање на коваријанса, инспирирано од Двонасочни асоцијативни мемории (BAM), за ефикасно складирање и преземање на паровите клуч-вредност.
- Паралелизабилност: Со напуштање на мешањето на меморијата, mLSTM постигнува целосна паралелизираност, овозможувајќи ефикасни пресметки на современите хардверски акцелератори.
Овие две варијанти, sLSTM и mLSTM, можат да се интегрираат во архитектури на преостанати блокови, формирајќи xLSTM блокови. Со резидуално натрупување на овие xLSTM блокови, истражувачите можат да конструираат моќни xLSTM архитектури прилагодени за специфични задачи и домени на апликации.
Математика
Традиционален LSTM:
Оригиналната LSTM архитектура ја воведе рингишпилот и механизмите за влез со постојана грешка за да се надмине проблемот со градиентот што исчезнува во рекурентните невронски мрежи.
![Повторувачкиот модул во LSTM](https://www.unite.ai/wp-content/uploads/2024/05/LSTM.png)
Повторувачкиот модул во LSTM - извор
Ажурирањата на мемориските ќелии LSTM се регулирани со следните равенки:
Ажурирање на состојбата на ќелијата: ct = ft ⊙ ct-1 + it ⊙ zt
Ажурирање на скриена состојба: ht = ot ⊙ tanh(ct)
каде што:
- 𝑐𝑡 е вектор на клеточна состојба во времето 𝑡
- 𝑓𝑡 е вектор на портата за заборав
- 𝑖𝑡 е векторот на влезната порта
- 𝑜𝑡 е векторот на излезната порта
- 𝑧𝑡 е влезот модулиран од влезната порта
- ⊙ претставува елементарно множење
Портите ft, it и ot контролираат какви информации се складираат, забораваат и излегуваат од состојбата на ќелијата ct, со што се намалува проблемот со градиентот што исчезнува.
xLSTM со експоненцијален капак:
Архитектурата xLSTM воведува експоненцијален влез за да овозможи пофлексибилна контрола врз протокот на информации. За скаларната xLSTM (sLSTM) варијанта:
Ажурирање на состојбата на ќелијата: ct = ft ⊙ ct-1 + it ⊙ zt
Ажурирање на состојбата на нормализаторот: nt = ft ⊙ nt-1 + it
Ажурирање за скриена состојба: ht = ot ⊙ (ct / nt)
Внеси и заборавај ги портите: тоа = exp(W_i xt + R_i ht-1 + b_i) ft = σ(W_f xt + R_f ht-1 + b_f) ИЛИ ft = exp(W_f xt + R_f ht-1 + b_f)
Функциите за експоненцијално активирање за влезните (it) и заборавните (ft) портите, заедно со состојбата на нормализаторот nt, овозможуваат поефикасна контрола над ажурирањата на меморијата и ревидирање на зачуваните информации.
Клучни карактеристики и предности на xLSTM
- Способност за ревидирање на одлуките за складирање: Благодарение на експоненцијалното затворање, xLSTM може ефективно да ги ревидира складираните вредности кога ќе наиде на порелевантни информации, надминувајќи значително ограничување на традиционалните LSTM.
- Зголемени капацитети за складирање: Матричната меморија во mLSTM обезбедува зголемен капацитет за складирање, овозможувајќи му на xLSTM поефикасно да се справува со ретките токени, зависности од долг дострел и сложените обрасци на податоци.
- Паралелизабилност: mLSTM варијантата на xLSTM е целосно паралелизирана, овозможувајќи ефикасни пресметки на современите хардверски акцелератори, како што се графичките процесори, и овозможувајќи приспособливост до поголемите модели.
- Мешање на меморија и следење на состојбата: sLSTM варијантата на xLSTM ги задржува способностите за мешање на меморијата на традиционалните LSTM, овозможувајќи следење на состојбата и правејќи го xLSTM поекспресивен од трансформаторите и моделите во просторот на државата за одредени задачи.
- Приспособливост: Со искористување на најновите техники од современите големи јазични модели (LLM), xLSTM може да се скалира на милијарди параметри, отклучувајќи нови можности во задачите за моделирање јазик и обработка на секвенци.
Експериментална евалуација: Прикажување на способностите на xLSTM
Истражувачкиот труд претставува сеопфатна експериментална евалуација на xLSTM, истакнувајќи ги неговите перформанси во различни задачи и одредници. Еве неколку клучни наоди:
- Синтетички задачи и арена со долг дострел:
- xLSTM се истакнува во решавањето на формални јазични задачи кои бараат следење на состојбата, надминување на трансформаторите, државните вселенски модели и други RNN архитектури.
- Во задачата Multi-Query Associative Recall, xLSTM демонстрира подобрени мемориски капацитети, надминувајќи ги моделите кои не се трансформатори и конкурентни на перформансите на трансформаторите.
- На реперот Long Range Arena, xLSTM покажува постојани силни перформанси, покажувајќи ја својата ефикасност во справувањето со проблемите со долг контекст.
- Моделирање на јазици и задачи надолу:
- Кога е обучен на 15B токени од базата на податоци SlimPajama, xLSTM ги надминува постоечките методи, вклучувајќи ги трансформаторите, државните модели на простор и другите варијанти на RNN, во смисла на збунетост за валидација.
- Со оглед на тоа што моделите се скалирани до поголеми димензии, xLSTM продолжува да ја одржува својата предност во изведбата, демонстрирајќи поволно однесување при скалирање.
- Во долните задачи како што се здрав разум расудување и одговарање на прашања, xLSTM се појавува како најдобар метод во различни големини на модели, надминувајќи ги најсовремените пристапи.
- Изведба на јазични задачи PALOMA:
- Оценет на 571 текстуален домен од јазичниот репер PALOMA, xLSTM[1:0] (варијантата sLSTM) постигнува пониски збунувања од другите методи во 99.5% од домените во споредба со Mamba, 85.1% во споредба со Llama и 99.8% во споредба со RWKV -4.
- Закони за скалирање и екстраполација на должина:
- Кога е обучен на 300B токени од SlimPajama, xLSTM покажува поволни закони за скалирање, што укажува на неговиот потенцијал за понатамошни подобрувања на перформансите како што се зголемуваат димензиите на моделите.
- Во експериментите со екстраполација на должината на низата, моделите xLSTM одржуваат ниски збунувања дури и за контексти значително подолги од оние што се гледаат за време на обуката, надминувајќи ги другите методи.
Овие експериментални резултати ги истакнуваат извонредните способности на xLSTM, позиционирајќи го како ветувачки конкурент за задачи за моделирање јазик, обработка на секвенци и широк опсег на други апликации.
Апликации во реалниот свет и идни насоки
Потенцијалните апликации на xLSTM опфаќаат широк опсег на домени, од обработка и генерирање на природен јазик до моделирање на секвенци, анализа на временски серии и пошироко. Еве неколку возбудливи области каде што xLSTM може да има значително влијание:
- Јазично моделирање и генерирање текст: Со своите подобрени капацитети за складирање и способност да ги ревидира зачуваните информации, xLSTM може да направи револуција во задачите за моделирање на јазици и генерирање текст, овозможувајќи покохерентно, контекстно свесно и течно генерирање текст.
- Машински превод: Способностите за следење на состојбата на xLSTM може да се покажат како непроценливи во задачите за машинско преведување, каде што одржувањето на контекстуални информации и разбирањето на зависностите на долг дострел е од клучно значење за точни преводи.
- Препознавање и генерирање на говор: Паралелизираноста и приспособливоста на xLSTM го прават добро прилагоден за апликации за препознавање говор и генерирање, каде ефикасна обработка на долги секвенци е од суштинско значење.
- Анализа и предвидување на временски серии: Способноста на xLSTM да се справува со зависности на долг дострел и ефикасно да складира и повлекува сложени обрасци може да доведе до значителни подобрувања во задачите за анализа на временски серии и предвидување низ различни домени, како што се финансиите, предвидувањето на времето и индустриските апликации.
- Засилување системи за учење и контрола: Потенцијалот на xLSTM во системите за засилено учење и контрола е ветувачки, бидејќи неговите подобрени мемориски способности и способности за следење на состојбите би можеле да овозможат поинтелигентно донесување одлуки и контрола во сложени средини.
![](https://www.unite.ai/wp-content/uploads/2022/10/join-the-future-newsletter.png)
![](https://www.unite.ai/wp-content/uploads/2024/01/Unite-AI-Mobile-Newsletter-1.png)