Поврзете се со нас

Вештачка интелигенција

xLSTM: Сеопфатен водич за продолжена долгорочна меморија

mm
Ажурирани on

Повеќе од две децении, Сеп Хохрајтер пионерски Долгорочна краткорочна меморија (LSTM) архитектурата беше инструментална за бројни откритија за длабоко учење и апликации во реалниот свет. Од генерирање на природен јазик до напојување на системите за препознавање говор, LSTM беа движечка сила зад револуцијата на вештачката интелигенција.

Сепак, дури и креаторот на LSTM ги препозна нивните инхерентни ограничувања што ги спречија да го остварат својот целосен потенцијал. Недостатоците како неможноста да се ревидираат зачуваните информации, ограничените капацитети на меморијата и недостатокот на паралелизација го отворија патот за подемот на трансформаторите и другите модели да ги надминат LSTM за посложени јазични задачи.

Но, во неодамнешниот развој, Хохрајтер и неговиот тим во NXAI воведоа нова варијанта наречена продолжен LSTM (xLSTM) што ги решава овие долгогодишни прашања. Презентирано во неодамнешниот истражувачки труд, xLSTM се надоврзува на основните идеи што ги направија LSTMs толку моќни, додека ги надминуваат нивните клучни слабости преку архитектонски иновации.

Во сржта на xLSTM се две нови компоненти: експоненцијален влез и подобрени мемориски структури. Експоненцијалното поврзување овозможува пофлексибилна контрола врз протокот на информации, овозможувајќи им на xLSTM ефикасно да ги ревидираат одлуките кога ќе се сретне нов контекст. Во меѓувреме, воведувањето на матрична меморија значително го зголемува капацитетот за складирање во споредба со традиционалните скаларни LSTM.

Но, подобрувањата не застануваат тука. Со искористување на техниките позајмени од големи јазични модели, како што се паралелизирање и преостанатото натрупување блокови, xLSTMs можат ефикасно да се размерат до милијарди параметри. Ова го отклучува нивниот потенцијал за моделирање на екстремно долги секвенци и контекстни прозорци - способност клучна за сложено разбирање на јазикот.

Импликациите од најновата креација на Хохрајтер се монументални. Замислете виртуелни асистенти кои можат со сигурност да го следат контекстот во текот на повеќечасовните разговори. Или јазични модели кои посилно се генерализираат на нови домени по обуката за широки податоци. Апликациите се протегаат насекаде каде што LSTM имаа влијание - чет-ботови, превод, говорни интерфејси, анализа на програми и многу повеќе - но сега се турбополнат со пробивните способности на xLSTM.

Во овој длабок технички водич, ќе се нурнеме во архитектонските детали за xLSTM, оценувајќи ги неговите нови компоненти како што се скаларните и матричните LSTMs, експоненцијалните механизми за порти, мемориските структури и многу повеќе. Ќе добиете увид од експерименталните резултати кои ги прикажуваат импресивните придобивки на xLSTM во перформансите во однос на најсовремените архитектури како трансформаторите и најновите повторливи модели.

Разбирање на потеклото: Ограничувањата на LSTM

Пред да се нурнеме во светот на xLSTM, од суштинско значење е да се разберат ограничувањата со кои се соочуваат традиционалните LSTM архитектури. Овие ограничувања беа движечката сила зад развојот на xLSTM и другите алтернативни пристапи.

  1. Неможност за ревидирање на одлуките за складирање: Едно од основните ограничувања на LSTM е неговата борба да ги ревидира складираните вредности кога ќе се сретне со посличен вектор. Ова може да доведе до неоптимални перформанси во задачите кои бараат динамични ажурирања на зачуваните информации.
  2. Ограничени капацитети за складирање: LSTM ги компресираат информациите во состојби на скаларни ќелии, што може да ја ограничи нивната способност за ефективно складирање и враќање на сложени обрасци на податоци, особено кога се работи со ретки токени или зависности на долг дострел.
  3. Недостаток на Паралелизираност: Механизмот за мешање на меморијата во LSTM, кој вклучува скриено-скриени врски помеѓу временските чекори, наметнува секвенцијална обработка, попречувајќи ја паралелизацијата на пресметките и ограничувајќи ја приспособливоста.

Овие ограничувања го отворија патот за појава на трансформатори и други архитектури кои ги надминаа LSTM во одредени аспекти, особено при скалирање на поголеми модели.

Архитектурата xLSTM

Проширено семејство LSTM (xLSTM).

Проширено семејство LSTM (xLSTM).

Во сржта на xLSTM лежат две главни модификации на традиционалната LSTM рамка: експоненцијален влез и нови мемориски структури. Овие подобрувања воведуваат две нови варијанти на LSTM, познати како sLSTM (скаларен LSTM) и mLSTM (матричен LSTM).

  1. sLSTM: Скалар LSTM со експоненцијално портирање и мешање на меморија
    • Експоненцијална порта: sLSTM вклучува експоненцијални функции за активирање за влезни и заборавени порти, овозможувајќи пофлексибилна контрола врз протокот на информации.
    • Нормализација и стабилизација: За да се спречат нумерички нестабилности, sLSTM воведува состојба на нормализација која го следи производот на влезните порти и идните порти за заборавање.
    • Мешање на меморија: sLSTM поддржува повеќе мемориски ќелии и овозможува мешање на меморијата преку повторливи врски, овозможувајќи екстракција на сложени обрасци и способности за следење на состојби.
  2. mLSTM: Matrix LSTM со зголемени капацитети за складирање
    • Матрична меморија: Наместо скаларна мемориска ќелија, mLSTM користи матрична меморија, зголемувајќи го нејзиниот капацитет за складирање и овозможувајќи поефикасно пребарување на информации.
    • Правило за ажурирање на коваријанса: mLSTM користи правило за ажурирање на коваријанса, инспирирано од Двонасочни асоцијативни мемории (BAM), за ефикасно складирање и преземање на паровите клуч-вредност.
    • Паралелизабилност: Со напуштање на мешањето на меморијата, mLSTM постигнува целосна паралелизираност, овозможувајќи ефикасни пресметки на современите хардверски акцелератори.

Овие две варијанти, sLSTM и mLSTM, можат да се интегрираат во архитектури на преостанати блокови, формирајќи xLSTM блокови. Со резидуално натрупување на овие xLSTM блокови, истражувачите можат да конструираат моќни xLSTM архитектури прилагодени за специфични задачи и домени на апликации.

Математика

Традиционален LSTM:

Оригиналната LSTM архитектура ја воведе рингишпилот и механизмите за влез со постојана грешка за да се надмине проблемот со градиентот што исчезнува во рекурентните невронски мрежи.

Повторувачкиот модул во LSTM

Повторувачкиот модул во LSTM - извор

Ажурирањата на мемориските ќелии LSTM се регулирани со следните равенки:

Ажурирање на состојбата на ќелијата: ct = ft ⊙ ct-1 + it ⊙ zt

Ажурирање на скриена состојба: ht = ot ⊙ tanh(ct)

каде што:

  • 𝑐𝑡 е вектор на клеточна состојба во времето 𝑡
  • 𝑓𝑡 е вектор на портата за заборав
  • 𝑖𝑡 е векторот на влезната порта
  • 𝑜𝑡 е векторот на излезната порта
  • 𝑧𝑡 е влезот модулиран од влезната порта
  •  претставува елементарно множење

Портите ft, it и ot контролираат какви информации се складираат, забораваат и излегуваат од состојбата на ќелијата ct, со што се намалува проблемот со градиентот што исчезнува.

xLSTM со експоненцијален капак:

Архитектурата xLSTM воведува експоненцијален влез за да овозможи пофлексибилна контрола врз протокот на информации. За скаларната xLSTM (sLSTM) варијанта:

Ажурирање на состојбата на ќелијата: ct = ft ⊙ ct-1 + it ⊙ zt

Ажурирање на состојбата на нормализаторот: nt = ft ⊙ nt-1 + it

Ажурирање за скриена состојба: ht = ot ⊙ (ct / nt)

Внеси и заборавај ги портите: тоа = exp(W_i xt + R_i ht-1 + b_i) ft = σ(W_f xt + R_f ht-1 + b_f) ИЛИ ft = exp(W_f xt + R_f ht-1 + b_f)

Функциите за експоненцијално активирање за влезните (it) и заборавните (ft) портите, заедно со состојбата на нормализаторот nt, овозможуваат поефикасна контрола над ажурирањата на меморијата и ревидирање на зачуваните информации.

xLSTM со матрична меморија:

За матричната варијанта xLSTM (mLSTM) со зголемен капацитет за складирање:

Ажурирање на состојбата на ќелијата: Ct = ft ⊙ Ct-1 + it ⊙ (vt kt^T)

Ажурирање на состојбата на нормализаторот: nt = ft ⊙ nt-1 + it ⊙ kt

Ажурирање за скриена состојба: ht = ot ⊙ (Ct qt / max(qt^T nt, 1))

каде што:

  • 𝐶𝑡 е состојбата на матричната клетка
  • 𝑣𝑡  𝑘𝑡 се вредностите и клучните вектори
  • 𝑞𝑡 е векторот за пребарување што се користи за пребарување

Овие клучни равенки нагласуваат како xLSTM ја проширува оригиналната формулација LSTM со експоненцијален капак за пофлексибилна контрола на меморијата и матрична меморија за подобрени можности за складирање. Комбинацијата на овие иновации овозможува xLSTM да ги надмине ограничувањата на традиционалните LSTM.

Клучни карактеристики и предности на xLSTM

  1. Способност за ревидирање на одлуките за складирање: Благодарение на експоненцијалното затворање, xLSTM може ефективно да ги ревидира складираните вредности кога ќе наиде на порелевантни информации, надминувајќи значително ограничување на традиционалните LSTM.
  2. Зголемени капацитети за складирање: Матричната меморија во mLSTM обезбедува зголемен капацитет за складирање, овозможувајќи му на xLSTM поефикасно да се справува со ретките токени, зависности од долг дострел и сложените обрасци на податоци.
  3. Паралелизабилност: mLSTM варијантата на xLSTM е целосно паралелизирана, овозможувајќи ефикасни пресметки на современите хардверски акцелератори, како што се графичките процесори, и овозможувајќи приспособливост до поголемите модели.
  4. Мешање на меморија и следење на состојбата: sLSTM варијантата на xLSTM ги задржува способностите за мешање на меморијата на традиционалните LSTM, овозможувајќи следење на состојбата и правејќи го xLSTM поекспресивен од трансформаторите и моделите во просторот на државата за одредени задачи.
  5. Приспособливост: Со искористување на најновите техники од современите големи јазични модели (LLM), xLSTM може да се скалира на милијарди параметри, отклучувајќи нови можности во задачите за моделирање јазик и обработка на секвенци.

Експериментална евалуација: Прикажување на способностите на xLSTM

Истражувачкиот труд претставува сеопфатна експериментална евалуација на xLSTM, истакнувајќи ги неговите перформанси во различни задачи и одредници. Еве неколку клучни наоди:

  1. Синтетички задачи и арена со долг дострел:
    • xLSTM се истакнува во решавањето на формални јазични задачи кои бараат следење на состојбата, надминување на трансформаторите, државните вселенски модели и други RNN архитектури.
    • Во задачата Multi-Query Associative Recall, xLSTM демонстрира подобрени мемориски капацитети, надминувајќи ги моделите кои не се трансформатори и конкурентни на перформансите на трансформаторите.
    • На реперот Long Range Arena, xLSTM покажува постојани силни перформанси, покажувајќи ја својата ефикасност во справувањето со проблемите со долг контекст.
  2. Моделирање на јазици и задачи надолу:
    • Кога е обучен на 15B токени од базата на податоци SlimPajama, xLSTM ги надминува постоечките методи, вклучувајќи ги трансформаторите, државните модели на простор и другите варијанти на RNN, во смисла на збунетост за валидација.
    • Со оглед на тоа што моделите се скалирани до поголеми димензии, xLSTM продолжува да ја одржува својата предност во изведбата, демонстрирајќи поволно однесување при скалирање.
    • Во долните задачи како што се здрав разум расудување и одговарање на прашања, xLSTM се појавува како најдобар метод во различни големини на модели, надминувајќи ги најсовремените пристапи.
  3. Изведба на јазични задачи PALOMA:
    • Оценет на 571 текстуален домен од јазичниот репер PALOMA, xLSTM[1:0] (варијантата sLSTM) постигнува пониски збунувања од другите методи во 99.5% од домените во споредба со Mamba, 85.1% во споредба со Llama и 99.8% во споредба со RWKV -4.
  4. Закони за скалирање и екстраполација на должина:
    • Кога е обучен на 300B токени од SlimPajama, xLSTM покажува поволни закони за скалирање, што укажува на неговиот потенцијал за понатамошни подобрувања на перформансите како што се зголемуваат димензиите на моделите.
    • Во експериментите со екстраполација на должината на низата, моделите xLSTM одржуваат ниски збунувања дури и за контексти значително подолги од оние што се гледаат за време на обуката, надминувајќи ги другите методи.

Овие експериментални резултати ги истакнуваат извонредните способности на xLSTM, позиционирајќи го како ветувачки конкурент за задачи за моделирање јазик, обработка на секвенци и широк опсег на други апликации.

Апликации во реалниот свет и идни насоки

Потенцијалните апликации на xLSTM опфаќаат широк опсег на домени, од обработка и генерирање на природен јазик до моделирање на секвенци, анализа на временски серии и пошироко. Еве неколку возбудливи области каде што xLSTM може да има значително влијание:

  1. Јазично моделирање и генерирање текст: Со своите подобрени капацитети за складирање и способност да ги ревидира зачуваните информации, xLSTM може да направи револуција во задачите за моделирање на јазици и генерирање текст, овозможувајќи покохерентно, контекстно свесно и течно генерирање текст.
  2. Машински превод: Способностите за следење на состојбата на xLSTM може да се покажат како непроценливи во задачите за машинско преведување, каде што одржувањето на контекстуални информации и разбирањето на зависностите на долг дострел е од клучно значење за точни преводи.
  3. Препознавање и генерирање на говор: Паралелизираноста и приспособливоста на xLSTM го прават добро прилагоден за апликации за препознавање говор и генерирање, каде ефикасна обработка на долги секвенци е од суштинско значење.
  4. Анализа и предвидување на временски серии: Способноста на xLSTM да се справува со зависности на долг дострел и ефикасно да складира и повлекува сложени обрасци може да доведе до значителни подобрувања во задачите за анализа на временски серии и предвидување низ различни домени, како што се финансиите, предвидувањето на времето и индустриските апликации.
  5. Засилување системи за учење и контрола: Потенцијалот на xLSTM во системите за засилено учење и контрола е ветувачки, бидејќи неговите подобрени мемориски способности и способности за следење на состојбите би можеле да овозможат поинтелигентно донесување одлуки и контрола во сложени средини.

Архитектонски оптимизации и подесување на хиперпараметри

Иако тековните резултати се ветувачки, сè уште има простор за оптимизирање на архитектурата xLSTM и фино прилагодување на нејзините хиперпараметри. Истражувачите би можеле да истражат различни комбинации на блокови sLSTM и mLSTM, менувајќи ги соодносите и распоредите во целокупната архитектура. Дополнително, систематското пребарување на хиперпараметри може да доведе до дополнителни подобрувања на перформансите, особено за поголемите модели.

Хардвер-свесни оптимизации: За целосно искористување на паралелизираноста на xLSTM, особено на варијантата mLSTM, истражувачите би можеле да истражат оптимизации свесни за хардверот, приспособени за специфични архитектури на графичкиот процесор или други акцелератори. Ова може да вклучи оптимизирање на CUDA кернелите, стратегии за управување со меморијата и користење на специјализирани инструкции или библиотеки за ефикасни операции со матрицата.

Интеграција со други компоненти на невронската мрежа: Истражувањето на интеграцијата на xLSTM со други компоненти на невронската мрежа, како што се механизмите за внимание, конволуциите или техниките за учење самостојно надгледувано, може да доведе до хибридни архитектури кои ги комбинираат силните страни на различни пристапи. Овие хибридни модели потенцијално би можеле да отклучат нови способности и да ги подобрат перформансите на поширок опсег на задачи.

Учење со неколку снимки и пренос: Истражувањето на употребата на xLSTM во сценарија за учење со неколку снимки и пренос може да биде возбудлива авенија за идни истражувања. Со искористување на неговите подобрени способности за меморија и способности за следење состојби, xLSTM потенцијално би можел да овозможи поефикасен трансфер на знаење и брза адаптација на нови задачи или домени со ограничени податоци за обука.

Толкливост и објаснување: Како и кај многу модели за длабоко учење, внатрешната работа на xLSTM може да биде непроѕирна и тешко да се толкува. Развојот на техники за толкување и објаснување на одлуките донесени од xLSTM може да доведе до потранспарентни и доверливи модели, олеснувајќи го нивното усвојување во критичните апликации и промовирајќи ја одговорноста.

Ефикасни и скалабилни стратегии за обука: Како што моделите продолжуваат да растат по големина и сложеност, ефикасните и скалабилни стратегии за обука стануваат сè поважни. Истражувачите би можеле да истражат техники како што се паралелизам на модели, паралелизам на податоци и дистрибуирани пристапи за обука специјално прилагодени за архитектурите xLSTM, овозможувајќи обука на уште поголеми модели и потенцијално намалување на пресметковните трошоци.

Ова се неколку потенцијални идни насоки за истражување и области за понатамошно истражување со xLSTM.

Заклучок

Воведувањето на xLSTM означува значајна пресвртница во потрагата по помоќни и поефикасни архитектури за моделирање на јазици и обработка на секвенци. Со адресирање на ограничувањата на традиционалните LSTM и користење на нови техники како што се структурите на експоненцијално затворање и матрична меморија, xLSTM покажа извонредни перформанси во широк опсег на задачи и одредници.

Сепак, патувањето не завршува тука. Како и со секоја револуционерна технологија, xLSTM претставува возбудливи можности за понатамошно истражување, префинетост и примена во сценарија од реалниот свет. Како што истражувачите продолжуваат да ги поместуваат границите на она што е можно, можеме да очекуваме да бидеме сведоци на уште поимпресивни напредок во областа на обработката на природниот јазик и вештачката интелигенција.

Изминатите пет години ги поминав потопувајќи се во фасцинантниот свет на машинското учење и длабокото учење. Мојата страст и експертиза ме наведоа да придонесам за над 50 различни проекти за софтверско инженерство, со посебен фокус на AI/ML. Мојата постојана љубопитност, исто така, ме привлече кон Обработка на природни јазици, поле кое јас сум желен да го истражам понатаму.