인공지능

xLSTM : 확장된 장단기 메모리(Extended Long Short-Term Memory)에 대한 종합 가이드

Published May 16, 2024

Updated April 27, 2026

Aayush Mittal Mittal

20년 이상 동안, Sepp Hochreiter의 개척적인 장단기 메모리(Long Short-Term Memory, LSTM) 아키텍처는 수많은 딥 러닝의 돌파구와 실제 응용에서 중요한 역할을 해왔다. 자연어 생성부터 음성 인식 시스템 구동까지, LSTM은 인공지능 혁명의 주된 동력이었다.

그러나, 심지어 LSTM의 창시자는 저장된 정보를 수정할 수 없는 것과 같은 내재된 한계를 인식했는데, 이는 저장된 정보를 수정할 수 없고, 메모리 용량이 제한적이며, 병렬화가 부족하여 더 복잡한 언어 작업에서 LSTM을 능가하는 트랜스포머와 다른 모델의 등장으로 이어졌다.

그러나 최근에, Hochreiter와 그의 팀은 NXAI에서 이러한 오랜 문제를 해결하는 새로운 변종인 확장된 LSTM(xLSTM)을 giới thiệu했다. 최근의 연구 논문에서, xLSTM은 LSTM이 강력한 이유가 된 기초적인 아이디어를 구축하면서, 아키텍처 혁신을 통해 주요 약점을 극복한다.

xLSTM의 핵심에는 두 가지 새로운 구성 요소가 있다. 지수 게이팅과 향상된 메모리 구조이다. 지수 게이팅은 정보 흐름에 대한 더 유연한 제어를 허용하여, xLSTM이 새로운 맥락을 만날 때 효과적으로 결정을 수정할 수 있다. 한편, 행렬 메모리의 도입은 전통적인 스칼라 LSTM에 비해 저장 용량을 크게 증가시킨다.

그러나, 이러한 강화는 여기서 끝나지 않는다. 대규모 언어 모델에서借用한 기법인 병렬화와 블록의 잔여 스택킹을 활용하여, xLSTM은 수십억 개의 매개변수로 효율적으로 확장할 수 있다. 이것은 매우 긴 시퀀스와 컨텍스트 창을 모델링하는 잠재력을 해방시킨다. 이는 복잡한 언어 이해에 중요한 능력이다.

Hochreiter의 최신 창조물의 의미는 엄청난 것이다. 몇 시간 동안의 대화에서 맥락을 신뢰성 있게 추적할 수 있는 가상 어시스턴트를 상상해 보라. 또는 광범위한 데이터에 대한 훈련 후 새로운 도메인에 더 강건하게 일반화하는 언어 모델. 응용 분야는 어디에서나 LSTM이 영향을 미친 곳에 걸쳐 있지만, 이제 xLSTM의 돌파구적인 능력으로 터보 차지된다.

이 깊은 기술 가이드에서, 우리는 xLSTM의 아키텍처 세부 사항에 대해 다룰 것이다. 스칼라 및 행렬 LSTM, 지수 게이팅 메커니즘, 메모리 구조 등 새로운 구성 요소를 평가할 것이다. 실험 결과에서 상태-of-the-아트 아키텍처인 트랜스포머와 최신 반복 모델에 대한 xLSTM의 인상적인 성능 향상을 보여주는 통찰력을 얻을 수 있다.

기원 이해: LSTM의 한계

xLSTM의 세계로 뛰어들기 전에, 전통적인 LSTM 아키텍처가 직면한 한계를 이해하는 것이 필수적이다. 이러한 한계는 xLSTM과 다른 대안 접근 방식의 개발을 위한 주요 동력이었다.

저장 결정을 수정할 수 없는 능력: LSTM의 주요 한계 중 하나는 저장된 값을 수정할 수 있는 능력의 부족이다. 이는 동적으로 저장된 정보를 업데이트해야 하는 작업에서 하위 최적의 성능으로 이어질 수 있다.
제한된 저장 용량: LSTM은 정보를 스칼라 셀 상태로 압축하여, 특히 희귀 토큰이나 긴 범위의 종속성을 다룰 때 복잡한 데이터 패턴을 효과적으로 저장하고检索할 수 있는 능력이 제한될 수 있다.
병렬화 부족: LSTM의 메모리 믹싱 메커니즘은 시간 단계 간의 숨겨진-숨겨진 연결을 포함하며, 순차적 처리를 강제하여 계산의 병렬화를 방해하고 확장성을 제한한다.

이러한 한계는 특히 더 큰 모델로 확장할 때, 트랜스포머와 다른 아키텍처가 특정 측면에서 LSTM을 능가하는 데 기여했다.

xLSTM 아키텍처

확장된 LSTM(xLSTM) 패밀리

xLSTM의 핵심에는 두 가지 주요 수정이 있다. 지수 게이팅과 새로운 메모리 구조. 이러한 강화는 두 가지 새로운 LSTM 변종을 소개한다. 스칼라 LSTM(sLSTM)과 행렬 LSTM(mLSTM)이다.

sLSTM: 스칼라 LSTM with 지수 게이팅과 메모리 믹싱
- 지수 게이팅: sLSTM은 입력 및忘却 게이트에 지수 활성화 함수를 통합하여 정보 흐름에 대한 더 유연한 제어를 허용한다.
- 정규화 및 안정화: 수치적 불안정을 방지하기 위해, sLSTM은 입력 게이트와 미래의忘却 게이트의 곱을 추적하는 정규화 상태를 도입한다.
- 메모리 믹싱: sLSTM은 여러 메모리 셀을 지원하며, 반복적 연결을 통해 메모리 믹싱을 허용하여, 복잡한 패턴의 추출과 상태 추적 능력을 가능하게 한다.
mLSTM: 행렬 LSTM with 향상된 저장 용량
- 행렬 메모리: 스칼라 메모리 셀 대신, mLSTM은 행렬 메모리를 사용하여, 저장 용량을 증가시키고, 정보检索를 더 효율적으로 한다.
- 공분산 업데이트 규칙: mLSTM은 키-값 쌍을 효율적으로 저장하고检索하기 위해, Bidirectional Associative Memories(BAM)에서 영감을 받은 공분산 업데이트 규칙을 사용한다.
- 병렬화: 메모리 믹싱을 포기함으로써, mLSTM은 완전한 병렬화를 달성하여, 현대의 하드웨어 가속기에서 효율적인 계산을 허용한다.

이 두 가지 변종, sLSTM과 mLSTM은, 잔여 블록 아키텍처로 통합될 수 있다. 이러한 xLSTM 블록을 잔여적으로 쌓음으로써, 연구자들은 특정 작업과 응용 분야를 위한 강력한 xLSTM 아키텍처를 구축할 수 있다.

수학

전통적인 LSTM:

원래의 LSTM 아키텍처는, 반복적 신경망에서 사라지는 그래디언트 문제를 극복하기 위해, 상수 오류 카루셀과 게이팅 메커니즘을 도입했다.

LSTM의 반복 모듈 – 출처

LSTM 메모리 셀 업데이트는 다음 방정식에 의해 결정된다.

셀 상태 업데이트: ct = ft ⊙ ct-1 + it ⊙ zt

숨겨진 상태 업데이트: ht = ot ⊙ tanh(ct)

여기서:

는 시간 $t$ 에서의 셀 상태 벡터이다.
는忘却 게이트 벡터이다.
는 입력 게이트 벡터이다.
는 출력 게이트 벡터이다.
는 입력 게이트에 의해 조정된 입력이다.
는 요소별 곱셈을 나타낸다.

게이트 , , 및 는 셀 상태 에서 저장되고, 잊혀지고, 출력되는 정보를 제어하여, 사라지는 그래디언트 문제를 완화한다.

xLSTM with 지수 게이팅:

xLSTM 아키텍처는 정보 흐름에 대한 더 유연한 제어를 허용하기 위해 지수 게이팅을 도입한다. 스칼라 xLSTM(sLSTM) 변종의 경우:

셀 상태 업데이트: ct = ft ⊙ ct-1 + it ⊙ zt

정규화 상태 업데이트: nt = ft ⊙ nt-1 + it

숨겨진 상태 업데이트: ht = ot ⊙ (ct / nt)

입력 및忘却 게이트: it = exp(W_i xt + R_i ht-1 + b_i) ft = σ(W_f xt + R_f ht-1 + b_f) OR ft = exp(W_f xt + R_f ht-1 + b_f)

입력 및忘却 게이트에 대한 지수 활성화 함수와 정규화 상태는 메모리 업데이트와 저장된 정보를 수정하는 것을 더 효과적으로 제어한다.

xLSTM with 행렬 메모리:

행렬 xLSTM(mLSTM) 변종의 경우, 향상된 저장 용량:

셀 상태 업데이트: Ct = ft ⊙ Ct-1 + it ⊙ (vt kt^T)

정규화 상태 업데이트: nt = ft ⊙ nt-1 + it ⊙ kt

숨겨진 상태 업데이트: ht = ot ⊙ (Ct qt / max(qt^T nt, 1))

여기서:

$는 행렬 셀 상태이다.$
와 는 값과 키 벡터이다.
는检索에 사용되는 쿼리 벡터이다.

이 주요 방정식은 xLSTM이 지수 게이팅과 행렬 메모리를 통해 원래의 LSTM 공식에서 어떻게 확장되는지 보여준다. 이러한 혁신의 조합은 xLSTM이 전통적인 LSTM의 한계를 극복할 수 있게 한다.

xLSTM의 주요 특징과 장점

저장 결정을 수정할 수 있는 능력: 지수 게이팅 덕분에, xLSTM은 더 관련이 있는 벡터를 만났을 때 저장된 값을 효과적으로 수정할 수 있다. 이는 전통적인 LSTM의 주요 한계를 극복한다.
향상된 저장 용량: mLSTM의 행렬 메모리는 저장 용량을 증가시켜, xLSTM이 희귀 토큰, 긴 범위의 종속성 및 복잡한 데이터 패턴을 더 효과적으로 다룰 수 있게 한다.
병렬화: mLSTM 변종의 xLSTM은 완전한 병렬화를 달성하여, 현대의 하드웨어 가속기에서 효율적인 계산을 허용하고, 더 큰 모델로 확장할 수 있게 한다.
메모리 믹싱과 상태 추적: sLSTM 변종의 xLSTM은 전통적인 LSTM의 메모리 믹싱 능력을 유지하여, 상태 추적을 가능하게 하고, 특정 작업에서 트랜스포머와 상태 공간 모델보다 더 표현력이 풍부하게 한다.
확장성: 최신 대규모 언어 모델(Large Language Models, LLM)에서借用한 기법을 활용하여, xLSTM은 수십억 개의 매개변수로 확장할 수 있다. 이는 언어 모델링과 시퀀스 처리 작업에서 새로운 가능성을 열어준다.

실험 평가: xLSTM의 능력展示

연구 논문은 xLSTM의 포괄적인 실험 평가를 제시한다. 다양한 작업과 벤치마크에서 xLSTM의 성능을 강조한다. 주요 결과는 다음과 같다.

합성 작업과 Long Range Arena:
- xLSTM은 상태 추적이 필요한 형식 언어 작업을 해결하는 데 탁월하다. 트랜스포머, 상태 공간 모델 및 기타 RNN 아키텍처를 능가한다.
- 다중 쿼리 연관 회상 작업에서, xLSTM은 향상된 메모리 능력을 보여주며, 비-트랜스포머 모델을 능가하고, 트랜스포머의 성능과 경쟁한다.
- Long Range Arena 벤치마크에서, xLSTM은 일관된 강력한 성능을 보여주며, 긴 컨텍스트 문제를 처리하는 효율성을 демон스트레한다.
언어 모델링과 하위 작업:
- SlimPajama 데이터셋의 15B 토큰에서 훈련된 xLSTM은 검증 퍼플렉서티에서 기존 방법을 능가한다. 트랜스포머, 상태 공간 모델 및 기타 RNN 변종을 포함한다.
- 모델 크기가 증가함에 따라, xLSTM은 성능 우위를 유지하며, 유리한 확장 행동을 보여준다.
- 공통 감성 추론 및 질문 답변과 같은 하위 작업에서, xLSTM은 다양한 모델 크기에서 최상의 방법으로 나타난다. 상태-of-the-아트 접근 방식을 능가한다.
PALOMA 언어 작업에서의 성능:
- PALOMA 언어 벤치마크의 571개 텍스트 도메인에서 평가된 xLSTM[1:0](sLSTM 변종)은 Mamba, Llama 및 RWKV-4와 비교하여 99.5%, 85.1%, 99.8%의 도메인에서 더 낮은 퍼플렉서티를 달성한다.
확장 법칙과 길이 외삽:
- SlimPajama에서 300B 토큰으로 훈련된 xLSTM은 유리한 확장 법칙을 보여주며, 모델 크기가 증가함에 따라 추가적인 성능 개선을 암시한다.
- 시퀀스 길이 외삽 실험에서, xLSTM 모델은 훈련 중에 본 것보다 훨씬 더 긴 컨텍스트에서 낮은 퍼플렉서티를 유지하며, 다른 방법을 능가한다.

이 실험 결과는 xLSTM의卓越한 능력을 강조하며, 언어 모델링, 시퀀스 처리 및 기타 다양한 작업에서 유망한 후보로 자리 잡는다.

실제 응용과 미래 방향

xLSTM의 잠재적인 응용 분야는 광범위하다. 자연어 처리 및 생성, 시퀀스 모델링, 시간 시리즈 분석 및 더 나아가다. 여기 몇 가지 흥미로운 분야가 있다.

언어 모델링과 텍스트 생성: 향상된 저장 용량과 저장된 정보를 수정할 수 있는 능력으로, xLSTM은 언어 모델링과 텍스트 생성 작업에서 혁신을 일으킬 수 있다. 더 일관성 있고, 컨텍스트에 맞고, 유창한 텍스트 생성을 가능하게 한다.
기계 번역: xLSTM의 상태 추적 능력은 기계 번역 작업에서 귀중한 자산이 될 수 있다. 여기서 컨텍스트 정보를 유지하고, 긴 범위의 종속성을 이해하는 것이 정확한 번역을 위해 필수적이다.
음성 인식과 생성: xLSTM의 병렬화와 확장성은 음성 인식과 생성 응용 분야에서 유용하다. 여기서 긴 시퀀스를 효율적으로 처리하는 것이 필수적이다.
시간 시리즈 분석과 예측: xLSTM의 능력으로, 긴 범위의 종속성과 복잡한 패턴을 다루는 데 도움이 되며, 금융, 날씨 예측, 산업 응용 분야를 포함한 다양한 도메인에서 시간 시리즈 분석과 예측 작업에서 개선된 성능을 제공할 수 있다.
강화 학습과 제어 시스템: xLSTM의 향상된 메모리 능력과 상태 추적 능력은 강화 학습과 제어 시스템에서 더智能한 의사 결정과 제어를 가능하게 할 수 있다.

아키텍처 최적화와 하이퍼파라미터 조정

현재 결과는 유망하지만, 아키텍처와 하이퍼파라미터를 최적화하는 여지는 여전히 있다. 연구자들은 sLSTM과 mLSTM 블록의 다양한 조합을 탐색하고, 전체 아키텍처 내에서 비율과 배치를 다르게 할 수 있다. 또한, 체계적인 하이퍼파라미터 검색은, 특히 더 큰 모델에서, 추가적인 성능 개선을 이끌어낼 수 있다.

하드웨어 인식 최적화: 특히 mLSTM 변종의 xLSTM의 병렬화를 완전하게 활용하기 위해, 연구자들은 특정 GPU 아키텍처 또는 기타 가속기용 최적화를 조사할 수 있다. 이것은 CUDA 커널, 메모리 관리 전략 및 특수 명령어 또는 라이브러리를 사용한 효율적인 행렬 연산을 최적화하는 것을 포함한다.

다른 신경망 구성 요소와의 통합: xLSTM을 다른 신경망 구성 요소와 통합하는 것을 탐색하는 것은, 주목할만하다. 주목할만한 예로는 주의 메커니즘, 컨볼루션 또는 자기 지도 학습 기술이 있다. 이러한 하이브리드 아키텍처는 다양한 접근 방식의 강점을 결합하여, 새로운 능력과 더广泛한 작업에서 성능 개선을 달성할 수 있다.

少し샷 및 전이 학습: xLSTM을 조금씩 학습과 전이 학습 시나리오에서 사용하는 것을 탐색하는 것은, 흥미로운 연구 방향이다. xLSTM의 향상된 메모리 능력과 상태 추적 능력을 활용하여, 제한된 훈련 데이터로 새로운 작업이나 도메인에 대한 지식 전이와 빠른 적응을 가능하게 할 수 있다.

해석 가능성과 설명 가능성: 많은 딥 러닝 모델과 마찬가지로, xLSTM의 내부 작동은 불투명하고 해석하기 어렵다. xLSTM의 결정 과정을 해석하고 설명하는 기술을 개발하는 것은, 더 투명하고 신뢰할 수 있는 모델을 가능하게 하여, 중요한 응용 분야에서 채택을 촉진하고, 책임성을 증진할 수 있다.

효율적이고 확장 가능한 훈련 전략: 모델 크기가 증가함에 따라, 효율적이고 확장 가능한 훈련 전략은 점점 더 중요해진다. 연구자들은 모델 병렬화, 데이터 병렬화 및 xLSTM 아키텍처를 위한 분산 훈련 접근 방식을 탐색할 수 있다. 이는 더 큰 모델을 훈련하고, 계산 비용을 потен적으로 줄일 수 있다.

이러한 몇 가지 미래 연구 방향과 xLSTM을 더 탐구할 수 있는 분야이다.

결론

xLSTM의 도입은 더 강력하고 효율적인 언어 모델링 및 시퀀스 처리 아키텍처를 추구하는 데 중요한 이정표이다. 전통적인 LSTM의 한계를 해결하고, 지수 게이팅 및 행렬 메모리 구조와 같은 새로운 기술을 활용함으로써, xLSTM은 다양한 작업과 벤치마크에서卓越한 성능을 보여주었다.

그러나, 여정은 여기서 끝나지 않는다. 어떤开拓적인 기술과 마찬가지로, xLSTM은 실제 시나리오에서 더 탐구하고, tinh chỉnh하고, 응용할 수 있는 기회를 제공한다. 연구자들이 가능성의 경계를 계속해서 확장함에 따라, 우리는 인공지능 분야에서 더욱 인상적인 발전을 기대할 수 있다.

Aayush Mittal

지난 5년 동안私は Machine Learning과 Deep Learning의 매력적인 세계에 몰두해 왔습니다.私の情熱と専門知識は、AI/ML에 중점을 둔 50개 이상의 다양한 소프트웨어 엔지니어링 프로젝트에 기여했습니다.私の継続的な 호기심은 또한 자연어 처리 분야로私の 관심을 끌었고, 더 깊이 탐구하고 싶은 분야입니다.