인공지능

UltraFastBERT: 언어 모델링을 위해 지수적으로 더 빠른

Published December 8, 2023

Updated April 4, 2026

Kunal Kejriwal

언어 모델과 생성적 AI는 그들의 능력으로 유명하며, AI 산업에서 인기 있는 주제입니다. 전 세계 연구자들은 그들의 효능과 능력을 향상시키고 있습니다. 이러한 시스템은 일반적으로 깊은 학습 모델이며, 광범위한 레이블이 붙은 데이터에 사전 훈련되며, 자기 주의 신경망을 포함합니다.它们는 입력 텍스트를 처리하고 관련된 출력을 생성하기 위해 다양한 층 – 피드포워드, 재귀, 내장, 주의 – 를 사용합니다.

대부분의 경우, 큰 언어 모델의 피드포워드 층은 가장 많은 매개변수를 가지고 있습니다. 연구에 따르면 이러한 모델은 추론 동안 사용 가능한 뉴런의 일부만을 사용합니다.

이 기사에서는 UltraFastBERT를 소개합니다. UltraFastBERT는 BERT 기반 프레임워크이며, 최고의 BERT 모델과 같은 효능을 가지지만, 추론 동안에만 0.3%의 뉴런을 사용합니다. 특히, 각 층에서 12개의 뉴런만을 사용합니다. 우리는 UltraFastBERT의 구조, 기능, 결과를 살펴보겠습니다. 시작해 보겠습니다.

UltraFastBERT : 지수적으로 더 빠른 언어 모델링에 대한 소개

전통적으로, 언어 모델은 피드포워드 층, 재귀 층, 내장 층, 주의 층을 포함하여 다양한 구성 요소를 사용하여 콘텐츠 생성 능력을 갖추게 됩니다. 이러한 구성 요소는 훈련 중에 패턴을 인식하기 위해 학습하며, 궁극적으로 입력 텍스트에 따라 정확한 출력을 생성합니다. 이러한 구성 요소 각각에는 일부 매개변수가 있으며, 언어 모델에서 이러한 매개변수의 대부분은 피드포워드 층에 의해 보유됩니다. 그러나 이러한 피드포워드 층은 추론 시간에 모든 입력에 대해 사용 가능한 뉴런의 100%를 사용하지 않습니다. 이는 자원의 낭비로 인해 복잡성, 계산 시간, 계산 비용이 증가합니다.

UltraFastBERT 프레임워크는 기본적으로 BERT 프레임워크의 변형입니다. 이것은 피드포워드 층을 더 빠른 피드포워드 네트워크로 대체하여, 궁극적으로 UltraFastBERT 프레임워크가 사용 가능한 뉴런의 0.3%만을 사용하면서, 비슷한 크기와 훈련 과정을 가진 BERT 모델과 비교할 수 있는 결과를 도출합니다. 특히, 다운스트림 작업에서 그렇습니다.

Fast FeedForward(FFF) 네트워크와 피드포워드(FF) 네트워크를 각각 n개의 뉴런을 가졌을 때, 피드포워드 네트워크의 전방 패스 시간 복잡도는 O(n)입니다. 반면, 빠른 피드포워드 네트워크의 경우 시간 복잡도는 O(log2n)입니다. 이러한 시간 복잡도 차이는 주로 빠른 피드포워드 네트워크에서 뉴런이 균형된 이진 트리로 구성되어 있기 때문입니다. 입력이 제공되면, 네트워크는 트리의 한 가지 분기만 조건적으로 실행합니다. 또한, 빠른 피드포워드 네트워크에서 간섭을 수행하면, 조건부 행렬 곱셈(CMM)이 발생합니다. 여기서 입력 행은 자연스러운 가중치 열과 개별적으로 닷 제품을 계산하며, 이전 닷 제품 연산의 출력은 다음에 진행할 가중치 열의 가중치를 결정합니다. 결과적으로, 네트워크는 모든 뉴런을 사용하여 몇 개의 입력만을 처리하며, 네트워크는 몇 개의 뉴런만을 사용하여 모든 입력을 처리합니다. CMM 닷 제품은 모든 입력과 모든 가중치 열의 닷 제품을 계산하는 밀도 행렬 곱셈(DMM)과 대조됩니다.

요약하면, UltraFastBERT는 BERT 기반 프레임워크이며, 다음과 같은 특징을 가집니다.

추론 단계에서 사용 가능한 뉴런의 0.3%만을 사용하며, 각 층에서 12개의 뉴런만을 사용합니다.
다운스트림 작업에서 최고의 BERT 모델과 비교할 수 있는 강력한 성능을 제공합니다.
조건부 행렬 곱셈(CMM)의 네이티브 구현을 제공하며, 이는 빠른 피드포워드 네트워크의 기초입니다. 이는 밀도 행렬 곱셈(DMM)과 비교하여 78배의 성능 향상을 제공합니다.

피드 포워드 신경망

피드포워드 신경망은 정보를 입력 노드에서 출력 노드로, 숨겨진 노드를 통해 전방으로만 이동하는 가장 단순한 인공 신경망 중 하나입니다. 피드포워드 신경망의 주요 특징은 이러한 네트워크에 루프나 사이클이 없으며, RNN 또는 CNN과 비교하여 더 단순하게 구성할 수 있다는 것입니다. 피드포워드 신경망의 구조는 입력 층, 숨겨진 층, 출력 층의 세 가지 구성 요소로 구성되며, 각 층에는 뉴런이라고 하는 단위가 있으며, 각 층은 가중치의 도움으로 서로 연결됩니다.

입력 층의 뉴런은 입력을 받고, 다음 층으로 전달합니다. 각 입력 층의 뉴런 수는 입력 데이터의 차원에 의해 결정됩니다. 다음으로, 숨겨진 층이 있습니다. 이러한 층은 입력이나 출력에 노출되지 않으며, 필요한 계산을 수행합니다. 각 숨겨진 층의 뉴런은 이전 층의 출력의 가중치 합을 계산하고, 활성화 함수를 적용하며, 결과를 다음 층으로 전달합니다. 이 과정은 반복됩니다. 마지막으로, 출력 층이 있습니다. 출력 층은 주어진 입력에 대한 출력을 생성합니다. 피드포워드 신경망의 각 층의 뉴런은 다음 층의 모든 뉴런과 연결되어 있습니다. 이는 피드포워드 신경망을 완전히 연결된 네트워크로 만듭니다. 가중치는 뉴런 간의 연결 강도를 나타내며, 네트워크는 이러한 가중치를 업데이트하여 출력에서 발생하는 오류를 기반으로 패턴을 학습합니다.

계속해서, 피드포워드 신경망의 작동에는 두 가지 주요 단계가 있습니다.

피드포워드 단계

피드포워드 단계에서, 입력이 네트워크에 공급되고, 전방으로 전파됩니다. 숨겨진 층은 입력의 가중치 합을 계산하고, ReLu, Sigmoid, TanH와 같은 활성화 함수를 통해 비선형성을 모델에 도입합니다. 이 과정은 출력 층에 도달할 때까지 반복되며, 모델은 예측을 합니다.

백프로파게이션 단계

모델이 예측을 한 후, 생성된 출력과 기대 출력 사이의 오류를 계산합니다. 이 오류는 네트워크를 통해 역전파되며, 네트워크는 오류를 최소화하기 위해 가중치를 조정하기 위해 경사 하강 최적화 알고리즘을 사용합니다.

UltraFastBERT : 모델 구조 및 작동

UltraFastBERT 프레임워크는 CrammedBERT 구조를 기반으로 하며, UltraFastBERT 프레임워크는 CrammedBERT 프레임워크의 모든 구성 요소를 사용하지만, 중간 층의 성질을 제외하고는 그렇습니다. 대신, UltraFastBERT 프레임워크는 CrammedBERT 프레임워크의 중간 층에 있는 피드포워드 네트워크의 트랜스포머 인코더를 빠른 피드포워드 네트워크로 대체합니다. UltraFastBERT 프레임워크는 원래 피드포워드 네트워크에 다음과 같은 변경을 적용합니다.

리프와 비리프 노드 사이의 차이를 제거하기 위해 모든 노드에서 GeLu 활성화 함수를 사용하고, 노드에 출력 가중치를 부여하며, 출력 편향을 완전히 제거합니다. 이후, 리프 크기를 1로 고정합니다.
마지막으로, 프레임워크는 병렬로 여러 빠른 피드포워드 네트워크 트리를 허용함으로써, 중간 출력 층을 공동으로 계산합니다. 프레임워크는 개별 트리의 합을 계산하여 중간 출력 층으로 표시합니다.

훈련에서, UltraFastBERT 프레임워크는 CrammedBERT 프레임워크에서 사용되는 훈련 절차를 따르며, 이는 사전 훈련에서 드롭아웃을 비활성화하고, 1-사이클 삼각형 학습률 스케줄을 사용하는 것을 포함합니다. 모델은 GLUE 벤치마크의 다양한 작업에 대해 5 에포크 동안 최대 성능을 달성하기 위해 미세 조정됩니다.

간섭

간섭은 빠른 피드포워드 네트워크에서 중요한 부분입니다. 이러한 빠른 피드포워드 네트워크는 큰 언어 모델의 주요 구성 요소이며, 그들의 예외적인 가속화 가능성으로 유명합니다. 이 가속화 가능성을 이해하기 위해, 가장 발전된 언어 모델 중 하나인 GPT-3의 예를 살펴보겠습니다. 여기서 트랜스포머 층의 피드포워드 네트워크는 각기 49,100개의 뉴런을 가지고 있습니다. 훈련 가능한 빠른 피드포워드 네트워크(최대 깊이 15)는 원래 피드포워드 네트워크를 대체할 수 있습니다. 도입된 빠른 피드포워드 네트워크에는 65,000개 이상의 뉴런이 있지만, 간섭을 위해 16개의 뉴런만을 사용합니다. 이는 GPT-3에서 사용 가능한 뉴런의 약 0.03%에 해당합니다.

알고리즘 및 호환성

UltraFastBERT 프레임워크는 빠른 피드포워드 간섭을 위한 재귀적 유사 코드 알고리즘을 사용하며, 알고리즘은 아래의 이미지에 나와 있습니다.

여기서 B는 배치 크기, H는 입력 층의 너비, M은 열을 나타냅니다. 계산 행렬 곱셈(CMM) 접근 방식을 사용하는 또 다른 주요 문제는 빠른 피드포워드 네트워크가 기존의 밀도 행렬 곱셈(DMM) 및 기존 딥 러닝 프레임워크에서 사용되는 프로세스와 호환되지 않는지 여부입니다.幸い, CMM의 사용은 성능에 영향을 주거나 호환되지 않음을 나타내지 않지만, 캐싱 복잡성을 증가시킵니다.

중요한 것은, 빠른 피드포워드 네트워크의 일부로서, 단일 스레드 밀도 행렬 곱셈은 MAC 또는 곱셈 및 누적 명령을 실행하는 것에 의존하며, 결과적으로 DMM을 CMM 접근 방식으로 대체하면 CPU에ประโยชน이 됩니다. 왜냐하면 각 층의 출력 요소당 더 적은 MAC 명령이 필요하기 때문입니다. 따라서 일반적으로 분기와 관련된 조건부성이지만, “신경 분기”는 프레임워크에서 관련 포인터에 대한 메모리 오프셋을 추가합니다. 따라서 UltraFastBERT 프레임워크에서 분기 예측은 조건부성의 완전한 참여를 위해 사용되지 않으며, 가중치 행렬의 관련 열만을 개별적으로 로드합니다. 또한, 행-열 닷 제품을 수행하는 경우, SIMD 또는 단일 명령어 다중 데이터 벡터 병렬 처리는 특정 장치에 대한 간섭 구현을 가속화하는 좋은 옵션입니다.

UltraFastBERT : 성능 및 결과

우리는 UltraFastBERT 프레임워크의 성능에 대해 논의하겠습니다. 미세 조정 및 간섭 작업 모두에서 프레임워크의 성능을 분석하여, 상태 오토 언어 모델과 비교하여 어떻게 수행하는지 살펴보겠습니다.

미세 조정 결과

다음 그림은 다양한 모델의 GLUE-dev 테스트 데이터셋에서의 성능을 보여줍니다. 여기서 N은 훈련을 위해 프레임워크에 사용 가능한 뉴런의 수를 나타내며, “평균”은 모든 작업의 평균 점수를 나타냅니다.

분명히 볼 수 있듯이, A6000 GPU에서 24시간 이상 훈련된 UltraFastBERT 프레임워크는 GLUE 다운스트림 작업에서 원래 BERT 프레임워크와 비교하여 약 96%의 예측 성능을 유지합니다. 또한, 빠른 피드포워드 네트워크의 깊이가 증가함에 따라 프레임워크의 성능이 저하되는 것을 볼 수 있습니다. 그러나 대부분의 성능 저하는 CoLa 작업에서만 발생합니다. CoLa 작업을 무시하면, UltraFastBERT 프레임워크는 약 98.6%의 예측 성능 점수를 반환합니다.

간섭 결과

이 섹션에서는 여러 피드포워드 또는 빠른 피드포워드 네트워크의 간섭 구현 성능을 비교합니다. 이러한 구현은 세 가지 수준으로 나뉩니다.

1단계 구현은 스칼라-벡터 곱 및 벡터-벡터 닷 제품과 같은 BLAS 1단계 루틴을 사용하여 구성됩니다.
2단계에서, 구현은 배치된 스칼라-벡터 곱 및 배치된 행렬-벡터 닷 제품과 같은 BLAS 2단계 루틴을 사용합니다.
3단계에서, 구현은 비배치된 BLAS 3단계 행렬-행렬 곱셈 접근 방식을 사용합니다. 이는 피드포워드 네트워크에 대해 가장 빠른 구현이지만, 계산 행렬 곱셈의 벡터 수준의 희소성으로 인해 빠른 피드포워드 네트워크에 대해 사용할 수 없습니다.

추가로, UltraFastBERT 프레임워크는 사용자 정의 CUDA 또는 PyTorch 커널을 사용하여 GPU 구현을 배포합니다.

위의 표는 UltraFastBERT 프레임워크의 성능을 이전의 BERT 기반 프레임워크와 비교하여, 피드포워드 및 빠른 피드포워드 층에서 동일한 선형 대수 루틴 원시 연산을 사용하는 경우의 상대적인 간섭 빠른 피드포워드 구현 속도 향상을 보여줍니다.

그러나, 위의 표에 보고된 속도 향상은 “공정한 비교”를 위해 설계되었습니다. 즉, 빠른 피드포워드 및 피드포워드 구현 모두 동일한 선형 대수 루틴 원시 연산을 사용합니다. 또한, 1단계 및 2단계에서, 빠른 피드포워드 네트워크의 구현은 간섭을 위해 가장 빠른 피드포워드 구현보다 각각 48배 및 78배 빠르게 수행할 수 있습니다.

최종 생각

이 기사에서, 우리는 UltraFastBERT에 대해 논의했습니다. UltraFastBERT는 BERT 프레임워크의 변형으로, 피드포워드 층이 모든 입력에 대해 사용 가능한 뉴런의 100%를 사용하지 않는다는 개념을 기반으로 합니다. 이는 자원의 낭비로 인해 복잡성, 계산 시간, 계산 비용이 증가합니다. UltraFastBERT는 이러한 피드포워드 층을 더 빠른 피드포워드 네트워크로 대체하여, 사용 가능한 뉴런의 0.3%만을 사용하면서, 비슷한 크기와 훈련 과정을 가진 BERT 모델과 비교할 수 있는 결과를 제공합니다. 특히, 다운스트림 작업에서 그렇습니다.

UltraFastBERT 프레임워크의 강력한 성능은 LLM이 개별 간섭에서 매개변수의 일부만을 사용하여 강력한 성능을 제공할 수 있다는 것을 증명합니다. UltraFastBERT 프레임워크는 간섭에서 사용 가능한 뉴런의 0.3%만을 사용하며, 78배의 속도 향상을 달성합니다.

Related Topics:BERT language modeling UltraFastBERT

Kunal Kejriwal

전문직으로서의 엔지니어, 마음으로서의 작가입니다. Kunal은 AI와 ML에 대한 깊은 사랑과 이해를 가진 기술 작가로, 이러한 분야의 복잡한 개념을 흥미롭고 정보적인 문서를 통해 단순화하는데 헌신하고 있습니다.

Kubernetes에서 대규모 언어 모델 배포: 종합 가이드 LoadBalancer [/code] 이 서비스는 gpt3 배포를 포트 80에서 노출시키고, LoadBalancer 유형의 서비스를 생성하여 Kubernetes 클러스터 외부에서 추론 서버에 접근할 수 있도록 합니다. Kubernetes에 배포: kubectl 명령줄 도구를 사용하여 Kubernetes 매니페스트를 적용하고 LLM 애플리케이션을 배포하십시오. 배포 모니터링: 다음 명령을 사용하여 배포 진행 상황을 모니터링하십시오. 포드가 실행 중이고 로그가 모델이 로드되어 준비되었다는 것을 나타낼 때, LoadBalancer 서비스의 외부 IP 주소를 얻을 수 있습니다. 배포 테스트: 이제 외부 IP 주소와 포트를 사용하여 추론 서버에 요청을 보낼 수 있습니다. 예를 들어, curl을 사용하여 다음과 같이 요청을 보낼 수 있습니다. 이 명령은 GPT-3 추론 서버에 텍스트 생성 요청을 보내며, “The quick brown fox” 프롬프트를 최대 50개의 토큰으로 계속 생성하도록 요청합니다. 고급 주제 위의 예는 기본적인 LLM 배포를示하지만, 몇 가지 고급 주제와 고려 사항이 있습니다. 1. 자동 확장 Kubernetes는 수평 및 수직 자동 확장을 지원하여 LLM 배포의 가변적인 계산 요구 사항에 유용합니다. 수평 자동 확장은 CPU 또는 메모리 사용량과 같은 메트릭에 따라 포드(레플리카)의 수를 자동으로 확장할 수 있습니다. 수직 자동 확장은 컨테이너의 리소스 요청과 제한을 동적으로 조정할 수 있습니다. 자동 확장을 활성화하려면 Kubernetes Horizontal Pod Autoscaler (HPA)와 Vertical Pod Autoscaler (VPA)를 사용할 수 있습니다. 이러한 구성 요소는 배포를 모니터링하고 미리 정의된 규칙과 임계값에 따라 리소스를 자동으로 확장합니다. 2. GPU 스케줄링 및 공유 여러 개의 LLM 배포 또는 기타 GPU 집약적인 워크로드가 동일한 Kubernetes 클러스터에서 실행되는 시나리오에서 효율적인 GPU 스케줄링 및 공유가 중요합니다. Kubernetes는 GPU 디바이스 플러그인, 노드 선택기, 리소스 제한 등을 통해 공정하고 효율적인 GPU 사용을 보장하는 여러 메커니즘을 제공합니다. 또한 NVIDIA Multi-Instance GPU (MIG) 또는 AMD Memory Pool Remapping (MPR)와 같은 고급 GPU 스케줄링 기술을 사용하여 GPU를 가상화하고 여러 워크로드 간에 공유할 수 있습니다. 3. 모델 병렬성 및 샤딩 일부 LLM은 수십억 또는 수조 개의 매개변수를 가지고 있어 단일 GPU 또는 단일 노드의 메모리에 완전히 맞지 않을 수 있습니다. 이러한 경우 모델 병렬성 및 샤딩 기술을 사용하여 모델을 여러 GPU 또는 노드에 분산할 수 있습니다. 모델 병렬성은 모델 아키텍처를 다른 구성 요소(예: 인코더, 디코더)로 분할하여 여러 디바이스에 분산하는 것을 포함합니다. 샤딩은 모델 매개변수를 분할하여 여러 디바이스 또는 노드에 분산하는 것을 포함합니다. Kubernetes는 StatefulSet 및 Custom Resource Definitions (CRD)와 같은 메커니즘을 제공하여 분산된 LLM 배포를 모델 병렬성 및 샤딩과 함께 관리하고 오케스트레이션할 수 있습니다. 4. 미세 조정 및 지속적 학습 많은 경우에 사전 훈련된 LLM은 특정 작업 또는 도메인에 대한 성능을 개선하기 위해 특정 도메인 데이터에 대한 미세 조정 또는 지속적 학습이 필요할 수 있습니다. Kubernetes는 이러한 프로세스를 지원하여 미세 조정 또는 지속적 학습 워크로드를 실행하기 위한 확장 가능하고 탄력적인 플랫폼을 제공합니다. Apache Spark 또는 Kubeflow와 같은 배치 처리 프레임워크를 사용하여 분산 미세 조정 또는 훈련 작업을 실행할 수 있습니다. 또한 Kubernetes의 롤링 업데이트나 블루/그린 배포와 같은 메커니즘을 사용하여 미세 조정 또는 지속적으로 훈련된 모델을 추론 배포와 통합할 수 있습니다. 5. 모니터링 및 관찰 가능성 모니터링 및 관찰 가능성은 프로덕션 배포의 중요한 측면입니다. Kubernetes는 Prometheus와 같은 내장 모니터링 솔루션과 Grafana, Elasticsearch, Jaeger와 같은 인기 있는 관찰 가능성 플랫폼과의 통합을 제공합니다. LLM 배포와 관련된 다양한 메트릭을 모니터링할 수 있습니다. CPU 및 메모리 사용량, GPU 사용량, 추론 지연, 처리량 등이 있습니다. 또한 애플리케이션 수준의 로그 및 트레이스를 수집하여 LLM 모델의 동작 및 성능에 대한 통찰력을 얻을 수 있습니다. 6. 보안 및 규정 준수 사용 사례 및 포함된 데이터의 민감성에 따라 LLM을 Kubernetes에 배포할 때 보안 및 규정 준수 측면을 고려해야 할 수 있습니다. Kubernetes는 네트워크 정책, 역할 기반 액세스 제어(RBAC), 시크릿 관리 및 HashiCorp Vault 또는 AWS Secrets Manager와 같은 외부 보안 솔루션과의 통합을 포함하여 보안을 강화하는 여러 기능을 제공합니다. 또한 규제 산업이나 민감한 데이터를 다루는 경우 관련 표준 및 규정(GDPR, HIPAA, PCI-DSS 등) 준수를 보장해야 할 수 있습니다. 7. 멀티 클라우드 및 하이브리드 배포 이 블로그 게시물은 단일 Kubernetes 클러스터에서 LLM을 배포하는 것에 중점을 두고 있지만, 일부 시나리오에서는 멀티 클라우드 또는 하이브리드 배포를 고려해야 할 수 있습니다. Kubernetes는 다양한 클라우드 제공업체와 온프레미스 데이터 센터에서 일관된 플랫폼을 제공하여 애플리케이션을 배포하고 관리합니다. KubeFed 또는 GKE Hub와 같은 Kubernetes 연합 또는 멀티 클러스터 관리 도구를 사용하여 여러 Kubernetes 클러스터에서 LLM 배포를 관리하고 오케스트레이션할 수 있습니다. 이러한 클러스터는 다양한 클라우드 제공업체 또는 하이브리드 환경에 걸쳐 있을 수 있습니다. 이러한 고급 주제는 Kubernetes가 LLM을 배포하고 관리하는 데 있어 유연성과 확장성을 강조합니다. 결론 Kubernetes에서 대규모 언어 모델을 배포하면 확장성, 리소스 관리, 고가용성, 이식성 등의 여러 이점을 얻을 수 있습니다. 이 기술 블로그에서 설명한 단계를 따라 컨테이너화된 LLM 애플리케이션을 만들고, 필요한 Kubernetes 리소스를 정의하고, Kubernetes 클러스터에 배포할 수 있습니다. 그러나 LLM을 Kubernetes에 배포하는 것은 첫 번째 단계에 불과합니다. 애플리케이션이 성장하고 요구 사항이 발전함에 따라 자동 확장, GPU 스케줄링, 모델 병렬성, 미세 조정, 모니터링, 보안 및 멀티 클라우드 배포와 같은 고급 주제를 탐구해야 할 수 있습니다. Kubernetes는 LLM을 배포하고 관리하는 데 강력하고 확장 가능한 플랫폼을 제공하여 안정적이고 확장 가능하며 보안이 보장된 애플리케이션을 구축할 수 있습니다.