인공 지능

MPT-30B: MosaicML, 새로운 LLM으로 GPT-3을 능가하여 NLP의 경계를 허물다

게재

10 개월 전

2023 년 7 월 5 일

하지카 사지드

주요 블로그 이미지-MPT-30B: MosaicML, 언어 모델의 경계를 넓히기 위해 새로운 LLM으로 GPT-3을 능가

모자이크ML 하는 생성 적 AI AI 전개 및 확장성 솔루션을 제공하는 기업입니다. 최신 대규모 언어 모델(LLM) MPT-30B AI 커뮤니티 전반에 파장을 일으키고 있습니다.

MosaicML의 LLM 여정은 MPT-7B (Mosaic Pretrained Transformer)는 2023년 XNUMX월에 세 가지 변형과 함께 제공됩니다.

MPT-7B-StoryWriter-65k+(긴 형식의 스토리 생성용)
MPT-7B-Instruct(간단한 형식의 지침을 따르는 경우)
MPT-7B-채팅(대화 생성용)

이 모델은 오픈 소스 특성, 상업적 유용성 및 확장된 컨텍스트 창을 처리하는 탁월한 기능으로 인해 ML 커뮤니티에서 엄청난 성공을 거두었습니다.

가장 중요한 것은 이 모델이 동등했고 어떤 경우에는 다른 유사한 모델보다 성능이 뛰어났다는 것입니다(라마-7B, 안정LM 7B, 등). 7월까지 MPT-3B 시리즈는 22만 회 이상 다운로드되었습니다. XNUMX월 XNUMX일, MosaicML이 출시되었습니다. MPT-30B 오픈 소스 기반 모델의 기준을 더욱 높였습니다.

MPT-30B: GPT-3를 능가하는 강력한 LLM

MPT-30B는 오픈 소스 및 상용 라이선스 디코더 기반 LLM으로, GPT-3-175B GPT-17 매개변수의 3%, 즉 30B만 사용합니다. 여러 작업에서 GPT-3를 능가합니다. 다음은 MPT-30B와 GPT-3의 비교입니다.

MPT-30B: GPT-3-GPT3-vs-MPT-30B-비교를 능가하는 강력한 LLM

출처

MPT-30B는 이전 MPT-7B 모델을 기반으로 합니다. 비슷한 크기의 모델에 비해 훈련하는 것이 계산적으로 효율적입니다. 예를 들어 LLaMA-30B는 MPT-1.44B보다 약 30배 더 많은 FLOP 예산을 사용한 반면 Falcon-40B는 MPT-1.27B보다 30배 더 많은 FLOP 예산을 사용했습니다. 다음은 MPT-30B가 이전 모델에 비해 다양한 작업에서 개선된 점을 보여줍니다.

MPT-30B: GPT-3-MPT-30B-MPT-7B-비교를 능가하는 강력한 LLM

출처

MPT-30B의 일부 특수 기능은 다음과 같습니다.

8k 토큰 컨텍스트 창

LLM의 컨텍스트 창은 모델이 출력을 생성하기 전에 고려할 수 있는 토큰의 범위를 나타냅니다. MPT-30B는 교육 시간에 8000 토큰의 컨텍스트 창을 가졌습니다. 처음에는 1k 토큰 시퀀스를 사용하여 2T 토큰에서 훈련된 다음 50k 토큰 시퀀스의 추가 8B 토큰(대략 6000 단어).

알리바이 지원

이 기능을 설명하기 위해 다음 질문을 고려해 보겠습니다.

MPT-30B는 훈련된 것보다 더 긴 시퀀스를 어떻게 이해하고 예측할 수 있습니까?

MPT-30B는 선형 편향 주의(ALiBi) 더 긴 시퀀스를 이해하고 미세 조정 또는 추론 중에 컨텍스트 창을 8k 토큰 이상으로 확장하는 기술입니다.

시퀀스의 각 단어에 벡터를 할당하는 위치 임베딩을 계산하는 대신 ALiBi는 키 토큰과 쿼리 토큰 간의 주의 점수를 계산합니다. 키와 쿼리 토큰이 서로 가까이 있으면 페널티가 낮지만 그렇지 않은 경우에는 더 높습니다. 결과적으로 근본적인 변압기 아키텍처 긴 형식의 입력으로 추정할 수 있습니다.

FlashAttention을 통한 효율적인 추론 및 교육 성능

주의, 즉 입력 시퀀스의 관련 부분에 집중하는 것은 변환기의 중요한 구성 요소이지만 특히 긴 텍스트 시퀀스를 처리할 때 느리고 메모리 집약적일 수 있습니다.

플래시주의 MPT-30B에 대한 이 문제를 해결하기 위해 Cornell University의 연구원이 제안한 접근 방식입니다. FlashAttention은 타일링이라는 기술을 사용하여 모델이 메모리에서 읽거나 메모리에 써야 하는 횟수를 줄여 처리 속도를 높입니다. 따라서 이 모델은 최첨단 FlashAttention 기술과 NVIDIA의 더 빠른 변압기 효율적인 교육 및 추론을 위한 최적화 라이브러리.

교육 및 배포 용이성

개발자는 MPT-30B를 처음부터 훈련하거나 더 빠른 배포를 위해 MosaicML의 체크포인트를 사용할 수 있습니다. 또한 특정 데이터 세트의 도메인별 사용 사례에 맞게 미세 조정할 수 있습니다.

모델의 크기는 단일 GPU, 특히 1비트 정밀도에서 100xA80-16GB 또는 1비트 정밀도에서 100xA40-8GB에 쉽게 배포할 수 있도록 선택되었습니다. 이는 모델이 이러한 GPU의 메모리 제한 내에 맞도록 설계되었음을 의미합니다.

코딩 능력

MPT-30B는 탁월한 코딩 기능도 제공합니다. 인간평가 OpenAI에서 공개한 데이터 세트로 164개의 수작업 프로그래밍 문제가 포함되어 있습니다. HumanEval 데이터 세트에서 이 모델은 스타코더 시리즈.

출처

미세 조정된 변형: MPT-30B-Instruct 및 MPT-30B-Chat

MPT-30B-지시

LLM은 주로 질문 응답, 텍스트 요약, 언어 번역 등과 같은 지침에 사용됩니다. 작업에 따른 지시. 미세 조정을 위해 다음 데이터 세트가 사용되었습니다.

플랜
P3
알파카
돌리-15k

Dolly 데이터 세트는 Anthropic의 유용하고 무해한 데이터 세트 명령 미세 조정을 위해. 또한 다음과 같은 다양한 범위의 데이터 세트가 데이터 증대에 사용되었습니다.

경쟁수학
GradeSchool수학
DialogSum
듀오알씨
카스퍼
품질
섬스크린
거미

MPT-30B-채팅

MPT-30B-Chat은 대화 생성을 위해 MPT-30B의 미세 조정 버전입니다. CC-By-NC-SA-4.0 라이선스에 따라 배포된 연구 아티팩트이며 비상업적 사용만 허용됩니다. 이 모델은 다음을 포함한 다양한 언어 데이터 세트를 사용하여 미세 조정되었습니다.

에어로보로스/GPT4-1.2
베이즈
카멜
지피티처
구아 나코
긴 대화
공유GPT
마법사LM

LLM은 많은 부분을 공유합니다. 수십억 달러 작년에 ChatGPT가 지형에 혁명을 일으킨 후 순식간에 엄청난 성장을 경험한 생성 AI 시장. MPT 제품군은 이 혁명의 기초가 되는 부분입니다. 가까운 장래에 MPT 제품군보다 훨씬 더 강력하고 효율적인 상용 오픈 소스 모델을 볼 수 있을 것으로 예상할 수 있습니다.

최신 AI 뉴스를 보려면 다음 사이트를 방문하세요. 단결.ai.