인공 지능
MPT-30B: MosaicML, 새로운 LLM으로 GPT-3을 능가하여 NLP의 경계를 허물다
모자이크ML 하는 생성 적 AI AI 전개 및 확장성 솔루션을 제공하는 기업입니다. 최신 대규모 언어 모델(LLM) MPT-30B AI 커뮤니티 전반에 파장을 일으키고 있습니다.
MosaicML의 LLM 여정은 MPT-7B (Mosaic Pretrained Transformer)는 2023년 XNUMX월에 세 가지 변형과 함께 제공됩니다.
- MPT-7B-StoryWriter-65k+(긴 형식의 스토리 생성용)
- MPT-7B-Instruct(간단한 형식의 지침을 따르는 경우)
- MPT-7B-채팅(대화 생성용)
이 모델은 오픈 소스 특성, 상업적 유용성 및 확장된 컨텍스트 창을 처리하는 탁월한 기능으로 인해 ML 커뮤니티에서 엄청난 성공을 거두었습니다.
가장 중요한 것은 이 모델이 동등했고 어떤 경우에는 다른 유사한 모델보다 성능이 뛰어났다는 것입니다(라마-7B, 안정LM 7B, 등). 7월까지 MPT-3B 시리즈는 22만 회 이상 다운로드되었습니다. XNUMX월 XNUMX일, MosaicML이 출시되었습니다. MPT-30B 오픈 소스 기반 모델의 기준을 더욱 높였습니다.
MPT-30B: GPT-3를 능가하는 강력한 LLM
MPT-30B는 오픈 소스 및 상용 라이선스 디코더 기반 LLM으로, GPT-3-175B GPT-17 매개변수의 3%, 즉 30B만 사용합니다. 여러 작업에서 GPT-3를 능가합니다. 다음은 MPT-30B와 GPT-3의 비교입니다.
MPT-30B는 이전 MPT-7B 모델을 기반으로 합니다. 비슷한 크기의 모델에 비해 훈련하는 것이 계산적으로 효율적입니다. 예를 들어 LLaMA-30B는 MPT-1.44B보다 약 30배 더 많은 FLOP 예산을 사용한 반면 Falcon-40B는 MPT-1.27B보다 30배 더 많은 FLOP 예산을 사용했습니다. 다음은 MPT-30B가 이전 모델에 비해 다양한 작업에서 개선된 점을 보여줍니다.
MPT-30B의 일부 특수 기능은 다음과 같습니다.
8k 토큰 컨텍스트 창
LLM의 컨텍스트 창은 모델이 출력을 생성하기 전에 고려할 수 있는 토큰의 범위를 나타냅니다. MPT-30B는 교육 시간에 8000 토큰의 컨텍스트 창을 가졌습니다. 처음에는 1k 토큰 시퀀스를 사용하여 2T 토큰에서 훈련된 다음 50k 토큰 시퀀스의 추가 8B 토큰(대략 6000 단어).
알리바이 지원
이 기능을 설명하기 위해 다음 질문을 고려해 보겠습니다.
MPT-30B는 훈련된 것보다 더 긴 시퀀스를 어떻게 이해하고 예측할 수 있습니까?
MPT-30B는 선형 편향 주의(ALiBi) 더 긴 시퀀스를 이해하고 미세 조정 또는 추론 중에 컨텍스트 창을 8k 토큰 이상으로 확장하는 기술입니다.
시퀀스의 각 단어에 벡터를 할당하는 위치 임베딩을 계산하는 대신 ALiBi는 키 토큰과 쿼리 토큰 간의 주의 점수를 계산합니다. 키와 쿼리 토큰이 서로 가까이 있으면 페널티가 낮지만 그렇지 않은 경우에는 더 높습니다. 결과적으로 근본적인 변압기 아키텍처 긴 형식의 입력으로 추정할 수 있습니다.
FlashAttention을 통한 효율적인 추론 및 교육 성능
주의, 즉 입력 시퀀스의 관련 부분에 집중하는 것은 변환기의 중요한 구성 요소이지만 특히 긴 텍스트 시퀀스를 처리할 때 느리고 메모리 집약적일 수 있습니다.
플래시주의 MPT-30B에 대한 이 문제를 해결하기 위해 Cornell University의 연구원이 제안한 접근 방식입니다. FlashAttention은 타일링이라는 기술을 사용하여 모델이 메모리에서 읽거나 메모리에 써야 하는 횟수를 줄여 처리 속도를 높입니다. 따라서 이 모델은 최첨단 FlashAttention 기술과 NVIDIA의 더 빠른 변압기 효율적인 교육 및 추론을 위한 최적화 라이브러리.
교육 및 배포 용이성
개발자는 MPT-30B를 처음부터 훈련하거나 더 빠른 배포를 위해 MosaicML의 체크포인트를 사용할 수 있습니다. 또한 특정 데이터 세트의 도메인별 사용 사례에 맞게 미세 조정할 수 있습니다.
모델의 크기는 단일 GPU, 특히 1비트 정밀도에서 100xA80-16GB 또는 1비트 정밀도에서 100xA40-8GB에 쉽게 배포할 수 있도록 선택되었습니다. 이는 모델이 이러한 GPU의 메모리 제한 내에 맞도록 설계되었음을 의미합니다.
코딩 능력
MPT-30B는 탁월한 코딩 기능도 제공합니다. 인간평가 OpenAI에서 공개한 데이터 세트로 164개의 수작업 프로그래밍 문제가 포함되어 있습니다. HumanEval 데이터 세트에서 이 모델은 스타코더 시리즈.
미세 조정된 변형: MPT-30B-Instruct 및 MPT-30B-Chat
MPT-30B-지시
LLM은 주로 질문 응답, 텍스트 요약, 언어 번역 등과 같은 지침에 사용됩니다. 작업에 따른 지시. 미세 조정을 위해 다음 데이터 세트가 사용되었습니다.
- 플랜
- P3
- 알파카
- 돌리-15k
Dolly 데이터 세트는 Anthropic의 유용하고 무해한 데이터 세트 명령 미세 조정을 위해. 또한 다음과 같은 다양한 범위의 데이터 세트가 데이터 증대에 사용되었습니다.
- 경쟁수학
- GradeSchool수학
- DialogSum
- 듀오알씨
- 카스퍼
- 품질
- 섬스크린
- 거미
MPT-30B-채팅
MPT-30B-Chat은 대화 생성을 위해 MPT-30B의 미세 조정 버전입니다. CC-By-NC-SA-4.0 라이선스에 따라 배포된 연구 아티팩트이며 비상업적 사용만 허용됩니다. 이 모델은 다음을 포함한 다양한 언어 데이터 세트를 사용하여 미세 조정되었습니다.
- 에어로보로스/GPT4-1.2
- 베이즈
- 카멜
- 지피티처
- 구아 나코
- 긴 대화
- 공유GPT
- 마법사LM
LLM은 많은 부분을 공유합니다. 수십억 달러 작년에 ChatGPT가 지형에 혁명을 일으킨 후 순식간에 엄청난 성장을 경험한 생성 AI 시장. MPT 제품군은 이 혁명의 기초가 되는 부분입니다. 가까운 장래에 MPT 제품군보다 훨씬 더 강력하고 효율적인 상용 오픈 소스 모델을 볼 수 있을 것으로 예상할 수 있습니다.
최신 AI 뉴스를 보려면 다음 사이트를 방문하세요. 단결.ai.