부본 Mistral AI: 오픈 소스 공간에서 Llama2를 넘어서는 새로운 벤치마크 설정 - Unite.AI
Rescale 미팅 예약

인공 지능

Mistral AI: 오픈 소스 공간에서 Llama2를 넘어서는 새로운 벤치마크 설정

mm
업데이트 on
미스트랄 7B LLM

ChatGPT와 같은 뛰어난 성능 덕분에 LLM(대형 언어 모델)이 최근 주목을 받고 있습니다. Meta가 Llama 모델을 출시했을 때 오픈 소스 LLM에 대한 새로운 관심이 촉발되었습니다. 목표는? GPT-4와 같은 최상위 모델만큼 훌륭하지만 높은 가격표나 복잡성이 없는 저렴한 오픈 소스 LLM을 생성합니다.

이러한 경제성과 효율성의 조합은 연구자와 개발자에게 새로운 길을 열었을 뿐만 아니라 자연어 처리 분야의 새로운 기술 발전 시대를 위한 발판을 마련했습니다.

최근 제너레이티브 AI 스타트업이 자금 조달에 나서고 있다. 함께 모금액 $ 20 백만, 오픈 소스 AI를 형성하는 것을 목표로 합니다. Anthropic은 또한 450억 XNUMX천만 달러라는 놀라운 자금을 모금했으며 Cohere는 Google Cloud와 협력하여 270 천만 달러 확보 올해 6 월에

Mistral 7B 소개: 크기 및 가용성

미스트랄 AI

파리에 본사를 두고 Google의 DeepMind와 Meta 출신이 공동 창립한 Mistral AI는 최초의 대규모 언어 모델을 발표했습니다. 미스트랄 7B. 이 모델은 GitHub에서, 심지어는 누구나 쉽게 다운로드할 수 있습니다. 13.4GB 토렌트.

이 스타트업은 제품이 출시되기도 전에 기록적인 시드 자금을 확보했습니다. 7억 개의 매개변수 모델을 갖춘 Mistral AI 첫 번째 모드는 라마 2 모든 테스트에서 13B를 기록했으며 여러 지표에서 Llama 1 34B를 능가합니다.

Llama 2와 같은 다른 모델과 비교하여 Mistral 7B는 유사하거나 더 나은 기능을 제공하지만 계산 오버헤드는 더 적습니다. GPT-4와 같은 기본 모델은 더 많은 것을 달성할 수 있지만 비용이 더 많이 들고 주로 API를 통해 액세스할 수 있기 때문에 사용자 친화적이지 않습니다.

코딩 작업과 관련하여 Mistral 7B는 다음을 제공합니다. 코드라마 7B 돈을 위해 뛰는 것. 또한 13.4GB로 표준 시스템에서 실행할 수 있을 만큼 컴팩트합니다.

또한 다음의 교육 데이터 세트를 위해 특별히 조정된 Mistral 7B Instruct가 있습니다. 포옹하는 얼굴, 뛰어난 성능을 보여주었습니다. MT-Bench에서 다른 7B 모델보다 성능이 뛰어나며 13B 채팅 모델과 어깨를 나란히 합니다.

벤치마킹 수행

상세한 성능 분석에서는 Llama 7 제품군 모델을 대상으로 Mistral 2B를 측정했습니다. 결과는 분명했습니다. Mistral 7B는 모든 벤치마크에서 Llama 2 13B를 크게 능가했습니다. 실제로 Llama 34B의 성능과 일치했으며 특히 코드 및 추론 벤치마크에서 두각을 나타냈습니다.

벤치마크는 상식 추론, 세계 지식, 독해, 수학, 코드 등 여러 범주로 구성되었습니다. 특히 주목할만한 관찰은 "동등한 모델 크기"라고 불리는 Mistral 7B의 비용 성능 지표였습니다. 추론 및 이해와 같은 영역에서 Mistral 7B는 크기가 2배인 Llama 7 모델과 유사한 성능을 보여주었으며, 이는 잠재적인 메모리 절약 및 처리량 증가를 의미합니다. 그러나 지식 벤치마크에서 Mistral 2B는 Llama 13 XNUMXB와 밀접하게 일치했는데, 이는 지식 압축에 영향을 미치는 매개변수 제한 때문일 가능성이 높습니다.

Mistral 7B 모델이 대부분의 다른 언어 모델보다 실제로 더 나은 이유는 무엇입니까?

주의 메커니즘 단순화

주의 메커니즘의 미묘함은 기술적이지만 기본 아이디어는 비교적 간단합니다. 책을 읽고 중요한 문장에 강조 표시를 한다고 상상해 보세요. 이는 주의 메커니즘이 시퀀스의 특정 데이터 포인트를 "강조"하거나 중요성을 부여하는 방식과 유사합니다.

언어 모델의 맥락에서 이러한 메커니즘을 통해 모델은 입력 데이터의 가장 관련성이 높은 부분에 집중하여 출력이 일관되고 상황에 맞게 정확하도록 보장합니다.

표준 변환기에서 Attention 점수는 다음 공식을 사용하여 계산됩니다.

트랜스포머 주목 포뮬러

트랜스포머 어텐션 포뮬러

이러한 점수에 대한 공식에는 Q와 K의 행렬 곱셈이라는 중요한 단계가 포함됩니다. 여기서 문제는 시퀀스 길이가 증가함에 따라 두 행렬이 그에 따라 확장되어 계산 집약적인 프로세스로 이어진다는 것입니다. 이러한 확장성 문제는 특히 긴 시퀀스를 처리할 때 표준 변환기가 느려질 수 있는 주요 이유 중 하나입니다.

변압기주의 메커니즘은 모델이 입력 데이터의 특정 부분에 집중하는 데 도움이 됩니다. 일반적으로 이러한 메커니즘은 '헤드'를 사용하여 이러한 주의를 관리합니다. 머리가 많을수록 주의가 더 구체적으로 이루어지지만, 또한 더 복잡해지고 느려집니다. 변환기 및 주의 메커니즘에 대해 자세히 알아보기 여기에서 지금 확인해 보세요..

MQA(Multi-Query Attention)는 하나의 '키-값' 헤드 세트를 사용하여 작업 속도를 높이지만 때로는 품질을 희생하기도 합니다. 이제 MQA의 속도와 다중 헤드 어텐션의 품질을 결합해 보는 것은 어떨까요? 이것이 바로 그룹화된 쿼리 주의(GQA)가 들어오는 곳입니다.

그룹화된 쿼리 어텐션(GQA)

그룹화된 쿼리 관심

그룹화된 쿼리 관심

GQA는 중간 솔루션입니다. 하나 또는 여러 개의 '키-값' 헤드를 사용하는 대신 그룹화합니다. 이러한 방식으로 GQA는 MQA의 속도와 함께 세부적인 다중 헤드 Attention에 가까운 성능을 달성합니다. Mistral과 같은 모델의 경우 이는 품질을 크게 저하시키지 않으면서 효율적인 성능을 의미합니다.

슬라이딩 윈도우 어텐션(SWA)

롱포머 트랜스포머 슬라이딩 윈도우

XNUMXD덴탈의 슬라이딩 윈도우 주의 시퀀스를 처리하는 데 사용되는 또 다른 방법입니다. 이 방법은 시퀀스의 각 토큰 주위에 고정 크기의 주의 창을 사용합니다. 이렇게 제한된 관심을 여러 레이어에 쌓아 올리면 최상위 레이어는 결국 전체 입력의 정보를 포괄하는 더 넓은 관점을 얻게 됩니다. 이 메커니즘은 CNN(Convolutional Neural Networks)에서 볼 수 있는 수용 필드와 유사합니다.

반면에 Longformer 모델의 "확장된 슬라이딩 윈도우 어텐션"은 슬라이딩 윈도우 방식과 개념적으로 유사하며, 단지 몇 개의 대각선만을 계산합니다. 행렬. 이 변경으로 인해 메모리 사용량이 XNUMX차가 아닌 선형으로 증가하므로 더 긴 시퀀스에 더 효율적인 방법이 됩니다.

Mistral AI의 투명성과 분산화에 대한 안전 문제

Mistral AI는 발표에서 "트릭도 없고 독점 데이터도 없습니다"라는 문구로 투명성을 강조했습니다. 그러나 동시에 현재 사용 가능한 유일한 모델인 'Mistral-7B-v0.1'은 사전 훈련된 기본 모델이므로 조정 없이 모든 쿼리에 대한 응답을 생성할 수 있어 잠재적인 안전 문제가 발생할 수 있습니다. GPT 및 Llama와 같은 모델에는 대응 시점을 식별하는 메커니즘이 있지만 Mistral의 완전히 분산된 특성은 악의적인 행위자에 의해 악용될 수 있습니다.

그러나 대규모 언어 모델의 분산화에는 장점이 있습니다. 일부는 이를 오용할 수도 있지만, 사람들은 사회적 이익을 위해 그 힘을 활용하고 모든 사람이 정보에 접근할 수 있도록 할 수 있습니다.

배포 유연성

가장 중요한 점 중 하나는 Mistral 7B가 Apache 2.0 라이선스에 따라 제공된다는 것입니다. 이는 개인 목적, 거대 기업, 심지어 정부 기관 등 어떤 용도로 사용하든 관계없이 사용하는 데 실질적인 장벽이 없다는 것을 의미합니다. 이를 실행하려면 올바른 시스템이 필요하거나 클라우드 리소스에 투자해야 할 수도 있습니다.

더 단순한 MIT 라이선스와 파생 상품에 대한 신용 및 유사한 라이선스를 요구하는 협력 CC BY-SA-4.0과 같은 다른 라이선스도 있지만 Apache 2.0은 대규모 노력을 위한 강력한 기반을 제공합니다.

최종 생각

Mistral 7B와 같은 오픈 소스 대규모 언어 모델의 등장은 AI 산업의 중추적인 변화를 의미하며 더 많은 청중이 고품질 언어 모델에 액세스할 수 있게 해줍니다. Grouped-query attention 및 Sliding Window Attention과 같은 Mistral AI의 혁신적인 접근 방식은 품질 저하 없이 효율적인 성능을 약속합니다.

Mistral의 분산형 특성은 특정 과제를 제기하지만 유연성과 오픈 소스 라이선스는 AI 민주화의 잠재력을 강조합니다. 환경이 발전함에 따라 필연적으로 이러한 모델의 힘과 윤리적 고려 사항 및 안전 메커니즘의 균형을 맞추는 데 초점이 맞춰질 것입니다.

다음은 미스트랄인가요? 7B 모델은 시작에 불과했습니다. 팀은 더 큰 모델을 곧 출시하는 것을 목표로 하고 있습니다. 이러한 새 모델이 7B의 성능과 일치한다면 Mistral은 출시 첫해 내에 업계 최고의 플레이어로 빠르게 성장할 수 있습니다.

저는 지난 50년 동안 기계 학습과 딥 러닝의 매혹적인 세계에 몰두했습니다. 저의 열정과 전문 ​​지식은 특히 AI/ML에 중점을 둔 XNUMX개 이상의 다양한 소프트웨어 엔지니어링 프로젝트에 기여하도록 이끌었습니다. 나의 계속되는 호기심은 또한 내가 더 탐구하고 싶은 분야인 자연어 처리로 나를 이끌었습니다.