Connect with us

인공지능

Mistral AI: Llama2를 넘어서 오픈소스 공간에서 새로운 벤치마크 설정

mm
Mistral 7B LLM

최근에 대형 언어 모델(LLM)이 주목을 받고 있습니다. ChatGPT와 같은 모델의 성과로 인해 Meta의 Llama 모델이 오픈소스 LLM에 대한 관심을 재점화했습니다. 목표는 GPT-4와 같은 상위 모델과 같은 성능을 가진 오픈소스 LLM을 만들면서도 비용과 복잡성을 줄이는 것입니다. 이러한 접근성과 효율성의 결합은 연구자와 개발자에게 새로운 기회를 열어주었으며 자연어 처리 기술의 발전에 새로운 시대를 열었습니다. 최근에 생성적 AI 스타트업은 자금을 모금하고 있습니다. Together는 2,000만 달러를 모금하여 오픈소스 생성적 AI 모델을 구축하고 있습니다. Anthropic도 4.5억 달러를 모금했으며, Cohere는 Google Cloud와 파트너십을 맺고 2.7억 달러를 모금했습니다.

Mistral 7B: 크기 및 가용성 소개

mistral AI Mistral AI는 파리 기반의 스타트업으로 Google의 DeepMind와 Meta의 출신들이 공동 설립했습니다. Mistral AI는 첫 번째 대형 언어 모델인 Mistral 7B를 발표했습니다. 이 모델은 GitHub에서 누구나 쉽게 다운로드할 수 있으며 13.4GB의 토렌트 파일로도 제공됩니다. 이 스타트업은 제품을 출시하기 전에 기록적인 시드 펀딩을 받았습니다. Mistral AI의 첫 번째 모델인 7억 매개변수 모델은 모든 테스트에서 Llama 2 13B의 성능을 초월하며 Llama 1 34B의 많은 지표에서 더 나은 성능을 보여줍니다. 다른 모델과 비교했을 때, Mistral 7B는 유사한 또는 더 나은 기능을 제공하면서 계산 오버헤드를 줄입니다. 기초 모델인 GPT-4는 더 나은 성능을 제공할 수 있지만 비용이 더 높고 사용자 친화적이지 않습니다. 코드 작업에서 Mistral 7B는 CodeLlama 7B와 경쟁할 수 있으며 13.4GB의 크기로 표준 기계에서 실행할 수 있습니다. 또한, Mistral 7B Instruct는 Hugging Face의 지침 데이터셋을 위해 특별히 튜닝되어 있으며 MT-Bench에서 다른 7B 모델을 초월하며 13B 채팅 모델과 어깨를 나란히 합니다.

성능 벤치마크

Mistral 7B의 성능 분석 결과, Llama 2 모델家族과 비교했을 때 모든 벤치마크에서 Mistral 7B가 훨씬 더 나은 성능을 보여주었습니다. 실제로, Mistral 7B는 Llama 34B의 성능과 일치하며 특히 코드와 推론 벤치마크에서 두드러졌습니다. 벤치마크는 常識 推론, 세계 지식, 독해 이해, 수학, 코드 등 여러 범주로 나누어졌습니다. 특히 주목할 점은 Mistral 7B의 비용-성능 지표인 “등가 모델 크기”입니다. 推론과 이해 분야에서 Mistral 7B는 자신의 크기의 3배인 Llama 2 모델과 유사한 성능을 보여주며 메모리와 처리량의 잠재적인 절약을 나타냅니다. 그러나 지식 벤치마크에서 Mistral 7B는 Llama 2 13B와 일치하며 이는 매개변수 제한으로 인한 지식 압축의 영향을 받았을 것입니다.

무엇이 Mistral 7B 모델을 다른 언어 모델보다 더 나은 것으로 만드는가?

주의 메커니즘의 단순화 주의 메커니즘의 세부 사항은 기술적이지만 기본적인 아이디어는 상대적으로 간단합니다. 책을 읽고 중요한 문장을 강조하는 것을 상상해 보세요. 이것은 주의 메커니즘이 “강조” 또는 입력 데이터의 특정 지점에 중요성을 부여하는 방식과 유사합니다. 언어 모델의 contexto에서 이러한 메커니즘은 모델이 가장 관련이 높은 입력 데이터의 부분에 집중할 수 있도록 하여 출력이 일관성 있고 contextoually 정확하도록 합니다. 표준 트랜스포머에서 주의 점수는 다음 공식으로 계산됩니다.

Transformers attention Formula

Transformers Attention Formula

이 공식에는 Q와 K의 행렬 곱셈과 같은 중요한 단계가 포함됩니다. 이 단계는 시퀀스 길이가 증가함에 따라 계산 비용이 증가하는 주요 이유 중 하나입니다. 이는 표준 트랜스포머가 특히 긴 시퀀스를 처리할 때 느려지는 주요 이유 중 하나입니다. transformer 주의 메커니즘은 모델이 입력 데이터의 특정 부분에 집중할 수 있도록 도와줍니다. 일반적으로 이러한 메커니즘은 ‘헤드’를 사용하여 주의를 관리합니다. 헤드가 많을수록 주의가 더 구체적이지만 복잡성과 속도도 증가합니다. 트랜스포머와 주의 메커니즘에 대한 자세한 내용은 여기에서 확인할 수 있습니다. 다중 쿼리 주의(MQA)는 하나의 ‘키-값’ 헤드를 사용하여 속도를 높이지만 때때로 품질을 희생합니다. 이제, MQA의 속도와 다중 헤드 주의의 품질을 결합할 수 있는 방법이 있을까요? 그것이 그룹 쿼리 주의(GQA)가 등장하는 이유입니다.

그룹 쿼리 주의 (GQA)

Grouped-query attention

Grouped-query attention

GQA는 중간 지점의 해결책입니다. 하나 또는 여러 ‘키-값’ 헤드를 사용하는 대신, GQA는 헤드를 그룹화합니다. 이렇게 하면 GQA는 다중 헤드 주의와 유사한 성능을 제공하면서 MQA의 속도를 달성할 수 있습니다. Mistral과 같은 모델에서는 이는 품질을 너무 많이 희생하지 않으면서 효율적인 성능을 의미합니다.

슬라이딩 윈도우 주의 (SWA)

longformer transformers sliding window 슬라이딩 윈도우는 또 다른 주의 순서 처리 방법입니다. 이 방법은 시퀀스에서 각 토큰周围의 고정된 크기의 주의 윈도우를 사용합니다. 여러 레이어가 이 윈도우 주의를 쌓으면, 상위 레이어는 최종적으로 입력 데이터의 전체 정보를 포함하는 더广い 관점을 얻습니다. 이 메커니즘은 합성곱 신경망(CNN)에서 볼 수 있는 수용野와 유사합니다. 반면에, Longformer 모델의 확장 슬라이딩 윈도우 주의는 QKT 행렬의 대각선을 계산합니다. 이 변경으로 인해 메모리 사용량이 선형적으로 증가하여 더 긴 시퀀스를 효율적으로 처리할 수 있습니다.

Mistral AI의 투명성 vs. 분산의 안전성 우려

Mistral AI는 또한 투명성에 대해 강조하며 “트릭이나 독점 데이터가 없습니다”라고 말했습니다. 그러나 현재 사용 가능한 모델인 ‘Mistral-7B-v0.1’은 사전 훈련된 기본 모델이므로 모더레이션이 없이 어떤 질의에도 응답할 수 있습니다. 이것은 잠재적인 안전성 우려를 야기합니다. GPT와 Llama와 같은 모델은 언제 응답해야 하는지 판단하는 메커니즘을 가지고 있지만, Mistral의 완전한 분산 특성은 악의적인 사용자에 의해 악용될 수 있습니다. 그러나 대형 언어 모델의 분산에는 장점도 있습니다. 일부 사람들은 이를 악용할 수 있지만, 사람들은 이를 사회적 благ을 위해 그리고 모든 사람에게 지능을 접근할 수 있도록 활용할 수 있습니다.

배포 유연성

주목할 점은 bahwa Mistral 7B는 Apache 2.0 라이선스하에 제공된다는 것입니다. 이는 이를 사용하는 데 실제 장벽이 없다는 것을 의미합니다. 개인적 용도, 큰 기업, 또는 정부 기관에서 사용하더라도, 시스템을 실행하거나 클라우드 리소스에 투자할 수 있습니다. MIT 라이선스나 CC BY-SA-4.0 라이선스와 같은 다른 라이선스가 있지만, Apache 2.0 라이선스는 대규모 프로젝트에 강력한基础을 제공합니다.

최종 생각

오픈소스 대형 언어 모델의 부상, 특히 Mistral 7B는 AI 산업에서 중요한 전환점을 나타냅니다. 이는 높은 품질의 언어 모델을 더广い 관객에게 접근할 수 있도록 합니다. Mistral AI의 혁신적인 접근 방식, 즉 그룹 쿼리 주의와 슬라이딩 윈도우 주의는 품질을 희생하지 않으면서 효율적인 성능을 약속합니다. Mistral의 분산 특성은 특정挑戰을 제기하지만, 유연성과 오픈소스 라이선스는 AI의 민주화를 위한 잠재력을 강조합니다. 미래에는 Mistral이 7B 모델을 시작으로 더 큰 모델을 출시할 계획입니다. 이러한 새로운 모델이 7B의 성능과 일치한다면, Mistral은 산업에서 빠르게 주요 플레이어로 부상할 수 있습니다.

지난 5년 동안私は Machine Learning과 Deep Learning의 매력적인 세계에 몰두해 왔습니다.私の情熱と専門知識は、AI/ML에 중점을 둔 50개 이상의 다양한 소프트웨어 엔지니어링 프로젝트에 기여했습니다.私の継続的な 호기심은 또한 자연어 처리 분야로私の 관심을 끌었고, 더 깊이 탐구하고 싶은 분야입니다.