Connect with us

인공지능

Mistral 2와 Mistral NeMo: 파리에서 나온 최신 LLM에 대한 종합 가이드

mm
Mistral Large 2 and Mistral NeMo

Google DeepMind와 Meta 출신들이 설립한 파리 기반 스타트업 Mistral AI는 2023년 이후로 꾸준히 AI 커뮤니티에 파장을 일으켜 왔습니다.

Mistral AI는 2023년에 공개된 데뷔 모델 Mistral 7B로 처음 세계의 주목을 받았습니다. 이 70억 개 파라미터 모델은 인상적인 성능으로 빠르게 주목을 받아, 다양한 벤치마크에서 Llama 2 13B와 같은 더 큰 모델을 능가했으며 많은 지표에서 Llama 1 34B와도 맞먹는 성능을 보였습니다. Mistral 7B를 돋보이게 한 것은 단순히 성능뿐만 아니라 접근성이었습니다. 이 모델은 GitHub에서 쉽게 다운로드하거나 13.4기가바이트 토렌트를 통해 전 세계 연구자와 개발자들이 쉽게 이용할 수 있었습니다.

전통적인 논문, 블로그 또는 보도 자료를 생략하는 이 회사의 독특한 출시 방식은 AI 커뮤니티의 관심을 끄는 데 놀라울 정도로 효과적임이 입증되었습니다. 이 전략과 오픈소스 원칙에 대한 헌신이 결합되어 Mistral AI를 AI 분야의 강력한 플레이어로 자리매김하게 했습니다.

Mistral AI의 업계 내 빠른 부상은 최근의 자금 조달 성공으로 더욱 입증되었습니다. 이 회사는 Andreessen Horowitz가 주도한 자금 조달 라운드 이후 20억 달러라는 엄청난 가치 평가를 달성했습니다. 이는 유럽 역사상 최대 규모인 1억 1,800만 달러의 시드 라운드에 이은 것으로, 투자자들이 Mistral AI의 비전과 역량에 대해 가진 엄청난 믿음을 보여줍니다.

기술적 발전을 넘어, Mistral AI는 특히 오픈소스 AI에 대한 규제 완화를 주장해 온 EU AI 법안 논의를 비롯한 AI 정책 형성에도 적극적으로 참여해 왔습니다.

이제 2024년, Mistral AI는 다시 한번 두 가지 획기적인 모델인 Mistral Large 2 (Mistral-Large-Instruct-2407로도 알려짐)와 Mistral NeMo로 기준을 높였습니다. 이 종합 가이드에서 우리는 이 인상적인 AI 모델들의 기능, 성능 및 잠재적 응용 분야에 대해 깊이 파고들어 보겠습니다.

Mistral Large 2의 주요 사양은 다음과 같습니다:

  • 1,230억 개 파라미터
  • 128k 컨텍스트 윈도우
  • 수십 개 언어 지원
  • 80개 이상의 코딩 언어에 능숙
  • 고급 함수 호출 기능

이 모델은 비용 효율성, 속도 및 성능의 경계를 넓히도록 설계되어 최첨단 AI를 활용하려는 연구자와 기업 모두에게 매력적인 옵션이 됩니다.

Mistral NeMo: 새로운 소형 모델

Mistral Large 2가 Mistral AI의 대규모 모델 중 최고를 대표하는 반면, 2024년 7월에 공개된 Mistral NeMo는 다른 접근 방식을 취합니다. NVIDIA와 협력하여 개발된 Mistral NeMo는 여전히 인상적인 기능을 제공하는 더 컴팩트한 120억 개 파라미터 모델입니다:

  • 120억 개 파라미터
  • 128k 컨텍스트 윈도우
  • 해당 크기 범주에서 최첨단 성능
  • 오픈 사용을 위한 Apache 2.0 라이선스
  • 효율적인 추론을 위한 양자화 인지 훈련

Mistral NeMo는 현재 Mistral 7B를 사용하는 시스템을 위한 드롭인 대체재로 자리매김하여, 사용 편의성과 호환성을 유지하면서 향상된 성능을 제공합니다.

주요 기능 및 역량

Mistral Large 2와 Mistral NeMo 모두 AI 분야에서 두각을 나타내는 몇 가지 주요 기능을 공유합니다:

  1. 대용량 컨텍스트 윈도우: 128k 토큰 컨텍스트 길이로, 두 모델 모두 훨씬 더 긴 텍스트를 처리하고 이해할 수 있어 더 일관되고 맥락적으로 관련성 높은 출력을 가능하게 합니다.
  2. 다국어 지원: 이 모델들은 영어, 프랑스어, 독일어, 스페인어, 이탈리아어, 중국어, 일본어, 한국어, 아랍어, 힌디어를 포함한 광범위한 언어에서 탁월합니다.
  3. 고급 코딩 역량: 두 모델 모두 수많은 프로그래밍 언어에 걸쳐 코드 생성에서 예외적인 숙련도를 보여줍니다.
  4. 지시 사항 따르기: 모델들이 정확한 지시를 따르고 다중 턴 대화를 처리하는 능력에서 상당한 개선이 이루어졌습니다.
  5. 함수 호출: 함수 호출에 대한 기본 지원으로 이 모델들이 외부 도구 및 서비스와 동적으로 상호 작용할 수 있습니다.
  6. 추론 및 문제 해결: 수학적 추론 및 복잡한 문제 해결 작업에서 향상된 역량.

이러한 기능 중 일부를 살펴보고 실제로 어떻게 수행되는지 살펴보겠습니다.

성능 벤치마크

Mistral Large 2와 Mistral NeMo의 진정한 역량을 이해하려면 다양한 벤치마크에서의 성능을 살펴보는 것이 필수적입니다. 몇 가지 주요 지표를 살펴보겠습니다:

Mistral Large 2 벤치마크

이 표는 다양한 LLM의 여러 프로그래밍 언어에 대한 숙련도를 보여줍니다. Mistral Large 2 (24.07), Llama 3.1 (405B), GPT-4o와 같은 모델들이 Python, C++, Bash, Java, TypeScript, PHP, C#과 같은 언어에서 코드를 이해하고 생성하는 능력에 대해 평가됩니다. Llama 3.1 405B는 여러 언어에서 강력한 성능을 보여주며, 특히 Python과 Java에서 매우 높은 점수를 기록합니다. 이러한 숙련도는 코드 생성, 디버깅 및 소프트웨어 개발과 관련된 응용 분야에 중요하여, 이러한 모델들을 개발자들에게 가치 있는 도구로 만듭니다.

https://mistral.ai/news/mistral-large-2407/

https://mistral.ai/news/mistral-large-2407/

https://mistral.ai/news/mistral-large-2407/

https://mistral.ai/news/mistral-large-2407/

Mistral NeMo 벤치마크

Mistral NeMo에 대한 구체적인 벤치마크 점수는 제공된 정보에 나와 있지 않지만, 해당 크기 범주에서 최첨단 성능을 제공하는 것으로 설명됩니다. 이 모델은 Gemma 2 9B 및 Llama 3 8B와 같은 다른 최근 오픈소스 사전 훈련 모델보다 다양한 작업에서 더 나은 성능을 보입니다.

다국어 및 코딩 능력

Mistral Large 2와 Mistral NeMo 모두의 두드러진 기능 중 하나는 탁월한 다국어 역량입니다. 이는 AI 모델이 여러 언어로 콘텐츠를 이해하고 생성해야 하는 점점 더 글로벌화되는 세계에서 특히 중요합니다.

예를 들어, Mistral Large 2는 프랑스어, 독일어, 스페인어, 이탈리아어, 포르투갈어, 아랍어, 힌디어, 러시아어, 중국어, 일본어, 한국어를 포함한 수십 개 언어를 지원합니다. 이 다국어 숙련도는 단순한 번역을 넘어 이러한 언어에 대한 미묘한 이해와 생성까지 포괄합니다.

이를 설명하기 위해 Mistral Large 2가 여러 언어로 텍스트를 생성하는 예를 살펴보겠습니다:

[INST] 영어, 프랑스어, 독일어, 스페인어, 일본어로 짧은 인사말을 생성하세요. [/INST] 요청하신 언어로 짧은 인사말입니다: 영어: Hello! How are you today? 프랑스어: Bonjour ! Comment allez-vous aujourd’hui ? 독일어: Hallo! Wie geht es Ihnen heute? 스페인어: ¡Hola! ¿Cómo estás hoy? 일본어: こんにちは!今日はお元気ですか? [INST] 이제 Python, Java, JavaScript로 간단한 “Hello, World!” 프로그램을 작성하세요. [/INST]

이 예시들은 모델의 다국어 텍스트 생성 및 코딩 역량을 모두 보여줍니다.

두 모델 모두 Hugging Face, Mistral AI 플랫폼 및 Google Cloud Platform, Azure AI Studio, Amazon Bedrock, IBM watsonx.ai와 같은 주요 클라우드 서비스 제공업체를 통해 이용 가능합니다​ (Mistral AI | Frontier AI in your hands)​​​.

에이전트 패러다임과 함수 호출

Mistral Large 2와 Mistral NeMo 모두 에이전트 중심 설계를 채택하고 있으며, 이는 우리가 AI 모델과 상호 작용하는 방식에 대한 패러다임 전환을 나타냅니다. 이 접근 방식은 환경과 상호 작용하고, 결정을 내리며, 특정 목표를 달성하기 위해 행동할 수 있는 모델 구축에 중점을 둡니다.

이 패러다임을 가능하게 하는 핵심 기능은 함수 호출에 대한 기본 지원입니다. 이를 통해 모델들은 단순한 텍스트 생성 이상의 역량을 효과적으로 확장하여 외부 도구 및 서비스와 동적으로 상호 작용할 수 있습니다.

Mistral Large 2에서 함수 호출이 어떻게 작동할 수 있는지 예를 살펴보겠습니다:

from mistral_common.protocol.instruct.tool_calls import Function, Tool from mistral_inference.transformer import Transformer from mistral_inference.generate import generate from mistral_common.tokens.tokenizers.mistral import MistralTokenizer from mistral_common.protocol.instruct.messages import UserMessage from mistral_common.protocol.instruct.request import ChatCompletionRequest # 토크나이저 및 모델 초기화 mistral_models_path = "path/to/mistral/models" # 이 경로가 올바른지 확인하세요 tokenizer = MistralTokenizer.from_file(f"{mistral_models_path}/tokenizer.model.v3") model = Transformer.from_folder(mistral_models_path) # 날씨 정보를 가져오기 위한 함수 정의 weather_function = Function( name="get_current_weather", description="Get the current weather", parameters={ "type": "object", "properties": { "location": { "type": "string", "description

I have spent the past five years immersing myself in the fascinating world of Machine Learning and Deep Learning. My passion and expertise have led me to contribute to over 50 diverse software engineering projects, with a particular focus on AI/ML. My ongoing curiosity has also drawn me toward Natural Language Processing, a field I am eager to explore further.