5가지 최고의 오픈 소스 LLM(2024년 XNUMX월)

업데이트 on 2024 년 5 월 1 일

빠르게 진화하는 인공 지능(AI) 세계에서 LLM(Large Language Models)은 혁신을 주도하고 기술과 상호 작용하는 방식을 재구성하는 초석으로 부상했습니다.

이러한 모델이 점점 더 정교해짐에 따라 이에 대한 액세스를 민주화하는 데 점점 더 중점을 두고 있습니다. 특히 오픈 소스 모델은 이러한 민주화에서 중추적인 역할을 하며 연구원, 개발자 및 애호가 모두에게 복잡성을 깊이 탐구하고 특정 작업에 맞게 미세 조정하거나 기반을 구축할 수 있는 기회를 제공합니다.

이 블로그에서는 AI 커뮤니티에서 파장을 일으키고 있으며 각각 고유한 강점과 기능을 테이블에 제공하는 최고의 오픈 소스 LLM 중 일부를 살펴보겠습니다.

Meta의 Llama 2는 AI 모델 라인업에 획기적인 추가 기능입니다. 이것은 단지 다른 모델이 아닙니다. 다양한 최신 응용 프로그램에 연료를 공급하도록 설계되었습니다. Llama 2의 훈련 데이터는 방대하고 다양하여 이전 모델에 비해 크게 발전했습니다. 이러한 교육의 다양성은 Llama 2가 단순한 점진적인 개선이 아니라 AI 기반 상호 작용의 미래를 향한 기념비적인 단계임을 보장합니다.

Meta와 Microsoft 간의 협업은 Llama 2의 지평을 넓혔습니다. 오픈 소스 모델은 이제 Azure 및 Windows와 같은 플랫폼에서 지원되며, 개발자와 조직에 생성적 AI 기반 경험을 생성할 수 있는 도구를 제공하는 것을 목표로 합니다. 이 파트너십은 모두가 AI에 보다 쉽게 접근하고 개방할 수 있도록 하기 위한 두 회사의 헌신을 강조합니다.

Llama 2는 원래 Llama 모델의 후속 제품이 아닙니다. 이는 챗봇 분야의 패러다임 전환을 나타냅니다. 첫 번째 Llama 모델은 텍스트와 코드를 생성하는 데 있어 혁신적이었지만 오용을 방지하기 위해 가용성이 제한되었습니다. 반면에 Llama 2는 더 많은 청중에게 다가갈 예정입니다. AWS, Azure, Hugging Face의 AI 모델 호스팅 플랫폼과 같은 플랫폼에 최적화되어 있습니다. 또한 Meta와 Microsoft의 협력을 통해 Llama 2는 Windows뿐만 아니라 Qualcomm의 Snapdragon 시스템 온 칩으로 구동되는 장치에서도 명성을 떨칠 준비가 되어 있습니다.

안전은 Llama 2 설계의 핵심입니다. 때때로 오해의 소지가 있거나 유해한 콘텐츠를 생성하는 GPT와 같은 초기 대규모 언어 모델이 직면한 문제를 인식하여 Meta는 Llama 2의 안정성을 보장하기 위해 광범위한 조치를 취했습니다. 이 모델은 '환각', 잘못된 정보 및 편견을 최소화하기 위해 엄격한 훈련을 거쳤습니다.

LLaMa 2의 주요 기능:

다양한 학습 데이터: Llama 2의 교육 데이터는 광범위하고 다양하여 포괄적인 이해와 성능을 보장합니다.
마이크로소프트와의 협업: Llama 2는 Azure 및 Windows와 같은 플랫폼에서 지원되므로 적용 범위가 확장됩니다.
가용성: 이전 버전과 달리 Llama 2는 더 많은 사용자가 사용할 수 있으며 여러 플랫폼에서 미세 조정할 준비가 되어 있습니다.
안전 중심 설계: Meta는 안전을 강조하여 Llama 2가 유해한 출력을 최소화하면서 정확하고 신뢰할 수 있는 결과를 생성하도록 합니다.
최적화된 버전: Llama 2는 Llama 2와 Llama 2-Chat의 두 가지 주요 버전으로 제공되며 후자는 양방향 대화를 위해 특별히 설계되었습니다. 이러한 버전의 복잡성은 7억에서 70억 매개변수에 이릅니다.
향상된 교육: Llama 2는 원래 Llama의 1.4조 XNUMX천억 개 토큰에서 크게 증가한 XNUMX만 토큰으로 훈련되었습니다.

2. 꽃

2022년, 70개국 이상 자원봉사자와 Hugging Face 전문가가 참여한 글로벌 협업 끝에 BLOOM 프로젝트가 공개되었습니다. XNUMX년에 걸친 계획을 통해 만들어진 이 LLM(대형 언어 모델)은 자동 회귀 텍스트 생성을 위해 설계되었으며 주어진 텍스트 프롬프트를 확장할 수 있습니다. 상당한 계산 능력을 활용하여 방대한 텍스트 데이터 모음을 학습했습니다.

BLOOM의 데뷔는 생성 AI 기술의 접근성을 높이는 데 있어 중요한 단계였습니다. 오픈 소스 LLM으로서 176억 개의 매개변수를 자랑하며 동급에서 가장 강력한 LLM 중 하나입니다. BLOOM은 46개 언어와 13개 프로그래밍 언어에 걸쳐 일관되고 정확한 텍스트를 생성하는 능력을 갖추고 있습니다.

이 프로젝트는 투명성을 강조하여 소스 코드와 훈련 데이터에 대한 대중의 접근을 허용합니다. 이러한 개방성은 모델의 지속적인 검토, 활용 및 향상을 유도합니다.

Hugging Face 플랫폼을 통해 무료로 액세스할 수 있는 BLOOM은 AI 분야의 협력적 혁신을 보여주는 증거입니다.

Bloom의 주요 기능:

다국어 기능 : BLOOM은 46개 언어와 13개 프로그래밍 언어로 텍스트를 생성하는 데 능숙하여 광범위한 언어 범위를 보여줍니다.
오픈 소스 액세스: 모델의 소스 코드와 교육 데이터는 공개적으로 제공되므로 투명성과 협업 개선이 촉진됩니다.
자동회귀 텍스트 생성: 주어진 프롬프트에서 텍스트를 이어가도록 설계된 BLOOM은 텍스트 시퀀스를 확장하고 완성하는 데 탁월합니다.
대규모 매개변수 개수: 176억 개의 매개변수를 갖춘 BLOOM은 현존하는 가장 강력한 오픈 소스 LLM 중 하나입니다.
글로벌 협업: 70개 이상 국가의 자원봉사자와 Hugging Face 연구자들의 기여로 XNUMX년간의 프로젝트를 통해 개발되었습니다.
무료 접근성: 사용자는 Hugging Face 생태계를 통해 BLOOM에 무료로 액세스하고 활용할 수 있어 AI 분야의 민주화가 강화됩니다.
산업 규모 교육: 이 모델은 상당한 계산 리소스를 사용하여 방대한 양의 텍스트 데이터에 대해 학습되어 강력한 성능을 보장합니다.

3. MPT-7B

MosaicML Foundations는 최신 오픈 소스 LLM인 MPT-7B를 도입하여 이 공간에 크게 기여했습니다. MosaicML Pretrained Transformer의 약어인 MPT-7B는 GPT 스타일의 디코더 전용 변환기 모델입니다. 이 모델은 성능 최적화된 레이어 구현 및 더 큰 교육 안정성을 보장하는 아키텍처 변경을 포함하여 몇 가지 향상된 기능을 자랑합니다.

MPT-7B의 뛰어난 기능은 1조 개의 텍스트 및 코드 토큰으로 구성된 광범위한 데이터 세트에 대한 교육입니다. 이 엄격한 교육은 9.5일 동안 MosaicML 플랫폼에서 실행되었습니다.

MPT-7B의 오픈 소스 특성은 상용 애플리케이션을 위한 귀중한 도구로 자리매김합니다. 비즈니스 및 조직의 예측 분석 및 의사 결정 프로세스에 상당한 영향을 미칠 가능성이 있습니다.

기본 모델 외에도 MosaicML Foundations는 짧은 형식의 지침을 따르는 MPT-7B-Instruct, 대화 생성을 위한 MPT-7B-Chat 및 MPT-7B-StoryWriter-65k+와 같은 특정 작업에 맞춤화된 특수 모델도 출시하고 있습니다. 긴 형식의 스토리 생성을 위해.

MPT-7B의 개발 여정은 MosaicML 팀이 데이터 준비에서 배포까지 모든 단계를 몇 주 내에 관리하는 포괄적인 과정이었습니다. 데이터는 다양한 리포지토리에서 제공되었으며 팀은 EleutherAI의 GPT-NeoX 및 20B 토크나이저와 같은 도구를 활용하여 다양하고 포괄적인 교육 믹스를 보장했습니다.

MPT-7B의 주요 기능 개요:

상업용 라이선스: MPT-7B는 상업적 사용이 허가되어 비즈니스에 귀중한 자산이 됩니다.
광범위한 교육 데이터: 이 모델은 1조 토큰의 방대한 데이터 세트에 대한 교육을 자랑합니다.
긴 입력 처리: MPT-7B는 손상 없이 매우 긴 입력을 처리하도록 설계되었습니다.
속도와 효율성: 이 모델은 신속한 교육 및 추론에 최적화되어 시기 적절한 결과를 보장합니다.
오픈 소스 코드: MPT-7B는 효율적인 오픈 소스 교육 코드와 함께 제공되어 투명성과 사용 편의성을 높입니다.
비교 우수성: MPT-7B는 LLaMA-7B와 일치하는 품질로 20B-7B 범위의 다른 오픈 소스 모델보다 우수함을 입증했습니다.

4. 매

Falcon LLM은 LLM 계층 구조의 최상위로 빠르게 올라간 모델입니다. Falcon LLM, 특히 Falcon-40B는 40억 개의 매개변수를 갖춘 기본 LLM이며 인상적인 3조 개의 토큰에 대해 교육을 받았습니다. 이는 자동 회귀 디코더 전용 모델로 작동합니다. 즉, 본질적으로 이전 토큰을 기반으로 시퀀스에서 후속 토큰을 예측합니다. 이 아키텍처는 GPT 모델을 연상시킵니다. 특히, Falcon의 아키텍처는 GPT-75보다 우수한 성능을 보여주었고, 훈련 컴퓨팅 예산의 XNUMX%만으로 이 위업을 달성했으며 추론 중에 훨씬 적은 컴퓨팅이 필요합니다.

Technology Innovation Institute의 팀은 Falcon을 개발하는 동안 데이터 품질에 중점을 두었습니다. 교육 데이터 품질에 대한 LLM의 민감도를 인식하여 수만 개의 CPU 코어로 확장되는 데이터 파이프라인을 구성했습니다. 이를 통해 광범위한 필터링 및 중복 제거 프로세스를 통해 웹에서 고품질 콘텐츠를 신속하게 처리하고 추출할 수 있었습니다.

TII는 Falcon-40B 외에도 7억 개의 매개변수를 보유하고 7조 1,500억 개의 토큰에 대해 훈련된 Falcon-40B를 비롯한 다른 버전도 도입했습니다. 특정 작업에 맞게 조정된 Falcon-7B-Instruct 및 Falcon-XNUMXB-Instruct와 같은 특수 모델도 있습니다.

훈련 Falcon-40B는 광범위한 과정이었습니다. 이 모델은 TII가 구축한 대규모 영어 웹 데이터 세트인 RefinedWeb 데이터 세트에서 훈련되었습니다. 이 데이터 세트는 CommonCrawl 위에 구축되었으며 품질을 보장하기 위해 엄격한 필터링을 거쳤습니다. 모델이 준비되면 EAI Harness, HELM 및 BigBench를 포함한 여러 오픈 소스 벤치마크에 대해 검증되었습니다.

Falcon LLM의 주요 기능 개요:

광범위한 매개변수: Falcon-40B는 40억 개의 매개변수를 갖추고 있어 포괄적인 학습 및 성능을 보장합니다.
자기회귀 디코더 전용 모델: 이 아키텍처를 통해 Falcon은 GPT 모델과 유사하게 이전 토큰을 기반으로 후속 토큰을 예측할 수 있습니다.
우수한 성능: Falcon은 교육 컴퓨팅 예산의 3%만 활용하면서 GPT-75보다 성능이 뛰어납니다.
고품질 데이터 파이프라인: TII의 데이터 파이프라인은 웹에서 모델 교육에 중요한 고품질 콘텐츠 추출을 보장합니다.
다양한 모델: Falcon-40B 외에도 TII는 Falcon-7B 및 Falcon-40B-Instruct 및 Falcon-7B-Instruct와 같은 특수 모델을 제공합니다.
오픈 소스 가용성: Falcon LLM은 오픈 소스로 제공되어 AI 도메인에서 접근성과 포괄성을 촉진합니다.

5. 비쿠나-13B

LMSYS ORG는 Vicuna-13B를 도입하여 오픈 소스 LLM 영역에서 중요한 족적을 남겼습니다. 이 오픈 소스 챗봇은 ShareGPT에서 가져온 사용자 공유 대화에서 LLaMA를 미세 조정하여 세심하게 훈련되었습니다. GPT-4가 심사위원으로 참여한 예비 평가에서 Vicuna-13B는 OpenAI ChatGPT 및 Google Bard와 같은 유명한 모델의 90% 이상의 품질을 달성하는 것으로 나타났습니다.

인상적으로, Vicuna-13B는 사례의 90% 이상에서 LLaMA 및 Stanford Alpaca와 같은 다른 주목할만한 모델을 능가합니다. Vicuna-13B에 대한 전체 교육 프로세스는 약 $300의 비용으로 실행되었습니다. 기능 탐색에 관심이 있는 사람들을 위해 코드, 가중치 및 온라인 데모가 비상업적 목적으로 공개되었습니다.

Vicuna-13B 모델은 70K 사용자 공유 ChatGPT 대화로 미세 조정되어 보다 상세하고 잘 구성된 응답을 생성할 수 있습니다. 이러한 응답의 품질은 ChatGPT와 비슷합니다. 그러나 챗봇을 평가하는 것은 복잡한 작업입니다. GPT-4가 발전함에 따라 벤치마크 생성 및 성능 평가를 위한 자동화된 평가 프레임워크 역할을 할 가능성에 대한 호기심이 커지고 있습니다. 초기 결과는 GPT-4가 챗봇 응답을 비교할 때 일관된 순위와 자세한 평가를 생성할 수 있음을 시사합니다. GPT-4를 기반으로 한 예비 평가에서는 Vicuna가 Bard/ChatGPT와 같은 모델의 90% 기능을 달성하는 것으로 나타났습니다.

Vicuna-13B의 주요 특징 개요:

오픈 소스 특성: Vicuna-13B는 공개 액세스가 가능하여 투명성과 커뮤니티 참여를 촉진합니다.
광범위한 교육 데이터: 이 모델은 70개의 사용자 공유 대화에 대해 학습되어 다양한 상호 작용에 대한 포괄적인 이해를 보장합니다.
경쟁력 있는 성능: Vicuna-13B의 성능은 ChatGPT 및 Google Bard와 같은 업계 리더와 동등합니다.
비용 효율적인 교육: Vicuna-13B에 대한 전체 교육 프로세스는 약 $300의 저렴한 비용으로 실행되었습니다.
LLaMA 미세 조정: 이 모델은 LLaMA에서 미세 조정되어 향상된 성능과 응답 품질을 보장합니다.
온라인 데모 가용성: 사용자는 대화식 온라인 데모를 통해 Vicuna-13B의 기능을 테스트하고 경험할 수 있습니다.

대규모 언어 모델의 확장 영역

대규모 언어 모델의 영역은 방대하고 지속적으로 확장되며 새로운 모델이 나올 때마다 가능성의 한계를 뛰어넘습니다. 이 블로그에서 논의된 LLM의 오픈 소스 특성은 AI 커뮤니티의 협력 정신을 보여줄 뿐만 아니라 미래 혁신을 위한 길을 열어줍니다.

Vicuna의 인상적인 챗봇 기능에서 Falcon의 우수한 성능 메트릭에 이르기까지 이러한 모델은 현재 LLM 기술의 정점을 나타냅니다. 이 분야의 급속한 발전을 계속 목격하면서 오픈 소스 모델이 AI의 미래를 형성하는 데 중요한 역할을 할 것이 분명합니다.

당신이 노련한 연구원이든, 신진 AI 애호가이든, 이러한 모델의 잠재력에 대해 궁금한 사람이든, 그들이 제공하는 방대한 가능성에 뛰어들어 탐구하기에 더 좋은 시간은 없습니다.

Unite.AI

5가지 최고의 오픈 소스 LLM(2024년 XNUMX월)

베스트

5가지 최고의 오픈 소스 LLM(2024년 XNUMX월)

차례

1. 라마 2

2. 꽃

3. MPT-7B

4. 매

5. 비쿠나-13B

대규모 언어 모델의 확장 영역

최근 게시물

Unite.AI

5가지 최고의 오픈 소스 LLM(2024년 XNUMX월)

차례

1. 라마 2

2. 꽃

3. MPT-7B

4. 매

5. 비쿠나-13B

대규모 언어 모델의 확장 영역

너는 좋아할지도 모른다.

최근 게시물