인공 지능

Llama 3에 대해 알아야 할 모든 것 | 가장 강력한 오픈 소스 모델 | 사용법에 대한 개념

업데이트 on 2024 년 4 월 24 일

최근 메타가 출시되었습니다. 라마 3, 최첨단 오픈 소스 LLM(대형 언어 모델)의 차세대 제품입니다. Llama 3는 이전 버전이 설정한 기반을 바탕으로 기사의 종합 리뷰에 설명된 대로 Llama 2를 ChatGPT의 중요한 오픈 소스 경쟁자로 자리매김하는 기능을 향상시키는 것을 목표로 합니다. Llama 2: ChatGPT에 대한 오픈 소스 도전자에 대한 심층 분석.

이 기사에서는 Llama 3의 핵심 개념을 논의하고 혁신적인 아키텍처와 교육 프로세스를 살펴보고 이 획기적인 모델을 책임감 있게 액세스, 사용 및 배포하는 방법에 대한 실용적인 지침을 제공합니다. 연구자, 개발자 또는 AI 애호가인지 여부에 관계없이 이 게시물은 프로젝트 및 애플리케이션에 Llama 3의 기능을 활용하는 데 필요한 지식과 리소스를 제공합니다.

라마의 진화: 라마 2에서 라마 3까지

메타의 CEO 마크 저커버그는 발표 Meta AI가 개발한 최신 AI 모델 Llama 3가 출시되었습니다. 현재 오픈 소스로 제공되는 이 최첨단 모델은 메신저와 인스타그램을 포함한 Meta의 다양한 제품을 향상시키기 위해 설정되었습니다. Zuckerberg는 Llama 3가 Meta AI를 가장 발전된 AI로 꼽았다고 강조했습니다. 자유롭게 사용할 수 있는 AI 비서.

Llama 3의 세부 사항에 대해 이야기하기 전에 이전 버전인 Llama 2를 간단히 다시 살펴보겠습니다. 2022년에 출시된 Llama 2는 오픈 소스 LLM 환경에서 중요한 이정표였으며 소비자 하드웨어에서 실행할 수 있는 강력하고 효율적인 모델을 제공했습니다. .

그러나 Llama 2는 주목할 만한 성과임에도 불구하고 한계도 있었습니다. 사용자들은 거짓 거부(양호한 프롬프트에 응답하기를 거부하는 모델), 제한된 유용성, 추론 및 코드 생성과 같은 영역에서 개선의 여지가 있는 문제를 보고했습니다.

Llama 3: 이러한 문제에 대한 Meta의 반응과 커뮤니티의 피드백을 입력하세요. Llama 3를 통해 Meta는 현재 사용 가능한 최고의 독점 모델과 동등한 최고의 오픈 소스 모델을 구축하는 동시에 책임감 있는 개발 및 배포 관행을 우선시하기 시작했습니다.

라마 3: 아키텍처 및 교육

Llama 3의 주요 혁신 중 하나는 토큰화 기능입니다. 128,256 토큰 (Llama 32,000의 2에서 증가) 이렇게 더 큰 어휘를 사용하면 입력과 출력 모두에서 텍스트를 보다 효율적으로 인코딩할 수 있으므로 잠재적으로 다국어 사용이 강화되고 전반적인 성능이 향상됩니다.

Llama 3에는 다음이 포함되어 있습니다. 그룹화된 쿼리 주의 (GQA)는 확장성을 향상시키고 모델이 더 긴 컨텍스트를 보다 효과적으로 처리하도록 돕는 효율적인 표현 기술입니다. 그만큼 8B Llama 3 버전은 GQA를 활용하지만 두 버전 모두 8B 와 70B 모델은 최대 시퀀스를 처리할 수 있습니다. 8,192 토큰.

훈련 데이터 및 확장

Llama 3에 사용된 훈련 데이터는 성능 향상에 중요한 요소입니다. Meta는 15 조 공개적으로 사용 가능한 온라인 소스의 토큰으로, Llama 2에 사용된 데이터 세트보다 5배 더 큽니다. 이 데이터 세트에는 또한 영어가 아닌 고품질 데이터의 상당 부분(XNUMX% 이상)이 포함되어 있습니다. 30 언어, 향후 다국어 적용을 준비합니다.

데이터 품질을 보장하기 위해 Meta는 휴리스틱 필터, NSFW 필터, 의미론적 중복 제거 및 Llama 2에서 훈련된 텍스트 분류기를 포함한 고급 필터링 기술을 사용하여 데이터 품질을 예측했습니다. 또한 팀은 사전 교육을 위한 최적의 데이터 소스 조합을 결정하기 위해 광범위한 실험을 수행하여 Llama 3가 퀴즈, STEM, 코딩 및 역사적 지식을 포함한 광범위한 사용 사례에서 잘 작동하는지 확인했습니다.

사전 훈련을 확장하는 것은 Llama 3 개발의 또 다른 중요한 측면이었습니다. Meta는 코드 생성과 같은 주요 작업에 대한 대규모 모델의 성능을 실제로 교육하기 전에 예측할 수 있는 확장 법칙을 개발했습니다. 이를 통해 데이터 혼합 및 컴퓨팅 할당에 대한 결정을 내릴 수 있었고 궁극적으로 보다 효율적이고 효과적인 교육이 가능해졌습니다.

Llama 3의 가장 큰 모델은 데이터 병렬화, 모델 병렬화 및 파이프라인 병렬화 기술의 조합을 활용하여 맞춤형으로 구축된 24,000개의 GPU 클러스터 2개에서 훈련되었습니다. Meta의 고급 훈련 스택은 오류 감지, 처리 및 유지 관리를 자동화하여 GPU 가동 시간을 최대화하고 Llama XNUMX에 비해 훈련 효율성을 약 XNUMX배 높입니다.

명령어 미세 조정 및 성능

채팅 및 대화 애플리케이션에 대한 Llama 3의 잠재력을 최대한 활용하기 위해 Meta는 지침 미세 조정에 대한 접근 방식을 혁신했습니다. 그 방법은 결합 감독된 미세 조정 (SFT), 거부 샘플링, 근접 정책 최적화 (PPO) 및 직접 선호 최적화 (DPO).

SFT에 사용된 프롬프트의 품질과 PPO 및 DPO에 사용된 선호도 순위는 정렬된 모델의 성능에 중요한 역할을 했습니다. Meta의 팀은 이 데이터를 신중하게 선별하고 인간 주석자가 제공한 주석에 대해 여러 차례의 품질 보증을 수행했습니다.

PPO 및 DPO를 통한 선호도 순위 교육을 통해 추론 및 코딩 작업에 대한 Llama 3의 성능도 크게 향상되었습니다. Meta는 모델이 추론 질문에 직접 대답하는 데 어려움을 겪을 때에도 여전히 올바른 추론 추적을 생성할 수 있음을 발견했습니다. 선호도 순위에 대한 교육을 통해 모델은 이러한 추적에서 정답을 선택하는 방법을 학습할 수 있었습니다.

결과는 자명합니다. Llama 3는 일반적인 업계 벤치마크에서 사용 가능한 많은 오픈 소스 채팅 모델을 능가하여 8B 및 70B 매개변수 규모에서 LLM에 대한 새로운 최첨단 성능을 확립했습니다.

책임 있는 개발 및 안전 고려사항

Meta는 최첨단 성능을 추구하는 동시에 Llama 3에 대한 책임 있는 개발 및 배포 방식을 우선시했습니다. Meta는 시스템 수준 접근 방식을 채택하여 Llama 3 모델을 개발자를 주도하여 설계할 수 있는 더 넓은 생태계의 일부로 구상했습니다. 특정 사용 사례 및 안전 요구 사항에 맞게 모델을 사용자 정의합니다.

Meta는 광범위한 레드팀 구성 연습을 수행하고, 적대적 평가를 수행하고, 지침 조정 모델에서 잔여 위험을 낮추기 위해 안전 완화 기술을 구현했습니다. 그러나 회사는 잔여 위험이 남아 있을 가능성이 있음을 인정하고 개발자가 특정 사용 사례의 맥락에서 이러한 위험을 평가할 것을 권장합니다.

책임감 있는 배포를 지원하기 위해 Meta는 책임 있는 사용 가이드를 업데이트하여 개발자가 애플리케이션에 대한 모델 및 시스템 수준 안전 모범 사례를 구현할 수 있는 포괄적인 리소스를 제공했습니다. 이 가이드에서는 콘텐츠 조정, 위험 평가, Llama Guard 2 및 Code Shield와 같은 안전 도구 사용과 같은 주제를 다룹니다.

MLCommons 분류법을 기반으로 구축된 Llama Guard 2는 LLM 입력(프롬프트) 및 응답을 분류하여 안전하지 않거나 유해한 것으로 간주될 수 있는 콘텐츠를 감지하도록 설계되었습니다. CyberSecEval 2는 모델의 코드 해석기 남용을 방지하는 조치, 공격적인 사이버 보안 기능, 즉각적인 주입 공격에 대한 민감성을 추가하여 이전 버전을 확장합니다.

Llama 3에 새롭게 도입된 Code Shield에는 LLM에서 생성된 안전하지 않은 코드에 대한 추론 시간 필터링이 추가되어 안전하지 않은 코드 제안, 코드 해석기 남용 및 보안 명령 실행과 관련된 위험을 완화합니다.

Llama 3 액세스 및 사용

Meta AI의 Llama 3 출시 이후 Mac, Windows, Linux를 포함한 다양한 운영 체제에 로컬 배포할 수 있는 여러 오픈 소스 도구가 제공되었습니다. 이 섹션에서는 세 가지 주목할만한 도구인 Ollama, Open WebUI 및 LM Studio에 대해 자세히 설명합니다. 각 도구는 개인 장치에서 Llama 3의 기능을 활용하기 위한 고유한 기능을 제공합니다.

올라마: Mac, Linux, Windows에서 사용 가능 올라마 하드웨어가 덜 강력한 개인용 컴퓨터에서도 Llama 3 및 기타 대규모 언어 모델의 작동을 단순화합니다. 여기에는 쉬운 모델 관리를 위한 패키지 관리자가 포함되어 있으며 모델 다운로드 및 실행을 위한 플랫폼 전반의 명령을 지원합니다.

Docker로 WebUI 열기: 이 도구는 사용자 친화적인 도커Mac, Linux, Windows와 호환되는 기반 인터페이스입니다. Ollama 레지스트리의 모델과 원활하게 통합되어 사용자가 로컬 웹 인터페이스 내에서 Llama 3과 같은 모델을 배포하고 상호 작용할 수 있습니다.

LM스튜디오: Mac, Linux, Windows 사용자를 타겟팅하고, LM스튜디오 다양한 모델을 지원하며 llama.cpp 프로젝트를 기반으로 구축되었습니다. 채팅 인터페이스를 제공하고 Llama 3 8B Instruct 모델을 포함한 다양한 모델과의 직접적인 상호 작용을 촉진합니다.

이러한 도구를 통해 사용자는 다양한 기술 및 요구 사항을 수용하면서 개인 장치에서 Llama 3를 효율적으로 활용할 수 있습니다. 각 플랫폼은 설정 및 모델 상호 작용을 위한 단계별 프로세스를 제공하므로 개발자와 애호가가 고급 AI에 더 쉽게 접근할 수 있습니다.

대규모로 Llama 3 배포

모델 가중치에 대한 직접 액세스를 제공하는 것 외에도 Meta는 다양한 클라우드 제공업체, 모델 API 서비스 및 하드웨어 플랫폼과 제휴하여 Llama 3를 대규모로 원활하게 배포할 수 있도록 했습니다.

Llama 3의 주요 장점 중 하나는 새로운 토크나이저 덕분에 향상된 토큰 효율성입니다. 벤치마크에 따르면 Llama 3에는 최대 토큰 15% 감소 Llama 2에 비해 더 빠르고 비용 효율적인 추론이 가능합니다.

Llama 8의 3B 버전에 GQA(Grouped Query Attention)가 통합되어 매개변수 수가 증가함에도 불구하고 Llama 7의 2B 버전과 동등한 추론 효율성을 유지하는 데 기여합니다.

배포 프로세스를 단순화하기 위해 Meta는 미세 조정, 배포, 모델 평가 등에 대한 오픈 소스 코드와 예제가 포함된 Llama Recipes 저장소를 제공했습니다. 이 저장소는 애플리케이션에서 Llama 3의 기능을 활용하려는 개발자에게 귀중한 리소스 역할을 합니다.

Llama 3의 성능을 살펴보는 데 관심이 있는 사람들을 위해 Meta는 최신 모델을 Llama 3 기술로 구축된 선도적인 AI 보조 도구인 Meta AI에 통합했습니다. 사용자는 Facebook, Instagram, WhatsApp, 메신저, 웹 등 다양한 Meta 앱을 통해 Meta AI와 상호 작용하여 중요한 일을 처리하고, 배우고, 만들고, 연결할 수 있습니다.

라마 3의 다음 단계는 무엇입니까?

8B 및 70B 모델이 Llama 3 릴리스의 시작을 알리는 동안 Meta는 이 획기적인 LLM의 미래에 대한 야심찬 계획을 가지고 있습니다.

앞으로 몇 달 안에 다중 모드(이미지 및 비디오와 같은 다양한 데이터 형식을 처리하고 생성하는 기능), 다중 언어 지원(다중 언어 지원), 향상된 성능을 위한 훨씬 더 긴 컨텍스트 창을 포함한 새로운 기능이 도입될 것으로 예상됩니다. 광범위한 맥락이 필요한 작업.

또한 Meta는 현재 훈련 중이며 성능 및 기능 측면에서 유망한 추세를 보여주는 400억 개가 넘는 매개변수가 있는 모델을 포함하여 더 큰 모델 크기를 출시할 계획입니다.

이 분야를 더욱 발전시키기 위해 Meta는 또한 Llama 3에 대한 자세한 연구 논문을 게시하여 그 결과와 통찰력을 더 광범위한 AI 커뮤니티와 공유할 것입니다.

앞으로 나올 내용에 대한 미리보기로 Meta는 다양한 벤치마크에서 가장 큰 LLM 모델 성능에 대한 초기 스냅샷을 공유했습니다. 이러한 결과는 초기 체크포인트를 기반으로 하고 변경될 수 있지만 Llama 3의 미래 잠재력을 엿볼 수 있는 흥미로운 결과를 제공합니다.

결론

Llama 3는 오픈 소스 대규모 언어 모델의 진화에서 중요한 이정표를 나타내며 성능, 기능 및 책임 있는 개발 방식의 한계를 뛰어 넘었습니다. 혁신적인 아키텍처, 대규모 훈련 데이터세트, 최첨단 미세 조정 기술을 갖춘 Llama 3는 8B 및 70B 매개변수 규모에서 LLM에 대한 새로운 최첨단 벤치마크를 구축합니다.

그러나 Llama 3은 단순한 강력한 언어 모델 그 이상입니다. 이는 개방적이고 책임감 있는 AI 생태계를 육성하겠다는 Meta의 약속을 보여주는 증거입니다. 포괄적인 리소스, 안전 도구 및 모범 사례를 제공함으로써 Meta는 개발자가 Llama 3의 잠재력을 최대한 활용하는 동시에 특정 사용 사례 및 대상에 맞는 책임감 있는 배포를 보장할 수 있도록 지원합니다.

새로운 기능, 모델 크기 및 연구 결과가 등장하면서 Llama 3 여정이 계속됨에 따라 AI 커뮤니티는 이 획기적인 LLM에서 의심할 여지 없이 나타날 혁신적인 응용 프로그램과 혁신을 간절히 기다리고 있습니다.

자연어 처리의 경계를 넓히는 연구원이든, 차세대 지능형 응용 프로그램을 구축하는 개발자이든, 최신 발전에 관심이 있는 AI 애호가이든, Llama 3는 여러분의 무기고에 강력한 도구가 되어 새로운 문을 열어줄 것을 약속합니다. 가능성의 세계를 여는 것입니다.

관련 주제 :야마 라마 2 라마 3 LLM LLM 메타

다음 위로

Microsoft, Phi-3 공개: 작은 크기로 최고의 성능을 제공하는 강력한 개방형 AI 모델

놓치지 마세요.

FrugalGPT: 대규모 언어 모델을 위한 비용 최적화의 패러다임 전환

아유쉬 미탈

저는 지난 50년 동안 기계 학습과 딥 러닝의 매혹적인 세계에 몰두했습니다. 저의 열정과 전문 지식은 특히 AI/ML에 중점을 둔 XNUMX개 이상의 다양한 소프트웨어 엔지니어링 프로젝트에 기여하도록 이끌었습니다. 나의 계속되는 호기심은 또한 내가 더 탐구하고 싶은 분야인 자연어 처리로 나를 이끌었습니다.