인공 지능
Llama 3에 대해 알아야 할 모든 것 | 가장 강력한 오픈 소스 모델 | 사용법에 대한 개념
최근 메타가 출시되었습니다. 라마 3, 최첨단 오픈 소스 LLM(대형 언어 모델)의 차세대 제품입니다. Llama 3는 이전 버전이 설정한 기반을 바탕으로 기사의 종합 리뷰에 설명된 대로 Llama 2를 ChatGPT의 중요한 오픈 소스 경쟁자로 자리매김하는 기능을 향상시키는 것을 목표로 합니다. Llama 2: ChatGPT에 대한 오픈 소스 도전자에 대한 심층 분석.
이 기사에서는 Llama 3의 핵심 개념을 논의하고 혁신적인 아키텍처와 교육 프로세스를 살펴보고 이 획기적인 모델을 책임감 있게 액세스, 사용 및 배포하는 방법에 대한 실용적인 지침을 제공합니다. 연구자, 개발자 또는 AI 애호가인지 여부에 관계없이 이 게시물은 프로젝트 및 애플리케이션에 Llama 3의 기능을 활용하는 데 필요한 지식과 리소스를 제공합니다.
라마의 진화: 라마 2에서 라마 3까지
메타의 CEO 마크 저커버그는 발표 Meta AI가 개발한 최신 AI 모델 Llama 3가 출시되었습니다. 현재 오픈 소스로 제공되는 이 최첨단 모델은 메신저와 인스타그램을 포함한 Meta의 다양한 제품을 향상시키기 위해 설정되었습니다. Zuckerberg는 Llama 3가 Meta AI를 가장 발전된 AI로 꼽았다고 강조했습니다. 자유롭게 사용할 수 있는 AI 비서.
Llama 3의 세부 사항에 대해 이야기하기 전에 이전 버전인 Llama 2를 간단히 다시 살펴보겠습니다. 2022년에 출시된 Llama 2는 오픈 소스 LLM 환경에서 중요한 이정표였으며 소비자 하드웨어에서 실행할 수 있는 강력하고 효율적인 모델을 제공했습니다. .
그러나 Llama 2는 주목할 만한 성과임에도 불구하고 한계도 있었습니다. 사용자들은 거짓 거부(양호한 프롬프트에 응답하기를 거부하는 모델), 제한된 유용성, 추론 및 코드 생성과 같은 영역에서 개선의 여지가 있는 문제를 보고했습니다.
Llama 3: 이러한 문제에 대한 Meta의 반응과 커뮤니티의 피드백을 입력하세요. Llama 3를 통해 Meta는 현재 사용 가능한 최고의 독점 모델과 동등한 최고의 오픈 소스 모델을 구축하는 동시에 책임감 있는 개발 및 배포 관행을 우선시하기 시작했습니다.
라마 3: 아키텍처 및 교육
Llama 3의 주요 혁신 중 하나는 토큰화 기능입니다. 128,256 토큰 (Llama 32,000의 2에서 증가) 이렇게 더 큰 어휘를 사용하면 입력과 출력 모두에서 텍스트를 보다 효율적으로 인코딩할 수 있으므로 잠재적으로 다국어 사용이 강화되고 전반적인 성능이 향상됩니다.
Llama 3에는 다음이 포함되어 있습니다. 그룹화된 쿼리 주의 (GQA)는 확장성을 향상시키고 모델이 더 긴 컨텍스트를 보다 효과적으로 처리하도록 돕는 효율적인 표현 기술입니다. 그만큼 8B Llama 3 버전은 GQA를 활용하지만 두 버전 모두 8B 와 70B 모델은 최대 시퀀스를 처리할 수 있습니다. 8,192 토큰.
훈련 데이터 및 확장
Llama 3에 사용된 훈련 데이터는 성능 향상에 중요한 요소입니다. Meta는 15 조 공개적으로 사용 가능한 온라인 소스의 토큰으로, Llama 2에 사용된 데이터 세트보다 5배 더 큽니다. 이 데이터 세트에는 또한 영어가 아닌 고품질 데이터의 상당 부분(XNUMX% 이상)이 포함되어 있습니다. 30 언어, 향후 다국어 적용을 준비합니다.
데이터 품질을 보장하기 위해 Meta는 휴리스틱 필터, NSFW 필터, 의미론적 중복 제거 및 Llama 2에서 훈련된 텍스트 분류기를 포함한 고급 필터링 기술을 사용하여 데이터 품질을 예측했습니다. 또한 팀은 사전 교육을 위한 최적의 데이터 소스 조합을 결정하기 위해 광범위한 실험을 수행하여 Llama 3가 퀴즈, STEM, 코딩 및 역사적 지식을 포함한 광범위한 사용 사례에서 잘 작동하는지 확인했습니다.
사전 훈련을 확장하는 것은 Llama 3 개발의 또 다른 중요한 측면이었습니다. Meta는 코드 생성과 같은 주요 작업에 대한 대규모 모델의 성능을 실제로 교육하기 전에 예측할 수 있는 확장 법칙을 개발했습니다. 이를 통해 데이터 혼합 및 컴퓨팅 할당에 대한 결정을 내릴 수 있었고 궁극적으로 보다 효율적이고 효과적인 교육이 가능해졌습니다.
Llama 3의 가장 큰 모델은 데이터 병렬화, 모델 병렬화 및 파이프라인 병렬화 기술의 조합을 활용하여 맞춤형으로 구축된 24,000개의 GPU 클러스터 2개에서 훈련되었습니다. Meta의 고급 훈련 스택은 오류 감지, 처리 및 유지 관리를 자동화하여 GPU 가동 시간을 최대화하고 Llama XNUMX에 비해 훈련 효율성을 약 XNUMX배 높입니다.
명령어 미세 조정 및 성능
채팅 및 대화 애플리케이션에 대한 Llama 3의 잠재력을 최대한 활용하기 위해 Meta는 지침 미세 조정에 대한 접근 방식을 혁신했습니다. 그 방법은 결합 감독된 미세 조정 (SFT), 거부 샘플링, 근접 정책 최적화 (PPO) 및 직접 선호 최적화 (DPO).
SFT에 사용된 프롬프트의 품질과 PPO 및 DPO에 사용된 선호도 순위는 정렬된 모델의 성능에 중요한 역할을 했습니다. Meta의 팀은 이 데이터를 신중하게 선별하고 인간 주석자가 제공한 주석에 대해 여러 차례의 품질 보증을 수행했습니다.
PPO 및 DPO를 통한 선호도 순위 교육을 통해 추론 및 코딩 작업에 대한 Llama 3의 성능도 크게 향상되었습니다. Meta는 모델이 추론 질문에 직접 대답하는 데 어려움을 겪을 때에도 여전히 올바른 추론 추적을 생성할 수 있음을 발견했습니다. 선호도 순위에 대한 교육을 통해 모델은 이러한 추적에서 정답을 선택하는 방법을 학습할 수 있었습니다.
결과는 자명합니다. Llama 3는 일반적인 업계 벤치마크에서 사용 가능한 많은 오픈 소스 채팅 모델을 능가하여 8B 및 70B 매개변수 규모에서 LLM에 대한 새로운 최첨단 성능을 확립했습니다.
책임 있는 개발 및 안전 고려사항
Meta는 최첨단 성능을 추구하는 동시에 Llama 3에 대한 책임 있는 개발 및 배포 방식을 우선시했습니다. Meta는 시스템 수준 접근 방식을 채택하여 Llama 3 모델을 개발자를 주도하여 설계할 수 있는 더 넓은 생태계의 일부로 구상했습니다. 특정 사용 사례 및 안전 요구 사항에 맞게 모델을 사용자 정의합니다.
Meta는 광범위한 레드팀 구성 연습을 수행하고, 적대적 평가를 수행하고, 지침 조정 모델에서 잔여 위험을 낮추기 위해 안전 완화 기술을 구현했습니다. 그러나 회사는 잔여 위험이 남아 있을 가능성이 있음을 인정하고 개발자가 특정 사용 사례의 맥락에서 이러한 위험을 평가할 것을 권장합니다.
책임감 있는 배포를 지원하기 위해 Meta는 책임 있는 사용 가이드를 업데이트하여 개발자가 애플리케이션에 대한 모델 및 시스템 수준 안전 모범 사례를 구현할 수 있는 포괄적인 리소스를 제공했습니다. 이 가이드에서는 콘텐츠 조정, 위험 평가, Llama Guard 2 및 Code Shield와 같은 안전 도구 사용과 같은 주제를 다룹니다.
MLCommons 분류법을 기반으로 구축된 Llama Guard 2는 LLM 입력(프롬프트) 및 응답을 분류하여 안전하지 않거나 유해한 것으로 간주될 수 있는 콘텐츠를 감지하도록 설계되었습니다. CyberSecEval 2는 모델의 코드 해석기 남용을 방지하는 조치, 공격적인 사이버 보안 기능, 즉각적인 주입 공격에 대한 민감성을 추가하여 이전 버전을 확장합니다.
Llama 3에 새롭게 도입된 Code Shield에는 LLM에서 생성된 안전하지 않은 코드에 대한 추론 시간 필터링이 추가되어 안전하지 않은 코드 제안, 코드 해석기 남용 및 보안 명령 실행과 관련된 위험을 완화합니다.
Llama 3 액세스 및 사용
Meta AI의 Llama 3 출시 이후 Mac, Windows, Linux를 포함한 다양한 운영 체제에 로컬 배포할 수 있는 여러 오픈 소스 도구가 제공되었습니다. 이 섹션에서는 세 가지 주목할만한 도구인 Ollama, Open WebUI 및 LM Studio에 대해 자세히 설명합니다. 각 도구는 개인 장치에서 Llama 3의 기능을 활용하기 위한 고유한 기능을 제공합니다.
올라마: Mac, Linux, Windows에서 사용 가능 올라마 하드웨어가 덜 강력한 개인용 컴퓨터에서도 Llama 3 및 기타 대규모 언어 모델의 작동을 단순화합니다. 여기에는 쉬운 모델 관리를 위한 패키지 관리자가 포함되어 있으며 모델 다운로드 및 실행을 위한 플랫폼 전반의 명령을 지원합니다.
Docker로 WebUI 열기: 이 도구는 사용자 친화적인 도커Mac, Linux, Windows와 호환되는 기반 인터페이스입니다. Ollama 레지스트리의 모델과 원활하게 통합되어 사용자가 로컬 웹 인터페이스 내에서 Llama 3과 같은 모델을 배포하고 상호 작용할 수 있습니다.
LM스튜디오: Mac, Linux, Windows 사용자를 타겟팅하고, LM스튜디오 다양한 모델을 지원하며 llama.cpp 프로젝트를 기반으로 구축되었습니다. 채팅 인터페이스를 제공하고 Llama 3 8B Instruct 모델을 포함한 다양한 모델과의 직접적인 상호 작용을 촉진합니다.
이러한 도구를 통해 사용자는 다양한 기술 및 요구 사항을 수용하면서 개인 장치에서 Llama 3를 효율적으로 활용할 수 있습니다. 각 플랫폼은 설정 및 모델 상호 작용을 위한 단계별 프로세스를 제공하므로 개발자와 애호가가 고급 AI에 더 쉽게 접근할 수 있습니다.