인공지능
Llama 3에 대한 모든 것 | 가장 강력한 오픈 소스 모델 | 개념에서 사용까지
Meta는 최근 Llama 3, 가장 최근의 오픈 소스 대형 언어 모델(LLM)의 다음 세대를 출시했습니다. 이전 버전에서 설정된 기초를 기반으로, Llama 3는 Llama 2를 ChatGPT에 대한 중요한 오픈 소스 경쟁자로 위치한 기능을 강화하려고 합니다. 이는 Llama 2: ChatGPT에 대한 오픈 소스 도전자의 깊은 분석이라는 기사에서 설명된 것과 같이, 포괄적인 리뷰에서 설명된 바와 같습니다.
이 기사에서 우리는 Llama 3의 핵심 개념을 논의하고, 혁신적인 아키텍처와 훈련 과정을 탐색하며, 이 혁신적인 모델을 책임감 있게 접근, 사용 및 배포하는 실용적인 지침을 제공할 것입니다. 연구자, 개발자, 또는 AI 애호자라면 이 게시물은 프로젝트와 애플리케이션에서 Llama 3의 강력을 활용하기 위해 필요한 지식과 자원을 제공할 것입니다.
Llama의 진화: Llama 2에서 Llama 3까지
Meta의 CEO인 Mark Zuckerberg는 공개한 Llama 3의 데뷔를 발표했습니다. 이는 Meta AI에서 개발한 최신 AI 모델이며, 이제 오픈 소스로 제공됩니다. 이 최첨단 모델은 Meta의 다양한 제품, 메신저와 인스타그램을 포함하여, 강화할 예정입니다. Zuckerberg는 Llama 3가 Meta AI를 가장 진보된 자유롭게 사용 가능한 AI 어시스턴트로 위치한다고 강조했습니다.
Llama 3의 세부 사항에 대해 논의하기 전에, 먼저 그 전신인 Llama 2를 간략하게 되돌아보겠습니다. 2022년에 도입된 Llama 2는 오픈 소스 LLM 풍경에서 중요한 이정표였으며, 소비자 하드웨어에서 실행할 수 있는 강력하고 효율적인 모델을 제공했습니다.
그러나 Llama 2는 한계가 있었습니다. 사용자들은 거짓 거부(모델이 무해한 프롬프트에 대한 답변을 거부함), 제한된 유용성 및 추론과 코드 생성과 같은 영역에서 개선의 여지가 있는 문제를 보고했습니다.
Llama 3는 이러한 도전과 커뮤니티의 피드백에 대한 Meta의 응답입니다. Llama 3와 함께, Meta는 오늘날 사용 가능한 최첨단의 사유 모델과 동등한 최고의 오픈 소스 모델을 구축하려고 합니다. 또한 책임감 있는 개발과 배포 관행을 우선시합니다.
Llama 3: 아키텍처와 훈련
Llama 3의 주요 혁신 중 하나는 토큰화기입니다. 이는 128,256 토큰(Llama 2의 32,000개보다 확장됨)의 상당히 확장된 어휘를 특징으로 합니다. 이 더 큰 어휘는 텍스트의 효율적인 인코딩을 가능하게 하며, 이는 다중 언어 지원과 전체 성능 개선에 기여할 수 있습니다.
Llama 3은 또한 그룹 쿼리 어텐션(GQA)을 통합했습니다. 이는 확장성과 더 긴 컨텍스트를 더 효과적으로 처리하는 능력을 향상시키는 효율적인 표현 기술입니다. Llama 3의 8B 버전은 GQA를 사용하며, 8B와 70B 모델은 모두 8,192 토큰까지의 시퀀스를 처리할 수 있습니다.
훈련 데이터와 확장
Llama 3의 훈련 데이터는 성능 개선의 중요한 요소입니다. Meta는 공개적으로 사용 가능한 온라인 소스에서 15조 개의 토큰으로 구성된 거대한 데이터셋을 수집했습니다. 이는 Llama 2에 사용된 데이터셋의 7배 이상이며, 30개 이상의 언어를 다루는 5% 이상의 고품질 비영어 데이터를 포함하고 있습니다.
데이터의 품질을 보장하기 위해 Meta는 휴리스틱 필터, NSFW 필터, 의미적 중복 제거 및 Llama 2에서 훈련된 텍스트 분류기를 사용하여 데이터 품질을 예측했습니다. 팀은 또한 사전 훈련을 위한 최적의 데이터 소스 혼합을 결정하기 위해 광범위한 실험을 수행했으며, 이는 Llama 3이 지식, STEM, 코딩 및 역사적 지식과 같은 다양한 사용 사례에서 잘 수행되도록 합니다.
사전 훈련의 확장은 Llama 3 개발의 또 다른 중요한 측면이었습니다. Meta는 코드 생성과 같은 주요 작업에서 가장 큰 모델의 성능을 예측할 수 있는 확장 법칙을 개발했습니다. 이는 데이터 혼합과 컴퓨팅 할당에 대한 결정을 안내하며, 궁극적으로 더 효율적이고 효과적인 훈련을 가능하게 합니다.
Llama 3의 가장 큰 모델은 24,000개의 GPU 클러스터에서 훈련되었습니다. 이는 데이터 병렬화, 모델 병렬화 및 파이프라인 병렬화 기술의 조합을 사용합니다. Meta의 고급 훈련 스택은 오류 감지, 처리 및 유지 보수를 자동화하여 GPU 업타임을 최대화하고 Llama 2와 비교하여 훈련 효율성을 약 3배提高했습니다.
지시 미세 조정 및 성능
대화 및 대화 애플리케이션에서 Llama 3의 전체 잠재력을 해방하기 위해 Meta는 지시 미세 조정 접근 방식을 혁신했습니다. 이 방법은 감독 미세 조정(SFT), 거부 샘플링, 근접 정책 최적화(PPO) 및 직접 선호도 최적화(DPO)를 결합합니다.
SFT와 PPO 및 DPO에서 사용된 프롬프트의 품질과 선호도 순위는 정렬된 모델의 성능에 중요한 역할을 했습니다. Meta 팀은 이러한 데이터를 신중하게 큐레이션하고 인간 주석자가 제공한 주석에 대한 여러 라운드의 품질 보증을 수행했습니다.
PPO 및 DPO를 통한 선호도 순위 훈련은 또한 추론 및 코딩 작업에서 Llama 3의 성능을 크게 향상시켰습니다. Meta는 모델이 직접적으로 추론 질문에 답변하는 것을 어려워하더라도 올바른 추론 추적을 생성할 수 있는 경우를 발견했습니다. 선호도 순위에 대한 훈련을 통해 모델은 이러한 추적에서 올바른 답변을 선택하는 방법을 학습할 수 있습니다.
결과는 자명합니다: Llama 3은 8B 및 70B 매개변수 규모에서 LLM을 위한 새로운 최첨단 성능을 설정하며, 많은 사용 가능한 오픈 소스 채팅 모델을 상회하는 공통 산업 벤치마크에서 최고의 성능을 발휘합니다.
책임감 있는 개발 및 안전 고려
최첨단 성능을 추구하는 동안 Meta는 또한 Llama 3에 대한 책임감 있는 개발 및 배포 관행을 우선시했습니다. 회사는 개발자가 특정 사용 사례 및 안전 요구 사항에 맞게 모델을 설계하고 사용자 정의할 수 있도록 하는 더广い 생태계의 일부로 Llama 3 모델을 상상했습니다.
Meta는 광범위한 적대적 평가를 수행하고 안전 완화 기술을 구현하여 지시 튜닝된 모델의 잔여 위험을 낮추기 위해 적대적 테스트를 수행했습니다. 그러나 회사는 잔여 위험이 남아 있을 수 있으며 개발자가 특정 사용 사례의.context에서 이러한 위험을 평가할 것을 권장합니다.
책임감 있는 배포를 지원하기 위해 Meta는 모델 및 시스템 수준의 안전 최선의 관행을 구현하기 위한 개발자를 위한 포괄적인 자원을 제공하는 책임감 있는 사용 지침을 업데이트했습니다. 지침에는 콘텐츠 모더레이션, 위험 평가 및 Llama Guard 2 및 Code Shield와 같은 안전 도구의 사용과 같은 주제가 포함됩니다.
Llama Guard 2는 MLCommons 분류법을 기반으로 하며, LLM 입력(프롬프트) 및 응답을 분류하여 안전하거나 유해할 수 있는 콘텐츠를 감지하도록 설계되었습니다. CyberSecEval 2는 코드 인터프리터의 남용, 공격적인 사이버 보안 기능 및 프롬프트 주입 공격에 대한 취약성과 같은 측면에서 추가 조치를 제공합니다.
Code Shield는 Llama 3에서 새로 도입된 것으로, LLM에 의해 생성된 보안 코드의 추론 시간 필터링을 추가하여 보안 코드 제안, 코드 인터프리터 남용 및 안전한 명령 실행과 관련된 위험을 완화합니다.
Llama 3에 접근하고 사용하기
Meta AI의 Llama 3 출시 이후, 여러 오픈 소스 도구가 다양한 운영 체제에서 로컬 배포를 위해 제공되었습니다. 이 섹션에서는 Ollama, Open WebUI 및 LM Studio와 같은 세 가지 주목할 만한 도구에 대해 설명합니다. 각 도구는 Llama 3의 기능을 개인 장치에서 활용하기 위한 고유한 기능을 제공합니다.
Ollama: Mac, Linux 및 Windows에서 사용할 수 있으며, Ollama는 개인 컴퓨터에서 Llama 3 및 기타 대형 언어 모델의 작동을 단순화합니다. 이는 패키지 관리자를 통해 모델 관리를 쉽게 하며, 모델을 다운로드하고 실행하기 위한 플랫폼 간 명령어를 지원합니다.
Open WebUI with Docker: 이 도구는 사용자 친화적인 Docker 기반 인터페이스를 제공하며, Mac, Linux 및 Windows와 호환됩니다. 이는 Ollama 레지스트리의 모델과無缝하게 통합되며, 사용자가 로컬 웹 인터페이스 내에서 모델과 상호 작용할 수 있도록 합니다.
LM Studio: Mac, Linux 및 Windows 사용자를 대상으로 하는 LM Studio는 여러 모델을 지원하며, llama.cpp 프로젝트를 기반으로 구축되었습니다. 이는 채팅 인터페이스를 제공하며, Llama 3 8B 지침 모델을 포함한 다양한 모델과 직접 상호 작용할 수 있도록 합니다.
이러한 도구는 사용자가 개인 장치에서 Llama 3를 효율적으로 사용할 수 있도록 보장하며, 다양한 기술 수준과 요구 사항을 수용합니다. 각 플랫폼은 설정 및 모델 상호 작용을 위한 단계별 프로세스를 제공하여 개발자와 애호자에게 고급 AI를 더욱 접근하기 쉽게 합니다.













