Connect with us

인공지능

Llama 3에 대한 모든 것 | 가장 강력한 오픈 소스 모델 | 개념에서 사용까지

mm
Meta Llama 3 open source LLM OUTPERFORM GPT 4

Meta는 최근 Llama 3, 가장 최근의 오픈 소스 대형 언어 모델(LLM)의 다음 세대를 출시했습니다. 이전 버전에서 설정된 기초를 기반으로, Llama 3는 Llama 2를 ChatGPT에 대한 중요한 오픈 소스 경쟁자로 위치한 기능을 강화하려고 합니다. 이는 Llama 2: ChatGPT에 대한 오픈 소스 도전자의 깊은 분석이라는 기사에서 설명된 것과 같이, 포괄적인 리뷰에서 설명된 바와 같습니다.

이 기사에서 우리는 Llama 3의 핵심 개념을 논의하고, 혁신적인 아키텍처와 훈련 과정을 탐색하며, 이 혁신적인 모델을 책임감 있게 접근, 사용 및 배포하는 실용적인 지침을 제공할 것입니다. 연구자, 개발자, 또는 AI 애호자라면 이 게시물은 프로젝트와 애플리케이션에서 Llama 3의 강력을 활용하기 위해 필요한 지식과 자원을 제공할 것입니다.

Llama의 진화: Llama 2에서 Llama 3까지

Meta의 CEO인 Mark Zuckerberg는 공개한 Llama 3의 데뷔를 발표했습니다. 이는 Meta AI에서 개발한 최신 AI 모델이며, 이제 오픈 소스로 제공됩니다. 이 최첨단 모델은 Meta의 다양한 제품, 메신저와 인스타그램을 포함하여, 강화할 예정입니다. Zuckerberg는 Llama 3가 Meta AI를 가장 진보된 자유롭게 사용 가능한 AI 어시스턴트로 위치한다고 강조했습니다.

Llama 3의 세부 사항에 대해 논의하기 전에, 먼저 그 전신인 Llama 2를 간략하게 되돌아보겠습니다. 2022년에 도입된 Llama 2는 오픈 소스 LLM 풍경에서 중요한 이정표였으며, 소비자 하드웨어에서 실행할 수 있는 강력하고 효율적인 모델을 제공했습니다.

그러나 Llama 2는 한계가 있었습니다. 사용자들은 거짓 거부(모델이 무해한 프롬프트에 대한 답변을 거부함), 제한된 유용성 및 추론과 코드 생성과 같은 영역에서 개선의 여지가 있는 문제를 보고했습니다.

Llama 3는 이러한 도전과 커뮤니티의 피드백에 대한 Meta의 응답입니다. Llama 3와 함께, Meta는 오늘날 사용 가능한 최첨단의 사유 모델과 동등한 최고의 오픈 소스 모델을 구축하려고 합니다. 또한 책임감 있는 개발과 배포 관행을 우선시합니다.

Llama 3: 아키텍처와 훈련

Llama 3의 주요 혁신 중 하나는 토큰화기입니다. 이는 128,256 토큰(Llama 2의 32,000개보다 확장됨)의 상당히 확장된 어휘를 특징으로 합니다. 이 더 큰 어휘는 텍스트의 효율적인 인코딩을 가능하게 하며, 이는 다중 언어 지원과 전체 성능 개선에 기여할 수 있습니다.

Llama 3은 또한 그룹 쿼리 어텐션(GQA)을 통합했습니다. 이는 확장성과 더 긴 컨텍스트를 더 효과적으로 처리하는 능력을 향상시키는 효율적인 표현 기술입니다. Llama 3의 8B 버전은 GQA를 사용하며, 8B70B 모델은 모두 8,192 토큰까지의 시퀀스를 처리할 수 있습니다.

훈련 데이터와 확장

Llama 3의 훈련 데이터는 성능 개선의 중요한 요소입니다. Meta는 공개적으로 사용 가능한 온라인 소스에서 15조 개의 토큰으로 구성된 거대한 데이터셋을 수집했습니다. 이는 Llama 2에 사용된 데이터셋의 7배 이상이며, 30개 이상의 언어를 다루는 5% 이상의 고품질 비영어 데이터를 포함하고 있습니다.

데이터의 품질을 보장하기 위해 Meta는 휴리스틱 필터, NSFW 필터, 의미적 중복 제거 및 Llama 2에서 훈련된 텍스트 분류기를 사용하여 데이터 품질을 예측했습니다. 팀은 또한 사전 훈련을 위한 최적의 데이터 소스 혼합을 결정하기 위해 광범위한 실험을 수행했으며, 이는 Llama 3이 지식, STEM, 코딩 및 역사적 지식과 같은 다양한 사용 사례에서 잘 수행되도록 합니다.

사전 훈련의 확장은 Llama 3 개발의 또 다른 중요한 측면이었습니다. Meta는 코드 생성과 같은 주요 작업에서 가장 큰 모델의 성능을 예측할 수 있는 확장 법칙을 개발했습니다. 이는 데이터 혼합과 컴퓨팅 할당에 대한 결정을 안내하며, 궁극적으로 더 효율적이고 효과적인 훈련을 가능하게 합니다.

Llama 3의 가장 큰 모델은 24,000개의 GPU 클러스터에서 훈련되었습니다. 이는 데이터 병렬화, 모델 병렬화 및 파이프라인 병렬화 기술의 조합을 사용합니다. Meta의 고급 훈련 스택은 오류 감지, 처리 및 유지 보수를 자동화하여 GPU 업타임을 최대화하고 Llama 2와 비교하여 훈련 효율성을 약 3배提高했습니다.

지시 미세 조정 및 성능

대화 및 대화 애플리케이션에서 Llama 3의 전체 잠재력을 해방하기 위해 Meta는 지시 미세 조정 접근 방식을 혁신했습니다. 이 방법은 감독 미세 조정(SFT), 거부 샘플링, 근접 정책 최적화(PPO) 및 직접 선호도 최적화(DPO)를 결합합니다.

SFT와 PPO 및 DPO에서 사용된 프롬프트의 품질과 선호도 순위는 정렬된 모델의 성능에 중요한 역할을 했습니다. Meta 팀은 이러한 데이터를 신중하게 큐레이션하고 인간 주석자가 제공한 주석에 대한 여러 라운드의 품질 보증을 수행했습니다.

PPO 및 DPO를 통한 선호도 순위 훈련은 또한 추론 및 코딩 작업에서 Llama 3의 성능을 크게 향상시켰습니다. Meta는 모델이 직접적으로 추론 질문에 답변하는 것을 어려워하더라도 올바른 추론 추적을 생성할 수 있는 경우를 발견했습니다. 선호도 순위에 대한 훈련을 통해 모델은 이러한 추적에서 올바른 답변을 선택하는 방법을 학습할 수 있습니다.

Arena 결과

결과는 자명합니다: Llama 3은 8B 및 70B 매개변수 규모에서 LLM을 위한 새로운 최첨단 성능을 설정하며, 많은 사용 가능한 오픈 소스 채팅 모델을 상회하는 공통 산업 벤치마크에서 최고의 성능을 발휘합니다.

책임감 있는 개발 및 안전 고려

최첨단 성능을 추구하는 동안 Meta는 또한 Llama 3에 대한 책임감 있는 개발 및 배포 관행을 우선시했습니다. 회사는 개발자가 특정 사용 사례 및 안전 요구 사항에 맞게 모델을 설계하고 사용자 정의할 수 있도록 하는 더广い 생태계의 일부로 Llama 3 모델을 상상했습니다.

Meta는 광범위한 적대적 평가를 수행하고 안전 완화 기술을 구현하여 지시 튜닝된 모델의 잔여 위험을 낮추기 위해 적대적 테스트를 수행했습니다. 그러나 회사는 잔여 위험이 남아 있을 수 있으며 개발자가 특정 사용 사례의.context에서 이러한 위험을 평가할 것을 권장합니다.

책임감 있는 배포를 지원하기 위해 Meta는 모델 및 시스템 수준의 안전 최선의 관행을 구현하기 위한 개발자를 위한 포괄적인 자원을 제공하는 책임감 있는 사용 지침을 업데이트했습니다. 지침에는 콘텐츠 모더레이션, 위험 평가 및 Llama Guard 2 및 Code Shield와 같은 안전 도구의 사용과 같은 주제가 포함됩니다.

Llama Guard 2는 MLCommons 분류법을 기반으로 하며, LLM 입력(프롬프트) 및 응답을 분류하여 안전하거나 유해할 수 있는 콘텐츠를 감지하도록 설계되었습니다. CyberSecEval 2는 코드 인터프리터의 남용, 공격적인 사이버 보안 기능 및 프롬프트 주입 공격에 대한 취약성과 같은 측면에서 추가 조치를 제공합니다.

Code Shield는 Llama 3에서 새로 도입된 것으로, LLM에 의해 생성된 보안 코드의 추론 시간 필터링을 추가하여 보안 코드 제안, 코드 인터프리터 남용 및 안전한 명령 실행과 관련된 위험을 완화합니다.

Llama 3에 접근하고 사용하기

Meta AI의 Llama 3 출시 이후, 여러 오픈 소스 도구가 다양한 운영 체제에서 로컬 배포를 위해 제공되었습니다. 이 섹션에서는 Ollama, Open WebUI 및 LM Studio와 같은 세 가지 주목할 만한 도구에 대해 설명합니다. 각 도구는 Llama 3의 기능을 개인 장치에서 활용하기 위한 고유한 기능을 제공합니다.

Ollama: Mac, Linux 및 Windows에서 사용할 수 있으며, Ollama는 개인 컴퓨터에서 Llama 3 및 기타 대형 언어 모델의 작동을 단순화합니다. 이는 패키지 관리자를 통해 모델 관리를 쉽게 하며, 모델을 다운로드하고 실행하기 위한 플랫폼 간 명령어를 지원합니다.

Open WebUI with Docker: 이 도구는 사용자 친화적인 Docker 기반 인터페이스를 제공하며, Mac, Linux 및 Windows와 호환됩니다. 이는 Ollama 레지스트리의 모델과無缝하게 통합되며, 사용자가 로컬 웹 인터페이스 내에서 모델과 상호 작용할 수 있도록 합니다.

LM Studio: Mac, Linux 및 Windows 사용자를 대상으로 하는 LM Studio는 여러 모델을 지원하며, llama.cpp 프로젝트를 기반으로 구축되었습니다. 이는 채팅 인터페이스를 제공하며, Llama 3 8B 지침 모델을 포함한 다양한 모델과 직접 상호 작용할 수 있도록 합니다.

이러한 도구는 사용자가 개인 장치에서 Llama 3를 효율적으로 사용할 수 있도록 보장하며, 다양한 기술 수준과 요구 사항을 수용합니다. 각 플랫폼은 설정 및 모델 상호 작용을 위한 단계별 프로세스를 제공하여 개발자와 애호자에게 고급 AI를 더욱 접근하기 쉽게 합니다.

Llama 3를 대규모로 배포하기

모델 가중치를 직접 제공하는 것 외에도, Meta는 클라우드 제공업체, 모델 API 서비스 및 하드웨어 플랫폼과 파트너십을 맺어 Llama 3를 대규모로 배포할 수 있도록 했습니다.

Llama 3의 주요 이점 중 하나는 새로운 토큰화기 덕분에 개선된 토큰 효율성입니다. 벤치마크에 따르면 Llama 3는 Llama 2와 비교하여 최대 15% 더 적은 토큰을 필요로 하며, 이는 더 빠르고 비용 효율적인 추론을 가능하게 합니다.

Llama 3의 8B 버전에서 Grouped Query Attention(GQA)의 통합은 8B 버전의 Llama 3에서 추론 효율성을 유지하는 데 기여합니다. 이는 Llama 2의 7B 버전과 비교하여 매개변수 수의 증가에도 불구하고 동일한 수준의 효율성을 제공합니다.

배포 과정을 간소화하기 위해, Meta는 미세 조정, 배포, 모델 평가 및 기타 기능을 위한 오픈 소스 코드와 예시를 포함하는 Llama 레시피 저장소를 제공했습니다. 이 저장소는 Llama 3의 기능을 애플리케이션에서 활용하려는 개발자를 위한 귀중한 자원이 됩니다.

Llama 3의 성능을 탐색하려는 사람들에게, Meta는 Llama 3 기술을 사용하여 구축된 리딩 AI 어시스턴트인 Meta AI에 최신 모델을 통합했습니다. 사용자는 Facebook, Instagram, WhatsApp, Messenger 및 웹과 같은 다양한 Meta 앱을 통해 Meta AI와 상호 작용하여 작업을 수행하고, 배우고, 창의력을 발휘하며, 중요한 것들과 연결할 수 있습니다.

Llama 3의 미래는 무엇인가?

8B 및 70B 모델이 Llama 3 출시의 시작을 나타내는 동안, Meta는 이 혁신적인 LLM의 미래에 대한 야심적인 계획을 가지고 있습니다.

내달린 몇 개월 동안, 우리는 다중 모달리티(이미지 및 비디오와 같은 다양한 데이터 모달리티를 처리 및 생성하는 기능), 다중 언어 지원 및 더 긴 컨텍스트 창을 위한 향상된 성능과 같은 새로운 기능을 기대할 수 있습니다.

추가로, Meta는 400억 매개변수 이상의 모델을 포함한 더 큰 모델 크기를 출시할 계획입니다. 이 모델은 현재 훈련 중이며, 성능과 기능면에서 유망한 추세를 보이고 있습니다.

또한, 이 분야를 더욱 발전시키기 위해 Meta는 Llama 3에 대한 자세한 연구 논문을 출판할 예정입니다. 이는 그들의 발견과 통찰력을 더广い AI 커뮤니티와 공유할 것입니다.

미래에 대한 흥미로운 예측으로, Meta는 가장 큰 LLM 모델의 성능에 대한 일부 초기 스냅샷을 공유했습니다. 이러한 결과는 초기 체크포인트에 기반하고 변경될 수 있지만, Llama 3의 잠재적인 미래에 대한 흥미로운 예측을 제공합니다.

결론

Llama 3는 오픈 소스 대형 언어 모델의 진화에서 중요한 이정표를 나타냅니다. 이는 성능, 기능 및 책임감 있는 개발 관행의 한계를 확장합니다. 혁신적인 아키텍처, 거대한 훈련 데이터셋 및 최첨단 미세 조정 기술을 통해, Llama 3는 8B 및 70B 매개변수 규모에서 LLM을 위한 새로운 최첨단 벤치마크를 설정합니다.

그러나 Llama 3는 단순히 강력한 언어 모델이 아닙니다. 이는 Meta가 오픈하고 책임감 있는 AI 생태계를 육성하는 데 대한 헌신의 증거입니다. 포괄적인 자원, 안전 도구 및 최선의 관행을 제공함으로써, Meta는 개발자가 특정 사용 사례와 대중을 위한 책임감 있는 배포를 보장하면서 Llama 3의 전체 잠재력을 활용하도록 합니다.

Llama 3의 여정은 새로운 기능, 모델 크기 및 연구 결과가 예상됨에 따라, AI 커뮤니티는 이 혁신적인 LLM에서 분명히出现할 혁신적인 애플리케이션과 돌파구를 기대하고 있습니다.

자연어 처리의 한계를 확장하는 연구자, 차세대 지능형 애플리케이션을 구축하는 개발자, 또는 최신 발전을 궁금해하는 AI 애호자라면, Llama 3는 귀하의 아르сен에 강력한 도구가 될 것입니다. 이는 새로운 문을 열고, 새로운 가능성을 열어줍니다.

지난 5년 동안私は Machine Learning과 Deep Learning의 매력적인 세계에 몰두해 왔습니다.私の情熱と専門知識は、AI/ML에 중점을 둔 50개 이상의 다양한 소프트웨어 엔지니어링 프로젝트에 기여했습니다.私の継続的な 호기심은 또한 자연어 처리 분야로私の 관심을 끌었고, 더 깊이 탐구하고 싶은 분야입니다.