인공지능

Meta의 Llama 3.2: 온디바이스 및 멀티모달 기능으로 오픈소스 생성형 AI 재정의

Published September 27, 2024

Updated April 27, 2026

Dr. Tehseen Zia

Meta의 최근 Llama 3.2 출시, Llama 시리즈의 최신 버전은 오픈소스 생성형 AI 생태계의 발전에 있어 중요한 발전입니다. 이 업그레이드는 Llama의 기능을 두 가지 차원에서 확장합니다. 한편으로, Llama 3.2는 멀티모달 데이터 처리를 허용하여 이미지, 텍스트 및 기타 데이터를 통합하여 고급 AI 기능을 더广泛한 사용자에게 제공합니다. 다른 한편으로, 에지 디바이스에서 배포 가능성을 확대하여 실시간 온디바이스 AI 애플리케이션에 대한 흥미로운 기회를 창출합니다. 이 기사에서 우리는 이 발전과 미래의 AI 배포에 대한 의미를 탐구할 것입니다.

Llama의 진화

Meta의 Llama와의 여정은 2023년初에 시작되었습니다, 그리고 그 때부터 시리즈는 폭발적인 성장과 채택을 경험했습니다. Llama 1에서 시작하여 비상업적 사용에만 제한되고 선택된 연구 기관에만 접근할 수 있었던 시리즈는 2023년 Llama 2의 출시와 함께 오픈소스 영역으로 전환되었습니다.今年초에 출시된 Llama 3.1은 405억개의 매개변수를 갖는 가장 큰 오픈소스 모델을 도입하여 주요한 발전을 이루었으며, 이는 경쟁 모델과 비교하여 동등하거나凌駕하는 성능을 보여주었습니다. 최신 버전인 Llama 3.2는 새로운 경량 및 비전 중심 모델을 도입하여 온디바이스 AI 및 멀티모달 기능을 더 쉽게 사용할 수 있도록 합니다. Meta의 개방성과 수정 가능성에 대한 헌신은 Llama를 오픈소스 커뮤니티에서 선도적인 모델로 만들었습니다. 회사는 투명성과 접근성에 대한 헌신을 통해 개발자와 비즈니스뿐만 아니라 전 세계 모든 사람을 위해 AI 혁신을 더 효과적으로 추진할 수 있다고 믿습니다.

Llama 3.2 소개

Llama 3.2는 다양한 요구 사항을 충족하기 위한 언어 모델을 포함하는 Meta의 Llama 시리즈의 최신 버전입니다. 90억과 11억 매개변수를 갖는 가장 큰 및 중간 크기의 모델은 텍스트 및 이미지와 같은 멀티모달 데이터 처리를 위해 설계되었습니다. 이러한 모델은 차트, 그래프 및 기타 형태의 시각적 데이터를 효과적으로 해석할 수 있으며, 컴퓨터 비전, 문서 분석 및 증강 현실 도구와 같은 분야에서 애플리케이션을 구축하기에 적합합니다. 1억과 3억 매개변수를 갖는 경량 모델은 모바일 디바이스에 특화되어 있습니다. 이러한 텍스트 전용 모델은 다국어 텍스트 생성 및 툴 호출 기능에서 탁월하며, 검색 보강 생성, 요약 및 에지 디바이스에서 개인화된 에이전트 기반 애플리케이션 생성과 같은 작업에 매우 효과적입니다.

Llama 3.2의 중요성

이 Llama 3.2 버전은 두 가지 주요 영역에서 발전을 이루었습니다.

멀티모달 AI의 새로운 시대

Llama 3.2는 텍스트와 이미지 처리 기능을 모두 갖춘 Meta의 첫 번째 오픈소스 모델입니다. 이는 오픈소스 생성형 AI의 발전에 있어 중요한 발전이며, 모델이 시각적 입력과 함께 텍스트 데이터를 분석하고 응답할 수 있도록 합니다. 예를 들어, 사용자는 이미지를 업로드하고 자연어 프롬프트에 따라詳細한 분석 또는 수정을 받을 수 있습니다. 마크 저커버그는 출시 당시 이 기능을 강조하며 Llama 3.2는 “시각적 이해가 필요한 많은 흥미로운 애플리케이션을 가능하게 하도록 설계되었습니다”라고 말했습니다. 이 통합은 멀티모달 정보에 의존하는 소매, 헬스케어, 교육 및 엔터테인먼트와 같은 산업의 Llama의 범위를 확대합니다.

접근성 위한 온디바이스 기능

Llama 3.2의 주요 기능 중 하나는 모바일 환경을 포함한 에지 디바이스에서 배포를 최적화한 것입니다. 1억과 3억 매개변수를 갖는 경량 버전은 Qualcomm과 MediaTek 하드웨어를 갖춘 스마트폰 및 기타 에지 디바이스에서 실행하도록 설계되었습니다. 이 유틸리티는 개발자가 광범위한 계산 리소스를 필요로하지 않고 애플리케이션을 생성할 수 있도록 합니다. 또한, 이러한 모델 버전은 다국어 텍스트 처리에서 탁월하며 128K 토큰의 더 긴 컨텍스트 길이를 지원하여 사용자가 자신의 모국어로 자연어 처리 애플리케이션을 개발할 수 있습니다. 또한, 이러한 모델은 툴 호출 기능을 갖추고 있어 사용자가 에이전트 기반 애플리케이션과 상호 작용할 수 있습니다.
AI 모델을 로컬로 배포할 수 있는 기능은 클라우드 컴퓨팅과 관련된 지연 문제, 보안 위험, 높은 운영 비용 및 인터넷 연결 의존성을 포함한 클라우드 컴퓨팅의 도전을 극복할 수 있습니다. 이 발전은 헬스케어, 교육 및 물류와 같은 산업을変革할 수 있으며, 클라우드 인프라나 개인 정보 보호 문제 없이 AI를 사용할 수 있도록 합니다. 또한, 이 기능은 인터넷 연결이 제한적인 지역에서도 AI에 접근할 수 있도록 하여 최신 기술에 대한 접근을 민주화합니다.

경쟁 우위

Meta는 Llama 3.2가 OpenAI와 Anthropic의 주요 모델과 비교하여 경쟁력 있는 성능을 보인다고 보고합니다. 그들은 Llama 3.2가 Claude 3-Haiku 및 GPT-4o-mini와 같은 모델보다 인스트럭션 팔로우 및 콘텐츠 요약 작업을 포함한 다양한 벤치마크에서 더 나은 성능을 보인다고 주장합니다. 이 경쟁 우위는 빠르게 발전하는 생성형 AI 분야에서 오픈소스 AI가 경쟁 모델과 동등한 수준을 유지하기 위해 Meta에게 중요한 것입니다.

Llama 스택: AI 배포를 단순화

Llama 3.2 출시의 주요 측면 중 하나는 Llama 스택의 도입입니다. 이 도구 세트는 개발자가 다양한 환경에서 Llama 모델을 작업하기 쉽게 합니다. Llama 스택은 RAG 및 툴링 지원 애플리케이션을 포함하여 단일 노드, 온프레미스, 클라우드 및 온디바이스 설정을 지원합니다. 이 프레임워크는 생성형 AI 모델을 배포하기 위한 유연하고 포괄적인 프레임워크를 제공합니다. 배포 과정을 단순화함으로써, Meta는 개발자가 클라우드, 모바일 또는 데스크톱 환경에 관계없이 애플리케이션에 Llama 모델을 쉽게 통합할 수 있도록 합니다.

요약

Meta의 Llama 3.2는 오픈소스 생성형 AI의 발전에 있어 중요한 순간으로, 접근성, 기능 및 다용도성의 새로운 기준을 설정합니다. 온디바이스 기능과 멀티모달 처리를 통해, 이 모델은 헬스케어에서 교육까지 다양한 산업에서 변혁적인 가능성을 열어줍니다. 또한, 개인 정보 보호, 지연, 인프라 제한과 같은 중요한 문제를 해결합니다. 개발자가 로컬에서 효율적으로 고급 AI를 배포할 수 있도록 함으로써, Llama 3.2는 не仅 AI 애플리케이션의 범위를 확대하지만 또한 전 세계적으로 최신 기술에 대한 접근을 민주화합니다.