์ธ๊ณต์ง๋ฅ
๋ง์ดํฌ๋ก์ํํธ์ Phi-3 ๋ฏธ๋: ๊ฐ๋ฒผ์ด AI ๋ชจ๋ธ์ด ์์ ์ ๋ฌด๊ฒ๋ฅผ ๋์ด์๋ ํ์น
Phi-3 미니의 개발은 고급 AI 능력을 더 넓은 하드웨어 범위에서 접근할 수 있도록 함으로써 민주화하는 데 있어 중요한 里程碑을 나타냅니다. 그 작은 크기 때문에 스마트폰, 태블릿, 기타 에지 장치에서 로컬로 배포할 수 있으며, 이는 클라우드 기반 모델과 관련된 대기 시간 및 개인 정보 보호 문제를 극복합니다. 이것은 가상 어시스턴트, 대화형 AI, 코드 어시스턴트, 언어 이해 작업 등 다양한 도메인에서 지능형 온디바이스 경험의 새로운 가능성을 열어줍니다.

- 4비트 양자화된 phi-3-mini가 아이폰에서 네이티브로 실행되는 모습
하위 구조: 아키텍처 및 훈련
그 핵심에서, Phi-3 미니는 오픈소스 Llama-2 모델과 유사한 아키텍처를 기반으로 하는 트랜스포머 디코더 모델입니다. 32개의 레이어, 3072개의 숨겨진 차원, 32개의 주의 헤드, 기본 컨텍스트 길이 4,000 토큰을 특징으로 합니다. 마이크로소프트는 또한 컨텍스트 길이를 128,000 토큰으로 확장하는 LongRope와 같은 기술을 사용하여 Phi-3 미니-128K라는 긴 컨텍스트 버전을 도입했습니다.
Phi-3 미니를 구별하는 것은 그러나 그 훈련 방법론입니다. 대규모 데이터셋과 컴퓨팅 파워의 순수한 힘에만 의존하는 대신, 마이크로소프트는 고품질, 추론 밀도 높은 훈련 데이터셋을 구축하는 데 중점을 두었습니다. 이 데이터는 강력하게 필터링된 웹 데이터와 더 큰 언어 모델에 의해 생성된 합성 데이터로 구성됩니다.
훈련 프로세스는 두 단계 접근 방식을 따릅니다. 첫 번째 단계에서 모델은 일반 지식과 언어 이해를 가르치는 것을 목표로 하는 다양한 웹 소스에 노출됩니다. 두 번째 단계에서는 더욱더 필터링된 웹 데이터와 논리적 추론 능력 및 니치 도메인 전문 지식을 부여하기 위한 합성 데이터를 결합합니다.
마이크로소프트는 이 접근 방식을 “데이터 최적 영역”이라고 부르며, 많은 대규모 언어 모델에서 사용되는 전통적인 “컴퓨팅 최적 영역” 또는 “과훈련 영역”과는 다릅니다. 목표는 모델의 규모에 맞는 훈련 데이터를 조정하여 올바른 수준의 지식과 추론 능력을 제공하는 동시에 다른 능력에 대한 충분한 용량을 남겨두는 것입니다.

- 새로운 Phi-3 모델의 품질, Massive Multitask Language Understanding (MMLU) 벤치마크에서 성능으로 측정
이 데이터 중심 접근 방식은 Phi-3 미니가 다양한 학술 벤치마크에서 뛰어난 성능을 발휘하는 데 성공했으며, 종종 훨씬 더 큰 모델을 따라가거나 능가하는 것을 보여주었습니다. 예를 들어,それは MMLU 벤치마크에서 멀티태스킹 학습 및 이해에서 69%, MT-bench에서 수학적 추론에서 8.38의 점수를 달성했습니다. 이는 Mixtral 8x7B 및 GPT-3.5와 같은 모델과 비교할 수 있는 결과입니다.
안전성 및 강건성
그의 인상적인 성능과 함께, 마이크로소프트는 Phi-3 미니의 개발에서 안전성 및 강건성에 강한 중점을 두었습니다. 모델은 감독된 미세 조정(supervised fine-tuning, SFT) 및 직접 선호도 최적화(direct preference optimization, DPO)를 포함하는 엄격한 사후 훈련 과정을 거쳤습니다.
SFT 단계에서는 다양한 도메인(수학, 코딩, 추론, 대화, 모델 ID, 안전성 등)에서高度로 구분된 데이터를 활용하여 모델의 능력을 강화하고 윤리적 행동 및 정체성을 심어줍니다.
DPO 단계에서는 원치 않는 행동으로부터 모델을 돌리기 위해 거부된 응답을 부정적인 예시로 사용합니다. 이 프로세스는 채팅 형식 데이터, 추론 작업, 책임 있는 AI(RAI) 노력을 다루며, Phi-3 미니가 마이크로소프트의 윤리적이고 신뢰할 수 있는 AI 원칙을 준수하도록 합니다.
안전성 프로파일을 더욱 강화하기 위해, Phi-3 미니는 수십 개의 RAI 손상 카테고리에서 광범위한 적대적 테스팅 및 자동화된 테스팅을 거쳤습니다. 마이크로소프트의 독립적인 적대적 팀은 모델을 반복적으로 조사하여 개선할 영역을 식별하고, 추가로 구분된 데이터셋 및 재훈련을 통해 이를 해결했습니다.
이 다각적인 접근 방식은 유해 응답, 사실적 부정확성, 편향의 발생을 크게 줄였습니다. 이는 마이크로소프트의 내부 RAI 벤치마크에서 보여지며, 유해 컨텐츠 연속(0.75%), 요약(10%), 무근거성(0.603)의 낮은 결함률을 나타냅니다.
응용 및 사용 사례
인상적인 성능과 강건한 안전성 조치로 인해, Phi-3 미니는 다양한 응용 프로그램, 특히 자원 제한 환경 및 지연 시간 제한 시나리오에서 적합합니다.
가장 흥미로운 전망 중 하나는 지능형 가상 어시스턴트와 대화형 AI를 직접 모바일 장치에 배포하는 것입니다. 로컬에서 실행되면, 이러한 어시스턴트는 네트워크 연결 없이 즉각적인 응답을 제공할 수 있으며, 또한 민감한 데이터가 장치에 남아 있으므로 개인 정보 보호 문제를 해결할 수 있습니다.
Phi-3 미니의 강력한 추론 능력은 또한 코딩 지원 및 수학 문제 해결에서 귀중한 자산을 만듭니다. 개발자와 학생들은 장치에서 코드 완성, 버그 감지, 설명을 통해 개발 및 학습 과정을 간소화할 수 있습니다.
이러한 응용 프로그램을 넘어서, 모델의 다용도는 언어 이해, 텍스트 요약, 질문 응답 등 다양한 영역에서 기회를 열어줍니다. 그 작은 크기와 효율성으로 인해, 이는 다양한 장치와 시스템(스마트 홈 가전, 산업 자동화 시스템 등)에 AI 능력을 내장하는 데 매력적인 선택이 됩니다.
미래를 향해: Phi-3 소형 및 Phi-3 중형
Phi-3 미니는 자체적으로 훌륭한 성과이지만, 마이크로소프트는 Phi-3 가족에 대해 더 큰 계획을 가지고 있습니다. 이미 2개의 더 큰 모델, Phi-3 소형(70억 매개변수) 및 Phi-3 중형(140억 매개변수)을 미리 공개했으며, 이는 컴팩트한 언어 모델의 성능 경계를 확장할 것으로 기대됩니다.
Phi-3 소형의 경우, tiktoken이라는 더 발전된 토크나이저와 그룹화된 쿼리 주의 메커니즘, 새로운 블록스PARSE 주의 레이어를 사용하여 메모리 فو트프린트를 최적화하면서 긴 컨텍스트 검색 성능을 유지합니다. 또한 10%의 다국어 데이터를 포함하여 언어 이해 및 생성 능력을 다국어로 향상시킵니다.
Phi-3 중형은 규모에서 상당한 단계를 나타내며, 40개의 레이어, 40개의 주의 헤드, 5,120개의 임베딩 차원을 특징으로 합니다. 마이크로소프트는 일부 벤치마크에서 훈련 데이터 믹스의 추가적인 정련이 필요할 수 있음을 언급하지만, 초기 결과는 आश망을 줍니다. MMLU, TriviaQA, HumanEval과 같은 작업에서 Phi-3 소형보다 상당한 개선을 보여줍니다.
제한 및 미래 방향
인상적인 능력에도 불구하고, Phi-3 미니는 모든 언어 모델과 마찬가지로 제한이 없습니다. 가장 주목할만한 약점 중 하나는 사실적 지식을 저장하는 상대적으로 제한된 능력입니다. 이는 TriviaQA와 같은 벤치마크에서 낮은 성능으로 나타납니다.
그러나 마이크로소프트는 이 제한이 모델에 검색 엔진 능력을 추가함으로써 완화될 수 있다고 믿습니다. 이렇게 하면 모델이 관련 정보를 필요에 따라 검색하고 추론할 수 있습니다. 이 접근 방식은 Hugging Face Chat-UI에서 보여지며, Phi-3 미니가 검색을 사용하여 응답을 향상시킬 수 있습니다.
또 다른 개선 영역은 모델의 다국어 능력입니다. Phi-3 소형은 초기 단계에서 추가 다국어 데이터를 포함했지만, 이러한 컴팩트 모델의 다국어 응용 프로그램을 완전히 해방하기 위해 더 많은 작업이 필요합니다.
미래를 내다보며, 마이크로소프트는 Phi 모델 가족을 지속적으로 발전시키고, 그들의 제한을 해결하며, 그들의 능력을 확장하기 위해 헌신하고 있습니다. 이는 훈련 데이터 및 방법론의 추가적인 정련, 새로운 아키텍처 및 컴팩트한 고성능 언어 모델을 위한 특별히 맞춤형 기술의 탐색을 포함할 수 있습니다.
결론
마이크로소프트의 Phi-3 미니는 고급 AI 능력의 민주화를 위한 중요한 발전을 나타냅니다. 상태 오프 더 아트 성능을 컴팩트한, 자원 효율적인 패키지에서 제공함으로써, 이는 다양한 응용 프로그램에서 지능형 온디바이스 경험의 새로운 가능성을 열어줍니다.
모델의 혁신적인 훈련 접근 방식은, 순수한 컴퓨팅 파워에만 의존하는 대신, 고품질, 추론 밀도 높은 데이터를 강조하며, Phi-3 미니가 자신의 무게를 넘어서는 펀치를 할 수 있도록 합니다. 이는 강건한 안전성 조치 및 지속적인 개발 노력과 결합되어, Phi-3 모델 가족이 지능형 시스템의 미래를 형성하는 데 중요한 역할을 할 것으로 기대됩니다.
기술 산업이 AI의 가능성을 계속해서 확장하는 동안, 마이크로소프트의 가벼운, 고성능 모델에 대한 헌신은 “더 크면 더 좋다”는 전통적인 지혜에서 환영할 만한 이탈을 나타냅니다. 크기가 모든 것이 아니라는 것을 보여줌으로써, Phi-3 미니는 지능형 데이터 큐레이션, 사려 깊은 모델 설계, 책임 있는 개발 관행을 통해 AI의 가치와 영향을 최대화하는 데 중점을 둔 새로운 혁신의 물결을 영감을 줄 수 있습니다.












