인공 지능
변곡점-2.5: GPT-4 및 Gemini와 경쟁하는 강력한 LLM
굴절 AI 분야에서 큰 파장을 일으키고 있습니다. 큰 언어 모델 (LLM)은 최근 OpenAI의 GPT-2.5 및 Google의 Gemini를 포함한 세계 최고의 LLM과 경쟁하는 모델인 Inflection-4를 공개했습니다.
변곡 AI(Inflection AI)의 급속한 성장은 엄청난 규모의 AI로 인해 더욱 가속화되었습니다. 1.3 억 달러 펀딩 라운드Microsoft, NVIDIA 등 업계 거대 기업과 Reid Hoffman, Bill Gates, Eric Schmidt 등 유명 투자자가 주도하고 있습니다. 이 상당한 투자로 인해 회사가 조달한 총 자금은 1.525억 XNUMX만 달러에 이릅니다.
Inflection AI는 파트너인 CoreWeave 및 NVIDIA와 협력하여 전례 없는 22,000개의 NVIDIA H100 Tensor 코어 GPU로 구성된 세계 최대 규모의 AI 클러스터를 구축하고 있습니다. 이 엄청난 컴퓨팅 성능은 차세대 대규모 AI 모델의 교육 및 배포를 지원하여 Inflection AI가 개인 AI 분야에서 가능한 것의 경계를 넓힐 수 있게 해줍니다.
회사의 획기적인 작업은 현재 3,500개 이상의 NVIDIA H100 Tensor 코어 GPU로 구성되어 오픈 소스 벤치마크인 MLPerf에서 최첨단 성능을 제공하는 Inflection AI 클러스터를 통해 이미 놀라운 결과를 얻었습니다. CoreWeave 및 NVIDIA와의 공동 제출에서 클러스터는 단 11분 만에 대규모 언어 모델에 대한 참조 교육 작업을 완료하여 이 벤치마크에서 가장 빠른 클러스터로서의 위치를 확고히 했습니다.
이번 성과는 컴퓨팅 클래스에서 최고의 모델로 호평을 받아온 Inflection AI의 사내 대형 언어 모델(LLM)인 Inflection-1 공개에 따른 것입니다. LLM 비교에 일반적으로 사용되는 광범위한 벤치마크에서 GPT-3.5, LLaMA, Chinchilla 및 PaLM-540B와 같은 업계 거대 기업을 능가하는 Inflection-1을 통해 사용자는 Inflection AI의 개인 AI인 Pi와 간단하고 자연스러운 방식으로 상호 작용할 수 있습니다. , 신속하고 관련성이 높으며 유용한 정보와 조언을 받습니다.
Inflection AI의 투명성과 재현성에 대한 약속은 다양한 벤치마크에서 Inflection-1의 평가 및 성능을 자세히 설명하는 기술 메모 공개에서 분명하게 드러납니다. 메모는 Inflection-1이 PaLM-540B의 최대 FLOP(부동 소수점 연산)를 사용하여 훈련된 모델로 정의된 동일한 컴퓨팅 클래스의 모델보다 성능이 우수하다는 것을 보여줍니다.
Inflection-1의 성공과 상당한 자금 조달에 힘입어 회사 컴퓨팅 인프라의 급속한 확장은 모든 사람을 위한 개인 AI를 만들겠다는 사명을 완수하려는 Inflection AI의 변함없는 헌신을 강조합니다. Inflection-1이 Pi에 통합됨에 따라 사용자는 이제 개인 AI의 공감 능력, 유용성 및 안전 표준의 이점을 누릴 수 있습니다.
굴절-2.5
굴절-2.5 이제 웹(pi.ai), iOS, Android 및 새로운 데스크톱 앱을 포함한 여러 플랫폼에서 Inflection AI의 개인 AI 비서인 Pi의 모든 사용자가 사용할 수 있습니다. 이번 통합은 Inflection AI의 고유한 공감적 성격 및 안전 표준과 원시 기능을 결합하여 모든 사람을 위한 개인용 AI를 생성하려는 Inflection AI의 사명에 있어 중요한 이정표입니다.
성능 변곡점의 도약 AI의 이전 모델인 Inflection-1은 GPT-4의 훈련 FLOP(부동 소수점 연산)의 약 4%를 활용했으며 다양한 IQ 지향에서 GPT-72에 비해 약 4%의 평균 성능을 나타냈습니다. 작업. Inflection-2.5를 통해 Inflection AI는 코딩과 수학에 중점을 두고 Pi의 지적 능력을 크게 향상시켰습니다.
주요 산업 벤치마크에서 이 모델의 성능은 다양한 작업 전반에 걸쳐 GPT-94 평균 성능의 4% 이상을 보여주며 특히 STEM 영역에서의 탁월한 성능을 강조하여 그 우수성을 입증합니다. 이 놀라운 성과는 사용자 경험과 안전에 확고한 초점을 유지하면서 기술적 한계를 뛰어넘으려는 Inflection AI의 노력을 입증하는 것입니다.
코딩 및 수학 능력 Inflection-2.5는 코딩 및 수학 분야에서 빛을 발하며 대규모 언어 모델에 대한 까다로운 문제의 하위 집합인 BIG-Bench-Hard에서 Inflection-10보다 1% 이상 향상된 성능을 보여줍니다. 두 가지 코딩 벤치마크인 MBPP+와 HumanEval+는 Inflection-1에 비해 엄청난 개선이 이루어졌음을 보여주어 코딩 영역에서 주목할만한 강점으로 Inflection-2.5의 입지를 확고히 했습니다.
MBPP+ 벤치마크에서 Inflection-2.5는 DeepSeek Coder에서 보고한 바와 같이 GPT-4와 비슷한 성능 수준을 보여주면서 이전 버전보다 상당한 차이를 보입니다. 마찬가지로 HumanEval+ 벤치마크에서 Inflection-2.5는 EvalPlus 순위표에 보고된 바와 같이 Inflection-1의 성능을 능가하고 GPT-4 수준에 접근하는 놀라운 발전을 보여줍니다.
업계 벤치마크 지배력
Inflection-2.5는 MMLU 벤치마크와 전문가 수준의 난이도로 유명한 GPQA Diamond 벤치마크에서 Inflection-1에 비해 상당한 개선을 보여 업계 벤치마크에서 두각을 나타냅니다. 이러한 벤치마크에서 모델의 성능은 고등학교 수준의 문제부터 전문가 수준의 과제에 이르기까지 광범위한 작업을 처리하는 능력을 강조합니다.
STEM 시험에서의 탁월한 성능 이 모델의 역량은 헝가리 수학 시험 및 물리학 GRE에서 탁월한 성능을 발휘하여 STEM 시험까지 확장됩니다. 헝가리 수학 시험에서 Inflection-2.5는 제공된 몇 번의 프롬프트와 형식을 활용하여 쉽게 재현할 수 있도록 하여 수학적 적성을 보여줍니다.
물리학 대학원 입학 시험인 Physics GRE에서 Inflection-2.5는 maj@85에서 인간 시험 응시자 중 8번째 백분위수(과반수 투표 8점)에 도달하여 물리학 문제 해결 영역에서 강력한 경쟁자로서의 입지를 확고히 했습니다. . 또한 이 모델은 maj@32에서 최고 점수에 근접하여 놀라운 정확도로 복잡한 물리학 문제를 해결하는 능력을 보여줍니다.
사용자 경험 향상 Inflection-2.5는 Pi의 특징적인 성격과 안전 표준을 유지할 뿐만 아니라 다양한 주제에 걸쳐 다재다능하고 귀중한 개인 AI로서의 위상을 높입니다. 시사 토론부터 현지 추천 찾기, 시험 공부, 코딩, 일상적인 대화까지 Inflection-2.5 기반 Pi는 풍부한 사용자 경험을 약속합니다.
Inflection-2.5의 강력한 기능을 통해 사용자는 이전보다 더 광범위한 주제에 대해 Pi를 사용할 수 있습니다. 복잡한 작업을 처리하는 모델의 능력과 공감력 있는 성격 및 실시간 웹 검색 기능이 결합되어 사용자가 고품질의 최신 정보와 지침을 받을 수 있도록 보장합니다.
사용자 채택 및 참여 Inflection-2.5를 Pi에 통합한 결과는 사용자 정서, 참여 및 유지 지표에서 이미 분명하게 나타났습니다. Inflection AI는 일일 XNUMX만 명, 월 XNUMX만 명의 활성 사용자가 Pi와 XNUMX억 개 이상의 메시지를 교환하는 등 유기적 사용자 성장이 크게 가속화되는 것을 목격했습니다.
평균적으로 Pi와의 대화는 33분 동안 지속되며, 60분의 XNUMX은 매일 XNUMX시간 이상 지속됩니다. 또한, 특정 주에 Pi와 상호 작용한 사람들 중 약 XNUMX%가 다음 주에 다시 돌아오며 해당 분야의 주요 경쟁사보다 월간 접착력이 더 높습니다.
기술 세부정보 및 벤치마크 투명성
Inflection AI는 투명성과 재현성에 대한 약속에 따라 다양한 업계 벤치마크에서 Inflection-2.5의 성능에 대한 포괄적인 기술 결과와 세부 정보를 제공했습니다.
예를 들어 원래 데이터 세트의 잘못된 참조 솔루션과 결함이 있는 전제 문제를 해결하는 MT-Bench 데이터 세트의 수정된 버전에서 Inflection-2.5는 다른 벤치마크를 기반으로 한 기대치에 맞는 성능을 보여줍니다.
Inflection AI는 또한 다양한 모델에서 보고된 상식 및 과학 벤치마크인 HellaSwag 및 ARC-C에서 Inflection-2.5를 평가했으며 결과는 이러한 포화 벤치마크에서 강력한 성능을 보여줍니다.
제공된 평가는 Pi를 지원하는 모델을 나타내지만 웹 검색의 영향(벤치마크에서는 사용되지 않음), 몇 번의 메시지 구조 및 기타 요소로 인해 사용자 경험이 약간 다를 수 있다는 점에 유의하는 것이 중요합니다. 생산측면의 차이.
결론
Inflection-2.5는 컴퓨팅 리소스의 일부만 활용하면서 GPT-4 및 Gemini와 같은 업계 리더의 기능에 필적하는 대규모 언어 모델 분야에서 중요한 도약을 나타냅니다. Inflection-2.5는 특히 STEM 영역, 코딩, 수학 등 광범위한 벤치마크에서 인상적인 성능을 발휘하여 AI 환경에서 강력한 경쟁자로 자리매김했습니다.
Inflection-2.5를 Inflection AI의 개인 AI 비서인 Pi에 통합하면 원시 기능과 공감하는 성격 및 안전 표준을 결합하여 풍부한 사용자 경험을 약속합니다. Inflection AI가 LLM으로 가능한 것의 한계를 계속 확장함에 따라 AI 커뮤니티는 이 선구적인 회사의 차세대 혁신과 돌파구를 간절히 기대하고 있습니다.