AGI

Inflection-2.5: GPT-4 및 Gemini를 경쟁하는 강력한 LLM

Published March 14, 2024

Updated April 27, 2026

Aayush Mittal Mittal

Inflection AI는 최근 Inflection-2.5를 공개하며 대형 언어 모델(LLM) 분야에서 큰 물결을 일으켰습니다. 이 모델은 세계 최고의 LLM 중 하나인 OpenAI의 GPT-4와 Google의 Gemini와 경쟁합니다.

Inflection AI의 빠른 성장은 Microsoft, NVIDIA, Reid Hoffman, Bill Gates, Eric Schmidt 등 산업 거물과 유명 투자자들이 주도한 1,300억 달러의 거대한 투자 라운드에 의해 더욱 가속화되었습니다. 이 투자로 인해 회사의 총 투자 금액은 1,525억 달러로 증가했습니다.

CoreWeave와 NVIDIA와의 협력을 통해 Inflection AI는 세계에서 가장 큰 AI 클러스터를 구축 중이며, 이는 22,000개의 NVIDIA H100 Tensor Core GPU로 구성됩니다. 이 거대한 컴퓨팅 파워는 대규모 AI 모델의 훈련과 배포를 지원하여 Inflection AI가 개인용 AI 분야에서 가능한 한계를 확장할 수 있습니다.

회사의 개척적인 작업은 이미 놀라운 결과를 보여주었으며, 현재 3,500개 이상의 NVIDIA H100 Tensor Core GPU로 구성된 Inflection AI 클러스터는 MLPerf 벤치마크에서 최첨단 성능을 발휘했습니다. CoreWeave와 NVIDIA와의 공동 제출에서 클러스터는 대형 언어 모델을 위한 참조 훈련 작업을 단 11분 만에 완료하여 이 벤치마크에서 가장 빠른 클러스터로 자리 잡았습니다.

이 성과는 Inflection AI의 자체 대형 언어 모델인 Inflection-1의 공개에 뒤이었습니다. Inflection-1은 자신의 컴퓨팅 클래스에서 최고의 모델로 평가되었습니다. GPT-3.5, LLaMA, Chinchilla, PaLM-540B를 포함한 업계의 거물보다 다양한 벤치마크에서 더 나은 성능을 보여주었습니다. Inflection-1을 통해 사용자는 Inflection AI의 개인용 AI인 Pi와 간단하고 자연스러운 방식으로 상호 작용하여 빠르고 관련性이 높고 유용한 정보와 조언을 받을 수 있습니다.

Inflection AI의 투명성과 재현성에 대한 헌신은 다양한 벤치마크에서 Inflection-1의 평가와 성능에 대한 기술 메모의 공개에서 명확히 나타납니다. 메모는 Inflection-1이 PaLM-540B의 FLOPs(부동 소수점 연산)와 같은 컴퓨팅 클래스의 모델보다 더 나은 성능을 발휘한다는 것을 보여줍니다.

Inflection-1의 성공과 회사의 컴퓨팅 인프라의 빠른 확장, 그리고 거대한 투자 라운드에 의해 가속화된 것은 Inflection AI가 모든 사람을 위한 개인용 AI를 만드는 자신의 임무에 대한 확고한 헌신을 강조합니다. Inflection-1이 Pi에 통합됨에 따라 사용자는 개인용 AI의 강력함을 경험할 수 있으며, 이는 공감 능력, 유용성, 안전성 기준에서 혜택을 받습니다.

Inflection-2.5

Inflection-2.5는 현재 Pi의 모든 사용자에게 웹(pi.ai), iOS, Android, 새로운 데스크톱 앱을 포함한 여러 플랫폼에서 사용할 수 있습니다. 이 통합은 모든 사람을 위한 개인용 AI를 만드는 Inflection AI의 임무에서 중요한 里程碑을 나타냅니다. 이는 원시 능력과 공감 능력, 안전성 기준을 결합합니다.

성능의 도약 Inflection AI의 이전 모델인 Inflection-1은 GPT-4의 훈련 FLOPs의 약 4%를 사용했으며, 다양한 지능 지향 작업에서 GPT-4의 평균 성능의 약 72%를 보여주었습니다. Inflection-2.5로, Inflection AI는 Pi의 지적 능력에서 상당한 향상을 이루었으며, 코딩과 수학에 중점을 두었습니다.

모델의 주요 산업 벤치마크 성능은 그 힘을 보여주며, 다양한 작업에서 GPT-4의 평균 성능의 94% 이상을 보여주며, 특히 STEM 분야에서卓越한 성능을 발휘합니다. 이 놀라운 성과는 Inflection AI가 기술의 최전선에서 사용자 경험과 안전성에 대한 집중을 유지하면서도 기술의 경계를 확장하는 데 대한 헌신을 보여줍니다.

코딩과 수학의 능력 Inflection-2.5는 코딩과 수학에서 빛을 발합니다. BIG-Bench-Hard와 같은 도전적인 문제 집합에서 Inflection-1보다 10% 이상의 향상을 보여주며, MBPP+와 HumanEval+와 같은 두 가지 코딩 벤치마크에서 대규모 개선을 보여줍니다. 이는 Inflection-2.5가 코딩 분야에서 강력한 경쟁자임을 입증합니다.

MBPP+ 벤치마크에서 Inflection-2.5는 전임 모델을 상당한 차이로 능가하며, DeepSeek Coder에 보고된 바와 같이 GPT-4와 비교할 수 있는 성능 수준을 보여줍니다. 또한 HumanEval+ 벤치마크에서 Inflection-2.5는 EvalPlus 리더보드에 보고된 바와 같이 상당한 개선을 보여주며, Inflection-1의 성능을 초월하여 GPT-4의 수준에 근접합니다.

산업 벤치마크에서의 우수성

Inflection-2.5는 산업 벤치마크에서 두드러진 성능을 보여주며, MMLU 벤치마크와 GPQA 다이아몬드 벤치마크에서 Inflection-1보다 상당한 개선을 보여줍니다. 이 벤치마크에서 모델의 성능은 다양한 작업, 특히 고등학교 수준의 문제부터 전문가 수준의 도전까지 처리하는 능력을 강조합니다.

STEM 시험에서의卓越성 모델의 능력은 STEM 시험에서도 두드러지며, 헝가리 수학 시험과 물리학 GRE에서卓越한 성능을 보여줍니다. 헝가리 수학 시험에서 Inflection-2.5는 제공된 few-shot 프롬프트와 형식을 활용하여 수학적 능력을 보여주며, 이는 재현성을容易하게 합니다.

물리학 GRE에서, 물리학 입학 시험에서, Inflection-2.5는 human test-takers의 85백분위에 도달하며, maj@8(8개 투표에서 多数決)에서 물리학 문제 해결 분야에서 강력한 경쟁자임을 입증합니다. 또한 maj@32에서 최고 점수에 근접하며, 복잡한 물리학 문제를驚人的 정밀도로 해결하는 능력을 보여줍니다.

사용자 경험의 향상 Inflection-2.5는 Pi의 시그니처 개인성과 안전성 기준을 유지하며, 다양한 주제에서 다재다능하고 귀중한 개인용 AI로의 지위를 높입니다. 현재 사건에 대한 토론에서 지역 추천을 찾기까지, 시험 공부, 코딩, 그리고 심지어 사적 대화에 이르기까지, Inflection-2.5를 탑재한 Pi는 풍부한 사용자 경험을 약속합니다.

Inflection-2.5의 강력한 능력으로 인해 사용자는 이전보다 더 다양한 주제로 Pi와 상호 작용합니다. 모델의 복잡한 작업을 처리하는 능력과 공감 능력, 실시간 웹 검색 능력의 조합은 사용자가 높은 품질의 최신 정보와 지침을 받을 수 있도록 합니다.

사용자 채택과 참여 Inflection-2.5의 Pi 통합은 이미 사용자 감정, 참여, 유지률 지표에서 영향을 미치고 있습니다. Inflection AI는 유기적 사용자 성장의 상당한 가속을 목격했으며, 하루에 1백만 명, 월에 6백만 명의 활성 사용자가 Pi와 40억 개의 메시지를 교환합니다.

평균적으로 Pi와의 대화는 33분 동안 지속되며, 10명 중 1명은 하루에 1시간 이상 대화합니다. 또한 주간에 Pi와 상호 작용하는 사람 중 약 60%가 다음 주에도 돌아옵니다. 이는 업계의 주요 경쟁사보다 월간 粘着性이 더 높습니다.

기술 세부 정보와 벤치마크 투명성

Inflection AI의 투명성과 재현성에 대한 헌신에 따라, 회사는 다양한 산업 벤치마크에서 Inflection-2.5의 포괄적인 기술 결과와 세부 정보를 제공했습니다.

예를 들어, MT-Bench 데이터セット의 수정 버전에서, 잘못된 참조 솔루션과 원래 데이터셋의 결함된 전제를 해결했습니다. Inflection-2.5는 다른 벤치마크에서 기대되는 성능과 일치하는 성능을 보여줍니다.

Inflection AI는 또한 HellaSwag와 ARC-C, 일반적인 상식과 과학 벤치마크에서 Inflection-2.5를 평가했으며, 이는 다양한 모델에서 보고됩니다. 결과는 이러한 포화 벤치마크에서 강한 성능을 보여줍니다.

참고로 제공된 평가가 Pi를 구동하는 모델을 나타낸다고는 하지만, 웹 검색(벤치마크에서 사용되지 않음), few-shot 프롬프트의 구조, 기타 생산側의 차이 등으로 인해 사용자 경험은 약간 다를 수 있습니다.

결론

Inflection-2.5는 대형 언어 모델 분야에서 중요한 발전을 나타내며, GPT-4와 Gemini의 능력을 경쟁하면서도 컴퓨팅 자원을 단지 일부만 사용합니다. 다양한 벤치마크, 특히 STEM 분야, 코딩, 수학에서卓越한 성능을 보여주며, Inflection-2.5는 AI 풍경에서 강력한 경쟁자로 자리 잡았습니다.

Inflection-2.5의 Pi 통합은 원시 능력과 공감 능력, 안전성 기준의 결합으로 풍부한 사용자 경험을 약속합니다. Inflection AI가 LLM의 가능성을 계속해서 확장함에 따라, AI 커뮤니티는 이 개척적인 회사에서 다음 혁신과 돌파구를 기대하고 있습니다.

Inflection AI의 비전적인 접근은 단순한 모델 개발을 넘어서며, 회사는 높은 품질의 안전하고 유용한 AI 경험을 창조하는 데 전처리와 미세 조정을 포함한 전체 프로세스의 중요성을認識합니다. 垂直적으로 통합된 AI 스튜디오로서, Inflection AI는 데이터 摂取, 모델 설계, 고성능 인프라에 이르기까지 모든 과정을 내부적으로 처리합니다.

Related Topics:gemini GPT-4 Inflection AI Large Language Models PaLM personal AI assistant

Aayush Mittal

지난 5년 동안私は Machine Learning과 Deep Learning의 매력적인 세계에 몰두해 왔습니다.私の情熱と専門知識は、AI/ML에 중점을 둔 50개 이상의 다양한 소프트웨어 엔지니어링 프로젝트에 기여했습니다.私の継続的な 호기심은 또한 자연어 처리 분야로私の 관심을 끌었고, 더 깊이 탐구하고 싶은 분야입니다.

Unite.AI

Inflection-2.5: GPT-4 및 Gemini를 경쟁하는 강력한 LLM

Inflection-2.5

산업 벤치마크에서의 우수성

기술 세부 정보와 벤치마크 투명성

결론

You may like