AGI

Inflection-2.5: The Powerhouse LLM Rivaling GPT-4 and Gemini

Published March 14, 2024

Updated April 27, 2026

Aayush Mittal Mittal

Inflection AI telah membuat gelombang di bidang large language models (LLMs) dengan peluncuran Inflection-2.5, model yang bersaing dengan LLM terkemuka di dunia, termasuk OpenAI’s GPT-4 dan Google’s Gemini.

Pertumbuhan Inflection AI yang cepat telah diperkuat oleh putaran pendanaan sebesar $1,3 miliar, dipimpin oleh raksasa industri seperti Microsoft, NVIDIA, dan investor terkenal termasuk Reid Hoffman, Bill Gates, dan Eric Schmidt. Investasi signifikan ini membawa total pendanaan yang dikumpulkan perusahaan menjadi $1,525 miliar.

Dalam kolaborasi dengan mitra CoreWeave dan NVIDIA, Inflection AI membangun klaster AI terbesar di dunia, yang terdiri dari 22.000 NVIDIA H100 Tensor Core GPUs yang belum pernah terjadi sebelumnya. Kekuatan komputasi ini akan mendukung pelatihan dan penerapan generasi baru model AI skala besar, memungkinkan Inflection AI untuk mendorong batas apa yang mungkin dalam bidang AI pribadi.

Kerja perintis perusahaan ini telah menghasilkan hasil yang luar biasa, dengan klaster Inflection AI, yang saat ini terdiri dari lebih dari 3.500 NVIDIA H100 Tensor Core GPUs, menunjukkan kinerja kelas dunia pada benchmark MLPerf sumber terbuka. Dalam pengajuan bersama dengan CoreWeave dan NVIDIA, klaster ini menyelesaikan tugas pelatihan referensi untuk model bahasa besar dalam waktu hanya 11 menit, memperkuat posisinya sebagai klaster tercepat pada benchmark ini.

Pencapaian ini mengikuti peluncuran Inflection-1, model bahasa besar (LLM) internal Inflection AI, yang telah dipuji sebagai model terbaik di kelas komputasinya. Mengungguli raksasa industri seperti GPT-3.5, LLaMA, Chinchilla, dan PaLM-540B pada berbagai benchmark yang umum digunakan untuk membandingkan LLM, Inflection-1 memungkinkan pengguna untuk berinteraksi dengan Pi, AI pribadi Inflection AI, dengan cara yang sederhana dan alami, menerima informasi dan saran yang cepat, relevan, dan bermanfaat.

Komitmen Inflection AI terhadap transparansi dan reproducibility jelas dalam rilis memo teknis yang merinci evaluasi dan kinerja Inflection-1 pada berbagai benchmark. Memo tersebut mengungkapkan bahwa Inflection-1 mengungguli model dalam kelas komputasi yang sama, yang didefinisikan sebagai model yang dilatih menggunakan paling banyak FLOPs (operasi titik mengambang) dari PaLM-540B.

Keberhasilan Inflection-1 dan penskalaan infrastruktur komputasi perusahaan yang cepat, didorong oleh putaran pendanaan yang substansial, menyoroti komitmen Inflection AI yang tidak goyah untuk memenuhi misinya menciptakan AI pribadi untuk semua orang. Dengan integrasi Inflection-1 ke dalam Pi, pengguna sekarang dapat mengalami kekuatan AI pribadi, mendapat manfaat dari kepribadian yang empatik, kegunaan, dan standar keamanan.

Inflection-2.5

Inflection-2.5 sekarang tersedia untuk semua pengguna Pi, asisten AI pribadi Inflection AI, di berbagai platform, termasuk web (pi.ai), iOS, Android, dan aplikasi desktop baru. Integrasi ini menandai tonggak penting dalam misi Inflection AI untuk menciptakan AI pribadi untuk semua orang, menggabungkan kemampuan mentah dengan kepribadian yang empatik dan standar keamanan.

Lompatan dalam Kinerja Model sebelumnya Inflection AI, Inflection-1, menggunakan sekitar 4% dari FLOPs (operasi titik mengambang) pelatihan GPT-4 dan menunjukkan kinerja rata-rata sekitar 72% dibandingkan dengan GPT-4 di berbagai tugas yang berorientasi pada IQ. Dengan Inflection-2.5, Inflection AI telah mencapai peningkatan substansial dalam kemampuan intelektual Pi, dengan fokus pada pengkodean dan matematika.

Kinerja model pada benchmark industri kunci menunjukkan kehebatannya, menunjukkan lebih dari 94% kinerja rata-rata GPT-4 di berbagai tugas, dengan penekanan khusus pada unggul dalam bidang STEM. Pencapaian luar biasa ini adalah bukti komitmen Inflection AI untuk mendorong batas teknologi sambil mempertahankan fokus yang tidak goyah pada pengalaman pengguna dan keamanan.

Kemampuan Pengkodean dan Matematika Inflection-2.5 bersinar dalam pengkodean dan matematika, menunjukkan peningkatan lebih dari 10% dibandingkan Inflection-1 pada BIG-Bench-Hard, subset masalah yang menantang untuk model bahasa besar. Dua benchmark pengkodean, MBPP+ dan HumanEval+, mengungkapkan perbaikan besar dibandingkan Inflection-1, memperkuat posisi Inflection-2.5 sebagai kekuatan yang harus diperhitungkan dalam domain pengkodean.

Pada benchmark MBPP+, Inflection-2.5 mengungguli pendahulunya dengan margin yang signifikan, menunjukkan tingkat kinerja yang setara dengan GPT-4, seperti yang dilaporkan oleh DeepSeek Coder. Serupa, pada benchmark HumanEval+, Inflection-2.5 menunjukkan kemajuan yang luar biasa, melampaui kinerja Inflection-1 dan mendekati tingkat GPT-4, seperti yang dilaporkan pada papan skor EvalPlus.

Dominasi Benchmark Industri

Inflection-2.5 menonjol dalam benchmark industri, menunjukkan perbaikan yang signifikan dibandingkan Inflection-1 pada benchmark MMLU dan GPQA Diamond, yang terkenal karena kesulitan ahli. Kinerja model pada benchmark ini menyoroti kemampuannya untuk menangani berbagai tugas, dari masalah sekolah menengah hingga tantangan profesional.

Unggul dalam Ujian STEM Kemampuan model ini meluas ke ujian STEM, dengan kinerja yang menonjol pada ujian matematika Hongaria dan GRE Fisika. Pada ujian matematika Hongaria, Inflection-2.5 menunjukkan kemampuan matematika dengan menggunakan prompt dan pemformatan few-shot yang disediakan, memungkinkan reproduksi yang mudah.

Dalam GRE Fisika, ujian penerimaan pascasarjana dalam fisika, Inflection-2.5 mencapai persentil ke-85 dari peserta ujian manusia di maj@8 (suara mayoritas pada 8), memperkuat posisinya sebagai pesaing yang tangguh dalam bidang pemecahan masalah fisika. Selain itu, model ini mendekati skor tertinggi di maj@32, menunjukkan kemampuannya untuk menangani masalah fisika yang kompleks dengan akurasi yang luar biasa.

Meningkatkan Pengalaman Pengguna Inflection-2.5 tidak hanya mempertahankan kepribadian dan standar keamanan Pi, tetapi juga meningkatkan statusnya sebagai AI pribadi yang serbaguna dan tak ternilai di berbagai topik. Dari membahas peristiwa terkini hingga mencari rekomendasi lokal, belajar untuk ujian, pengkodean, dan bahkan percakapan santai, Pi yang ditenagai oleh Inflection-2.5 menjanjikan pengalaman pengguna yang ditingkatkan.

Dengan kemampuan Inflection-2.5 yang kuat, pengguna berinteraksi dengan Pi pada berbagai topik yang lebih luas daripada sebelumnya. Kemampuan model untuk menangani tugas yang kompleks, dikombinasikan dengan kepribadian yang empatik dan kemampuan pencarian web waktu nyata, memastikan bahwa pengguna menerima informasi dan bimbingan yang berkualitas tinggi dan mutakhir.

Adopsi dan Keterlibatan Pengguna Dampak integrasi Inflection-2.5 ke dalam Pi sudah terlihat dalam sentimen pengguna, keterlibatan, dan metrik retensi. Inflection AI telah menyaksikan percepatan pertumbuhan pengguna organik yang signifikan, dengan satu juta pengguna aktif harian dan enam juta pengguna aktif bulanan yang bertukar lebih dari empat miliar pesan dengan Pi.

Rata-rata, percakapan dengan Pi berlangsung 33 menit, dengan satu dari sepuluh percakapan berlangsung lebih dari satu jam setiap hari. Selain itu, sekitar 60% orang yang berinteraksi dengan Pi dalam seminggu kembali pada minggu berikutnya, menunjukkan keterikatan bulanan yang lebih tinggi daripada pesaing utama di bidang ini.

Detail Teknis dan Transparansi Benchmark

Sejalan dengan komitmen Inflection AI terhadap transparansi dan reproducibility, perusahaan telah menyediakan hasil teknis yang komprehensif dan detail tentang kinerja Inflection-2.5 di berbagai benchmark industri.

Misalnya, pada versi yang diperbaiki dari dataset MT-Bench, yang menangani masalah dengan solusi referensi yang salah dan premis yang bermasalah dalam dataset asli, Inflection-2.5 menunjukkan kinerja yang sesuai dengan harapan berdasarkan benchmark lain.

Inflection AI juga telah mengevaluasi Inflection-2.5 pada HellaSwag dan ARC-C, benchmark kesadaran dan sains yang dilaporkan oleh berbagai model, dan hasilnya menunjukkan kinerja yang kuat pada benchmark ini.

Penting untuk dicatat bahwa sementara evaluasi yang disediakan mewakili model yang memungkinkan Pi, pengalaman pengguna mungkin berbeda sedikit karena faktor seperti dampak pengambilan web (tidak digunakan dalam benchmark), struktur few-shot prompting, dan perbedaan lainnya di sisi produksi.

Kesimpulan

Inflection-2.5 mewakili lompatan besar dalam bidang model bahasa besar, bersaing dengan kemampuan pemimpin industri seperti GPT-4 dan Gemini sambil menggunakan hanya sebagian kecil dari sumber daya komputasi. Dengan kinerjanya yang mengesankan di berbagai benchmark, terutama di bidang STEM, pengkodean, dan matematika, Inflection-2.5 telah memposisikan dirinya sebagai pesaing yang tangguh dalam lanskap AI.

Integrasi Inflection-2.5 ke dalam Pi, asisten AI pribadi Inflection AI, menjanjikan pengalaman pengguna yang ditingkatkan, menggabungkan kemampuan mentah dengan kepribadian yang empatik dan standar keamanan. Ketika Inflection AI terus mendorong batas apa yang mungkin dengan LLM, komunitas AI dengan sabar menantikan gelombang inovasi dan terobosan berikutnya dari perusahaan perintis ini.

Pendekatan visioner Inflection AI meluas melampaui pengembangan model saja, karena perusahaan mengakui pentingnya pra-pelatihan dan pelatihan halus dalam menciptakan pengalaman AI yang berkualitas tinggi, aman, dan bermanfaat. Sebagai studio AI yang terintegrasi secara vertikal, Inflection AI menangani seluruh proses secara internal, dari pengambilan data dan desain model hingga infrastruktur kinerja tinggi.

Related Topics:gemini GPT-4 Inflection AI Large Language Models PaLM personal AI assistant

Aayush Mittal

Saya telah menghabiskan lima tahun terakhir dengan membenamkan diri dalam dunia Machine Learning dan Deep Learning yang menarik. Minat dan keahlian saya telah membawa saya untuk berkontribusi pada lebih dari 50 proyek rekayasa perangkat lunak yang beragam, dengan fokus khusus pada AI/ML. Rasa ingin tahu saya yang terus-menerus juga telah menarik saya ke arah Natural Language Processing, sebuah bidang yang saya ingin jelajahi lebih lanjut.

Unite.AI

Inflection-2.5: The Powerhouse LLM Rivaling GPT-4 and Gemini

Inflection-2.5

Dominasi Benchmark Industri

Detail Teknis dan Transparansi Benchmark

Kesimpulan

You may like