AGI
Inflection-2.5: La Potenza di LLM che Rivalizza con GPT-4 e Gemini
Inflection AI ha fatto scalpore nel campo dei large language models (LLM) con la recente presentazione di Inflection-2.5, un modello che compete con i migliori LLM del mondo, tra cui GPT-4 di OpenAI e Gemini di Google.
La rapida ascesa di Inflection AI è stata ulteriormente alimentata da un massiccio investimento di 1,3 miliardi di dollari, guidato da giganti del settore come Microsoft, NVIDIA e noti investitori tra cui Reid Hoffman, Bill Gates e Eric Schmidt. Questo significativo investimento porta il totale dei fondi raccolti dalla società a 1,525 miliardi di dollari.
In collaborazione con i partner CoreWeave e NVIDIA, Inflection AI sta costruendo il più grande cluster di intelligenza artificiale del mondo, composto da un senza precedenti 22.000 GPU NVIDIA H100 Tensor Core. Questa enorme potenza di calcolo supporterà l’addestramento e la distribuzione di una nuova generazione di modelli di intelligenza artificiale su larga scala, consentendo a Inflection AI di spingere i confini di ciò che è possibile nel campo dell’intelligenza artificiale personale.
Il lavoro innovativo della società ha già prodotto risultati notevoli, con il cluster Inflection AI, attualmente composto da oltre 3.500 GPU NVIDIA H100 Tensor Core, che consegna prestazioni all’avanguardia sul benchmark open-source MLPerf. In una presentazione congiunta con CoreWeave e NVIDIA, il cluster ha completato il compito di addestramento di riferimento per i large language models in soli 11 minuti, consolidando la sua posizione come il cluster più veloce su questo benchmark.
Questo risultato segue la presentazione di Inflection-1, il large language model (LLM) interno di Inflection AI, che è stato acclamato come il miglior modello nella sua classe di calcolo. Superando i giganti del settore come GPT-3.5, LLaMA, Chinchilla e PaLM-540B su una vasta gamma di benchmark comunemente utilizzati per confrontare i LLM, Inflection-1 consente agli utenti di interagire con Pi, l’intelligenza artificiale personale di Inflection AI, in modo semplice e naturale, ricevendo informazioni e consigli rapidi, rilevanti e utili.
L’impegno di Inflection AI per la trasparenza e la riproducibilità è evidente nella pubblicazione di una nota tecnica che dettaglia la valutazione e le prestazioni di Inflection-1 su vari benchmark. La nota rivela che Inflection-1 supera i modelli nella stessa classe di calcolo, definita come modelli addestrati utilizzando al massimo le FLOPs (operazioni a virgola mobile) di PaLM-540B.
Il successo di Inflection-1 e la rapida scalabilità dell’infrastruttura di calcolo della società, alimentata dal sostanziale investimento, evidenziano l’impegno incrollabile di Inflection AI nel consegnare la sua missione di creare un’intelligenza artificiale personale per tutti. Con l’integrazione di Inflection-1 in Pi, gli utenti possono ora sperimentare la potenza di un’intelligenza artificiale personale, beneficiando della sua personalità empatica, utilità e standard di sicurezza.
Inflection-2.5
Inflection-2.5 è ora disponibile per tutti gli utenti di Pi, l’intelligenza artificiale personale di Inflection AI, su più piattaforme, tra cui il web (pi.ai), iOS, Android e una nuova app desktop. Questa integrazione segna un importante traguardo nella missione di Inflection AI di creare un’intelligenza artificiale personale per tutti, combinando capacità grezza con la personalità empatica e gli standard di sicurezza firmati.
Un salto in avanti nelle prestazioni Il modello precedente di Inflection AI, Inflection-1, utilizzava circa il 4% delle FLOPs (operazioni a virgola mobile) di addestramento di GPT-4 e presentava una prestazione media del 72% rispetto a GPT-4 su vari compiti orientati all’intelligenza. Con Inflection-2.5, Inflection AI ha ottenuto un sostanziale aumento delle capacità intellettuali di Pi, con un focus su codifica e matematica.
Le prestazioni del modello su benchmark chiave dell’industria dimostrano la sua potenza, mostrando oltre il 94% della prestazione media di GPT-4 su vari compiti, con un particolare enfasi sull’eccellere nelle aree STEM. Questo risultato notevole è una testimonianza dell’impegno di Inflection AI nel spingere i confini tecnologici mantenendo un focus incrollabile sull’esperienza utente e sulla sicurezza.
Abilità in codifica e matematica Inflection-2.5 brilla in codifica e matematica, mostrando un miglioramento del 10% rispetto a Inflection-1 su BIG-Bench-Hard, un subset di problemi impegnativi per i large language models. Due benchmark di codifica, MBPP+ e HumanEval+, rivelano miglioramenti massicci rispetto a Inflection-1, consolidando la posizione di Inflection-2.5 come una forza da considerare nel dominio della codifica.
Sul benchmark MBPP+, Inflection-2.5 supera il suo predecessore di una larga misura, mostrando un livello di prestazione paragonabile a quello di GPT-4, come riportato da DeepSeek Coder. Allo stesso modo, sul benchmark HumanEval+, Inflection-2.5 dimostra un progresso notevole, superando la prestazione di Inflection-1 e avvicinandosi al livello di GPT-4, come riportato sulla classifica EvalPlus.
Dominio dei benchmark dell’industria
Inflection-2.5 si distingue nei benchmark dell’industria, mostrando miglioramenti sostanziali rispetto a Inflection-1 sul benchmark MMLU e sul benchmark GPQA Diamond, noto per la sua difficoltà a livello di esperti. Le prestazioni del modello su questi benchmark sottolineano la sua capacità di gestire una vasta gamma di compiti, dalle problematiche di livello scolastico a quelle di livello professionale.
Eccellenza negli esami STEM La potenza del modello si estende agli esami STEM, con prestazioni notevoli sull’esame di matematica ungherese e sul Physics GRE. Sull’esame di matematica ungherese, Inflection-2.5 dimostra la sua abilità matematica sfruttando il prompt e il formatting a pochi shot forniti, consentendo una facile riproducibilità.
Nel Physics GRE, un esame di ammissione alla laurea in fisica, Inflection-2.5 raggiunge l’85° percentile dei partecipanti umani in maj@8 (voto di maggioranza a 8), consolidando la sua posizione come un formidabile concorrente nel campo della risoluzione di problemi di fisica. Inoltre, il modello si avvicina al punteggio massimo in maj@32, mostrando la sua capacità di affrontare problemi di fisica complessi con notevole accuratezza.
Miglioramento dell’esperienza utente Inflection-2.5 non solo mantiene la personalità empatica e gli standard di sicurezza firmati di Pi, ma eleva il suo status come intelligenza artificiale personale versatile e inestimabile su una vasta gamma di argomenti. Dalla discussione degli eventi attuali alla ricerca di raccomandazioni locali, dallo studio per gli esami alla codifica e persino alle conversazioni informali, Pi alimentato da Inflection-2.5 promette un’esperienza utente arricchita.
Con le potenti capacità di Inflection-2.5, gli utenti interagiscono con Pi su una gamma più ampia di argomenti che mai. La capacità del modello di gestire compiti complessi, combinata con la sua personalità empatica e le capacità di ricerca web in tempo reale, garantisce che gli utenti ricevano informazioni e orientamenti di alta qualità e aggiornati.
Adozione e coinvolgimento degli utenti L’impatto dell’integrazione di Inflection-2.5 in Pi è già evidente nei metriche di sentiment, coinvolgimento e fidelizzazione degli utenti. Inflection AI ha assistito a un significativo aumento della crescita organica degli utenti, con un milione di utenti attivi giornalieri e sei milioni di utenti attivi mensili che scambiano oltre quattro miliardi di messaggi con Pi.
In media, le conversazioni con Pi durano 33 minuti, con una su dieci che dura oltre un’ora ogni giorno. Inoltre, circa il 60% delle persone che interagiscono con Pi in una settimana torna la settimana successiva, mostrando una maggiore fedeltà mensile rispetto ai principali concorrenti nel settore.
Dettagli tecnici e trasparenza dei benchmark
In linea con l’impegno di Inflection AI per la trasparenza e la riproducibilità, la società ha fornito risultati tecnici completi e dettagli sulle prestazioni di Inflection-2.5 su vari benchmark dell’industria.
Ad esempio, sulla versione corretta del dataset MT-Bench, che affronta problemi con soluzioni di riferimento errate e premesse difettose nel set di dati originale, Inflection-2.5 dimostra prestazioni in linea con le aspettative basate su altri benchmark.
Inflection AI ha anche valutato Inflection-2.5 su HellaSwag e ARC-C, benchmark di senso comune e scienza segnalati da una vasta gamma di modelli, e i risultati mostrano prestazioni solide su questi benchmark saturi.
È importante notare che mentre le valutazioni fornite rappresentano il modello che alimenta Pi, l’esperienza utente può variare leggermente a causa di fattori come l’impatto della ricerca web (non utilizzata nei benchmark), la struttura del prompt a pochi shot e altre differenze sul lato di produzione.
Conclusione
Inflection-2.5 rappresenta un significativo passo avanti nel campo dei large language models, rivaleggiando con le capacità dei leader del settore come GPT-4 e Gemini mentre utilizza solo una frazione delle risorse di calcolo. Con le sue impressionanti prestazioni su una vasta gamma di benchmark, in particolare nelle aree STEM, codifica e matematica, Inflection-2.5 si è posizionato come un formidabile concorrente nel panorama dell’intelligenza artificiale.
L’integrazione di Inflection-2.5 in Pi, l’intelligenza artificiale personale di Inflection AI, promette un’esperienza utente arricchita, combinando capacità grezza con personalità empatica e standard di sicurezza. Mentre Inflection AI continua a spingere i confini di ciò che è possibile con i LLM, la comunità dell’intelligenza artificiale attende con ansia la prossima ondata di innovazioni e scoperte da questa società pionieristica.














