AGI
Inflection-2.5: De krachtige LLM die GPT-4 en Gemini naar de kroon stoot
Inflection AI heeft golven gemaakt in het veld van grote taalmodellen (LLM’s) met hun recente onthulling van Inflection-2.5, een model dat concurreert met de wereldleiders in LLM’s, waaronder OpenAI’s GPT-4 en Google’s Gemini.
De snelle opkomst van Inflection AI is verder aangewakkerd door een massive $1,3 miljard financieringsronde, geleid door industrie-reuzen zoals Microsoft, NVIDIA, en bekende investeerders zoals Reid Hoffman, Bill Gates, en Eric Schmidt. Deze significante investering brengt het totale gefinancierde bedrag van het bedrijf tot $1,525 miljard.
In samenwerking met partners CoreWeave en NVIDIA, bouwt Inflection AI de grootste AI-cluster ter wereld, bestaande uit een ongekend 22.000 NVIDIA H100 Tensor Core GPU’s. Deze kolossale rekenkracht zal de training en implementatie van een nieuwe generatie grote schaal-AI-modellen ondersteunen, waardoor Inflection AI de grenzen van wat mogelijk is in het veld van persoonlijke AI kan verleggen.
Het baanbrekende werk van het bedrijf heeft al opmerkelijke resultaten opgeleverd, met het Inflection AI-cluster, dat momenteel bestaat uit meer dan 3.500 NVIDIA H100 Tensor Core GPU’s, state-of-the-art-prestaties op de open-source benchmark MLPerf. In een gezamenlijke inzending met CoreWeave en NVIDIA, voltooide het cluster de referentietrainingstaak voor grote taalmodellen in slechts 11 minuten, waarmee het zijn positie als het snelste cluster op deze benchmark versterkt.
Deze prestatie volgt op de onthulling van Inflection-1, Inflection AI’s in-house grote taalmodel (LLM), dat wordt beschouwd als het beste model in zijn compute-klasse. Inflection-1 overtreft industrie-reuzen zoals GPT-3.5, LLaMA, Chinchilla en PaLM-540B op een breed scala aan benchmarks die algemeen worden gebruikt voor het vergelijken van LLM’s, waardoor gebruikers kunnen communiceren met Pi, Inflection AI’s persoonlijke AI, op een eenvoudige en natuurlijke manier, en snelle, relevante en nuttige informatie en advies ontvangen.
Inflection AI’s toewijding aan transparantie en reproduceerbaarheid is duidelijk in de publicatie van een technisch memo met details over de evaluatie en prestaties van Inflection-1 op verschillende benchmarks. Het memo onthult dat Inflection-1 modellen in dezelfde compute-klasse overtreft, gedefinieerd als modellen getraind met maximaal de FLOPs (floating-point operaties) van PaLM-540B.
Het succes van Inflection-1 en de snelle schaalvergroting van de computing-infrastructuur van het bedrijf, aangewakkerd door de aanzienlijke financieringsronde, benadrukken Inflection AI’s onwankelbare toewijding aan het leveren op zijn missie om een persoonlijke AI voor iedereen te creëren. Met de integratie van Inflection-1 in Pi kunnen gebruikers nu de kracht van een persoonlijke AI ervaren, profiterend van zijn empathische persoonlijkheid, nuttigheid en veiligheidsnormen.
Inflection-2.5
Inflection-2.5 is nu beschikbaar voor alle gebruikers van Pi, Inflection AI’s persoonlijke AI-assistent, op meerdere platforms, waaronder het web (pi.ai), iOS, Android en een nieuwe desktop-app. Deze integratie markeert een belangrijke mijlpaal in Inflection AI’s missie om een persoonlijke AI voor iedereen te creëren, waarbij ruwe capaciteit wordt gecombineerd met hun handtekening-empathische persoonlijkheid en veiligheidsnormen.
Een sprong in prestaties Inflection AI’s vorige model, Inflection-1, maakte gebruik van ongeveer 4% van de trainings-FLOPs (floating-point operaties) van GPT-4 en vertoonde een gemiddelde prestatie van ongeveer 72% in vergelijking met GPT-4 op verschillende IQ-georiënteerde taken. Met Inflection-2.5 heeft Inflection AI een aanzienlijke boost in Pi’s intellectuele capaciteiten bereikt, met een focus op codering en wiskunde.
De prestaties van het model op belangrijke industrie-benchmarks demonstreren zijn kracht, met een prestatie van meer dan 94% van GPT-4’s gemiddelde prestatie op verschillende taken, met een bijzondere nadruk op uitmuntendheid in STEM-gebieden. Deze opmerkelijke prestatie is een getuigenis van Inflection AI’s toewijding aan het verleggen van de technologische grenzen, terwijl het een onwankelbare focus op gebruikerservaring en veiligheid behoudt.
Codering en wiskundige vaardigheid Inflection-2.5 blinkt uit in codering en wiskunde, met een verbetering van meer dan 10% ten opzichte van Inflection-1 op BIG-Bench-Hard, een subset van uitdagende problemen voor grote taalmodellen. Twee coderingsbenchmarks, MBPP+ en HumanEval+, onthullen aanzienlijke verbeteringen ten opzichte van Inflection-1, waardoor Inflection-2.5’s positie als een kracht om rekening mee te houden in de coderingsdomein wordt versterkt.
Op de MBPP+-benchmark overtreft Inflection-2.5 zijn voorganger met een aanzienlijk marginaal, met een prestatieniveau dat vergelijkbaar is met dat van GPT-4, zoals gerapporteerd door DeepSeek Coder. Evenzo toont Inflection-2.5 op de HumanEval+-benchmark opmerkelijke vooruitgang, waardoor het de prestatie van Inflection-1 overtreft en het niveau van GPT-4 benadert, zoals gerapporteerd op de EvalPlus-leaderboard.
Industrie-benchmark-dominantie
Inflection-2.5 onderscheidt zich in industrie-benchmarks, met aanzienlijke verbeteringen ten opzichte van Inflection-1 op de MMLU-benchmark en de GPQA Diamond-benchmark, die bekend staat om zijn expert-niveau moeilijkheid. De prestaties van het model op deze benchmarks onderstrepen zijn vermogen om een breed scala aan taken aan te pakken, van hoog school-niveau problemen tot professioneel-niveau uitdagingen.
Uitblinken in STEM-examens De prestaties van het model strekken zich uit tot STEM-examens, met opvallende prestaties op de Hongaarse wiskunde-examen en de Physics GRE. Op de Hongaarse wiskunde-examen toont Inflection-2.5 zijn wiskundige vaardigheid door het gebruik van de verstrekte few-shot prompt en formatting, waardoor het gemakkelijk reproduceerbaar is.
In de Physics GRE, een graduate-toelatingsexamen in natuurkunde, bereikt Inflection-2.5 het 85e percentiel van menselijke testkandidaten in maj@8 (meerderheidsstemming bij 8), waardoor het zijn positie als een formidabele tegenstander in het domein van natuurkunde-probleemoplossing versterkt. Bovendien benadert het model de top-score in maj@32, waardoor het zijn vermogen om complexe natuurkunde-problemen met opmerkelijke nauwkeurigheid aan te pakken, aantoont.
Gebruikerservaring verbeteren Inflection-2.5 handhaaft niet alleen Pi’s handtekening-persoonlijkheid en veiligheidsnormen, maar verheft ook zijn status als een veelzijdige en onmisbare persoonlijke AI op een breed scala aan onderwerpen. Van het bespreken van actuele gebeurtenissen tot het zoeken naar lokale aanbevelingen, studeren voor examens, coderen en zelfs informele gesprekken, Pi met Inflection-2.5 belooft een verrijkte gebruikerservaring.
Met Inflection-2.5’s krachtige capaciteiten communiceren gebruikers met Pi op een breder scala aan onderwerpen dan ooit tevoren. Het model’s vermogen om complexe taken aan te pakken, gecombineerd met zijn empathische persoonlijkheid en real-time webzoekmogelijkheden, garandeert dat gebruikers hoge-kwaliteit, up-to-date informatie en advies ontvangen.
Gebruikersadoptie en -betrokkenheid De impact van Inflection-2.5’s integratie in Pi is al zichtbaar in de gebruikerssentiment-, betrokkenheid- en retentie-metrieken. Inflection AI heeft een aanzienlijke versnelling van de organische gebruikersgroei gezien, met één miljoen dagelijkse en zes miljoen maandelijkse actieve gebruikers die meer dan vier miljard berichten met Pi uitwisselen.
Gemiddeld duren gesprekken met Pi 33 minuten, waarvan één op de tien langer dan een uur duurt. Bovendien keert ongeveer 60% van de mensen die in een bepaalde week met Pi communiceren, de volgende week terug, waardoor een hogere maandelijkse stickiness wordt bereikt dan bij leidende concurrenten in het veld.
Technische details en benchmark-transparantie
In overeenstemming met Inflection AI’s toewijding aan transparantie en reproduceerbaarheid, heeft het bedrijf uitgebreide technische resultaten en details over de prestaties van Inflection-2.5 op verschillende industrie-benchmarks verstrekt.
Bijvoorbeeld toont Inflection-2.5 op de gecorrigeerde versie van de MT-Bench-dataset, die problemen met onjuiste referentie-oplossingen en gebrekkige premissen in de oorspronkelijke dataset aanpakt, prestaties die in overeenstemming zijn met verwachtingen op basis van andere benchmarks.
Inflection AI heeft Inflection-2.5 ook geëvalueerd op HellaSwag en ARC-C, benchmarks voor gezond verstand en wetenschap die worden gerapporteerd door een breed scala aan modellen, en de resultaten tonen sterke prestaties op deze verzadigde benchmarks.
Het is belangrijk op te merken dat, terwijl de evaluaties die worden verstrekt de model vertegenwoordigen die Pi aandrijft, de gebruikerservaring enigszins kan variëren vanwege factoren zoals de impact van web-opzoekingen (niet gebruikt in de benchmarks), de structuur van few-shot prompting en andere productie-gerelateerde verschillen.
Conclusie
Inflection-2.5 vertegenwoordigt een significante stap voorwaarts in het veld van grote taalmodellen, waarbij het de capaciteiten van industrieleiders zoals GPT-4 en Gemini benadert, terwijl het slechts een fractie van de rekenbronnen gebruikt. Met zijn indrukwekkende prestaties op een breed scala aan benchmarks, met name in STEM-gebieden, codering en wiskunde, heeft Inflection-2.5 zichzelf gepositioneerd als een formidabele tegenstander in het AI-landschap.
De integratie van Inflection-2.5 in Pi, Inflection AI’s persoonlijke AI-assistent, belooft een verrijkte gebruikerservaring, waarbij ruwe capaciteit wordt gecombineerd met empathische persoonlijkheid en veiligheidsnormen. Terwijl Inflection AI de grenzen van wat mogelijk is met LLM’s blijft verleggen, verwacht de AI-gemeenschap met spanning de volgende golf van innovaties en doorbraken van dit baanbrekende bedrijf.














