AGI

Inflection-2.5: Kraftsentralen LLM som rivaliserer med GPT-4 og Gemini

Published March 14, 2024

Updated April 27, 2026

Aayush Mittal Mittal

Inflection AI har vært med på å skape bølger i feltet store språkmodeller (LLM) med deres nylige presentasjon av Inflection-2.5, en modell som konkurrerer med verdens ledende LLM, inkludert OpenAI’s GPT-4 og Google’s Gemini.

Inflection AI’s raske vekst har blitt ytterligere fremmet av en massiv $1,3 milliarder investeringsrunde, ledet av bransjegiganter som Microsoft, NVIDIA, og kjente investorer inkludert Reid Hoffman, Bill Gates og Eric Schmidt. Denne betydelige investeringen bringer det totale beløpet som er samlet inn av selskapet til $1,525 milliarder.

I samarbeid med partnere CoreWeave og NVIDIA, bygger Inflection AI verdens største AI-kluster, bestående av en utenkelig 22 000 NVIDIA H100 Tensor Core GPU-er. Denne kolossale beregningskraften vil støtte opplæring og distribusjon av en ny generasjon store skalamodeller, og muliggjøre at Inflection AI kan utvide grensene for hva som er mulig i feltet personlig AI.

Selskapets banebrytende arbeid har allerede gitt bemerkelsesverdige resultater, med Inflection AI-klustret, som for øyeblikket består av over 3 500 NVIDIA H100 Tensor Core GPU-er, som viser toppkvalitet på den åpne benchmarken MLPerf. I en felles innsending med CoreWeave og NVIDIA, fullførte klustret referanseplassen for store språkmodeller på bare 11 minutter, og befester sin posisjon som den raskeste klustren på denne benchmarken.

Dette er et resultat av presentasjonen av Inflection-1, Inflection AI’s egne store språkmodell (LLM), som har blitt rost som den beste modellen i sin beregningsklasse. Den overgår industrikjempene som GPT-3.5, LLaMA, Chinchilla og PaLM-540B på en rekke benchmark som vanligvis brukes til å sammenligne LLM, og Inflection-1 muliggjør at brukerne kan interagere med Pi, Inflection AI’s personlige AI, på en enkel og naturlig måte, og motta rask, relevant og nyttig informasjon og råd.

Inflection AI’s forpliktelse til åpenhet og reproduserbarhet er tydelig i utgivelsen av en teknisk memo som detaljerer evaluering og ytelse av Inflection-1 på ulike benchmark. Memoen avslører at Inflection-1 overgår modeller i samme beregningsklasse, definert som modeller som er trent med maksimalt FLOPs (flytende punkt operasjoner) som PaLM-540B.

Suksessen med Inflection-1 og den raske skalingen av selskapets beregningsinfrastruktur, drevet av den betydelige investeringsrunden, understreker Inflection AI’s urokkelige forpliktelse til å levere på sin misjon om å skape en personlig AI for alle. Med integreringen av Inflection-1 i Pi, kan brukerne nå oppleve kraften av en personlig AI, og dra nytte av dens empatisk personlighet, nytte og sikkerhetsstandarder.

Inflection-2.5

Inflection-2.5 er nå tilgjengelig for alle brukere av Pi, Inflection AI’s personlige AI-assistent, på flere plattformer, inkludert nett (pi.ai), iOS, Android og en ny desktop-app. Denne integreringen markerer en betydelig milepæl i Inflection AI’s misjon om å skape en personlig AI for alle, og kombinerer rå kapasitet med deres signatur empatisk personlighet og sikkerhetsstandarder.

Et sprang i ytelse Inflection AI’s forrige modell, Inflection-1, brukte omtrent 4 % av treningens FLOPs (flytende punkt operasjoner) av GPT-4 og viste en gjennomsnittlig ytelse på omtrent 72 % sammenlignet med GPT-4 på ulike IQ-orienterte oppgaver. Med Inflection-2.5 har Inflection AI oppnådd en betydelig forbedring av Pi’s intellektuelle evner, med fokus på kode og matematikk.

Modellens ytelse på nøkkelindustribenchmark viser dens dyktighet, og viser over 94 % av GPT-4’s gjennomsnittlige ytelse på ulike oppgaver, med særlig fokus på å utmerke seg i STEM-områder. Dette bemerkelsesverdige resultatet er et vitnesbyrd om Inflection AI’s forpliktelse til å drive teknologiens grenser samtidig som de opprettholder en urokkelig fokus på brukeropplevelse og sikkerhet.

Kode og matematisk dyktighet Inflection-2.5 skinner i kode og matematikk, og viser en forbedring på over 10 % sammenlignet med Inflection-1 på BIG-Bench-Hard, en undergruppe av utfordrende problemer for store språkmodeller. To kodebenchmark, MBPP+ og HumanEval+, viser massive forbedringer sammenlignet med Inflection-1, og befester Inflection-2.5’s posisjon som en kraft å regne med i kodeområdet.

På MBPP+-benchmark overgår Inflection-2.5 sin forgjenger med en betydelig margin, og viser en ytelse på et nivå som er sammenlignbart med GPT-4, som rapportert av DeepSeek Coder. Liksom på HumanEval+-benchmark viser Inflection-2.5 bemerkelsesverdige fremgang, og overgår Inflection-1’s ytelse og nærmer seg GPT-4’s nivå, som rapportert på EvalPlus-leaderboardet.

Industribenchmark-dominans

Inflection-2.5 utmerker seg på industribenchmark, og viser betydelige forbedringer sammenlignet med Inflection-1 på MMLU-benchmark og GPQA Diamond-benchmark, som er kjent for sin ekspertnivå-utfordring. Modellens ytelse på disse benchmarkene understreker dens evne til å håndtere en rekke oppgaver, fra high school-nivå til profesjonell nivå.

Utmerker seg i STEM-eksamener Modellens dyktighet strekker seg til STEM-eksamener, med utmerket ytelse på den ungarske matematikk-eksamen og Physics GRE. På den ungarske matematikk-eksamen viser Inflection-2.5 sin matematiske dyktighet ved å utnytte den gitt few-shot-prompten og formateringen, som muliggjør enkel reproduksjon.

På Physics GRE, en graduate-inngangs-eksamen i fysikk, når Inflection-2.5 85. percentil av menneskelige testkandidater i maj@8 (majoritetsstemme på 8), og befester sin posisjon som en formidabel motstander i fysikk-problem-løsning. Videre nærmer modellen toppscoren i maj@32, og viser dens evne til å håndtere komplekse fysikk-problemer med bemerkelsesverdig nøyaktighet.

Forbedrer brukeropplevelsen Inflection-2.5 opprettholder ikke bare Pi’s signatur personlighet og sikkerhetsstandarder, men eleverer også dens status som en mangfoldig og uvurderlig personlig AI på ulike emner. Fra å diskutere aktuelle hendelser til å søke lokale anbefalinger, studere for eksamener, kode og selv uformelle samtaler, lover Pi, drevet av Inflection-2.5, en beriket brukeropplevelse.

Med Inflection-2.5’s kraftfulle evner, engasjrer brukerne seg med Pi på en bredere rekke emner enn noensinne før. Modellens evne til å håndtere komplekse oppgaver, kombinert med dens empatisk personlighet og sanntids-nettsøk, sikrer at brukerne mottar høykvalitets-, oppdatert informasjon og veiledning.

Bruker-tilpasning og engasjement Effekten av Inflection-2.5’s integrering i Pi er allerede tydelig i bruker-sentiment, engasjement og gjennomstrømnings-målinger. Inflection AI har vært vitne til en betydelig akselerasjon i organisk bruker-vekst, med en million daglige og seks millioner månedlige aktive brukere som utveksler over fire milliarder meldinger med Pi.

I gjennomsnitt varer samtaler med Pi i 33 minutter, og en av ti varer over en time hver dag. Videre returnerer omtrent 60 % av personene som engasjerer seg med Pi i en gitt uke tilbake uken etter, og viser høyere månedlig stabilitet enn ledende konkurrenter i feltet.

Tekniske detaljer og benchmark-gjennomsiktighet

I tråd med Inflection AI’s forpliktelse til åpenhet og reproduserbarhet, har selskapet gitt ut omfattende tekniske resultater og detaljer om Inflection-2.5’s ytelse på ulike industribenchmark.

For eksempel viser Inflection-2.5 på den korrigerte versjonen av MT-Bench-datasettet, som adresseproblemer med feil referanseløsninger og feilpremisser i det originale datasettet, en ytelse i tråd med forventningene basert på andre benchmark.

Inflection AI har også evaluert Inflection-2.5 på HellaSwag og ARC-C, vanlige forstand og vitenskaps-benchmark rapportert av en rekke modeller, og resultater viser sterk ytelse på disse metriske benchmark.

Det er viktig å merke seg at mens evalueringene som er gitt representerer modellen som driver Pi, kan brukeropplevelsen variere noe på grunn av faktorer som effekten av nett-søk (ikke brukt i benchmark), strukturen av few-shot-prompt og andre produksjons-siden forskjeller.

Konklusjon

Inflection-2.5 representerer et betydelig sprang fremover i feltet store språkmodeller, og rivaliserer med kapasiteten til industrilederne som GPT-4 og Gemini, samtidig som den kun bruker en brøkdel av beregningsressursene. Med sin imponerende ytelse på en rekke benchmark, spesielt i STEM-områder, kode og matematikk, har Inflection-2.5 posisjonert seg som en formidabel motstander i AI-landskapet.

Integreringen av Inflection-2.5 i Pi, Inflection AI’s personlige AI-assistent, lover en beriket brukeropplevelse, og kombinerer rå kapasitet med deres signatur empatisk personlighet og sikkerhetsstandarder. Mens Inflection AI fortsetter å drive grensene for hva som er mulig med LLM, venter AI-samfunnet ivrig på den neste bølgen av innovasjoner og gjennombrudd fra dette banebrytende selskapet.

Inflection AI’s visjonære tilnærming strekker seg langt utenfor modellutvikling, da selskapet erkjenner viktigheten av pre-trening og fin-justering i å skape høykvalitets-, sikre og nyttige AI-erfaringer. Som en vertikalt integrert AI-studio, håndterer Inflection AI hele prosessen internt, fra data-inngang og modell-design til høy-ytelses-infrastruktur.

Related Topics:gemini GPT-4 Inflection AI Large Language Models PaLM personal AI assistant

Aayush Mittal

Jeg har brukt de siste fem årene til å dykke ned i den fasiniserende verden av Machine Learning og Deep Learning. Min lidenskap og ekspertise har ført meg til å bidra til over 50 forskjellige prosjekter innen programvareutvikling, med særlig fokus på AI/ML. Min pågående nysgjerrighet har også trukket meg mot Natural Language Processing, et felt jeg er ivrig etter å utforske videre.

Unite.AI

Inflection-2.5: Kraftsentralen LLM som rivaliserer med GPT-4 og Gemini

Inflection-2.5

Industribenchmark-dominans

Tekniske detaljer og benchmark-gjennomsiktighet

Konklusjon

You may like