AGI

Inflection-2.5: Tehokas LLM, joka haastaa GPT-4:n ja Geminin

Published March 14, 2024

Updated April 27, 2026

Aayush Mittal Mittal

Inflection AI on tehnyt aaltona suurten kielen mallien (LLM) alalla viimeaikaisella Inflection-2.5:n esittelyllä, joka kilpailee maailman johtavien LLM-mallien, kuten OpenAI:n GPT-4:n ja Google Gemini:n, kanssa.

Inflection AI:n nopea nousu on saanut lisävauhtia massiivisesta 1,3 miljardin dollarin rahoituskierroksesta, jota johtavat alan jätit, kuten Microsoft, NVIDIA, ja tunnetut sijoittajat, kuten Reid Hoffman, Bill Gates ja Eric Schmidt. Tämä merkittävä sijoitus nostaa yhtiön keräämän rahoituksen yhteensä 1,525 miljardiin dollariin.

Yhteistyössä kumppaneiden CoreWeaven ja NVIDIA:n kanssa Inflection AI rakentaa maailman suurimman tekoälyklusterin, joka koostuu ennennäkemättömästä 22 000 NVIDIA H100 Tensor Core GPU:sta. Tämä valtava laskentakapasiteetti tukee uuden sukupolven suurten tekoälymallien koulutusta ja käyttöönottoa, mahdollistaen Inflection AI:lle rajojen venyttämisen siinä, mitä on mahdollista henkilökohtaisen tekoälyn alalla.

Yhtiön uraauurtava työ on jo tuottanut merkittäviä tuloksia, ja Inflection AI -klusteri, joka koostuu tällä hetkellä yli 3 500 NVIDIA H100 Tensor Core GPU:sta, on saavuttanut huipputason suorituskyvyn avoimessa MLPerf-benchmarkissa. Yhteisessä julkaisussa CoreWeaven ja NVIDIA:n kanssa klusteri suoritti suurten kielen mallien viitekoulutustehtävän vain 11 minuutissa, vahvistaen asemansa nopeimpana klusterina tässä benchmarkissa.

Tämä saavutus seuraa Inflection-1:n julkaisua, Inflection AI:n sisäisen suuren kielen mallin, jota on kehuttu parhaaksi malliksi sen laskentaluokassa. Ylittäen alan jätit, kuten GPT-3.5, LLaMA, Chinchilla ja PaLM-540B, useilla yleisesti käytetyillä benchmarkeilla, joita käytetään LLM-mallien vertailuun, Inflection-1 mahdollistaa käyttäjien vuorovaikutuksen Pi:n, Inflection AI:n henkilökohtaisen tekoälyn, kanssa yksinkertaisella ja luonnollisella tavalla, saaden nopeaa, relevanttia ja hyödyllistä tietoa ja neuvontaa.

Inflection AI:n sitoutuminen avoimuuteen ja toistettavuuteen on nähtävissä teknisessä muistiossa, jossa on tarkasteltu Inflection-1:n arviointia ja suorituskykyä eri benchmarkeissa. Muistio paljastaa, että Inflection-1 ylittää malleja samassa laskentaluokassa, joka on määritelty malleina, jotka on koulutettu käyttäen enintään PaLM-540B:n laskentaoperaatioita (FLOPs).

Inflection-1:n menestys ja yhtiön laskentainfrastruktuurin nopea skaalaus, jota on edistänyt merkittävä rahoituskierros, korostavat Inflection AI:n sitoutumista toteuttamaan tehtäväänsä luoda henkilökohtainen tekoäly kaikille. Inflection-1:n integroiminen Pi:hen mahdollistaa käyttäjille nyt kokea henkilökohtaisen tekoälyn voiman, hyödyntäen sen myötätuntoista persoonallisuutta, hyödyllisyyttä ja turvallisuusstandardeja.

Inflection-2.5

Inflection-2.5 on nyt saatavilla kaikille Pi:n, Inflection AI:n henkilökohtaisen tekoälyn avustajan, käyttäjille useilla alustoilla, mukaan lukien web (pi.ai), iOS, Android ja uusi työpöytäsovellus. Tämä integrointi merkitsee merkittävää merkkipaalu Inflection AI:n tehtävässä luoda henkilökohtainen tekoäly kaikille, yhdistäen raakakapasiteetin yhtiön tunnusomaisiin myötätuntoisiin persoonallisuuteen ja turvallisuusstandardeihin.

Suorituskyvyn loikka Inflection AI:n edellinen malli, Inflection-1, käytti noin 4 % GPT-4:n koulutuslaskentaoperaatioista (FLOPs) ja osoitti keskimäärin noin 72 %:n suorituskyvyn GPT-4:ään verrattuna useissa älykkyyteen liittyvissä tehtävissä. Inflection-2.5:n myötä Inflection AI on saavuttanut merkittävän loikan Pi:n älyllisissä kyvyissä, keskittyen koodaukseen ja matematiikkaan.

Mallin suorituskyky avainalan benchmarkeissa osoittaa sen voimaa, esittäen yli 94 % GPT-4:n keskimääräisestä suorituskyvystä useissa tehtävissä, erityisesti STEM-aloilla. Tämä merkittävä saavutus on osoitus Inflection AI:n sitoutumisesta teknologisen eturintaman työntämiseen samalla, kun yhtiö pitää yllä vankkaa fokusoa käyttäjäkokemukseen ja turvallisuuteen.

Koodaus- ja matematiikkataito Inflection-2.5 loistaa koodauksessa ja matematiikassa, osoittaen yli 10 %:n parannuksen Inflection-1:een BIG-Bench-Hard-benchmarkissa, joka on osa haastavia ongelmia suurille kielen malleille. Kaksi koodausbenchmarkia, MBPP+ ja HumanEval+, osoittavat massiivisia parannuksia Inflection-1:een, vahvistaen Inflection-2.5:n asemaa koodausalueen voimana.

MBPP+-benchmarkissa Inflection-2.5 ylittää edeltäjänsä merkittävällä marginaalilla, osoittaen suorituskyvyn, joka on vertailukelpoinen GPT-4:n suorituskyvyn kanssa, kuten DeepSeek Coder on raportoinut. Vastaavasti HumanEval+-benchmarkissa Inflection-2.5 osoittaa merkittävää edistystä, ylittäen Inflection-1:n suorituskyvyn ja lähestyen GPT-4:n suorituskykyä, kuten EvalPlus-johtotaulu on raportoinut.

Teollisuusbenchmarkien hallinta

Inflection-2.5 erottuu teollisuusbenchmarkeissa, osoittaen merkittäviä parannuksia Inflection-1:een MMLU-benchmarkissa ja GPQA Diamond -benchmarkissa, joka on tunnettu asiantuntijatasoisesta haastavuudesta. Mallin suorituskyky näissä benchmarkeissa korostaa sen kykyä käsitellä laajaa valikoimaa tehtäviä, aina lukiolaisista haasteista ammattitason haasteisiin.

Menestys STEM-tentteissä Mallin voima ulottuu myös STEM-tentteihin, joissa se erottuu erityisesti unkarilaisessa matematiikkaolympialaisissa ja Physics GRE:ssa. Ungarlaisissa matematiikkaolympialaisissa Inflection-2.5 osoittaa matemaattista taituruuttaan hyödyntämällä annettua vähäshot-ohjelmaa ja muotoilua, mikä mahdollistaa helpon toistettavuuden.

Physics GRE:ssa, joka on valintakoe fysiikkaan, Inflection-2.5 saavuttaa 85. prosenttipaikan ihmiskokeilijoiden joukossa maj@8 (enemmistöääni 8), vahvistaen asemansa vahvana kilpailijana fysiikan ongelmanratkaisun alalla. Lisäksi malli lähestyy huipputulosta maj@32:ssa, osoittaen kykynsä ratkaista monimutkaisia fysiikan ongelmia merkittävällä tarkkuudella.

Käyttäjäkokemuksen parantaminen Inflection-2.5 ei ainoastaan ylläpidä Pi:n tunnusomaisia persoonallisuutta ja turvallisuusstandardeja, vaan korostaa sen asemaa monipuolisena ja arvokkaana henkilökohtaisena tekoälyna eri aiheiden parissa. Aina ajankohtaisten asioiden keskustelusta paikallisiin suosituksiin, tutkimukseen, koodaukseen ja jopa rennoihin keskusteluihin, Pi Inflection-2.5:n voimalla lupailee rikastuneen käyttäjäkokemuksen.

Inflection-2.5:n voimakkaat kyvyt ovat jo vaikuttaneet käyttäjien kanssa vuorovaikuttamiseen laajemmalla aihealueella kuin koskaan aiemmin. Mallin kyky käsitellä monimutkaisia tehtäviä, yhdistettynä myötätuntoiseen persoonallisuuteen ja reaaliaikaisiin verkkohakuihin, takaa, että käyttäjät saavat laadukasta, ajanmukaista tietoa ja ohjausta.

Käyttäjien omaksuminen ja sitoutuminen Inflection-2.5:n integroimisen vaikutus Pi:hen on jo nähtävissä käyttäjien mielipiteissä, sitoutumisessa ja pidättämisessä. Inflection AI on todennut merkittävän kiihtymisen orgaanisessa käyttäjäkasvussa, jossa yli miljoona päivittäistä ja kuusi miljoonaa kuukausittaista käyttäjää vaihtaa yli neljä miljardia viestiä Pi:n kanssa.

Keskimäärin keskustelut Pi:n kanssa kestävät 33 minuuttia, ja yksi kymmenestä kestää yli tunnin joka päivä. Lisäksi noin 60 % ihmisistä, jotka vuorovaikuttavat Pi:n kanssa tietyssä viikossa, palaavat seuraavassa viikossa, osoittaen korkeamman kuukausittaisen pidättävyyden kuin alan johtavat kilpailijat.

Tekniset yksityiskohdat ja benchmarkin avoimuus

Inflection AI:n sitoutumisena avoimuuteen ja toistettavuuteen yhtiö on tarjonnut kattavat tekniset tulokset ja yksityiskohdat Inflection-2.5:n suorituskyvystä useissa teollisuusbenchmarkeissa.

Esimerkiksi oikaistussa MT-Bench-tietojoukossa, joka osoittaa virheelliset viiteohjelmistot ja vialliset oletukset alkuperäisessä tietojoukossa, Inflection-2.5 osoittaa suorituskykyä, joka on linjassa odotusten kanssa muiden benchmarkien perusteella.

Inflection AI on myös arvioinut Inflection-2.5:ää HellaSwag- ja ARC-C-benchmarkeissa, joissa on yleisesti raportoitu ymmärrystä ja tieteellistä osaamista useiden mallien osalta, ja tulokset osoittavat vahvaa suorituskykyä näillä täyttämismittareilla.

On tärkeää huomata, että vaikka arviot edustavat mallia, joka mahdollistaa Pi:n, käyttäjäkokemus voi vaihdella hieman tekijöiden, kuten verkkohakujen (joita ei käytetä benchmarkeissa), vähäshot-ohjelmoinnin rakenteen ja muiden tuotantopuolen erojen vuoksi.

Johtopäätös

Inflection-2.5 edustaa merkittävää loikkaa suurten kielen mallien alalla, kilpaillen alan johtavien, kuten GPT-4:n ja Geminin, kykyjä, käyttäen vain murto-osan laskentaresursseista. Sen vaikuttavalla suorituskyvyllä laajalla valikoimalla benchmarkeja, erityisesti STEM-aloilla, koodauksessa ja matematiikassa, Inflection-2.5 on asettanut itsensä vahvaksi kilpailijaksi tekoälymaisemassa.

Inflection-2.5:n integrointi Pi:hen, Inflection AI:n henkilökohtaiseen tekoälyavustajaan, lupailee rikastuneen käyttäjäkokemuksen, yhdistäen raakakapasiteetin yhtiön tunnusomaisiin myötätuntoisiin persoonallisuuteen ja turvallisuusstandardeihin. Kun Inflection AI jatkaa tekoälymallien kehittämistä, tekoälyyhteisö odottaa innostuneena seuraavaa aaltoa innovaatioita ja läpimurtoja tästä uraauurtavasta yhtiöstä.

Inflection AI:n visionäärisellä lähestymistavalla on laajempi näkemys kuin pelkän mallikehitys, sillä yhtiö tunnustaa esikoulutuksen ja hienosäätelyn merkityksen luotaessa laadukkaita, turvallisia ja hyödyllisiä tekoälykokemuksia. Toimien pystyvälinen tekoälystudio, Inflection AI hoitaa koko prosessin sisäisesti, aina datan syötöstä ja mallin suunnittelusta korkean suorituskyvyn infrastruktuuriin.

Related Topics:gemini GPT-4 Inflection AI Large Language Models PaLM personal AI assistant

Aayush Mittal

Olen viettänyt viimeiset viisi vuotta uppoutumassa kiinnostavaan koneoppimisen ja syväoppimisen maailmaan. Intohimoni ja asiantuntemukseni ovat johtaneet minun osallistumiseen yli 50:een monipuoliseen ohjelmistosuunnitteluhankkeeseen, joissa on erityisesti painottunut tekoäly/ML. Jatkuva uteliaisuuteni on myös ohjannut minua kohti luonnollisen kielen prosessointia, alaa jota haluan tutkia tarkemmin.

Unite.AI

Inflection-2.5: Tehokas LLM, joka haastaa GPT-4:n ja Geminin

Inflection-2.5

Teollisuusbenchmarkien hallinta

Tekniset yksityiskohdat ja benchmarkin avoimuus

Johtopäätös

You may like