Artificiell intelligens

Cerebras introducerar världens snabbaste AI-inferenslösning: 20x hastighet till en bråkdel av kostnaden

publicerade August 27, 2024

Antoine Tardif, VD och grundare av Unite.AI

Cerebras-system, en pionjär inom högpresterande AI-beräkningar, har introducerat en banbrytande lösning som kommer att revolutionera AI-inferens. Den 27 augusti 2024 tillkännagav företaget lanseringen av Cerebras Inference, den snabbaste AI-inferenstjänsten i världen. Med prestandamått som överskrider de för traditionella GPU-baserade system, levererar Cerebras Inference 20 gånger hastigheten till en bråkdel av kostnaden, vilket sätter ett nytt riktmärke inom AI-beräkningar.

Oöverträffad hastighet och kostnadseffektivitet

Cerebras Inference är designad för att leverera exceptionell prestanda över olika AI-modeller, särskilt i det snabbt utvecklande segmentet av stora språkmodeller (LLMs). Till exempel bearbetar den 1,800 3.1 tokens per sekund för Llama 8 450B-modellen och 3.1 tokens per sekund för Llama 70 20B-modellen. Denna prestanda är inte bara 10 gånger snabbare än den för NVIDIA GPU-baserade lösningar utan kommer också till en betydligt lägre kostnad. Cerebras erbjuder denna tjänst från bara 3.1 cent per miljon tokens för Llama 8 60B-modellen och 3.1 cent per miljon tokens för Llama 70 100B-modellen, vilket representerar en XNUMXx förbättring av pris-prestanda jämfört med befintliga GPU-baserade erbjudanden.

Bibehåll noggrannhet samtidigt som du tänjer på gränserna för hastighet

En av de mest imponerande aspekterna av Cerebras Inference är dess förmåga att upprätthålla toppmodern precision samtidigt som den levererar oöverträffad hastighet. Till skillnad från andra tillvägagångssätt som offrar precision för hastighet, stannar Cerebras lösning inom 16-bitars domänen under hela slutledningskörningen. Detta säkerställer att prestandavinsterna inte sker på bekostnad av kvaliteten på AI-modellutdata, en avgörande faktor för utvecklare fokuserade på precision.

Micah Hill-Smith, medgrundare och VD för artificiell analys, betonade betydelsen av denna prestation: "Cerebras levererar hastigheter en storleksordning snabbare än GPU-baserade lösningar för Metas Llama 3.1 8B och 70B AI-modeller. Vi mäter hastigheter över 1,800 3.1 output-tokens per sekund på Llama 8 446B och över 3.1 output-tokens per sekund på Llama 70 XNUMXB – ett nytt rekord i dessa riktmärken."

Den växande betydelsen av AI-inferens

AI slutledning är det snabbast växande segmentet av AI-beräkningar och står för cirka 40 % av den totala AI-hårdvarumarknaden. Tillkomsten av höghastighets AI-inferens, som den som erbjuds av Cerebras, är besläktad med introduktionen av bredbandsinternet – som låser upp nya möjligheter och förebådar en ny era för AI-applikationer. Med Cerebras Inference kan utvecklare nu bygga nästa generations AI-applikationer som kräver komplex prestanda i realtid, som AI-agenter och intelligenta system.

Andrew Ng, grundare av DeepLearning.AI, underströk vikten av snabbhet i AI-utveckling: "DeepLearning.AI har flera agentiska arbetsflöden som kräver att en LLM uppmanas upprepade gånger för att få ett resultat. Cerebras har byggt en imponerande snabb slutledningsförmåga som kommer att vara till stor hjälp för sådana arbetsbelastningar."

Brett branschstöd och strategiska partnerskap

Cerebras har fått starkt stöd från branschledare och har bildat strategiska partnerskap för att påskynda utvecklingen av AI-applikationer. Kim Branson, SVP för AI/ML på GlaxoSmithKline, en tidig Cerebras-kund, betonade den transformativa potentialen hos denna teknik: "Hastighet och skala förändrar allt."

Andra företag, som LiveKit, Bryderi, och Meter, har också uttryckt entusiasm för den inverkan som Cerebras Inference kommer att ha på deras verksamhet. Dessa företag utnyttjar kraften i Cerebras beräkningskapacitet för att skapa mer lyhörda, människoliknande AI-upplevelser, förbättra användarinteraktion i sökmotorer och förbättra nätverkshanteringssystem.

Cerebras inferens: nivåer och tillgänglighet

Cerebras Inference är tillgänglig i tre konkurrenskraftiga nivåer: Gratis, utvecklare och företag. Free Tier ger gratis API-åtkomst med generösa användningsgränser, vilket gör den tillgänglig för ett brett spektrum av användare. Developer Tier erbjuder ett flexibelt, serverlöst distributionsalternativ, med Llama 3.1-modeller prissatta till 10 cent och 60 cent per miljon tokens. Enterprise Tier vänder sig till organisationer med ihållande arbetsbelastning och erbjuder finjusterade modeller, anpassade servicenivåavtal och dedikerad support, med prissättning tillgänglig på begäran.

Powering Cerebras Inference: The Wafer Scale Engine 3 (WSE-3)

I hjärtat av Cerebras Inference är Cerebras CS-3-systemet, som drivs av den branschledande Wafer Scale Engine 3 (WSE-3). Denna AI-processor är oöverträffad i sin storlek och hastighet och erbjuder 7,000 100 gånger mer minnesbandbredd än NVIDIAs H3. WSE-XNUMX:s enorma skala gör att den kan hantera många samtidiga användare, vilket säkerställer höga hastigheter utan att kompromissa med prestanda. Den här arkitekturen gör att Cerebras kan kringgå de kompromisser som vanligtvis plågar GPU-baserade system, vilket ger klassens bästa prestanda för AI-arbetsbelastningar.

Sömlös integration och utvecklarvänligt API

Cerebras Inference är designad med utvecklare i åtanke. Den har ett API som är helt kompatibelt med OpenAI Chat Completions API, vilket möjliggör enkel migrering med minimala kodändringar. Detta utvecklarvänliga tillvägagångssätt säkerställer att integrationen av Cerebras Inference i befintliga arbetsflöden är så sömlös som möjligt, vilket möjliggör snabb implementering av högpresterande AI-applikationer.

Cerebras Systems: Driving Innovation Across Industries

Cerebras Systems är inte bara en ledare inom AI-datorer utan också en nyckelaktör inom olika branscher, inklusive sjukvård, energi, myndigheter, vetenskaplig datoranvändning och finansiella tjänster. Företagets lösningar har varit avgörande för att driva genombrott på institutioner som National Laboratories, Aleph Alpha, The Mayo Clinic och GlaxoSmithKline.

Genom att tillhandahålla oöverträffad hastighet, skalbarhet och noggrannhet gör Cerebras det möjligt för organisationer över dessa sektorer att ta itu med några av de mest utmanande problemen inom AI och vidare. Oavsett om det handlar om att påskynda läkemedelsupptäckten inom hälso- och sjukvården eller att förbättra beräkningskapaciteten inom vetenskaplig forskning, ligger Cerebras i framkant när det gäller att driva innovation.

Slutsats: En ny era för AI-inferens

Cerebras Systems sätter en ny standard för AI-inferens med lanseringen av Cerebras Inference. Genom att erbjuda 20 gånger snabbare hastighet än traditionella GPU-baserade system till en bråkdel av kostnaden, gör Cerebras inte bara AI mer tillgängligt utan banar också väg för nästa generations AI-applikationer. Med sin spetsteknologi, strategiska partnerskap och engagemang för innovation är Cerebras redo att leda AI-branschen in i en ny era av oöverträffad prestanda och skalbarhet.

För mer information om Cerebras Systems och för att prova Cerebras Inference, besök www.cerebras.ai.

Relaterade ämnen:Cerebras

Strax

Google släpper tre nya experimentella Gemini-modeller

Missa inte

AI Language Showdown: Jämför prestanda för C++, Python, Java och Rust

Antoine Tardif

Antoine är en visionär ledare och grundande partner till Unite.AI, driven av en orubblig passion för att forma och främja framtiden för AI och robotik. En serieentreprenör, han tror att AI kommer att vara lika störande för samhället som elektricitet, och fångas ofta på att tjata om potentialen hos störande teknologier och AGI.

Som en futurist, är han dedikerad till att utforska hur dessa innovationer kommer att forma vår värld. Dessutom är han grundare av Securities.io, en plattform fokuserad på att investera i banbrytande teknologier som omdefinierar framtiden och omformar hela sektorer.

Unite.AI