Kunstig intelligens

Cerebras Introducerer Verdens Hurtigste AI-Inferensløsning: 20 Gange Hurtigere Til En Brøkdel Af Omkostningerne

mm

Cerebras Systems, en pioner inden for high-performance AI-computering, har introduceret en banebrydende løsning, der er klar til at revolutionere AI-inferens. Den 27. august 2024 annoncerede virksomheden lanceringen af Cerebras Inference, verdens hurtigste AI-inferensservice. Med ydelsestall, der overgår dem fra traditionelle GPU-baserede systemer, leverer Cerebras Inference 20 gange hurtigere til en brøkdel af omkostningerne, og sætter dermed en ny standard for AI-computering.

Ubegrænset Hastighed Og Omkostningseffektivitet

Cerebras Inference er designet til at levere enestående ydelse på tværs af forskellige AI-modeller, særligt i det hurtigt udviklende segment af store sprogmodeller (LLM’er). For eksempel behandler den 1.800 tokens per sekund for Llama 3.1 8B-modellen og 450 tokens per sekund for Llama 3.1 70B-modellen. Denne ydelse er ikke kun 20 gange hurtigere end NVIDIA GPU-baserede løsninger, men kommer også til en betydeligt lavere omkostning. Cerebras tilbyder denne service fra kun 10 cent per million tokens for Llama 3.1 8B-modellen og 60 cent per million tokens for Llama 3.1 70B-modellen, hvilket repræsenterer en 100-gange forbedring af pris-ydelse i forhold til eksisterende GPU-baserede tilbud.

Vedligeholdelse Af Nøjagtighed Samtidig Med At Udvide Grænserne For Hastighed

En af de mest imponerende aspekter af Cerebras Inference er dens evne til at vedligeholde state-of-the-art-nøjagtighed samtidig med, at den leverer ubesvaret hastighed. I modsætning til andre tilgange, der ofrer præcision for hastighed, forbliver Cerebras’ løsning inden for 16-bit-domænet for hele inferensløbet. Dette sikrer, at ydelsesforbedringerne ikke kommer på bekostning af kvaliteten af AI-modellens output, en afgørende faktor for udviklere fokuseret på præcision.
Micah Hill-Smith, medstifter og administrerende direktør for Artificial Analysis, fremhævede betydningen af denne præstation: “Cerebras leverer hastigheder, der er en størrelsesorden hurtigere end GPU-baserede løsninger for Meta’s Llama 3.1 8B og 70B AI-modeller. Vi måler hastigheder over 1.800 output-tokens per sekund på Llama 3.1 8B og over 446 output-tokens per sekund på Llama 3.1 70B – en ny rekord i disse benchmarks.

Den Voksende Betydning Af AI-Inferens

AI-inferens er det hurtigst voksende segment af AI-computering, der står for omkring 40% af det samlede AI-hardwaremarked. Introduktionen af højhastigheds AI-inferens, som den tilbydes af Cerebras, ligner introduktionen af bredbåndsinternet – åbner nye muligheder og markerer en ny æra for AI-anvendelser. Med Cerebras Inference kan udviklere nu bygge næste generations AI-anvendelser, der kræver komplekse, realtidspræstationer, såsom AI-agenter og intelligente systemer.
Andrew Ng, grundlægger af DeepLearning.AI, understregede betydningen af hastighed i AI-udvikling: “DeepLearning.AI har multiple agente-arbejdsgange, der kræver gentagen promptning af en LLM for at få et resultat. Cerebras har bygget en imponerende hurtig inferenskapacitet, der vil være meget nyttig for sådanne arbejdsgange.

Bred Industriel Støtte Og Strategiske Partnerskaber

Cerebras har opnået stærk støtte fra industriledere og har dannet strategiske partnerskaber for at accelerere udviklingen af AI-anvendelser. Kim Branson, SVP of AI/ML at GlaxoSmithKline, en tidlig Cerebras-kunde, fremhævede den transformative potentiale for denne teknologi: Hastighed og skala ændrer alt.
Andre virksomheder, såsom LiveKit, Perplexity og Meter, har også udtrykt begejstring for den indvirkning, som Cerebras Inference vil have på deres drift. Disse virksomheder udnytter kraften af Cerebras’ compute-kapaciteter til at skabe mere responsiv, menneske-lignende AI-oplevelser, forbedre brugerinteraktion i søgemaskiner og forbedre netværksstyringssystemer.

Cerebras Inference: Niveauer Og Tilgængelighed

Cerebras Inference er tilgængelig på tre konkurrencedygtige priser: Gratis, Udvikler og Enterprise. Gratis-niveauet giver gratis API-adgang med generøse brugsgrænser, hvilket gør det tilgængeligt for en bred vifte af brugere. Udvikler-niveauet tilbyder en fleksibel, serverless-installationsmulighed, hvor Llama 3.1-modellerne er prissat til 10 cent og 60 cent per million tokens. Enterprise-niveauet henvender sig til organisationer med vedvarende arbejdsmængder og tilbyder finjusterede modeller, brugerdefinerede service niveau-aftaler og dedikeret support, med priser til rådighed efter anmodning.

Powering Cerebras Inference: Wafer Scale Engine 3 (WSE-3)

I hjertet af Cerebras Inference ligger Cerebras CS-3-systemet, drevet af den brancheførende Wafer Scale Engine 3 (WSE-3). Denne AI-processor er ubesvaret i størrelse og hastighed og tilbyder 7.000 gange mere hukommelsesbåndbredde end NVIDIA’s H100. WSE-3’s massive skala muliggør, at den kan håndtere mange samtidige brugere, hvilket sikrer en ubesvaret hastighed uden at gå på kompromis med ydelsen. Denne arkitektur tillader Cerebras at undgå de kompromiser, der normalt plager GPU-baserede systemer, og tilbyder en verdensklasse-ydelse til AI-arbejdsmængder.

Ubemærket Integration Og Udvikler-Venlig API

Cerebras Inference er designet med udviklere i mente. Den har en API, der er fuldt kompatibel med OpenAI Chat Completions API, hvilket muliggør en let migration med minimale kodeændringer. Denne udvikler-venlige tilgang sikrer, at integrationen af Cerebras Inference i eksisterende arbejdsgange er så ubemærket som muligt, hvilket muliggør en hurtig udvikling af high-performance AI-anvendelser.

Cerebras Systems: Driver Innovation På Tværs Af Brancher

Cerebras Systems er ikke kun en leder inden for AI-computering, men også en nøgleaktør på tværs af forskellige brancher, herunder sundhedsvesen, energi, regering, videnskabelig computering og finansielle tjenester. Virksomhedens løsninger har været afgørende for at drive gennembrud på institutioner som National Laboratories, Aleph Alpha, The Mayo Clinic og GlaxoSmithKline.
Ved at tilbyde en ubesvaret hastighed, skala og nøjagtighed muliggør Cerebras, at organisationer på tværs af disse sektorer kan tackle nogle af de mest udfordrende problemer inden for AI og ud over.

Konklusion: En Ny Æra For AI-Inferens

Cerebras Systems sætter en ny standard for AI-inferens med lanceringen af Cerebras Inference. Ved at tilbyde 20 gange hurtigere end traditionelle GPU-baserede systemer til en brøkdel af omkostningerne er Cerebras ikke kun mere tilgængeligt, men baner også vejen for den næste generation af AI-anvendelser. Med sin banebrydende teknologi, strategiske partnerskaber og engagement for innovation er Cerebras parat til at lede AI-industrien ind i en ny æra med en ubesvaret ydelse og skala.
For mere information om Cerebras Systems og for at prøve Cerebras Inference, besøg www.cerebras.ai.

Antoine er en visionær leder og medstifter af Unite.AI, drevet af en urokkelig passion for at forme og fremme fremtiden for AI og robotteknologi. En serieiværksætter, han tror, at AI vil være lige så omvæltende for samfundet som elektricitet, og bliver ofte fanget i at tale begejstret om potentialet for omvæltende teknologier og AGI.

Som en futurist, er han dedikeret til at udforske, hvordan disse innovationer vil forme vores verden. Derudover er han grundlægger af Securities.io, en platform, der fokuserer på at investere i skærende teknologier, der gendefinerer fremtiden og omformer hele sektorer.