Kunstmatige intelligentie

Cerebras Introduceert ‘s Werelds Snelste AI-inferentieoplossing: 20x Snelheid voor een Fractie van de Kosten

mm

Cerebras Systems, een pionier in high-performance AI-computing, heeft een baanbrekende oplossing geïntroduceerd die de AI-inferentie gaat revolutioneren. Op 27 augustus 2024 kondigde het bedrijf de lancering aan van Cerebras Inference, de snelste AI-inferentiedienst ter wereld. Met prestatieparameters die ver boven die van traditionele GPU-gebaseerde systemen uitstijgen, levert Cerebras Inference 20 keer de snelheid voor een fractie van de kosten, waarmee een nieuwe benchmark in AI-computing wordt gezet.

Ongekende Snelheid en Kostenefficiëntie

Cerebras Inference is ontworpen om uitzonderlijke prestaties te leveren voor verschillende AI-modellen, met name in het snel evoluerende segment van grote taalmodellen (LLM’s). Zo verwerkt het 1.800 tokens per seconde voor het Llama 3.1 8B-model en 450 tokens per seconde voor het Llama 3.1 70B-model. Deze prestaties zijn niet alleen 20 keer sneller dan die van NVIDIA GPU-gebaseerde oplossingen, maar komen ook voor een aanzienlijk lagere kostprijs. Cerebras biedt deze dienst aan vanaf slechts 10 cent per miljoen tokens voor het Llama 3.1 8B-model en 60 cent per miljoen tokens voor het Llama 3.1 70B-model, wat een verbetering van 100 keer in prijs-prestatie betekent ten opzichte van bestaande GPU-gebaseerde aanbiedingen.

Accuraatheid Behouden bij het Verleggen van de Grenzen van Snelheid

Een van de meest indrukwekkende aspecten van Cerebras Inference is de mogelijkheid om state-of-the-art-accuraatheid te behouden bij het leveren van ongeëvenaarde snelheid. In tegenstelling tot andere benaderingen die precisie opofferen voor snelheid, blijft Cerebras’ oplossing binnen het 16-bitsdomein voor de gehele inferentie. Dit zorgt ervoor dat de prestatieverbeteringen niet ten koste gaan van de kwaliteit van de AI-modeluitvoer, een cruciale factor voor ontwikkelaars die zich richten op precisie.

Micah Hill-Smith, medeoprichter en CEO van Artificial Analysis, benadrukte het belang van deze prestatie: “Cerebras levert snelheden die een orde van magnitude sneller zijn dan GPU-gebaseerde oplossingen voor Meta’s Llama 3.1 8B- en 70B-AI-modellen. We meten snelheden boven de 1.800 uitvoertokens per seconde op Llama 3.1 8B en boven de 446 uitvoertokens per seconde op Llama 3.1 70B – een nieuw record in deze benchmarks.”

De Groeiende Belangstelling voor AI-inferentie

AI-inferentie is het snelst groeiende segment van AI-computing, dat ongeveer 40% van de totale AI-hardwaremarkt vertegenwoordigt. De introductie van hoge-snelheids AI-inferentie, zoals die door Cerebras wordt aangeboden, is vergelijkbaar met de introductie van breedbandinternet – het ontgrendelt nieuwe kansen en markeert een nieuwe era voor AI-toepassingen. Met Cerebras Inference kunnen ontwikkelaars nu next-generation AI-toepassingen bouwen die complexe, real-time-prestaties vereisen, zoals AI-agents en intelligente systemen.

Andrew Ng, oprichter van DeepLearning.AI, benadrukte het belang van snelheid in AI-ontwikkeling: “DeepLearning.AI heeft meerdere agentic workflows die herhaaldelijk een LLM moeten aanspreken om een resultaat te krijgen. Cerebras heeft een indrukwekkend snelle inferentiecapaciteit gebouwd die zeer nuttig zal zijn voor dergelijke workloads.

Brede Industriële Ondersteuning en Strategische Partnerschappen

Cerebras heeft sterke steun ontvangen van industrieleiders en heeft strategische partnerschappen gevormd om de ontwikkeling van AI-toepassingen te versnellen. Kim Branson, SVP van AI/ML bij GlaxoSmithKline, een vroege Cerebras-klant, benadrukte het transformatieve potentieel van deze technologie: “Snelheid en schaal veranderen alles.”

Andere bedrijven, zoals LiveKit, Perplexity en Meter, hebben ook hun enthousiasme uitgesproken voor de impact die Cerebras Inference zal hebben op hun operaties. Deze bedrijven maken gebruik van de kracht van Cerebras’ compute-mogelijkheden om meer responsieve, mensachtige AI-ervaringen te creëren, gebruikersinteractie in zoekmachines te verbeteren en netwerkbeheersystemen te verbeteren.

Cerebras Inference: Tiers en Toegankelijkheid

Cerebras Inference is beschikbaar in drie concurrerend geprijsde tiers: Free, Developer en Enterprise. De Free Tier biedt gratis API-toegang met royale gebruiksbeperkingen, waardoor het toegankelijk is voor een breed scala aan gebruikers. De Developer Tier biedt een flexibele, serverloze implementatieoptie, met Llama 3.1-modellen geprijsd bij 10 cent en 60 cent per miljoen tokens. De Enterprise Tier is gericht op organisaties met duurzame workloads, met afgestemde modellen, aangepaste serviceovereenkomsten en toegewijd ondersteuning, met prijzen beschikbaar op aanvraag.

De Wafer Scale Engine 3 (WSE-3) als Aandrijving voor Cerebras Inference

Aan de basis van Cerebras Inference ligt het Cerebras CS-3-systeem, aangedreven door de industrieleidende Wafer Scale Engine 3 (WSE-3). Deze AI-processor is ongeëvenaard in grootte en snelheid, met 7.000 keer meer geheugencapaciteit dan NVIDIA’s H100. De WSE-3’s enorme schaal stelt het in staat om veel gelijktijdige gebruikers aan te kunnen, waardoor het ongeëvenaarde snelheden kan bereiken zonder in te boeten aan prestaties. Deze architectuur stelt Cerebras in staat om de compromissen die typisch bij GPU-gebaseerde systemen optreden, te omzeilen, waardoor het de beste prestaties voor AI-workloads kan bieden.

Naadloze Integratie en Ontwikkelaarvriendelijke API

Cerebras Inference is ontworpen met ontwikkelaars in gedachten. Het heeft een API die volledig compatibel is met de OpenAI Chat Completions API, waardoor een eenvoudige migratie met minimale codeveranderingen mogelijk is. Deze ontwikkelaarvriendelijke benadering zorgt ervoor dat de integratie van Cerebras Inference in bestaande workflows zo naadloos mogelijk is, waardoor een snelle implementatie van high-performance AI-toepassingen mogelijk wordt.

Cerebras Systems: Innovatie Drijven in Verschillende Industrieën

Cerebras Systems is niet alleen een leider in AI-computing, maar ook een belangrijke speler in verschillende industrieën, waaronder gezondheidszorg, energie, overheid, wetenschappelijk onderzoek en financiële dienstverlening. De oplossingen van het bedrijf hebben een belangrijke bijdrage geleverd aan doorbraken bij instellingen als de National Laboratories, Aleph Alpha, The Mayo Clinic en GlaxoSmithKline.

Door ongeëvenaarde snelheid, schaalbaarheid en accuraatheid te bieden, stelt Cerebras organisaties in staat om enkele van de meest uitdagende problemen in AI en daarbuiten aan te pakken. Of het nu gaat om het versnellen van geneesmiddelenontdekking in de gezondheidszorg of het verbeteren van computercapaciteiten in wetenschappelijk onderzoek, Cerebras staat aan de vooravond van innovatie.

Conclusie: Een Nieuwe Era voor AI-inferentie

Cerebras Systems zet een nieuwe standaard voor AI-inferentie met de lancering van Cerebras Inference. Door 20 keer de snelheid van traditionele GPU-gebaseerde systemen te bieden voor een fractie van de kosten, maakt Cerebras niet alleen AI meer toegankelijk, maar baant het ook de weg voor de volgende generatie AI-toepassingen. Met zijn cutting-edge-technologie, strategische partnerschappen en toewijding aan innovatie, is Cerebras goed gepositioneerd om de AI-industrie te leiden naar een nieuwe era van ongekende prestaties en schaalbaarheid.

Voor meer informatie over Cerebras Systems en om Cerebras Inference uit te proberen, bezoek www.cerebras.ai.

Antoine is een visionaire leider en oprichtend partner van Unite.AI, gedreven door een onwankelbare passie voor het vormgeven en promoten van de toekomst van AI en robotica. Een seriële ondernemer, hij gelooft dat AI net zo disruptief voor de samenleving zal zijn als elektriciteit, en wordt vaak betrapt op het enthousiast praten over het potentieel van disruptieve technologieën en AGI. Als een futurist, is hij toegewijd aan het onderzoeken van hoe deze innovaties onze wereld zullen vormgeven. Bovendien is hij de oprichter van Securities.io, een platform dat zich richt op investeren in cutting-edge technologieën die de toekomst opnieuw definiëren en hele sectoren herschappen.