Connect with us

Kecerdasan buatan

Cerebras Memperkenalkan Solusi Inferensi AI Tercepat di Dunia: 20x Kecepatan dengan Biaya yang Jauh Lebih Rendah

mm

Cerebras Systems, pelopor dalam komputasi AI berkinerja tinggi, telah memperkenalkan solusi revolusioner yang akan mengubah inferensi AI. Pada tanggal 27 Agustus 2024, perusahaan tersebut mengumumkan peluncuran Cerebras Inference, layanan inferensi AI tercepat di dunia. Dengan metrik kinerja yang jauh melampaui sistem berbasis GPU tradisional, Cerebras Inference menawarkan 20 kali kecepatan dengan biaya yang jauh lebih rendah, menetapkan standar baru dalam komputasi AI.

Kecepatan dan Efisiensi Biaya yang Tidak Terbayangkan

Cerebras Inference dirancang untuk memberikan kinerja luar biasa di berbagai model AI, terutama di segmen model bahasa besar (LLM) yang berkembang pesat. Misalnya, ia memproses 1.800 token per detik untuk model Llama 3.1 8B dan 450 token per detik untuk model Llama 3.1 70B. Kinerja ini tidak hanya 20 kali lebih cepat daripada solusi berbasis GPU NVIDIA, tetapi juga datang dengan biaya yang jauh lebih rendah. Cerebras menawarkan layanan ini mulai dari 10 sen per juta token untuk model Llama 3.1 8B dan 60 sen per juta token untuk model Llama 3.1 70B, mewakili perbaikan 100x dalam harga-kinerja dibandingkan dengan penawaran berbasis GPU yang ada.

Mempertahankan Akurasi Sambil Mendorong Batas Kecepatan

Salah satu aspek paling mengesankan dari Cerebras Inference adalah kemampuannya untuk mempertahankan akurasi kelas dunia sambil memberikan kecepatan yang tidak tertandingi. Tidak seperti pendekatan lain yang mengorbankan presisi untuk kecepatan, solusi Cerebras tetap dalam domain 16-bit untuk seluruh proses inferensi. Ini memastikan bahwa kenaikan kinerja tidak datang dengan biaya kualitas output model AI, faktor kritis untuk pengembang yang fokus pada presisi.
Micah Hill-Smith, Co-Founder dan CEO dari Artificial Analysis, menyoroti pentingnya prestasi ini: “Cerebras memberikan kecepatan yang satu tingkat lebih cepat daripada solusi berbasis GPU untuk model AI Llama 3.1 8B dan 70B dari Meta. Kami mengukur kecepatan di atas 1.800 token output per detik pada Llama 3.1 8B, dan di atas 446 token output per detik pada Llama 3.1 70B – rekor baru dalam benchmark ini.”

Pentingnya Inferensi AI yang Berkembang

Inferensi AI adalah segmen tercepat berkembang dalam komputasi AI, menyumbang sekitar 40% dari total pasar perangkat keras AI. Kedatangan inferensi AI berkecepatan tinggi, seperti yang ditawarkan oleh Cerebras, mirip dengan pengenalan internet berkecepatan tinggi—membuka peluang baru dan menandai era baru untuk aplikasi AI. Dengan Cerebras Inference, pengembang sekarang dapat membangun aplikasi AI generasi berikutnya yang memerlukan kinerja kompleks dan waktu nyata, seperti agen AI dan sistem cerdas.
Andrew Ng, Pendiri DeepLearning.AI, menekankan pentingnya kecepatan dalam pengembangan AI: “DeepLearning.AI memiliki beberapa alur kerja agen yang memerlukan prompting LLM berulang kali untuk mendapatkan hasil. Cerebras telah membangun kemampuan inferensi yang sangat cepat yang akan sangat membantu untuk beban kerja tersebut.

Dukungan Industri yang Luas dan Kemitraan Strategis

Cerebras telah memperoleh dukungan kuat dari pemimpin industri dan telah membentuk kemitraan strategis untuk mempercepat pengembangan aplikasi AI. Kim Branson, SVP AI/ML di GlaxoSmithKline, pelanggan awal Cerebras, menekankan potensi transformasional dari teknologi ini: “Kecepatan dan skala mengubah segalanya.”
Perusahaan lain, seperti LiveKit, Perplexity, dan Meter, juga telah mengekspresikan antusiasme untuk dampak yang akan dibuat oleh Cerebras Inference pada operasi mereka. Perusahaan-perusahaan ini menggunakan kekuatan kemampuan komputasi Cerebras untuk menciptakan pengalaman AI yang lebih responsif dan mirip manusia, meningkatkan interaksi pengguna di mesin pencari, dan meningkatkan sistem manajemen jaringan.

Cerebras Inference: Tingkatan dan Aksesibilitas

Cerebras Inference tersedia di tiga tingkatan dengan harga yang kompetitif: Gratis, Pengembang, dan Perusahaan. Tingkat Gratis menyediakan akses API gratis dengan batas penggunaan yang murah hati, membuatnya dapat diakses oleh berbagai pengguna. Tingkat Pengembang menawarkan opsi penerapan serverless yang fleksibel, dengan model Llama 3.1 dihargai 10 sen dan 60 sen per juta token. Tingkat Perusahaan dikhususkan untuk organisasi dengan beban kerja yang berkelanjutan, menawarkan model yang disesuaikan, perjanjian tingkat layanan khusus, dan dukungan yang didedikasikan, dengan harga yang tersedia atas permintaan.

Menghidupkan Cerebras Inference: Wafer Scale Engine 3 (WSE-3)

Di jantung Cerebras Inference terdapat sistem Cerebras CS-3, yang ditenagai oleh prosesor AI Wafer Scale Engine 3 (WSE-3) yang memimpin industri. Prosesor AI ini tidak tertandingi dalam ukuran dan kecepatannya, menawarkan 7.000 kali lebih banyak bandwidth memori daripada NVIDIA’s H100. Skala besar WSE-3 memungkinkannya untuk menangani banyak pengguna secara bersamaan, memastikan kecepatan yang luar biasa tanpa mengorbankan kinerja. Arsitektur ini memungkinkan Cerebras untuk menghindari kompromi yang biasanya mempengaruhi sistem berbasis GPU, menyediakan kinerja kelas dunia untuk beban kerja AI.

Integrasi yang Mudah dan API yang Ramah Pengembang

Cerebras Inference dirancang dengan pengembang dalam pikiran. Ini menampilkan API yang sepenuhnya kompatibel dengan OpenAI Chat Completions API, memungkinkan migrasi yang mudah dengan perubahan kode minimal. Pendekatan yang ramah pengembang ini memastikan bahwa mengintegrasikan Cerebras Inference ke dalam alur kerja yang ada adalah proses yang mulus, memungkinkan penerapan cepat aplikasi AI berkinerja tinggi.

Cerebras Systems: Menggerakkan Inovasi di Berbagai Industri

Cerebras Systems bukan hanya pemimpin dalam komputasi AI, tetapi juga pemain kunci di berbagai industri, termasuk kesehatan, energi, pemerintahan, komputasi ilmiah, dan layanan keuangan. Solusi perusahaan ini telah memainkan peran instrumental dalam mendorong terobosan di lembaga seperti National Laboratories, Aleph Alpha, The Mayo Clinic, dan GlaxoSmithKline.
Dengan memberikan kecepatan, skalabilitas, dan akurasi yang tidak tertandingi, Cerebras memungkinkan organisasi di berbagai sektor untuk menangani beberapa masalah paling menantang dalam AI dan di luar itu. Apakah itu mempercepat penemuan obat di kesehatan atau meningkatkan kemampuan komputasi dalam penelitian ilmiah, Cerebras berada di garis depan dalam mendorong inovasi.

Kesimpulan: Era Baru untuk Inferensi AI

Cerebras Systems menetapkan standar baru untuk inferensi AI dengan peluncuran Cerebras Inference. Dengan menawarkan 20 kali kecepatan sistem berbasis GPU tradisional dengan biaya yang jauh lebih rendah, Cerebras tidak hanya membuat AI lebih dapat diakses, tetapi juga membuka jalan bagi generasi berikutnya aplikasi AI. Dengan teknologi canggih, kemitraan strategis, dan komitmen terhadap inovasi, Cerebras siap untuk memimpin industri AI ke dalam era kinerja dan skalabilitas yang belum pernah terjadi sebelumnya.
Untuk informasi lebih lanjut tentang Cerebras Systems dan mencoba Cerebras Inference, kunjungi www.cerebras.ai.

Antoine adalah seorang pemimpin visioner dan mitra pendiri Unite.AI, didorong oleh semangat yang tak tergoyahkan untuk membentuk dan mempromosikan masa depan AI dan robotika. Seorang wirausaha serial, ia percaya bahwa AI akan sama-sama mengganggu masyarakat seperti listrik, dan sering tertangkap berbicara tentang potensi teknologi mengganggu dan AGI.

As a futurist, ia berdedikasi untuk mengeksplorasi bagaimana inovasi ini akan membentuk dunia kita. Selain itu, ia adalah pendiri Securities.io, sebuah platform yang fokus pada investasi di teknologi-teknologi canggih yang mendefinisikan kembali masa depan dan membentuk kembali seluruh sektor.