Connect with us

Wawancara

Andrew Feldman, Co-founder & CEO of Cerebras Systems – Interview Series

mm

Andrew adalah co-founder dan CEO of Cerebras Systems. Ia adalah seorang wirausaha yang didedikasikan untuk mendorong batas-batas di ruang komputasi. Sebelum Cerebras, ia co-founder dan CEO of SeaMicro, seorang pelopor microserver hemat energi dan berbandwidth tinggi. SeaMicro diakuisisi oleh AMD pada 2012 seharga $357M. Sebelum SeaMicro, Andrew adalah Wakil Presiden Pengelolaan Produk, Pemasaran dan BD di Force10 Networks yang kemudian dijual ke Dell Computing seharga $800M. Sebelum Force10 Networks, Andrew adalah Wakil Presiden Pemasaran dan Pengembangan Perusahaan di RiverStone Networks dari awal perusahaan hingga IPO pada 2001. Andrew memegang gelar BA dan MBA dari Stanford University.

Cerebras Systems sedang membangun kelas baru sistem komputer, dirancang dari prinsip-prinsip pertama untuk tujuan tunggal mempercepat AI dan mengubah masa depan pekerjaan AI.

Apakah Anda bisa berbagi cerita tentang asal-usul Cerebras Systems?

Rekan co-founder dan saya semua bekerja bersama di sebuah startup sebelumnya yang saya dan CTO saya, Gary, dirikan pada 2007, bernama SeaMicro (yang diakuisisi oleh AMD pada 2012 seharga $334 juta). Rekan co-founder saya adalah beberapa arsitek komputer dan insinyur terkemuka di industri – Gary Lauterbach, Sean Lie, JP Fricker dan Michael James. Ketika kami berkumpul kembali pada 2015, kami menulis dua hal di papan tulis – bahwa kami ingin bekerja bersama, dan bahwa kami ingin membangun sesuatu yang akan mengubah industri dan berada di Museum Sejarah Komputer, yang setara dengan Kompute Hall of Fame. Kami merasa terhormat ketika Museum Sejarah Komputer mengakui prestasi kami dan menambahkan prosesor WSE-2 ke koleksinya tahun lalu, dengan menyebutkan bagaimana itu telah mengubah lanskap kecerdasan buatan.

Cerebras Systems adalah tim arsitek komputer, ilmuwan komputer, peneliti pembelajaran dalam, dan insinyur semua jenis yang menyukai melakukan teknik rekayasa tanpa takut. Misi kami ketika kami berkumpul bersama adalah membangun kelas komputer baru untuk mempercepat pembelajaran dalam, yang telah muncul sebagai salah satu beban kerja paling penting di zaman kita.

Kami menyadari bahwa pembelajaran dalam memiliki persyaratan komputasi unik, besar, dan tumbuh. Dan itu tidak sesuai dengan mesin warisan seperti unit pemrosesan grafis (GPU), yang pada dasarnya dirancang untuk pekerjaan lain. Akibatnya, AI saat ini dibatasi tidak oleh aplikasi atau ide, tetapi oleh ketersediaan komputasi. Menguji satu hipotesis baru – pelatihan model baru – dapat memakan waktu beberapa hari, minggu, atau bahkan bulan dan biaya ratusan ribu dolar dalam waktu komputasi. Itu adalah hambatan besar bagi inovasi.

Jadi, asal-usul Cerebras adalah membangun jenis komputer baru yang dioptimalkan secara eksklusif untuk pembelajaran dalam, dimulai dari kertas kosong. Untuk memenuhi permintaan komputasi besar pembelajaran dalam, kami merancang dan memproduksi chip terbesar yang pernah dibangun – Mesin Skala Wafer (WSE). Dalam menciptakan prosesor skala wafer pertama di dunia, kami mengatasi tantangan di seluruh desain, fabrikasi, dan pengemasan – semuanya yang telah dianggap mustahil selama 70 tahun sejarah komputer. Setiap elemen WSE dirancang untuk memungkinkan penelitian pembelajaran dalam pada kecepatan dan skala yang belum pernah terjadi sebelumnya, memungkinkan superkomputer AI tercepat di industri, Cerebras CS-2.

Dengan setiap komponen dioptimalkan untuk pekerjaan AI, CS-2 menyediakan kinerja komputasi lebih banyak pada ruang yang lebih kecil dan daya yang lebih sedikit daripada sistem lainnya. Ini dilakukan sambil secara radikal mengurangi kompleksitas pemrograman, waktu komputasi dinding, dan waktu untuk solusi. Tergantung pada beban kerja, dari AI ke HPC, CS-2 menyediakan kinerja ratusan atau ribuan kali lebih banyak daripada alternatif warisan. CS-2 menyediakan sumber daya komputasi pembelajaran dalam setara dengan ratusan GPU, sambil menyediakan kemudahan pemrograman, manajemen, dan penerapan satu perangkat.

Beberapa bulan terakhir Cerebras tampaknya ada di mana-mana di berita, apa yang bisa Anda katakan tentang superkomputer AI Andromeda baru?

Kami mengumumkan Andromeda pada November tahun lalu, dan ini adalah salah satu superkomputer AI terbesar dan paling kuat yang pernah dibangun. Menyediakan lebih dari 1 Exaflop komputasi AI dan 120 Petaflops komputasi padat, Andromeda memiliki 13,5 juta inti di seluruh 16 sistem CS-2, dan merupakan satu-satunya superkomputer AI yang pernah menunjukkan penskalaan linier hampir sempurna pada beban kerja model bahasa besar. Ini juga sangat mudah digunakan.

Sebagai pengingat, superkomputer terbesar di Bumi – Frontier – memiliki 8,7 juta inti. Dalam hitungan inti murni, Andromeda lebih dari satu setengah kali lebih besar. Ini melakukan pekerjaan yang berbeda tentu saja, tetapi ini memberikan gambaran tentang skala: hampir 100 terabit bandwidth internal, hampir 20.000 inti AMD Epyc memasoknya, dan – tidak seperti superkomputer raksasa yang membutuhkan waktu bertahun-tahun untuk berdiri – kami membangun Andromeda dalam tiga hari dan segera setelah itu, itu menyediakan penskalaan linier hampir sempurna AI.

Laboratorium Nasional Argonne adalah pelanggan pertama kami yang menggunakan Andromeda, dan mereka menerapkannya pada masalah yang menghancurkan klaster 2.000 GPU mereka yang disebut Polaris. Masalahnya adalah menjalankan model generatif GPT-3XL yang sangat besar, sambil meletakkan seluruh genom Covid di jendela urutan, sehingga Anda bisa menganalisis setiap gen dalam konteks genom Covid secara keseluruhan. Andromeda menjalankan beban kerja genetik unik dengan panjang urutan panjang (MSL 10K) di seluruh 1, 2, 4, 8, dan 16 node, dengan penskalaan linier hampir sempurna. Penskalaan linier adalah salah satu karakteristik paling dicari dari klaster besar. Andromeda menyediakan 15,87X throughput di seluruh 16 sistem CS-2, dibandingkan dengan satu CS-2, dan pengurangan waktu pelatihan untuk mencocokkan.

Apakah Anda bisa memberitahu kami tentang kemitraan dengan Jasper yang diumumkan pada akhir November dan apa yang dimaksudkan dengan kemitraan ini bagi kedua perusahaan?

Jasper adalah perusahaan yang sangat menarik. Mereka adalah pemimpin dalam konten AI generatif untuk pemasaran, dan produk mereka digunakan oleh lebih dari 100.000 pelanggan di seluruh dunia untuk menulis salinan untuk pemasaran, iklan, buku, dan lain-lain. Ini jelas merupakan ruang yang sangat menarik dan tumbuh cepat saat ini. Tahun lalu, kami mengumumkan kemitraan dengan mereka untuk mempercepat adopsi dan meningkatkan akurasi AI generatif di seluruh aplikasi perusahaan dan konsumen. Jasper menggunakan superkomputer Andromeda kami untuk melatih model mereka yang sangat komputasi-intensif dalam sebagian kecil dari waktu. Ini akan memperluas jangkauan model AI generatif ke massa.

Dengan kekuatan superkomputer Cerebras Andromeda, Jasper dapat secara dramatis memajukan pekerjaan AI, termasuk pelatihan jaringan GPT untuk menyesuaikan output AI dengan semua tingkat kompleksitas dan kehalusan pengguna akhir. Ini meningkatkan akurasi kontekstual model generatif dan akan memungkinkan Jasper untuk mempersonalisasi konten di seluruh kelas pelanggan yang berbeda dengan cepat dan mudah.

Kemitraan kami memungkinkan Jasper untuk mengarungi masa depan AI generatif, dengan melakukan hal-hal yang tidak praktis atau mustahil dengan infrastruktur tradisional, dan untuk mempercepat potensi AI generatif, membawa manfaatnya ke basis pelanggan kami yang tumbuh pesat di seluruh dunia.

Dalam sebuah rilis pers baru-baru ini, Laboratorium Teknologi Energi Nasional dan Pusat Komputasi Pittsburgh mengumumkan simulasi Dinamika Fluida Komputasi pertama di Mesin Skala Wafer Cerebras. Apakah Anda bisa menjelaskan apa itu Mesin Skala Wafer dan bagaimana cara kerjanya?

Mesin Skala Wafer (WSE) kami adalah prosesor AI revolusioner untuk sistem komputer pembelajaran dalam kami, CS-2. Tidak seperti prosesor umum tujuan legacy, WSE dibangun dari awal untuk mempercepat pembelajaran dalam: ini memiliki 850.000 inti AI-optimalkan untuk operasi tensor sparse, memori pada chip besar, dan interkoneksi beberapa pesanan besarnya lebih cepat daripada klaster tradisional bisa mencapai. Seluruhnya, ini memberikan Anda sumber daya komputasi pembelajaran dalam setara dengan klaster mesin legacy semua dalam satu perangkat, mudah diprogram sebagai satu node – secara radikal mengurangi kompleksitas pemrograman, waktu komputasi dinding, dan waktu untuk solusi.

Generasi kedua WSE-2 kami, yang memungkinkan sistem CS-2 kami, dapat menyelesaikan masalah sangat cepat. Cepat enough untuk memungkinkan model waktu nyata, fidelitas tinggi dari sistem yang dirancang. Ini adalah contoh langka dari “strong scaling” yang sukses, yang menggunakan paralelisme untuk mengurangi waktu penyelesaian dengan ukuran masalah tetap.

Dan itulah yang Laboratorium Teknologi Energi Nasional dan Pusat Komputasi Pittsburgh gunakan. Kami baru-baru ini mengumumkan beberapa hasil sangat menarik dari simulasi Dinamika Fluida Komputasi (CFD), yang terdiri dari sekitar 200 juta sel, pada tingkat hampir waktu nyata. Video ini menunjukkan simulasi resolusi tinggi dari konveksi Rayleigh-Bénard, yang terjadi ketika lapisan fluida dipanaskan dari bawah dan didinginkan dari atas. Aliran fluida termal ini ada di sekitar kita — dari hari berangin, hingga badai salju danau, hingga arus magma di inti Bumi dan pergerakan plasma di Matahari. Seperti yang dikatakan narator, itu tidak hanya keindahan visual dari simulasi yang penting: itu adalah kecepatan di mana kami dapat menghitungnya. Untuk pertama kalinya, menggunakan Mesin Skala Wafer kami, NETL dapat memanipulasi grid hampir 200 juta sel dalam waktu nyata.

Apa jenis data yang disimulasikan?

Beban kerja yang diuji adalah aliran fluida termal, juga dikenal sebagai konveksi alami, yang merupakan aplikasi dari Dinamika Fluida Komputasi (CFD). Aliran fluida terjadi secara alami di sekitar kita — dari hari berangin, hingga badai salju danau, hingga gerakan lempeng tektonik. Simulasi ini, yang terdiri dari sekitar 200 juta sel, fokus pada fenomena yang dikenal sebagai “konveksi Rayleigh-Bénard”, yang terjadi ketika fluida dipanaskan dari bawah dan didinginkan dari atas. Di alam, fenomena ini dapat menyebabkan peristiwa cuaca ekstrem seperti downburst, microburst, dan derecho. Ini juga bertanggung jawab atas pergerakan magma di inti Bumi dan pergerakan plasma di Matahari.

Kembali pada November 2022, NETL memperkenalkan API modeling persamaan lapangan baru, yang ditenagai oleh sistem CS-2, yang hingga 470 kali lebih cepat daripada yang mungkin dilakukan pada Superkomputer Joule NETL. Ini berarti dapat menyediakan kecepatan di luar apa yang bisa dicapai oleh klaster CPU atau GPU. Dengan menggunakan API Python sederhana yang memungkinkan pemrosesan skala wafer untuk sebagian besar ilmu komputasi, WFA menyediakan kenaikan kinerja dan kemudahan penggunaan yang tidak bisa diperoleh pada komputer dan superkomputer konvensional – pada kenyataannya, itu mengungguli OpenFOAM pada superkomputer Joule 2.0 NETL lebih dari dua pesanan besarnya dalam waktu untuk solusi.

Karena kesederhanaan API WFA, hasilnya dicapai dalam beberapa minggu dan terus kolaborasi erat antara NETL, PSC, dan Cerebras Systems.

Dengan mengubah kecepatan CFD (yang selalu menjadi tugas offline yang lambat) pada WSE kami, kami dapat membuka banyak kasus penggunaan waktu nyata baru untuk ini, dan banyak aplikasi HPC inti lainnya. Tujuan kami adalah bahwa dengan memungkinkan lebih banyak daya komputasi, pelanggan kami dapat melakukan lebih banyak eksperimen dan mengarungi sains yang lebih baik. Direktur laboratorium NETL Brian Anderson telah mengatakan kepada kami bahwa ini akan secara dramatis mempercepat dan meningkatkan proses desain untuk beberapa proyek besar yang NETL kerjakan sekitar mitigasi perubahan iklim dan memungkinkan masa depan energi yang aman — proyek seperti penyerapan karbon dan produksi hidrogen biru.

Cerebras konsisten mengungguli persaingan dalam merilis superkomputer, apa saja tantangan di balik membangun superkomputer kelas atas?

Ironisnya, salah satu tantangan terbesar AI besar adalah tidak AI. Ini adalah komputasi terdistribusi.

Untuk melatih jaringan neural state-of-the-art saat ini, peneliti sering menggunakan ratusan hingga ribuan unit pemrosesan grafis (GPU). Dan itu tidak mudah. Penskalaan pelatihan model bahasa besar di seluruh klaster GPU memerlukan mendistribusikan beban kerja di seluruh banyak perangkat kecil, mengatasi keterbatasan ukuran memori perangkat dan bandwidth memori, dan mengelola komunikasi dan overhead sinkronisasi dengan hati-hati.

Kami telah mengambil pendekatan yang sama sekali berbeda untuk merancang superkomputer kami melalui pengembangan Klaster Skala Wafer Cerebras, dan mode eksekusi Weight Streaming Cerebras. Dengan teknologi ini, Cerebras mengatasi cara baru untuk menskalakan berdasarkan tiga poin kunci:

Penggantian pemrosesan CPU dan GPU oleh akselerator skala wafer seperti sistem CS-2 Cerebras. Perubahan ini mengurangi jumlah unit komputasi yang diperlukan untuk mencapai kecepatan komputasi yang dapat diterima.

Untuk memenuhi tantangan ukuran model, kami menggunakan arsitektur sistem yang memisahkan komputasi dari penyimpanan model. Layanan komputasi berbasis klaster sistem CS-2 (yang menyediakan bandwidth komputasi yang memadai) dikopel erat dengan layanan memori (dengan kapasitas memori besar) yang menyediakan subset model ke klaster komputasi sesuai permintaan. Seperti biasa, layanan data menyajikan batch data pelatihan ke layanan komputasi sesuai kebutuhan.

Model inovatif untuk penjadwalan dan koordinasi pelatihan kerja di seluruh klaster CS-2 yang menggunakan paralelisme data, pelatihan lapisan per lapisan dengan bobot sparse yang disiarkan sesuai permintaan, dan retensi aktivasi di layanan komputasi.

Ada kekhawatiran tentang akhir dari Hukum Moore selama hampir satu dekade, berapa tahun lagi industri bisa memeras dan apa jenis inovasi yang diperlukan untuk ini?

Saya pikir pertanyaan yang kami hadapi semua adalah apakah Hukum Moore – seperti yang ditulis oleh Moore – sudah mati. Ini tidak lagi memakan waktu dua tahun untuk mendapatkan lebih banyak transistor. Sekarang memakan waktu empat atau lima tahun. Dan transistor tersebut tidak datang dengan harga yang sama – mereka datang dengan harga yang jauh lebih tinggi. Jadi pertanyaannya menjadi, apakah kami masih mendapatkan manfaat yang sama dari pindah dari tujuh ke lima ke tiga nanometer? Manfaatnya lebih kecil dan mereka datang dengan biaya yang lebih tinggi, sehingga solusinya menjadi lebih rumit daripada hanya chip.

Jack Dongarra, seorang arsitek komputer terkemuka, baru-baru ini memberikan sebuah ceramah dan mengatakan, “Kami telah menjadi jauh lebih baik dalam membuat FLOPs dan membuat I/O.” Ini benar-benar benar. Kemampuan kami untuk memindahkan data dari chip ketinggalan kemampuan kami untuk meningkatkan kinerja pada chip dengan jumlah besar. Di Cerebras, kami senang ketika dia mengatakan itu, karena itu memvalidasi keputusan kami untuk membuat chip yang lebih besar dan memindahkan lebih sedikit hal dari chip. Ini juga memberikan beberapa panduan tentang cara membuat sistem dengan chip berkinerja lebih baik di masa depan. Ada pekerjaan yang harus dilakukan, tidak hanya mengeluarkan lebih banyak FLOPs tetapi juga dalam teknik untuk memindahkannya dan memindahkan data dari chip ke chip — bahkan dari chip yang sangat besar ke chip yang sangat besar.

Apakah ada yang lain yang Anda ingin bagikan tentang Cerebras Systems?

Untuk lebih baik atau lebih buruk, orang sering memasukkan Cerebras ke dalam kategori “orang-orang chip besar”. Kami telah dapat menyediakan solusi yang kompetitif untuk jaringan neural yang sangat besar, sehingga menghilangkan kebutuhan untuk melakukan komputasi terdistribusi yang menyakitkan. Saya pikir itu sangat menarik dan merupakan inti dari mengapa pelanggan kami menyukai kami. Domain yang menarik untuk 2023 akan menjadi bagaimana melakukan komputasi besar ke tingkat akurasi yang lebih tinggi, menggunakan lebih sedikit FLOPs.

Pekerjaan kami pada kesparsean menyediakan pendekatan yang sangat menarik. Kami tidak melakukan pekerjaan yang tidak membawa kami ke garis gol, dan mengkalikan dengan nol adalah ide yang buruk. Kami akan segera merilis sebuah makalah yang sangat menarik tentang kesparsean, dan saya pikir akan ada lebih banyak upaya untuk melihat bagaimana kami mencapai titik-titik efisien ini, dan bagaimana kami melakukannya dengan daya yang lebih sedikit. Dan tidak hanya untuk daya dan pelatihan; bagaimana kami meminimalkan biaya dan daya yang digunakan dalam inferensi? Saya pikir kesparsean membantu di kedua front.

Terima kasih atas jawaban-jawaban yang mendalam, pembaca yang ingin mempelajari lebih lanjut harus mengunjungi Cerebras Systems.

Antoine adalah seorang pemimpin visioner dan mitra pendiri Unite.AI, didorong oleh semangat yang tak tergoyahkan untuk membentuk dan mempromosikan masa depan AI dan robotika. Seorang wirausaha serial, ia percaya bahwa AI akan sama-sama mengganggu masyarakat seperti listrik, dan sering tertangkap berbicara tentang potensi teknologi mengganggu dan AGI.

As a futurist, ia berdedikasi untuk mengeksplorasi bagaimana inovasi ini akan membentuk dunia kita. Selain itu, ia adalah pendiri Securities.io, sebuah platform yang fokus pada investasi di teknologi-teknologi canggih yang mendefinisikan kembali masa depan dan membentuk kembali seluruh sektor.