Connect with us

Kecerdasan buatan

Enfabrica Memperkenalkan Memory Fabric Berbasis Ethernet yang Dapat Mengubah AI Inference pada Skala Besar

mm

Enfabrica, sebuah startup yang berbasis di Silicon Valley dan didukung oleh Nvidia, telah memperkenalkan produk inovatif yang dapat secara signifikan mengubah cara large-scale AI workloads diterapkan dan diperluas. Sistem Elastic Memory Fabric (EMFASYS) baru dari perusahaan ini adalah memory fabric berbasis Ethernet pertama yang tersedia secara komersial, yang dirancang khusus untuk mengatasi bottleneck inti dari generative AI inference: akses memori.

Pada saat model AI menjadi lebih kompleks, context-aware, dan persisten—memerlukan jumlah memori yang besar per sesi pengguna—EMFASYS menyediakan pendekatan baru untuk memisahkan memori dari komputasi, yang memungkinkan pusat data AI untuk secara dramatis meningkatkan kinerja, mengurangi biaya, dan meningkatkan utilitas sumber daya paling mahal mereka: GPU.

Apa itu Memory Fabric—dan Mengapa Hal Ini Penting?

Secara tradisional, memori di dalam pusat data telah terikat erat dengan server atau node tempat memori tersebut berada. Setiap GPU atau CPU hanya memiliki akses ke memori berkecepatan tinggi yang terpasang langsung kepadanya—biasanya HBM untuk GPU atau DRAM untuk CPU. Arsitektur ini bekerja dengan baik ketika beban kerja kecil dan dapat diprediksi. Namun, generative AI telah mengubah permainan. LLMs memerlukan akses ke jendela konteks yang besar, riwayat pengguna, dan memori multi-agents—semua ini harus diproses dengan cepat dan tanpa keterlambatan. Tuntutan memori ini sering melebihi kapasitas memori lokal yang tersedia, menciptakan bottleneck yang menghambat inti GPU dan meningkatkan biaya infrastruktur.

Sebuah memory fabric memecahkan masalah ini dengan mengubah memori menjadi sumber daya yang dibagi dan terdistribusi—sebuah jenis memori yang terpasang ke jaringan yang dapat diakses oleh GPU atau CPU mana pun di dalam klaster. Bayangkan ini sebagai membuat “awan memori” di dalam rak pusat data. Alih-alih mereplikasi memori di seluruh server atau membebani HBM yang mahal, sebuah fabric memungkinkan memori untuk diagregasi, didistribusikan, dan diakses sesuai kebutuhan melalui jaringan kecepatan tinggi. Ini memungkinkan beban kerja AI inference untuk diperluas dengan lebih efisien tanpa terikat oleh batasan memori fisik dari node tunggal.

Pendekatan Enfabrica: Ethernet dan CXL, Bersama-sama untuk Pertama Kalinya

EMFASYS mencapai arsitektur memori skala rak ini dengan menggabungkan dua teknologi kuat: RDMA over Ethernet dan Compute Express Link (CXL). Yang pertama memungkinkan transfer data ultra-rendah-latensi dan tinggi-throughput di seluruh jaringan Ethernet standar. Yang terakhir memungkinkan memori untuk dilepaskan dari CPU dan GPU dan dipool ke dalam sumber daya bersama, yang dapat diakses melalui tautan CXL kecepatan tinggi.

Di inti EMFASYS terdapat chip ACF-S Enfabrica, sebuah “SuperNIC” 3,2 terabits-per-detik (Tbps) yang menggabungkan kontrol jaringan dan memori menjadi satu perangkat. Chip ini memungkinkan server untuk berinterface dengan kumpulan besar memori DDR5 komoditas—hingga 18 terabyte per node—yang didistribusikan di seluruh rak. Yang penting, ini dilakukan menggunakan port Ethernet standar, yang memungkinkan operator untuk memanfaatkan infrastruktur pusat data yang ada tanpa harus berinvestasi pada interkoneksi khusus.

Apa yang membuat EMFASYS sangat menarik adalah kemampuannya untuk secara dinamis memindahkan beban kerja yang terikat memori dari HBM yang mahal ke DRAM yang jauh lebih terjangkau, semua sambil mempertahankan latensi akses tingkat mikrodetik. Tumpukan perangkat lunak di balik EMFASYS termasuk mekanisme caching dan load-balancing cerdas yang menyembunyikan latensi dan mengatur pergerakan memori dengan cara yang transparan bagi LLMs yang berjalan di sistem.

Implikasi untuk Industri AI

Ini lebih dari sekedar solusi perangkat keras yang cerdas—ini mewakili pergeseran filosofis dalam cara infrastruktur AI dibangun dan diperluas. Ketika generative AI berpindah dari novelti ke kebutuhan, dengan miliaran kueri pengguna diproses setiap hari, biaya untuk melayani model ini telah menjadi tidak berkelanjutan bagi banyak perusahaan. GPU sering kali tidak dimanfaatkan tidak karena kurangnya komputasi, tetapi karena mereka menganggur menunggu memori. EMFASYS mengatasi ketidakseimbangan ini secara langsung.

Dengan memungkinkan memori yang dipool dan terpasang ke fabric yang dapat diakses melalui Ethernet, Enfabrica menawarkan operator pusat data alternatif yang dapat diperluas untuk membeli lebih banyak GPU atau HBM. Sebagai gantinya, mereka dapat meningkatkan kapasitas memori secara modular, menggunakan DRAM dan jaringan cerdas, mengurangi jejak keseluruhan dan memperbaiki ekonomi inferensi AI.

Implikasinya melampaui penghematan biaya langsung. Arsitektur yang terdisagregasi ini membuka jalan bagi model memori-sebagai-layanan, di mana konteks, riwayat, dan keadaan agen dapat bertahan melampaui satu sesi atau server, membuka pintu untuk sistem AI yang lebih cerdas dan personal. Ini juga menyiapkan panggung untuk awan AI yang lebih tangguh, di mana beban kerja dapat didistribusikan secara elastis di seluruh rak atau seluruh pusat data tanpa batasan memori yang kaku.

Melihat ke Depan

Enfabrica’s EMFASYS saat ini sedang disampling dengan pelanggan terpilih, dan meskipun perusahaan belum mengungkapkan siapa mitra tersebut, Reuters melaporkan bahwa penyedia awan AI besar sudah memiloti sistem ini. Ini memposisikan Enfabrica tidak hanya sebagai pemasok komponen, tetapi sebagai penggerak kunci dalam generasi berikutnya infrastruktur AI.

Dengan memisahkan memori dari komputasi dan membuatnya tersedia di seluruh jaringan Ethernet kecepatan tinggi, Enfabrica meletakkan dasar untuk era baru arsitektur AI—di mana inferensi dapat diperluas tanpa kompromi, di mana sumber daya tidak lagi terjebak, dan di mana ekonomi penerapan model bahasa besar akhirnya mulai masuk akal.

Di dunia yang semakin didefinisikan oleh sistem AI yang kaya konteks dan multi-agents, memori tidak lagi menjadi aktor pendukung—ini adalah panggung. Dan Enfabrica bertaruh bahwa siapa pun yang membangun panggung terbaik akan menentukan kinerja AI untuk tahun-tahun mendatang.

Antoine adalah seorang pemimpin visioner dan mitra pendiri Unite.AI, didorong oleh semangat yang tak tergoyahkan untuk membentuk dan mempromosikan masa depan AI dan robotika. Seorang wirausaha serial, ia percaya bahwa AI akan sama-sama mengganggu masyarakat seperti listrik, dan sering tertangkap berbicara tentang potensi teknologi mengganggu dan AGI.

As a futurist, ia berdedikasi untuk mengeksplorasi bagaimana inovasi ini akan membentuk dunia kita. Selain itu, ia adalah pendiri Securities.io, sebuah platform yang fokus pada investasi di teknologi-teknologi canggih yang mendefinisikan kembali masa depan dan membentuk kembali seluruh sektor.