Kecerdasan Buatan
Enfabrica Meluncurkan Fabric Memori Berbasis Ethernet yang Dapat Mendefinisikan Ulang Inferensi AI dalam Skala Besar

Pabrikan, sebuah perusahaan rintisan berbasis di Silicon Valley yang didukung oleh Nvidia, telah meluncurkan produk terobosan yang dapat secara signifikan mengubah cara penerapan dan penskalaan beban kerja AI skala besar. Elastic Memory Fabric System (EMFASYS) terbaru dari perusahaan ini merupakan fabric memori berbasis Ethernet pertama yang tersedia secara komersial, yang dirancang khusus untuk mengatasi hambatan utama inferensi AI generatif: akses memori.
Di saat model AI tumbuh lebih kompleks, sadar konteks, dan persisten—memerlukan sejumlah besar memori per sesi pengguna—EMFASYS memberikan pendekatan baru untuk memisahkan memori dari komputasi, yang memungkinkan pusat data AI meningkatkan kinerja secara dramatis, menurunkan biaya, dan meningkatkan pemanfaatan sumber daya yang paling mahal: GPU.
Apa itu Memory Fabric—dan Mengapa Itu Penting?
Secara tradisional, memori di dalam pusat data terikat erat dengan server atau node tempatnya berada. Setiap GPU atau CPU hanya memiliki akses ke memori bandwidth tinggi yang terhubung langsung dengannya—biasanya HBM untuk GPU atau DRAM untuk CPU. Arsitektur ini berfungsi dengan baik ketika beban kerja kecil dan dapat diprediksi. Namun, AI generatif telah mengubah permainan. LLM membutuhkan akses ke jendela konteks yang besar, riwayat pengguna, dan memori multi-agen—semuanya harus diproses dengan cepat dan tanpa penundaan. Permintaan memori ini seringkali melebihi kapasitas memori lokal yang tersedia, menciptakan kemacetan yang membuat inti GPU terbengkalai dan meningkatkan biaya infrastruktur.
A kain memori Memecahkan masalah ini dengan mengubah memori menjadi sumber daya bersama yang terdistribusi—semacam kumpulan memori yang terhubung ke jaringan yang dapat diakses oleh GPU atau CPU apa pun dalam klaster. Bayangkan hal ini seperti menciptakan "awan memori" di dalam rak pusat data. Alih-alih mereplikasi memori di berbagai server atau membebani HBM yang mahal, sebuah fabric memungkinkan memori untuk diagregasi, didisagregasi, dan diakses sesuai permintaan melalui jaringan berkecepatan tinggi. Hal ini memungkinkan beban kerja inferensi AI untuk diskalakan secara lebih efisien tanpa terkekang oleh batasan memori fisik dari satu node.
Pendekatan Enfabrica: Ethernet dan CXL, Akhirnya Bersatu
EMFASYS mencapai arsitektur memori skala rak ini dengan menggabungkan dua teknologi canggih: RDMA melalui Ethernet dan Menghitung Tautan Ekspres (CXL)Yang pertama memungkinkan transfer data dengan latensi sangat rendah dan throughput tinggi melalui jaringan Ethernet standar. Yang kedua memungkinkan memori dipisahkan dari CPU dan GPU dan digabungkan menjadi sumber daya bersama, yang dapat diakses melalui tautan CXL berkecepatan tinggi.
Inti dari EMFASYS adalah chip ACF-S Enfabrica, sebuah "SuperNIC" berkecepatan 3.2 terabit per detik (Tbps) yang menggabungkan jaringan dan kontrol memori ke dalam satu perangkat. Chip ini memungkinkan server untuk terhubung dengan kumpulan besar DRAM DDR5 komoditas—hingga 18 terabita per node—yang didistribusikan di seluruh rak. Yang terpenting, chip ini menggunakan port Ethernet standar, yang memungkinkan operator untuk memanfaatkan infrastruktur pusat data mereka yang ada tanpa berinvestasi dalam interkoneksi yang bersifat kepemilikan.
Yang membuat EMFASYS sangat menarik adalah kemampuannya untuk secara dinamis memindahkan beban kerja yang terikat memori dari HBM yang terpasang GPU yang mahal ke DRAM yang jauh lebih terjangkau, sekaligus mempertahankan latensi akses setingkat mikrodetik. Tumpukan perangkat lunak di balik EMFASYS mencakup mekanisme caching dan penyeimbangan beban cerdas yang menyembunyikan latensi dan mengatur pergerakan memori dengan cara yang transparan terhadap LLM yang berjalan di sistem.
Implikasinya bagi Industri AI
Ini lebih dari sekadar solusi perangkat keras yang cerdas—ini merepresentasikan pergeseran filosofis dalam cara infrastruktur AI dibangun dan ditingkatkan skalanya. Seiring AI generatif beralih dari hal baru menjadi kebutuhan, dengan miliaran kueri pengguna diproses setiap hari, biaya untuk melayani model-model ini menjadi tidak berkelanjutan bagi banyak perusahaan. GPU seringkali kurang dimanfaatkan bukan karena kurangnya komputasi, tetapi karena menganggur menunggu memori. EMFASYS mengatasi ketidakseimbangan tersebut secara langsung.
Dengan menyediakan memori gabungan yang terpasang pada fabric dan dapat diakses melalui Ethernet, Enfabrica menawarkan alternatif yang skalabel bagi operator pusat data daripada terus-menerus membeli GPU atau HBM. Sebagai gantinya, mereka dapat meningkatkan kapasitas memori secara modular, menggunakan DRAM siap pakai dan jaringan cerdas, sehingga mengurangi jejak keseluruhan dan meningkatkan efisiensi ekonomi inferensi AI.
Implikasinya lebih dari sekadar penghematan biaya langsung. Arsitektur terdisagregasi semacam ini membuka jalan bagi model memori sebagai layanan, di mana konteks, riwayat, dan status agen dapat bertahan lebih dari satu sesi atau server, membuka pintu bagi sistem AI yang lebih cerdas dan personal. Arsitektur ini juga membuka jalan bagi cloud AI yang lebih tangguh, di mana beban kerja dapat didistribusikan secara elastis di seluruh rak atau pusat data tanpa batasan memori yang kaku.
Menatap ke Depan
Enfabrica's EMFASYS saat ini sedang melakukan pengambilan sampel dengan pelanggan tertentu, dan meskipun perusahaan belum mengungkapkan siapa mitra tersebut, Laporan Reuters Penyedia cloud AI besar telah menguji coba sistem ini. Hal ini memposisikan Enfabrica bukan hanya sebagai pemasok komponen, tetapi juga sebagai penggerak utama dalam infrastruktur AI generasi mendatang.
Dengan memisahkan memori dari komputasi dan membuatnya tersedia melalui jaringan Ethernet komoditas berkecepatan tinggi, Enfabrica meletakkan dasar bagi era baru arsitektur AI—era di mana inferensi dapat diskalakan tanpa kompromi, di mana sumber daya tidak lagi terlantar, dan di mana ekonomi penerapan model bahasa besar akhirnya mulai masuk akal.
Di dunia yang semakin ditentukan oleh sistem AI multi-agen yang kaya konteks, memori bukan lagi aktor pendukung—melainkan panggung. Dan Enfabrica bertaruh bahwa siapa pun yang membangun panggung terbaik akan menentukan kinerja AI di tahun-tahun mendatang.