Pemimpin pemikiran
Lima Langkah untuk Mengubah Memori dari Keterbatasan AI Terbesar menjadi Keunggulan Kompetitif

Selama beberapa tahun terakhir, infrastruktur AI telah fokus pada komputasi di atas semua metrik lainnya. Lebih banyak akselerator, klaster yang lebih besar dan FLOPS yang lebih tinggi mengarahkan percakapan untuk membuat yang terbaik dari GPU. Pendekatan ini masuk akal ketika kemajuan model tergantung terutama pada skala pelatihan. Sekarang, dengan penerapan produksi AI yang menjadi prioritas, ada keterbatasan baru untuk difokuskan: memori.
Hari ini, banyak dari keterbatasan terberat untuk AI muncul dalam kapasitas memori, bandwidth, latensi dan biaya waktu dan energi untuk memindahkan data melalui sistem. Jendela konteks terus berkembang, dengan perusahaan seperti Anthropic sekarang menawarkan jendela token sejuta dalam penawaran harga standar mereka. Beban inferensi tumbuh. Pertumbuhan sistem multi-agents berarti sistem AI memindahkan volume data yang lebih besar dari satu tahap ke tahap lain. Operator dapat terus mencoba menambahkan lebih banyak GPU, tetapi mereka masih kekurangan kinerja yang diharapkan karena sistem tersebut kekurangan RAM yang cukup untuk memberi makan akselerator secara efisien ketika setiap server beroperasi sendiri, terbatas pada RAM dalam sistem.
Perubahan ini mempengaruhi baik throughput dan biaya untuk hyperscalers dan operator pusat data. Ketika memori menjadi faktor pembatas, organisasi sering merespons dengan overprovisioning perangkat keras yang mahal, meninggalkan kapasitas GPU yang tidak terpakai dan menyerap biaya daya dan infrastruktur yang lebih tinggi. Tahap selanjutnya dari skala AI akan bergantung lebih sedikit pada menambahkan komputasi mentah dan lebih banyak pada membangun arsitektur memori yang sesuai dengan cara produksi AI sebenarnya berjalan.
Berikut adalah lima langkah yang dapat diambil oleh pemimpin infrastruktur sekarang untuk mempersiapkan diri untuk permintaan memori yang terus berkembang.
1. Mulai dengan mengukur bottleneck yang sebenarnya
Banyak organisasi masih mengevaluasi kinerja AI melalui lensa komputasi. Mereka melacak utilitas klaster, jumlah akselerator dan throughput garis atas, kemudian menganggap perbaikan akan datang dari menambahkan lebih banyak akselerator GPU. Pendekatan itu sering melewatkan masalah yang sebenarnya.
Tekanan memori sering muncul dalam akselerator yang terhenti, latensi per-token yang lebih tinggi dan throughput yang tidak konsisten di bawah beban. Sebuah GPU mungkin terlihat tidak terpakai jika menunggu data untuk tiba dari memori lain, server lain atau tahap lain dalam aplikasi. Inferensi membuat masalah itu lebih terlihat ketika ukuran cache KV tumbuh dan lebih banyak sesi bersamaan bersaing untuk bandwidth.
Operator perlu memiliki visibilitas yang lebih baik ke utilitas memori yang efektif, melihat byte yang dipindahkan per token, waktu penghentian akselerator dan pola akses memori di seluruh CPU, GPU dan memori yang berdekatan. Mereka juga perlu pelacakan pipa yang dapat memisahkan keterlambatan yang terkait dengan memori dari masalah jaringan atau penyimpanan. Tanpa visibilitas itu, tim risiko menghabiskan lebih banyak pada komputasi tanpa mengatasi sumber sebenarnya dari perlambatan.
2. Kurangi pergerakan data sebelum menambahkan lebih banyak kapasitas
Dalam sistem AI yang besar, memindahkan data dapat menciptakan overhead yang sama seperti memproses data.
Hal ini terutama benar dalam inferensi. Ketika jendela konteks berkembang, cache KV dapat menjadi salah satu konsumen memori sistem terbesar dalam tumpukan. Multi-tenant serving dan alur kerja multi-agents dapat menambahkan lebih banyak lagi. Tahap pertama menghasilkan output, kemudian yang lain mengonsumsinya dan infrastruktur menangani penyerahan itu dengan menyalin blok data besar antara GPU, di seluruh server atau melalui serialisasi tingkat kerangka kerja.
Salinan itu memiliki biaya yang nyata. Mereka mengonsumsi bandwidth, menambah latensi dan meninggalkan sumber daya komputasi yang mahal menunggu transfer berikutnya selesai. Mereka juga mendorong operator untuk membeli lebih banyak memori yang mahal daripada yang dibutuhkan oleh beban kerja.
Sebelum berinvestasi dalam lebih banyak akselerator, tim harus mengidentifikasi di mana dalam sistem data bergerak lebih dari yang diperlukan. Transfer GPU-ke-GPU, salinan server-ke-server dan pergerakan berulang dari negara bagian antara pipa agen adalah tempat yang baik untuk memulai. Dalam banyak lingkungan, mengurangi pergerakan yang tidak perlu memberikan kinerja yang lebih berguna daripada server tambahan.
3. Bangun tingkat memori di sekitar perilaku beban kerja
Infrastruktur AI bekerja lebih baik ketika operator berhenti memperlakukan memori sebagai sumber tunggal dan mulai memperlakukannya sebagai hierarki dengan peran yang berbeda.
Data yang paling panas harus tetap dekat dengan akselerator. Ini termasuk set kerja yang menuntut latensi terendah dan bandwidth tertinggi. Buffer aktif lain dan negara bagian yang sering diakses dapat duduk di DRAM. Struktur yang lebih besar yang membutuhkan skala lebih dari kecepatan absolut dapat dipindahkan ke memori yang dipool. Data yang lebih dingin dan model yang kurang aktif milik lebih jauh ke bawah tumpukan.
Pendekatan ini memerlukan tim untuk memahami data mana yang berubah terus-menerus, data mana yang banyak proses bagikan dan data mana yang dapat mentolerir perdagangan latensi yang modest tanpa mempengaruhi kualitas layanan. Terlalu banyak penerapan masih default untuk mendorong semuanya ke tier HBM tercepat karena terasa lebih aman. Pendekatan itu meningkatkan biaya dan biasanya meninggalkan efisiensi di meja.
Strategi memori bertingkat memberikan operator lebih banyak kontrol atas kinerja dan ekonomi. Dalam produksi AI, keseimbangan itu menjadi persyaratan desain inti.
4. Perlakukan memori bersama sebagai bagian dari arsitektur untuk AI agen
AI multi-agents meningkatkan biaya desain memori yang terfragmentasi.
Dalam banyak sistem agen, satu agen menghasilkan output yang digunakan agen lain segera. Layanan ketiga mungkin peringkat output itu, menambahkan konteks atau mengarahkannya ke model lain. Jika setiap tahap menciptakan salinan segar dari negara bagian yang sama, lalu lintas tumbuh dengan cepat. Ketika konteks tumbuh, ukuran data yang disalin itu tumbuh bersamanya. Sistem menghabiskan lebih banyak waktu untuk memindahkan informasi daripada memproses data.
Inilah tempat memori bersama menjadi semakin penting, terutama untuk cache KV bersama dan negara bagian lain yang perlu diakses oleh beberapa agen atau layanan. Memori bersama dapat mengurangi salinan berlebihan, menurunkan lalu lintas jaringan dan meningkatkan utilitas di seluruh jalur aplikasi. Ini juga dapat membantu sistem agen skala secara efektif karena berbagai node atau agen dapat menggunakannya kembali cache KV dengan memori bersama.
Untuk hyperscalers, ini tidak lagi merupakan kasus tepi. Ketika AI agen matang, memori bersama menjadi persyaratan praktis untuk penerapan yang efisien.
5. Terima CXL untuk infrastruktur produksi
Selama beberapa tahun terakhir, industri memandang CXL sebagai standar yang menjanjikan yang memerlukan waktu lebih lama untuk matang, karena CXL bergerak cepat dari versi 1 ke 2. Sekarang dengan perangkat keras 3.x yang tersedia segera, CXL telah mencapai titik di mana sudah siap untuk mengambil beban produksi.
CXL telah mencapai tingkat kematangan di mana hyperscalers dan operator pusat data harus memperlakukannya sebagai pilihan praktis untuk ekspansi memori produksi, pooling dan arsitektur memori bersama. Ini sekarang termasuk dalam perencanaan infrastruktur yang serius, terutama untuk lingkungan yang memerlukan skala memori yang lebih fleksibel dan ekonomi yang lebih baik di sekitar inferensi.
Itu tidak berarti setiap beban kerja harus pindah ke memori berbasis CXL. Memori lokal akan tetap penting untuk data yang paling panas dan paling sensitif terhadap latensi. Tetapi operator tidak perlu menunggu versi standar di masa depan sebelum mereka bertindak. Pertanyaan yang lebih berguna adalah di mana CXL dapat memecahkan masalah produksi yang nyata hari ini.
Kesempatan yang paling jelas ada dalam ekspansi memori, memori yang dipool dan desain memori bersama yang mengurangi salinan yang tidak perlu di seluruh alur kerja AI. Kasus penggunaan tersebut sejalan langsung dengan tekanan saat ini: tuntutan cache KV yang meningkat, pertumbuhan transfer data antar agen dan kebutuhan untuk meningkatkan utilitas GPU tanpa mendorong biaya total kepemilikan lebih tinggi.
Operator masih perlu merancang dengan hati-hati. Latensi, prediktabilitas dan dukungan perangkat lunak masih penting. Kebijakan manajemen memori perlu menempatkan data di tier yang tepat pada waktu yang tepat. Tetapi itu adalah pertanyaan implementasi, bukan alasan untuk menunda perencanaan.
Di XCENA, kami melihat memori, pergerakan data dan utilitas sebagai keterbatasan sentral dalam infrastruktur AI produksi. Itulah mengapa kami fokus pada memori komputasi berbasis CXL dan arsitektur yang mengurangi salinan yang tidak perlu, mendukung akses bersama dan membantu operator membuat penggunaan yang lebih baik dari sumber daya komputasi yang mahal.
Industri menghabiskan tahun-tahun untuk memperlakukan memori sebagai sumber daya pendukung di belakang mesin AI yang sebenarnya. Pandangan itu tidak lagi sesuai dengan kenyataan penerapan produksi. Memori sekarang membentuk utilitas, efisiensi dan biaya di setiap tingkat tumpukan. Operator yang mengenali perubahan itu lebih awal akan memiliki keunggulan yang diukur tidak hanya dalam kinerja, tetapi juga dalam seberapa efektif mereka menskala AI di dunia nyata.












