Connect with us

Beş Adım ile AI’ın En Büyük Kısıtlaması Olan Belleği Rekabet Avantajına Dönüştürmek

Düşünce Liderleri

Beş Adım ile AI’ın En Büyük Kısıtlaması Olan Belleği Rekabet Avantajına Dönüştürmek

mm

Son birkaç yıldır, AI altyapısı diğer tüm metriklere göre hesaplama üzerinde odaklanmıştır. Daha fazla hızlandırıcı, daha büyük kümeler ve daha yüksek FLOPS, GPU’ları en iyi şekilde kullanmak için konuşmayı yönlendirdi. Bu yaklaşım, model ilerlemesinin principalmente eğitim ölçeğine bağlı olduğu zamanlar için anlam ifade ediyordu. Şimdi AI üretim dağıtımlarının öncelik aldığına göre, odaklanılması gereken yeni bir kısıtlama var: bellek.

Bugün, AI için birçok en zor kısıtlama bellek kapasitesinde, bant genişliğinde, gecikmede ve verilerin bir sistem aracılığıyla taşınmasının zaman ve enerji maliyetinde ortaya çıkıyor. Bağlam pencereleri genişlemeye devam ediyor, şirketlerin çoğu şimdi standart fiyatlı tekliflerinde milyonlarca token penceresi sunuyor. Çıkarım iş yükleri büyüyor. Çoklu ajans sistemlerinin büyümesi, AI sistemlerinin bir aşamadan diğerine daha büyük veri hacimlerini geçirdiği anlamına geliyor. Operatörler daha fazla GPU eklemeye devam edebilir, ancak masih bekledikleri performansı elde edemezler, çünkü bu sistemler her sunucu kendi sınırlı sistem belleğine bağlı olduğundan, hızlandırıcıları verimli bir şekilde beslemek için yeterli RAM’e sahip değildir.

Bu değişiklik, hem hyperscaler’lar hem de veri merkezi operatörleri için üretim ve maliyeti etkiliyor. Bellek sınırlayıcı faktör olduğunda, organizasyonlar genellikle pahalı donanımı aşırı tahsis ederek yanıt verir, bu da GPU kapasitesinin altında kullanılmasına ve daha yüksek güç ve altyapı maliyetlerinin absorbe edilmesine neden olur. AI ölçeklendirme’nin sonraki aşaması, ham hesaplama eklemeye menos bağımlı olacak ve daha çok üretim AI’nın gerçekten nasıl çalıştığına uygun bellek mimarileri oluşturmaya bağlı olacaktır.

Altyapı liderlerinin şimdi, her zaman artan bellek taleplerine hazırlanmak için atmaları gereken beş adım var.

1. Gerçek tıkanıklığı ölçerek başlayın

Çok sayıda organizasyon hala AI performansını bir hesaplama-öncelikli lens aracılığıyla değerlendiriyor. Küme kullanımını, hızlandırıcı sayılarını ve üst düzey üretim hızını izliyorlar, ardından gelişmelerin daha fazla GPU hızlandırıcı eklenmesinden geleceğini varsayıyorlar. Bu görüş genellikle gerçek sorunu kaçırıyor.

Bellek baskısı genellikle hızlandırıcıların durması, daha yüksek per-token gecikmesi ve yük altında tutarlı üretim hızında ortaya çıkıyor. Bir GPU, başka bir bellek seviyesinden, başka bir sunucudan veya uygulamanın başka bir aşamasından veri gelmesini bekliyorsa, dưới kapasite kullanılmış gibi görünebilir. Çıkarım, KV önbellek boyutunun büyümesi ve daha fazla eş zamanlı oturumun bant genişliği için yarışmasıyla bu problemi daha da görünür hale getirir.

Operatörlerin, etkili bellek kullanımına daha iyi bir görüşe ihtiyacı var, token başına taşınan baytlara, hızlandırıcı durma süresine ve CPU’lar, GPU’lar ve komşu bellek seviyeleri boyunca bellek erişim desenlerine bakıyorlar. Ayrıca, bellek ile ilgili gecikmeleri ağ veya depolama sorunlarından ayıran pipeline izleme ihtiyacı var. Bu görüş olmadan, ekipler gerçek yavaşlamanın kaynağını çözmeden daha fazla hesaplama için harcama yapma riskini taşıyorlar.

2. Daha fazla kapasite eklemeye başlamadan önce veri hareketini azaltın

Büyük AI sistemlerinde, veri taşıma, verilerin işlenmesinden daha fazla bir yük oluşturabilir.

Bu özellikle çıkarım için geçerlidir. Bağlam pencereleri genişlediğinde, KV önbelleği yığının en büyük tüketicilerinden biri haline gelebilir. Çoklu kiracılık sunma ve çoklu ajans iş akışları daha da fazla veri hareketi ekleyebilir. İlk aşama bir çıktı üretir, diğeri onu tüketir ve altyapı, bu el değişimini GPU’lar arasında, sunucular arasında veya çerçeve düzeyinde seri hale getirme yoluyla gerçekleştirir.

Bu kopyalar gerçek bir maliyet taşır. Bant genişliğini tüketir, gecikme ekler ve pahalı hesaplama kaynaklarını next transfer bitene kadar bekletir. Ayrıca operatörleri, iş yükünün gerçekten gerektirdiğinden daha fazla pahalı bellek satın almaya zorlar.

Daha fazla hızlandırıcıya yatırım yapmadan önce, ekiplerin bir sistemde verilerin gerektiğinden daha fazla hareket ettiği yerleri belirlemeleri gerekir. GPU’dan GPU’ya aktarımlar, sunucudan sunucuya kopyalar ve ajans işlem hatları boyunca ara durumların tekrar tekrar hareketi iyi bir başlangıç noktasıdır. Çoklu ortamlarda, gereksiz hareketi kesmek, başka bir sunucudan daha fazla kullanılabilir performans sağlar.

3. İş yükü davranışına göre bellek seviyeleri oluşturun

AI altyapısı, operatörler belleği tek bir kaynak olarak değil, ayrı rollerle bir hiyerarşi olarak tedavi etmeye başladıklarında daha iyi çalışır.

En sıcak veriler, hızlandırıcıya en yakın yerde kalmalıdır. Bu, en düşük gecikme ve en yüksek bant genişliği talep eden çalışma kümelerini içerir. Diğer aktif tamponlar ve sık erişilen durumlar DRAM’de oturabilir. Daha büyük yapılar, mutlak hızdan daha fazla ölçekleme gerektiriyorsa, havuz belleğine taşınabilir. Soğuk veriler ve menos aktif modeller yığının daha aşağısına ait olmalıdır.

Bu yaklaşım, ekiplerin hangi verilerin sürekli değiştiğini, hangi verilerin birçok işlem tarafından paylaşıldığını ve hangi verilerin makul bir gecikme ticaretini hizmet kalitesini etkilemeden tolere edebileceğini anlamalarını gerektirir. Çok fazla dağıtım hala her şeyi en hızlı HBM seviyesine itmektedir, çünkü daha güvenli hissettirir. Bu yaklaşım maliyeti artırır ve genellikle verimliliği masada bırakır.

Bir bellek seviyeleri stratejisi, operatörlerin hem performans hem de ekonomi üzerinde daha fazla kontrol sağlar. Üretim AI’da, bu denge artık bir temel tasarım gereksinimi haline geliyor.

4. Paylaşılan belleği ajans AI için mimari bir parçası olarak tedavi edin

Çoklu ajans AI, parçalı bellek tasarımının maliyetini artırıyor.

Çoklu ajans sistemlerinin çoğunda, bir ajans hemen başka bir ajans tarafından kullanılan bir çıktı üretir. Bir üçüncü hizmet bu çıktıyı sıralayabilir, bağlam ekleyebilir veya başka bir modele yönlendirebilir. Her adım aynı durumun taze bir kopyasını oluşturursa, trafik hızla artar. Bağlam büyüdükçe, kopyalanan verilerin boyutu da büyür. Sistem, veri işlemeden daha fazla zaman veri taşıma ile geçirir.

Burada paylaşılan bellek giderek daha önemli hale geliyor, özellikle paylaşılan KV önbelleği ve diğer durumlar için, birçok ajansa veya hizmete erişimi gereken. Paylaşılan bellek, tekrar eden kopyaları azaltabilir, ağ trafiğini düşürebilir ve tüm uygulama yolunda kullanımını iyileştirebilir. Ayrıca ajans sistemlerinin, paylaşılan bellek ile KV önbelleğini yeniden kullanabilen farklı düğümler veya ajanslar olarak ölçeklenmesine de yardımcı olabilir.

Hyperscaler’lar için bu artık bir kenar durumu değil. Ajans AI olgunlaştıkça, paylaşılan bellek, verimli dağıtım için pratik bir gereksinim haline geliyor.

5. Üretim altyapısı için CXL’i benimseyin

Son birkaç yıldır, endüstri CXL‘i henüz olgunlaşması gereken vaad edilen bir standart olarak görüyordu, CXL nhanh chóng 1. sürümden 2. sürüme geçti. Şimdi 3.x donanımının yakında kullanılabilir olmasıyla, CXL üretim yüklerini üstlenmeye hazır, geriye dönük uyumlu ve özellikle đầyamlı bir seviyeye ulaştı.

CXL, hyperscaler’lar ve veri merkezi operatörlerinin üretim bellek genişletmesi, havuz belleği ve paylaşılan bellek mimarileri için pratik bir seçenek olarak tedavi edileceği bir olgunluk seviyesine ulaştı. Şimdi ciddiye alınmış altyapı planlamasında yer alması gerekiyor, özellikle de daha esnek bellek ölçeklemesine ve çıkarım etrafındaki ekonomiye ihtiyacı olan ortamlar için.

Bu, her iş yükünün CXL tabanlı belleğe taşınması gerektiği anlamına gelmez. Yerel bellek, en sıcak ve en düşük gecikme duyarlı verilerin için hala temel olacaktır. Ancak operatörler artık eyleme geçmeden önce bir sonraki standart sürümünü beklemek zorunda değildir. Daha kullanışlı soru, CXL’in bugün gerçek üretim sorunlarını çözebileceği yerlerdir.

En açık fırsatlar, bellek genişletmesi, havuz belleği ve paylaşılan bellek tasarımlarında, AI iş akışları boyunca gereksiz kopyaları azaltan yerlerdir. Bu kullanım örnekleri, yükselen KV önbelleği talepleri, ajanslar arası artan veri aktarımı ve GPU kullanımını artırmadan sahip olma maliyetini daha da yükseltmeden daha iyi bir şekilde optimize etmenin mevcut baskı noktalarıyla doğrudan uyumlu.

Operatörlerin hala dikkatli bir şekilde mühendislik yapması gerekir. Gecikme, öngörülebilirlik ve yazılım desteği hala önemlidir. Bellek yönetim politikaları, verilerin doğru zamanda doğru seviyede yerleştirilmesini sağlamalıdır. Ancak bunlar, planlamayı ertelemek için nedenler değil, uygulama sorularıdır.

XCENA’da, belleği, veri hareketini ve kullanımı üretim AI altyapısında merkezi kısıtlamalar olarak görüyoruz. Bu nedenle, CXL tabanlı hesaplamalı bellek ve mimarilere odaklanıyoruz, bu mimariler gereksiz kopyalamayı azaltır, paylaşılan erişimi destekler ve operatörlerin pahalı hesaplama kaynaklarını daha iyi kullanmalarına yardımcı olur.

Endüstri, yıllarca belleği AI ilerlemesinin gerçek motoru arkasındaki destekleyici bir kaynak olarak tedavi etti. Bu görüş artık üretim dağıtım gerçekliğini karşılamıyor. Bellek artık tüm yığın seviyelerinde kullanım, verimlilik ve maliyeti şekillendiriyor. Bu değişimi erken tanıyan operatörler, performans değil, AI’ı gerçek dünyada nasıl ölçekleyebilecekleri konusunda ölçülen bir avantaj sahibi olacaklar.

Jin Kim XCENA şirketinin CEO'su ve kurucu ortağıdır. Güney Kore merkezli bir fabless yarı iletken şirketi olan XCENA, AI ve büyük ölçekli veri işleme için bir sonraki nesil bellek çözümleri geliştirmeye odaklanmıştır. SK Hynix'de üst düzey liderlik rolleri bulunan ve şirketin en genç kurumsal başkan yardımcılarından biri olan Kim, veri odaklı hesaplama ve yarı iletken mimarisi konularında derin uzmanlığa sahiptir.