Röportajlar
TrueFoundry’nin Kurucu Ortağı ve CEO’su Nikunj Bajaj – Röportaj Serisi

Makine öğrenimi araştırması, Facebook’ta üretim AI ve büyük ölçekli öneri sistemleri üzerinde çalıştıktan sonra TrueFoundry’yi kurmaya ne tür deneyimler sizi en doğrudan etkiledi ve o sırada hangi acıyı gidermediğinizi hissettiniz?
Meta’da, makine öğrenimini yazılımın özel bir durumu, GenAI’ı da makine öğreniminin özel bir durumu olarak görüyorduk. Bu, yazılımın dibinde, makine öğreniminin ortasında ve GenAI’ın tepesinde dikey bir yığın oluşturdu. Bu kurulumda, bir makine öğrenimi geliştiricisiysam, oluşturduğum modeller, diğer yazılımların dağıtım modelini izler, bu da sistemleri ölçeklendirme rất kolay hale getirir.
Çoğu kuruluş ise paralel yığınlar dağıtıyordu, yani yazılım, makine öğrenimi ve GenAI için ayrı yığınlar vardı. Paralel yığınlar olduğu anda, ölçeklendirme daha karmaşık hale gelir, çünkü makine öğrenimi ve yazılım dünyası arasında el değiştirmeler gerekir.
Ekibimiz her zaman makine öğrenimi modelleri ve makine öğrenimi altyapısı oluşturma arasındaki kesişme noktasında çalıştı. Bu nedenle, benzer dikey yığınları kuruluşlara getirebileceğimiz ve onların özel gereksinimlerine uyarlayabileceğimiz benzersiz bir bakış açısına sahiptik. Ayrıca, 2021’in sonlarında, makine öğreniminin bir dönemece yaklaştığına dair bir hipotezimiz vardı ve bu gerçekleştiğinde, daha fazla şirketin bu sistemleri etkili bir şekilde dağıtmak ve ölçeklemek için dikey entegre bir yığına ihtiyaç duyacaklardı. Bu, bizi TrueFoundry’yi kurmaya yöneltti ve hipotezimiz doğru çıktı. AI benimsemesi, 2022’nin sonlarında ChatGPT’nin piyasaya sürülmesinden sonra hızlandı.
AI sistemleri deneyselden günlük operasyonlara geçtikçe, organizasyonların güvenilirlik ve başarısızlık hakkında düşünme şekli nasıl değişti?
Gen AI sistemlerinde geleneksel makine öğrenimi sistemlerine kıyasla riskler çok daha yüksektir. Bu sistemler üretime geçtikçe, organizasyonlar, LLM’lerin doğası gereği daha yüksek bir belirsizlik ve determinizm düzeyiyle karşı karşıya kalırlar. Üzerine inşa edilen ajans sistemleri daha fazla belirsizlik ekler.
Ayrıca, arızalar artık ikili değildir. Sistemlerin yalnızca başarısız olması veya olmaması yerine, kısmi arızalar veya sessiz bozulmalar ortaya çıkar. Sistemler daha yüksek gecikme, bozulmuş kalite veya zaman içinde yanlış davranışla yanıt verebilir. Bu bozulmalar sometimes daha zor tespit edilebilir ve bazen daha da zararlı olabilir.
Organizasyonlar, güvenilirlik hakkında yalnızca çalışma zamanı değil, aynı zamanda zaman içinde performans bozulmasını düşünmelidir.
TrueFailover bulut ve AI hizmet kesintilerinin dalgası sırasında piyasaya sürüldü. AI güvenilirliğinin bir “gerekli olabilecek” özellikten core bir mimari gereksinime dönüşmesini sağlayan yakın tarihli olaylar nelerdi?
Sağlık sektöründe faaliyet gösteren bir müşterimiz, reçetelere ilişkin gerçek zamanlı, zaman duyarlı talepleri işler. Bu müşteri, model arızası nedeniyle oluşan bir kesinti nedeniyle etkilenmiştir. İş akışları saniyede binlerce dolar gelir üretir ve kesinti bu kritik iş akışlarını bozar. TrueFailover’ın erken bir müşterisi olarak, hızlı bir şekilde kurtarma sağlamamıza yardımcı olduk ve etki sınırlı tutuldu.
Bu gibi olaylar, bir soru ortaya koyar. Gen AI sistemlerinin riskleri yükseldikçe, neden kurtarma süreçleri hala büyük ölçüde manuel? Bu, sistemlerin hatalar meydana geldiğinde otomatik olarak düzeltmelerini sağlayacak şekilde tasarlanması gerektiği fikrini pekiştirdi. Ayrıca, AI Gateway gibi sistemlerin, merkezi yönlendirme, gözlem, güvenlik sınırları ve akıllı model değişimi sağlayabileceği fikrini destekledi.
Çoğu AI kesintisi hala teknik aksaklıklar olarak tanımlanıyor. AI sistemleri devre dışı kaldığında gerçek ekonomik ve insani maliyetlerin nerede ortaya çıktığını görüyorsunuz?
Kurumsal AI, iç iş akışlarından müşteri yüzeyine kadar ilerledi. Bugün, kesintiler ve bozulmalar doğrudan ve hemen müşteri algısı ve karları etkiler, çünkü üretim kullanım örnekleri artık müşteri odaklıdır. Bu, iç testten yüksek riskli, müşteri odaklı uygulamalara geçiş nedeniyle, yönetici dikkat ve denetimi için artan talebi görmemize neden oluyor.
AI sistemleri operasyonel iş akışlarına daha derinden entegre oldukça, kesintiler artık yalnızca teknik sorunlar değil, aynı zamanda doğrudan iş, müşteri ve itibar sonuçlarına sahip oluyor.
ECZACILIK, sağlık operasyonları veya müşteri desteği gibi kritik ortamlarda, AI arızalarının operasyonel veya itibar riskine nasıl hızlı bir şekilde dönüşebileceğini düşünüyorsunuz?
Kritik ortamlarda, yükselme hemen gerçekleşir, çünkü bu sistemler gerçek zamanlı, zaman duyarlı iş akışlarını destekler. Kısa bir kesinti bile kritik süreçleri durdurabilir, hizmet sunumunu geciktirebilir veya bağımlı sistemleri bozabilir, bu da tüm organizasyon boyunca zincirleme operasyonel etkiler oluşturur.
Sağlık sektöründe, etki yalnızca operasyonel bozulma ile sınırlı değildir, aynı zamanda müşteri deneyimi ve hizmet sonuçlarını da etkiler. Bir hastanın reçetesini zamanında alamaması gerçek sonuçlar doğurabilir. Bu, yalnızca hasta için değil, aynı zamanda eczane veya sağlık hizmet sağlayıcısı için de bir sorundur. Güvenilirliğin önemli olduğu kritik ortamlarda, sistemlerin çevrimiçi kalması çok önemlidir. Bu nedenle, organizasyonlar, AI sistemlerinin hatalar meydana geldiğinde otomatik olarak kurtarılabilmesi için tasarlanması gerektiğini giderek daha fazla tanımaktadır.
Çok sayıda ekip, yetenek yerine süreklilik için mimari tasarımı neden tercih ettiğini düşünüyorsunuz?
Bu, organizasyonlar içindeki teşviklere büyük ölçüde bağlıdır. Yeni yetenekler görünür ve heyecan vericidir. Liderlik,.demo, özellikler ve ürün olasılıklarını hemen görebilir.
Süreklilik, tanım gereği, her şey iyi çalışırken görünmezdir. Bu nedenle, ödül sistemleri genellikle yeni özellikler sunmaya rather thanthan süreklilik mühendisliğine yatırım yapmaya eğilimlidir. Sonuç olarak, organizasyonlar, yetenek geliştirme yerine orantısız bir şekilde süreklilik mühendisliğine yatırım yapma eğilimindedir.
İşletmeler dış modelleri ve API’leri giderek daha fazla kullanırken, AI yığınına hangi yeni zayıflıkları getirdiğini düşünüyorsunuz?
LLM’ler temel olarak paylaşılan kaynaklardır ve işletmeler bunları geleneksel altyapı gibi sahip değildir. Ayrıca, işletmelerin önemli iş kritik sistemleri, tam olarak zaman testi yapılmamış dış sistemler üzerinde çalışır. LLM’ler kendileri hızla evrim geçirir, bu nedenle bir model sağlayıcısı, gecikme veya model performansı slightly düştüğünde sorumlu tutulamaz, çünkü çok hızlı bir şekilde araştırmalarına devam etmektedir.
LLM’lerin paylaşılan kaynaklar olması nedeniyle, gecikme diğer tüketicilerin belirli eylemler nedeniyle.spike edebilir. Bu, LLM’lerin doğası nedeniyle ortaya çıkan birçok arıza noktası vardır ve işletmeler bu yeni dünyada tam kontrol sahibi değildir. Tam kontrol sahibi olmadıkları için, en iyi şey, bir dayanıklı sistem tasarlamak için yeterli sistem yedeklerini oluşturmaktır.
Belirli ürünler hakkında odaklanmadan, organizasyonların AI mimarisini nasıl yeniden düşünmeleri gerektiğini düşünüyorsunuz?
Organizasyonlar, dağıtılmış sistem tasarımı ilkelerine geri dönmelidir. Yazılım sistemleri, ağ bileşenleri ve makinelerin arızalanabileceği ve bir bölgenin tamamen devre dışı kalabileceği varsayımı ile inşa edilmiştir.
AI sistemleri de farklı değildir. Model sağlayıcılarının gecikme, bozulma veya arızalara sahip olabileceğini ve uygulamaların farklı arıza senaryoları boyunca dayanıklı kalması için yedeklik içermesi gerektiğini varsaymalıyız.
AI dayanıklılığın platform ve satıcı seçiminde, uptime ve yedeklik gibi bulut altyapısı kararlarını şekillendirmesi gibi bir karar faktörü haline geleceğini düşünüyor musunuz?
Daha fazla AI sistemi üretime geçtikçe, dayanıklılık temel bir gereksinim haline gelecektir. Bir satıcı, çalışma zamanı ve genel dayanıklılık grafiklerini ve metriklerini gösteremezse, dikkate alınmayacaklardır. Dayanıklılık, tüm satıcılar için temel bir beklenti haline geldiğinde, karar faktörleri, kullanıcı deneyimi, performans optimizasyonu, gözlem ve daha yüksek düzeyde ürün yeteneklerine doğru kayacaktır. Zaman içinde, AI Gateway ve otomatik geçiş gibi bileşenler, kurumsal AI altyapısının temel unsurları haline gelecektir.
İleriye bakıldığında, AI’nin sürekli olarak kullanılabilir olması beklenen bir dünyada “üretim hazır” AI’nin anlamı nedir?
Üretim hazır AI sistemleri gözlemlenebilir, kontrol edilebilir ve kurtarılabilir olmalıdır. Bu üç kutu da işaretlenmelidir.
Üretim AI’nin gözlemlenebilir olması için, ekiplerin model davranışı, gecikme, hata oranları, token kullanımı, sapma ve arızalanma kalıpları hakkında derin bir görünüme sahip olmaları gerekir. Güçlü bir gözlem olmadan, kullanıcılar bunları fark etmeden önce bozulmaları tespit etmek çok zor olur.
Sistemlerin kontrol edilebilir olması, trafik şekillendirmesi, hız sınırlaması, güvenlik sınırları, politika uygulanması ve modeller ve sağlayıcılar arasında akıllı yönlendirme içerir. Bu, AI Gateway’in temel bir kontrol düzlemi olarak hareket ettiği, güvenlik sınırları uyguladığı, tutarlı bir yönetim sağladığı ve performans veya güvenilirlik düştüğünde dinamik model değişimi sağlayan yerdir.
Ve son olarak, sistemlerin kurtarılabilir olması, bileşenlerin kısmen veya tamamen bozulmuş olabileceği, sağlayıcı arızaları, bozulmuş model kalitesi, hız sınırları veya kötü niyetli aktörlerden beklenmedik girdiler nedeniyle oluşabilecek bir durum olarak tasarlanmalıdır. Otomatik geçiş ve self-iyileştirme mekanizmaları, mimariye yerleşik olmalıdır, değilse manuel playbook’lar tarafından tetiklenir.
Bu, TrueFoundry’de çalıştığımız yöndür. Üretim hazırlığını bu şekilde tanımlayan, gözlem, merkezi kontrol ve otomatik kurtarma birleştiren satıcılar, uzun vadeli müşteri güvenini kazanacak ve yeni sorunlar ortaya çıktıkça bunları çözmeye devam edebilecektir.
Harika röportaj için teşekkür ederiz, daha fazla bilgi edinmek isteyen okuyucular TrueFoundry‘i ziyaret edebilir.












