Düşünce Liderleri
Claude “Nerfing” Tartışması Claude Hakkında Değil, Başkalarının Kararlarına Dayalı Çalışan Operasyonlarınızda Ne Olduğunu Hakkında.

Bu yılın başlarında, AMD’nin Yapay Zeka Senior Direktörü Stella Laurenzo, yaklaşık 7.000 Claude Kod oturumundan alınan telemetri verilerini yayınladı. Bu veriler, mühendislerin hissettiği ancak ifade etmekte zorlandığı bir şeyi belgeledi: Ocak ile Mart arasında görünür akıl yürütme derinliği %73 oranında düştü, API çağrıları görev başına 80 kat arttı ve model, düzenlemeler yapmadan önce daha az dosya okudu. Rakamlar nhanh bir şekilde yayıldı. Yorumlar daha da hızlı yayıldı.
Anthropic, bu çerçevelendirmeyi reddediyor. Şirket, değişikliklerin, yeni bir adaptif düşünme mekanizması ve varsayılan olarak orta çaba gibi bilinçli ürün kararlarını yansıttığını söylüyor. Bağımsız analistler de metodolojinin bazı kısımlarına itiraz etti. Tartışma devam ediyor ve makul insanlar ne olduğu konusunda anlaşmazlar.
Ancak işletme üzerinde bu sistemleri çalıştıranlar için önemli olan kısım: bu, bozulma mı yoksa bilinçli ayar mı olduğu, işletme operatörlerinin deneyimlerini değiştirmez. Onlar bunu önceden tahmin edemezlerdi. Kontrol edemezlerdi. Ve bazıları, ne olduğu anlaşılıncaya kadar üretim aşamasında bunu hissettiler. Bu, gerçek hikaye ve bu, Anthropic ile özel olarak ilgili değil.
Bu, bir model problemi değil, bir bağımlılık problemidir.
Tanımladığımız şeyin bir adı var: model kırılganlığı. Bu, kritik misyon operasyonlarının tek bir modelin davranışına sıkı bir şekilde bağlı olduğu durum, böylece model katmanında yapılan herhangi bir değişiklik, bir ayar kararı, yeni bir varsayılan, kapasite sürücülü yönlendirme değişikliği veya sessiz bir kullanımdan kaldırma, işletmeyi doğrudan etkiler, hiçbir tampon veya uyarı olmadan.
Bu, yeni bir model değildir. GPT-4, 2023 yılında buna benzer bir şey geçirdi. Claude 3.5, 2024 yılında benzer bir şey geçirdi. Claude Opus şu anda benzer bir şey geçiriyor. Bu, sonraki sınır modeli ile ve sonraki ile tekrar olacak. Hiçbir satıcının kötü niyetle davranmadığı için değil, çünkü sınır modelini küresel hacimde maliyet, gecikme ve ölçek için optimize etmek, sınır satıcılarının yapması gereken şeydir. Their teşvikleri ve bir işletmenin bu türdeki üretim operasyonlarını çalıştırmasının teşvikleri ilgili. Onlar aynı değil. Asla olmayacaklar.
Qurrent’i 2023 yılında kurduk ve işletme yazılımı döngülerinin nasıl oynandığını bilmemiz için yeterli tarihi bilgiye sahibiz: Bir şirket yapay zeka yatırımı yapar. Demo çalışır. Pilot çalışır. Sonra canlıya geçer, model katmanında bir şey değişir ve aniden müşteri problemi satın alır. Onlar, iş akışlarını koruyan, gerilemeleri takip eden, kesintileri emen kişilerdir. Bu, bana göre sürdürülebilir bir işletme operasyonları modeli hiç olmadı.
İşletme versiyonu bu hikayenin operasyonel, teknik değil.
Geliştiriciler için, mevcut durum rahatsız edici. Token bütçeleri daha hızlı yanar. Kod oturumları durur. Benchmarks hayal kırıklığı yaratır. Bu, gerçek bir sorun, ancak bu, telafi edilebilir bir sorun.
Finansal operasyonlar, uyum iş akışları, hesaplar alacağı ve borcu ve karmaşık arka ofis süreçleri gibi yüksek riskli işlemler yürüten işletmeler için, riskler farklı. Bu iş akışları, kötü bir haftayı absorbe edemez. Hatalar birikir. Hacim birikir. SLA’lar, iç tercihlerden ziyade gerçek müşterilere verilen taahhütlerdir. Bir model, yüksek riskli bir işlemde kötü performans göstermeye başladığında, zarar birikmeye başlar, kimse bunu fark etmeden önce de.
Bu, çoğu şirketin, tek bir model üzerinde iç ajanlar inşa ederek AI’den öne geçmeye çalıştıklarını, ancak bu temelın ne kadar eksik olduğunu şimdi keşfettikleri gerçeğini daha da zorlaştırıyor. İlk ajan, kolay kısımydı. İnşa edilmeyen, çevre altyapısıydı: davranışsal kaymayı, müşterilere ulaşmadan önce tespit eden değerlendirme çerçeveleri, bir model kötü performans göstermeye başladığında otomatik olarak işi yönlendiren başarısızlık mantığı ve değişen manzarayla aynı hızda ilerleyebilecek sürekli yönetim. Bu üç boşluk, yönetilebilir kalmaz. Bunlar, etkileri olmayan bir mühendislik işlevine dönüşür, bu işlev, etkileri olmayan satıcılar tarafından alınan kararlara ayak uydurmakla görevlidir.
Üretimdeki gerçek dayanıklılık.
Qurrent’de, dijital işgücünü baştan itibaren model-bağımsız olarak inşa ettik, bu, bir pazarlama pozisyonu olarak değil, bir mimari gereklilik olarak yapıldı. Her görev, o görev için en iyi performing modeline sürekli olarak değerlendirilerek yönlendirilir. Daha iyi bir model geldiğinde, müşteriler bunu otomatik olarak alırlar. Mevcut bir model, belirli bir iş akışında gerilerse, orkestrasyon katmanı bu işi saniyeler içinde, insan müdahalesi olmadan ve никто’nın 2’de uyanmasına gerek kalmadan yönlendirir.
Altında, üretim iş akışlarına karşı saat başı otomatik simülasyonlar çalışır, çıkışların beklenen davranışa uyup uymadığını ölçer. Kayma, altyapı katmanında tespit edilir, operasyon ekibinin bunu hissetmesinden ve bir müşterinin bunu hissetmesinden önce. Ve her dijital işçi tarafından alınan her karar, tam şeffaf bir şekilde kaydedilir ve gözden geçirilebilir, çünkü görmediğiniz şeyi yönetemezsiniz.
Bu, premium özellikler değil, bunlar, üretim ölçeğinde AI çalıştırmak için giriş ücreti. Çoğu şirket, bunu bir haber döngüsünün ortasında öğreniyor, bu da pahalı bir şekilde öğrenmektir.
Bu çeyrekte sorulmaya değer soru.
En çok bağımlı olduğunuz model, bir sonraki çeyrekte kötü bir hafta geçirirse, kaç iş akışınız bunu hisseder? Nasıl bilirsiniz? Ve bunu nasıl nhanh bir şekilde yönlendirebilirsiniz?
İkinci sorunun cevabı “müşteriden duyacağız” ise, operasyon üretim için hazır değil. Bu, büyük ölçekli çalışan bir pilot, ve bu ayrım, çoğu liderin realizasyonuna kadar önemli değil, ancak önemli.
Mevcut tartışma, geri dönüşlü bir şekilde faydalı. Her bir CFO ve COO, bu olayı izlerken, gerçek operasyonel yük altında model kırılganlığının neye benzeyeceğini ücretsiz olarak önizleme aldı, kendileri için ödeme yapmadan. Doğru cevap, modeli değiştirmek değil, tek birine bağımlı olmayan operasyonlar inşa etmek.
Teknoloji devam edecek şekilde değişecek. Bu, bu pazardaki tek kesinlik. Bu on yılın sonunda en güçlü çıkan işletmeler, doğru modeli seçenler olmayacak. Bunlar, operasyonlarının hiçbir zaman önemsemediği işletmeler olacak.












