Röportajlar
Rebecca Qian, Patronus AI’nin Kurucu Ortağı ve CTO’su – Röportaj Serisi

Rebecca Qian, Patronus AI’nin kurucu ortağı ve CTO’su olarak, nearly bir on yıl boyunca NLP, gömülü AI ve altyapı arasındaki üretim makine öğrenimi sistemleri oluşturma deneyimine sahiptir. Facebook AI’de, adil bir dizi dil modeli olan FairBERTa’yı eğitti, Wikipedia içeriğini yeniden yazmak için bir demografik-pertürbasyon modeli geliştirdi ve robotik asistanlar için anlamsal analizi yönetti. Ayrıca gömülü ajanlar için insan-ağır boru hatları inşa etti ve Continuous Contrast Set Mining gibi altyapı araçlarını oluşturdu, bunlar Facebook’un altyapı ekipleri tarafından benimsendi ve ICSE’de sunuldu. FacebookResearch/fairo ve Droidlet anlamsal analizi defterleri gibi açık kaynaklı projelere katkıda bulundu. Bir kurucu olarak, şimdi ölçeklenebilir denetim, pekiştirme öğrenimi ve güvenli, çevre-bilinçli AI ajanlarını dağıtmaya odaklanıyor.
Patronus AI, geliştiricilerin güvenilir generatif AI ürünlerini güvenle teslim etmelerine yardımcı olmak için büyük dil modelleri (LLM’ler) ve AI ajanlarını değerlendirmek, izlemek ve optimize etmek için araştırma temelli bir platform sağlayan, San Francisco merkezli bir şirkettir. Platform, otomatik değerlendirme araçları, benchmarking, analiz, özel veri kümeleri ve ajan özgü ortamları sunar; bu ortamlar, hayal power, güvenlik riskleri veya mantık hataları gibi performans sorunlarını tespit eder ve ekiplerin AI sistemlerini gerçek dünya kullanım örnekleri boyunca sürekli olarak geliştirmelerine ve hatalarını gidermelerine olanak tanır. Patronus, şirketlere ve teknoloji ortaklarına, model davranışını puanlamak, büyük ölçekli hataları tespit etmek ve üretim AI uygulamalarında güvenilirlik ve performansı artırmak için güç sağlar.
Facebook AI’de makine öğrenimi sistemleri oluşturma deneyimine sahip bir geçmişiniz var, özellikle FairBERTa ve insan-ağır boru hatları üzerinde çalışmanız. Bu deneyim, gerçek dünya AI dağıtımı ve güvenliği hakkındaki perspektifinizi nasıl şekillendirdi?
Meta AI’de çalışmak, özellikle sorumlu NLP etrafında güvenilir modeller oluşturmak için ne gerektiğini anlamamı sağladı. Adil odaklı dil modelleme üzerinde çalıştım ve model çıkışlarını değerlendirmenin ve yorumlamanın ne kadar zor olduğunu gördüm. Bu, güvenlikle ilgili düşüncelerimi şekillendirdi. Model davranışını ölçemez ve anlamazsanız, AI’yi gerçek dünyada güvenle dağıtmak zordur.
Araştırma mühendisliğinden girişimciliğe geçiş yapmanızın ve Patronus AI’yi kurmanızın sizi ne motiv etti ve o sırada çözülmesi gereken en acil sorun neydi?
Değerlendirme, AI’de bir engel haline geldi. Nisan ayında Meta AI’den ayrıldım ve Patronus’u Anand ile birlikte kurmak için. AI çıkışlarını değerlendirmenin ve yorumlamanın ne kadar zor olduğunu gördüm. Ve generatif AI, empresa iş akışlarına girmeye başladığında, bu artık sadece bir laboratuvar problemi değildi.
Şirketlerden aynı şeyi duyduk. LLM’leri benimsemek istediler, ancak onları güvenilir bir şekilde test edemez, izleyemez veya hatalı modlarını anlayamazlardı, özellikle de hatalara karşı çok az tolerans olan düzenlenmiş endüstrilerde.
O halde acil sorun, model değerlendirmesini otomatikleştirmek ve ölçeklendirmek için bir yol oluşturmaktı; modelleri gerçek dünya senaryolarında puanlamak, karşıt test örnekleri oluşturmak ve benchmarking yapmak, böylece ekipler AI’yi güvenle dağıtabilsin.
Patronus AI, AI ajanları için uyarlanabilir ortamlar olarak generatif simülatörleri tanıttı. Mevcut değerlendirme veya eğitim yaklaşımlarındaki sınırlamalar sizi bu yöne itti mi?
AI ajanlarının değerlendirilmesiyle gerçek dünya performansları arasındaki artan uyumsuzluğu görmeye devam ediyorduk. Geleneksel benchmark’ler, belirli bir anda izole edilmiş yetenekleri ölçer, ancak gerçek iş dinamiktir. Görevler kesintiye uğrar, gereksinimler görev sırasında değişir ve kararlar uzun vadeli olarak biriktirilir. Ajanlar statik testlerde güçlü görünür, ancak dağıtıldığında kötü bir şekilde başarısız olabilir. Ajanlar geliştikçe, sabit benchmark’leri doyururlar, bu da öğrenmenin durmasına neden olur. Generatif simülatörler, statik testlerin yerine ajanın öğrenmesi medida adapte olan canlı ortamları sunmak için ortaya çıktı.
Generatif simülatörler, AI ajanlarının eğitimi ve değerlendirmesini statik benchmark’ler veya sabit veri kümelerine kıyasla nasıl değiştirecek?
Değişim, benchmark’lerin testler olmaktan çıkıp ortamlar haline gelmesidir. Ajanın davranışını ve gelişimini değerlendirmek için artık bir dizi soru sunmuyoruz, simülatör görevi, çevresel koşulları ve değerlendirme mantığını oluşturur. Ajan davranır ve geliştikçe, ortam adapte olur. Bu, geleneksel eğitim ve değerlendirme arasındaki sınırı çözer. Artık bir ajanın bir benchmark’u geçip geçmediğini sormuyoruz, sondern gerçek bir sistemde güvenilir bir şekilde çalışıp çalışamayacağını soruyoruz.
Generatif simülatörlerin arkasındaki temel mimari fikirleri, özellikle görev oluşturma, ortam dinamikleri ve ödül yapıları açısından teknik olarak nasıl açıklarsınız?
Yüksek düzeyde, generatif simülatörler pekiştirme öğrenimi ile adaptif ortam oluşturmayı birleştirir. Simülatör yeni görevler oluşturabilir, dünyanın kurallarını dinamik olarak güncelleyebilir ve ajanın eylemlerini gerçek zamanlı olarak değerlendirebilir. Birincil bir bileşen, ajan davranışını analiz eden ve senaryoların zorluğunu ve yapısını öğrenmeyi verimli tutmak için değiştiren bir müfredat ayarlayıcısıdır. Ödül yapıları, ajanın doğru davranışa yönlendirilmesini sağlamak için doğrulanabilir ve alan spesifiktir.
AI değerlendirme ve ajan araçları alanı daha da kalabalıklaştıkça, Patronus’un yaklaşımını en net şekilde ayıran nedir?
Odak noktamız, ekolojik geçerlilik. Gerçek insan iş akışlarını yansıtan ortamları tasarlıyoruz, bunlar kesintileri, bağlam değişikliklerini, araç kullanımını ve çok adımlı akıl yürütme içerir. Ajanları önceden tanımlanmış testlerde iyi görünmeye optimize etmek yerine, üretim ortamlarında önemli olan hata türlerini ortaya çıkarmaya odaklanıyoruz. Simülatör, davranışın zaman içindeki değerlendirmesini sağlar, yalnızca izole edilmiş çıkışları değil.
Hangi görevler veya hata modları, geleneksel testlere kıyasla simülatör tabanlı değerlendirmeden en çok yararlanabilir?
Uzun vadeli, çok adımlı görevler en çok yararlanabilir. Küçük adımlı hata oranları bile karmaşık görevlerde büyük hata oranlarına neden olabilir, bu da statik benchmark’ler tarafından yakalanmaz. Simülatör tabanlı değerlendirme, görev boyunca izlenmeyi koruma, kesintileri işleme, araç kullanımını koordine etme ve görev sırasında değişen koşullara adapte olma ile ilgili hataları ortaya çıkarmayı sağlar.
Ortam tabanlı öğrenme, AI güvenliği hakkındaki düşüncelerinizi nasıl değiştirir ve generatif simülatörler, ödül hacking veya ortaya çıkan hata modları gibi yeni riskleri getirir mi?
Ortam tabanlı öğrenme, birçok güvenlik sorununu daha kolay tespit edilebilir hale getirir. Ödül hacking, genellikle ajanların sabit açıkları sömürebileceği statik ortamlarda gelişir. Generatif simülatörlerde, ortam kendisi bir hedef haline gelir, bu da bu tür kısa yolları sürdürmeyi zorlaştırır. Dikkatli tasarım, ödüller ve denetim etrafında仍 gereklidir. Ortamların avantajı, statik benchmark’lere kıyasla ajan davranışına çok daha fazla kontrol ve görünürlük sağlar.
Beş yıl içinde, Patronus AI’nin teknik hırsı ve endüstri etkisini nasıl görüyorsunuz?
Ortamların, AI için temel altyapı haline geldiğine inanıyoruz. Ajanlar, soruları yanıtlamaktan gerçek iş yapmaya geçtiğinde, öğrenmelerine olanak tanıyan ortamlar, ne kadar yetenekli ve güvenilir olduklarını şekillendirecek. Uzun vadeli hedefimiz, gerçek dünya iş akışlarını, ajanların sürekli olarak öğrenabileceği yapılandırılmış ortamlara dönüştürmektir. Geleneksel değerlendirme ve eğitim arasındaki ayrım ortadan kalkıyor ve bu değişimin, AI sistemlerinin bir sonraki dalgasını tanımlayacağına inanıyoruz.
Harika röportaj için teşekkür ederiz, daha fazla bilgi edinmek isteyen okuyucular Patronus AI‘yi ziyaret edebilir.












