Connect with us

Yapay Zekâ

Google Araştırmacıları AI Modellerini Geri Tutan Underspecification Problemini Keşfetti

mm

Son zamanlarda Google’dan bir araştırma ekibi, AI modellerinin başarısızlıklarının ortak bir nedenini belirledi ve underspecification’ı, makine öğrenimi modellerinin test ve geliştirme sırasında gerçekleştirdiklerinden farklı şekilde gerçek dünya ortamında neden performans gösterdiklerine ilişkin birincil nedenlerden biri olarak gösterdi.

Makine öğrenimi modelleri, laboratuvar ortamında optimal performans göstermelerine rağmen, gerçek dünya ortamında görevlerle başa çıkmaya çalıştıklarında genellikle başarısız olurlar. Eğitim ve geliştirme ile gerçek dünya performansı arasında uyumsuzluk oluşmasının birçok nedeni vardır. AI modellerinin gerçek dünya görevlerinde neden başarısız olduğuna ilişkin en yaygın nedenlerden biri, veri kayması olarak bilinen bir kavramdır. Veri kayması, bir makine öğrenimi modelini geliştirmek için kullanılan veri türüyle modelin uygulamaya alındığında beslenen veri arasında temel bir farklılığa işaret eder. Örneğin, yüksek kaliteli görüntü verilerine dayalı olarak eğitilen bilgisayar görme modelleri, günlük ortamında bulunan düşük kaliteli kameralar tarafından yakalanan verilere beslendiğinde performans göstermekte zorlanırlar.

MIT Technology Review’e göre, Google’da 40 farklı araştırmacının yer aldığı bir ekip, makine öğrenimi modelinin performansının neden bu kadar farklı olabileceğine ilişkin bir başka nedeni belirledi. Problemin adı “underspecification” ve bu, gözlemlenen olguların birçok olası nedeninin olduğu ancak bunların tümünün model tarafından hesaba katılmadığı bir istatistiksel kavramı tanımlar. Çalışmanın lideri Alex D’Amour’a göre, problem birçok makine öğrenimi modelinde ortaya çıkıyor ve “her yerde meydana geliyor” diyor.

Bir makine öğrenimi modelini eğitmenin tipik yöntemi, modelin analiz edebileceği ve ilgili kalıpları çıkarabileceği büyük miktarda veri beslemeyi içerir. Daha sonra model, daha önce görmediği örneklerle beslenir ve öğrendiği özelliklere dayanarak bu örneklerin doğasını tahmin etmesi istenir. Model belirli bir doğruluk seviyesine ulaştığında, eğitim genellikle tamamlanmış kabul edilir.

Google araştırma ekibine göre, modellerin gerçekten eğitim dışı verilere genellemesini sağlamak için daha fazla şey yapılması gerekiyor. Klasik makine öğrenimi modeli eğitme yöntemi, tüm testleri geçen ancak küçük ve önemli olmayan farklılıkları olan çeşitli modeller üretebilir. Modellerin farklı düğümlerine farklı rastgele değerler atanabilir veya eğitim verisi farklı şekillerde seçilebilir veya temsil edilebilir. Bu varyasyonlar küçüktür ve genellikle keyfi olup, eğitim sırasında modelin performansına büyük bir etkisi yoksa göz ardı edilebilir. Ancak bu küçük değişikliklerin etkisi birikebilir ve gerçek dünya performansında büyük farklılıklara yol açabilir.

Bu underspecification problematik çünkü, eğitim sürecinin iyi modeller üretebilmesi rağmen, aynı zamanda kötü bir model üretebileceği ve bu farkın yalnızca model üretimden çıkıp kullanıma girdiğinde keşfedileceği anlamına gelir.

Underspecification’ın etkisini değerlendirmek için araştırma ekibi, çeşitli modelleri inceledi. Her model aynı eğitim süreciyle eğitildi ve ardından modellerin performansındaki farklılıkları vurgulamak için bir dizi teste tabi tutuldu. Bir örnekte, 50 farklı görüntü tanıma sistemi, ImageNet veri kümesiyle eğitildi. Modeller aynıydı, yalnızca eğitim başlangıcında rastgele atanan sinir ağı değerlerine farklılık gösteriyordu. Modellerdeki farklılıkları belirlemek için kullanılan stres testleri, ImageNet-C ile gerçekleştirildi. ImageNet-C, orijinal veri kümesinin kontrast veya parlaklık ayarlaması yoluyla değiştirilmiş bir varyasyonudur. Modeller ayrıca ObjectNet ile test edildi. ObjectNet, günlük nesnelerin farklı açılarda ve bağlamlarda yer aldığı bir dizi görüntüden oluşur. Tüm 50 model, eğitim veri kümesinde yaklaşık olarak aynı performansı göstermesine rağmen, stres testlerinde performansları büyük ölçüde farklılaştı.

Araştırma ekibi, iki farklı NLP sistemi eğittiğinde ve test ettiğinde, ayrıca çeşitli diğer bilgisayar görme modellerini test ettiğinde benzer sonuçlarla karşılaştı. Her durumda, modeller eğitim süreci için aynı olmasına rağmen birbirlerinden büyük ölçüde farklılaştı.

D’Amour’a göre, makine öğrenimi araştırmacıları ve mühendisleri, modelleri serbest bırakmadan önce çok daha fazla stres testi yapmalıdır. Bu, belirli görevler için gerçek dünya verisiyle uyarlanmış stres testleri yapılması gerektiğinden zor olabilir. Underspecification probleminin bir olası çözümü, aynı anda birçok model üretmek ve ardından modelleri bir dizi gerçek dünya göreviyle test etmek ve en iyi sonuçları tutarlı olarak gösteren modeli seçmektir. Modelleri bu şekilde geliştirmek zaman alıcı ve kaynak yoğun olabilir, ancak özellikle tıbbi bağlamlarda veya güvenlik konusunda birinci öncelik olan diğer alanlarda kullanılan AI modelleri için bu ticaret karşılığında olabilir. D’Amour, MIT Technology Review aracılığıyla şunları açıkladı:

“Modellerimiz için tam olarak hangi gereksinimlere sahip olduğumuzu belirleme konusunda daha iyi olmamız gerekiyor. Çünkü genellikle bu gereksinimleri, model gerçek dünyada başarısız olduktan sonra keşfediyoruz.”

Blog yazarı ve programcı, Machine Learning ve Deep Learning konularında uzmanlık sahibi. Daniel, başkalarının AI'nin gücünü sosyal fayda için kullanmasına yardımcı olmak umudu taşıyor.