Yapay Zekâ
Dayanıklılık > Doğruluk: Neden ‘model dayanıklılığı’ modelleri operasyonel hale getirmek için gerçek ölçüt olmalıdır

By Ingo Mierswa, Founder, President & Chief Data Scientist at RapidMiner.
Veri bilimi son birkaç yılda büyük ilerleme kaydetmiştir ve birçok organizasyon, işlemler hakkında daha derin bilgiler elde etmek veya bazı durumlarda gelecekte olası sonuçları tahmin etmek için gelişmiş analiz veya makine öğrenimi modellerini kullanmaktadır. Diğer “bilim” dallarında, bir projenin başarılı olup olmayacağı her zaman açık değildir ve %87’si üretim aşamasına asla ulaşmayan veri bilimi projeleri hakkında raporlar vardır. Yüzde 100’lük bir başarı oranı beklenemez, ancak veri bilimi projelerinde daha yüksek başarı oranlarına yol açan bazı kalıplar vardır. Bu sorunlu kalıpların, herhangi bir specific endüstri veya kullanım örneğinden bağımsız olarak var olduğu görünmektedir, bu da veri biliminde çözülmesi gereken evrensel bir sorun olduğu anlamına gelmektedir.
Makine öğreniminin başarısını ölçmek
Makine öğrenimi (ML) modelleri oluşturan veri bilimcileri, bu modellerin performansı nasıl ölçüleceğine dair iyi tanımlanmış matematiksel ölçütler kullanır. Uygulanan ölçütler, modele bağlı olarak değişir. Bir modelin yeni durumlar için sınıflar veya kategoriler tahmin etmesi gerektiği varsayalım – örneğin, bir müşterinin ayrılacağına dair bir tahmin. Bu gibi durumlarda, veri bilimcileri, modelin ne sıklıkla doğru olduğu (doğruluk) veya müşterilerin gerçekten ayrılma eğiliminde olup olmadıklarını (duyarlılık) ölçmek için ölçümler kullanacaktır.
Veri bilimcilerin bu tür nesnel ölçütler benötir, çünkü işlerinin bir kısmı, bu değerlendirme ölçütlerini en iyi modeli üretmek için optimize etmektir. Aslında, veri bilimcileri, modelleme için veri hazırlamaktan sonraki en çok zamanı, bu modelleri oluşturma ve ayarlamada harcarlar.
Bu durumun dezavantajı, veri bilimcilerin aslında modelleri üretime koymaya odaklanmadıklarıdır, bu da birden fazla nedenle sorunludur. İlk ve en önemli neden, başarılı sonuçlar üretemeyen modellerin, bunları uygulayan organizasyonlar için iş etkileri yaratmak üzere kullanılamayacağıdır. İkincisi, bu organizasyonlar, başarılı sonuçlar üretemeyen, ancak “gerçek dünya” verilerine karşı çalıştırıldıklarında, makine öğrenimi ve diğer veri bilimi araçlarını organizasyonları için işe yaramaz olarak değerlendirecekler ve gelecekteki veri bilimi girişimlerine devam etmekten vazgeçeceklerdir.
Gerçek şu ki, veri bilimcileri sadece modelleri ayarlamayı sever ve bu konuda çok zaman harcarlar. Ancak iş etkileri olmadan, bu zaman akıllıca harcanmaz, bu da özellikle bugün dünyanın dört bir yanındaki veri bilimcilerinin ne kadar nadir ve değerli kaynaklar olduğu düşünüldüğünde çok acı vericidir.
Netflix ödülü ve üretim başarısızlığı
Bu fenomeni, son yıllarda model oluşturma ve model operasyonelleştirme arasında görülmüştür. Netflix Ödülü, kullanıcıların film derecelendirmelerini tahmin etmek için en iyi işbirlikçi filtreleme algoritması için açık bir yarışmaydı. Bir filme yüksek puan verirseniz, bu filmi muhtemelen beğendiğiniz anlamına gelir – bu nedenle, bu derecelendirme sistemi kullanarak, Netflix size belirli başlıkları önerecektir ve eğer önerilen içeriği beğenirseniz, muhtemelen daha uzun süre Netflix müşterisi olarak kalacaksınız. Büyük ödül, Netflix’in kendi algoritmasını en az %10 oranında iyileştirebilen takıma verilen 1M USD’dir.

Yarışma 2006’da başladı ve sonraki üç yıl içinde, dünya çapındaki 40.000’den fazla veri bilimi ekibinin katkıları, başlık önerme başarısında %10’dan fazla etkileyici bir iyileşmeye yol açtı. Ancak, kazanan ekibin modelleri asla operasyonelleştirilmedi. Netflix, “doğrulukteki artışın modelleri üretime almak için gereken çabayı haklı çıkarmak için yeterli görünmediğini” söyledi.
Optimal her zaman optimal değildir
Model doğruluğu ve diğer veri bilimi ölçütleri, uzun süredir bir modelin başarısını ölçmek için üretim aşamasına geçmeden önce kullanılan ölçütler olarak kullanılmıştır. Gördüğümüz gibi, birçok model asla bu aşamaya bile ulaşmaz – bu, hem enerji hem de harcanan zaman bakımından bir kaynak israfıdır.
Ancak model ayarlamasına aşırı yatırım kültürü ile ilgili daha fazla sorun vardır. İlk sorun, istemeden test verilerine aşırı uyarlama, bu da yöneten veri bilimcisine iyi görünür ancak üretimde gerçekten kötü performans gösterir veya hatta zarar verir. Bu, iki nedenden ötürü olur:
- Test hatası ile üretimde görülen hata arasında iyi bilinen bir uyumsuzluk vardır
- İş etkileri ve veri bilimi performans ölçütleri genellikle ilişkili olsa da, “optimal” modeller her zaman en büyük etkiye sahip olmaz
Yukarıdaki ilk nokta, özellikle test kümesine aşırı uyarlama olarak bilinir. Veri bilimi yarışmaları katılımcıları arasında, özellikle de Kaggle yarışmalarında, bu fenomenin daha güçlü bir versiyonunu zaten görebilirsiniz. Bu yarışmalar için, kamu ve özel liderlik panelleri arasında zaten daha güçlü bir versiyonunu görebilirsiniz. Aslında, bir katılımcı, verilere hiç bakmadan bir Kaggle yarışmasının kamu liderlik panellerini kazanabilir. Benzer şekilde, özel liderlik panelleri ve genel yarışma kazananı, değerlendirildiği veri setinden başka hiçbir veri setinde performansını sürdüremeyen bir model üretebilir.
Doğruluk iş etkisine eşit değildir
Bu uygulamayı çok uzun süredir kabul ettik, bu da test veri kümelerine yavaş bir adaptasyona yol açar. Sonuç olarak, en iyi görünür model, en iyisi olarak ortaya çıkar:
- Predictive doğruluk gibi ölçümler genellikle iş etkisine eşit değildir
- Doğrulukta %1’lik bir iyileşme, %1 daha iyi iş sonucuna tercüme edilemez
- İş etkileri açısından diğer modelleri aşan düşük performanslı modeller olduğu durumlar vardır
- Bakım, puanlama hızı veya zaman içinde değişikliklere karşı dayanıklılık (dayanıklılık olarak adlandırılır) gibi diğer faktörler de dikkate alınmalıdır.
Bu son nokta özellikle önemlidir. En iyi modeller, sadece yarışmaları kazanmayacak veya veri bilimi laboratuvarında iyi görünmeyecek, sondern üretimde dayanıklı olacak ve çeşitli test kümelerinde iyi performans gösterecektir. Bu modellere dayanıklı modeller diyoruz.
Değişim ve dayanıklılığın önemi
Tüm modeller zamanla bozulur. Tek soru, bu nasıl ve ne kadar hızlı gerçekleşir ve model, değişen koşullar altında hala nasıl performans gösterir. Bozulmanın nedeni, dünyanın statik olmamasıdır. Bu nedenle, modele uygulanan veri de zaman içinde değişir. Bu değişiklikler yavaş yavaş gerçekleşirse, buna “kavramsal kayma” denir. Değişiklikler aniden gerçekleşirse, buna “kavramsal değişim” denir. Örneğin, müşteriler, trendler ve/veya pazarlama tarafından etkilenerek yavaş yavaş tüketim davranışlarını değiştirebilirler. Eğilim modelleri, bir noktada artık çalışmayabilir. Bu değişiklikler, belirli durumlarda dramatik olarak hızlandırılabilir. COVID-19, tuvalet kağıdı ve dezenfektan gibi ürünlerin satışını – böyle bir modeli tamamen şaşırtabilecek beklenmedik bir şekilde artırdı.
Dayanıklı bir model, doğruluk veya hassasiyet gibi ölçütlere göre en iyi model olmayabilir, ancak daha geniş bir veri setinde iyi performans gösterecektir. Bu nedenle, daha uzun bir süre boyunca daha iyi performans gösterebilecek ve bu nedenle daha iyi iş etkileri yaratabilecektir.
Doğrusal ve diğer basit modeller genellikle daha dayanıklıdır, çünkü bunları belirli bir test kümesine veya zamana göre aşırı uyarlama daha zordur. Daha güçlü modeller, daha basit bir model için “rakip” olarak kullanılabilir, böylece veri bilimcileri, bunun da zaman içinde dayanıklı olup olmadığını görebilir. Ancak bu, modelleme yolculuğunun sonunda, başlangıcında değil, yapılmalıdır.
Veri biliminde dayanıklılık için resmi bir KPI henüz tanımlanmasa da, veri bilimcilerinin modellerinin ne kadar dayanıklı olduğunu değerlendirmek için birkaç yol vardır:
- Çapraz doğrulama çalışmasında daha küçük standart sapmalar, model performansının test kümelerinin özgüllüklerine bağlı olmadığını gösterir
- Veri bilimcileri tam çapraz doğrulamalar yapmıyorlarsa, test ve doğrulama için iki farklı veri kümesi kullanabilirler. Test ve doğrulama veri kümeleri arasındaki hata oranları arasındaki uyumsuzluk, daha yüksek dayanıklılığa işaret eder
- Eğer model üretimde düzgün bir şekilde izlenirse, hata oranları zaman içinde görülebilir. Hata oranlarının zaman içinde tutarlılığı, model dayanıklılığı için iyi bir işaretidir.
- Eğer tercih edilen model izleme çözümü, veri akışını hesaba katıyorsa, veri bilimcileri, modelin bu veri akışından nasıl etkilendiğine de dikkat etmelidir.
Veri Biliminde Kültür Değişimi
Bir model operasyonel aşama sonrasında dağıtıldıktan sonra, modelin doğruluğuna yönelik tehditler vẫn vardır. Yukarıdaki son iki nokta, model dayanıklılığı ile ilgili olarak, üretimde modellerin düzgün bir şekilde izlenmesini gerektirir. Veri biliminde kültür değişiminin başlangıç noktası olarak, şirketler, düzgün model izleme yatırımı yapmaya ve veri bilimcilerini, modeller üretimde dağıtıldıktan sonra performans eksikliğinden sorumlu tutmaya iyi yönlendirilir. Bu, model oluşturma kültüründen, değer yaratma ve sürdürme kültürüne veri biliminde anında bir kültür değişikliği yaratacaktır.
Son dünya olayları, dünyanın ne kadar hızlı değişebileceğini gösterdi. Artık, sadece doğru değil, aynı zamanda dayanıklı modeller inşa etmemiz gerekiyor – bu, zaman içinde anlamlı iş etkileri yaratmak için daha önemli. Örneğin, Kaggle, veri bilimcilerini, COVID-19’a karşı küresel mücadelede kullanılabilecek model çözümleri oluşturmaya teşvik etmek için bir yarışma düzenliyor. Bu yarışmadan elde edilen en başarılı modellerin, en doğru olanlar değil, en dayanıklı olanlar olacağını öngörüyorum, çünkü COVID-19 verilerinin nasıl hızlı bir şekilde değişebileceğini gördük.
Veri bilimi, en iyi modeli üretmek yerine gerçeği bulmaya odaklanmalıdır. Dayanıklılığa doğruluk karşısında daha yüksek bir standartta tutarak, veri bilimcileri, organizasyonlarımıza daha fazla iş etkisi yaratabilecek ve geleceğimizi olumlu şekilde şekillendirmemize yardımcı olabileceklerdir.












