Yapay Zeka
LightAutoML: Büyük Finansal Hizmetler Ekosistemi için AutoML Çözümü

AutoML birkaç yıl önce popülerlik kazanmış olsa da, AutoML üzerindeki ilk çalışmalar bilim insanlarının hiperparametre optimizasyonu üzerine ilk makaleleri yayınladığı 90'ların başına dayanır. AutoML, ML geliştiricilerinin dikkatini 2014 yılında ICML'nin ilk AutoML çalıştayını düzenlemesiyle çekti. AutoML'nin yıllar boyunca odaklandığı en önemli noktalardan biri, modelin belirli bir makine öğrenimi modeli için büyük bir hiperparametre alanında en iyi performans gösteren hiperparametreleri belirlemek üzere bir dizi optimizasyon yöntemi uyguladığı hiperparametre arama problemidir. AutoML modelleri tarafından yaygın olarak uygulanan bir diğer yöntem, belirli bir hiperparametrenin belirli bir makine öğrenimi modeli için en uygun hiperparametre olma olasılığını tahmin etmektir. Model bunu, geleneksel olarak daha önce tahmin edilen modellerden ve diğer veri kümelerinden geçmiş verileri kullanan Bayes yöntemlerini uygulayarak başarır. Hiperparametre optimizasyonuna ek olarak, diğer yöntemler bir modelleme alternatifleri alanından en iyi modelleri seçmeye çalışır.
Bu yazımızda öncelikle finans sektöründe faaliyet gösteren Avrupalı bir şirket için geliştirilmiş bir AutoML sistemi olan LightAutoML'i ve ekosistemini ele alacağız. LightAutoML çerçevesi çeşitli uygulamalara dağıtıldı ve sonuçlar, yüksek kaliteli makine öğrenimi modelleri oluştururken bile veri bilimcilerin düzeyiyle karşılaştırılabilecek düzeyde üstün bir performans sergiledi. LightAutoML çerçevesi aşağıdaki katkıları sağlamaya çalışır. Birincisi, LightAutoML çerçevesi öncelikle büyük bir Avrupa finans ve bankacılık kurumunun ekosistemi için geliştirildi. LightAutoML çerçevesi, çerçevesi ve mimarisi sayesinde, çeşitli açık kıyaslamaların yanı sıra ekosistem uygulamalarında da son teknoloji ürünü AutoML çerçevelerinden daha iyi performans gösterebilir. LightAutoML çerçevesinin performansı, veri bilimcileri tarafından manuel olarak ayarlanan modellerle de karşılaştırıldı ve sonuçlar, LightAutoML çerçevesinin daha güçlü performans gösterdiğini gösterdi.
Bu makale LightAutoML çerçevesini derinlemesine ele almayı amaçlamaktadır ve çerçevenin mekanizmasını, metodolojisini, mimarisini ve en son teknoloji çerçevelerle karşılaştırmasını araştırıyoruz. Öyleyse başlayalım.
LightAutoML: Finansal Hizmetler için AutoML Çerçevesi
Araştırmacılar AutoML üzerinde ilk olarak 90'lı yılların ortalarında ve başlarında çalışmaya başlamış olsalar da, AutoML son birkaç yılda büyük ilgi gördü; otomatik olarak oluşturulan Makine Öğrenimi modellerini uygulayan önde gelen endüstriyel çözümlerden bazıları Amazon'un AutoGluon, DarwinAI, H20.ai'sidir. , IBM Watson AI, Microsoft AzureML ve çok daha fazlası. Bu çerçevelerin çoğu, finansal hizmetler, sağlık hizmetleri, eğitim ve daha pek çok alanda farklı uygulama sınıflarında otomatik olarak makine öğrenimi tabanlı modeller geliştiren genel amaçlı bir AutoML çözümü uygular. Bu yatay genel yaklaşımın ardındaki temel varsayım, otomatik model geliştirme sürecinin tüm uygulamalarda aynı kalmasıdır. Ancak LightAutoML çerçevesi, genel olmayan, daha ziyade bireysel uygulamaların (bu durumda büyük bir finans kurumunun) ihtiyaçlarını karşılayan bir AutoML çözümü geliştirmek için dikey bir yaklaşım uygulamaktadır. LightAutoML çerçevesi, karmaşık ekosistemin gereksinimlerine ve özelliklerine odaklanan dikey bir AutoML çözümüdür. Birincisi, LightAutoML çerçevesi hızlı ve optimale yakın hiperparametre araması sağlar. Model bu hiperparametreleri doğrudan optimize etmese de tatmin edici sonuçlar sunmayı başarıyor. Ayrıca model, modelin küçük problemlerde optimal, büyük problemlerde ise yeterince hızlı olmasını sağlamak için hız ve hiperparametre optimizasyonu arasındaki dengeyi dinamik tutar. İkincisi, LightAutoML çerçevesi, makine öğrenimi modellerinin aralığını kasıtlı olarak yalnızca iki türle sınırlandırır: farklı algoritmalardan oluşan büyük topluluklar uygulamak yerine doğrusal modeller ve GBM'ler veya gradyan destekli karar ağaçları. Makine öğrenimi modellerinin aralığını sınırlamanın ardındaki temel neden, belirli bir sorun ve veri türü için performansı olumsuz etkilemeden LightAutoML çerçevesinin yürütme süresini hızlandırmaktır. Üçüncüsü, LightAutoML çerçevesi, belirli seçim kurallarına ve meta istatistiklere dayanarak modellerde kullanılan farklı özellikler için ön işleme şemalarının seçilmesine yönelik benzersiz bir yöntem sunar. LightAutoML çerçevesi, geniş bir uygulama yelpazesinde çok çeşitli açık veri kaynakları üzerinde değerlendirilir.
LightAutoML : Metodoloji ve Mimari
LightAutoML çerçevesi, tipik makine öğrenimi görevleri için uçtan uca model geliştirmeye ayrılmış, Ön Ayarlar olarak bilinen modüllerden oluşur. Şu anda LightAutoML çerçevesi Preset modüllerini desteklemektedir. İlk olarak TabularAutoML Hazır Ayarı, tablo halindeki veri kümelerinde tanımlanan klasik makine öğrenimi sorunlarını çözmeye odaklanır. İkincisi, Beyaz Kutu Ön Ayarı, WoE veya Kanıt Ağırlığı kodlaması yerine Lojistik Regresyon gibi basit yorumlanabilir algoritmalar ve tablo verileri üzerindeki ikili sınıflandırma görevlerini çözmek için ayrıklaştırılmış özellikler uygular. Basit yorumlanabilir algoritmaların uygulanması, farklı faktörlerin oluşturduğu yorumlanabilirlik kısıtlamaları nedeniyle bir uygulamanın olasılığını modellemek için yaygın bir uygulamadır. Üçüncüsü, NLP Ön Ayarı, tablo halindeki verileri NLP veya Doğal Dil İşleme önceden eğitilmiş derin öğrenme modelleri ve belirli özellik çıkarıcıları içeren araçlar. Son olarak CV Preset, bazı temel araçların yardımıyla görüntü verileriyle çalışır. LightAutoML modelinin dört Ön Ayarın tümünü desteklemesine rağmen çerçevenin üretim düzeyi sistemde yalnızca TabularAutoML'yi kullandığını unutmamak önemlidir.
LightAutoML çerçevesinin tipik işlem hattı aşağıdaki görüntüde yer almaktadır.
Her boru hattı üç bileşen içerir. İlk olarak, görev türünü ve ham verileri girdi olarak alan bir nesne olan Reader, önemli meta veri hesaplamalarını gerçekleştirir, ilk verileri temizler ve farklı modelleri yerleştirmeden önce gerçekleştirilecek veri manipülasyonlarını belirler. Daha sonra LightAutoML iç veri kümeleri, veri kümeleri için doğrulama şemalarını uygulayan CV yineleyicileri ve meta verileri içerir. Üçüncü bileşen, tek bir tahmin elde etmek için yığılmış ve/veya harmanlanmış birden fazla makine öğrenimi hattıdır. LightAutoML çerçevesinin mimarisi içindeki bir makine öğrenimi hattı, tek bir veri doğrulama ve ön işleme şemasını paylaşan birden fazla makine öğrenimi modelinden biridir. Ön işleme adımı en fazla iki özellik seçim adımına, bir özellik mühendisliği adımına sahip olabilir veya herhangi bir ön işleme gerekmiyorsa boş olabilir. ML ardışık düzenleri aynı veri kümeleri üzerinde bağımsız olarak hesaplanabilir ve daha sonra ortalama (veya ağırlıklı ortalama) kullanılarak bir araya getirilebilir. Alternatif olarak, çok seviyeli topluluk mimarileri oluşturmak için bir yığınlama topluluk şeması kullanılabilir.
LightAutoML Tablolu Ön Ayar
LightAutoML çerçevesinde, TabularAutoML varsayılan işlem hattıdır ve tablolu verilerdeki üç tür görevi çözmek için modelde uygulanır: ikili sınıflandırmaÇok çeşitli performans ölçümleri ve kayıp fonksiyonları için , regresyon ve çok sınıflı sınıflandırma. Aşağıdaki dört sütunu içeren bir tablo: kategorik özellikler, sayısal özellikler, zaman damgaları ve sınıf etiketlerini veya sürekli değeri içeren tek bir hedef sütunu, giriş olarak TabularAutoML bileşenine beslenir. LightAutoML çerçevesinin tasarımının ardındaki temel amaçlardan biri, hızlı hipotez testi için bir araç tasarlamaktı; bu, çerçevenin ardışık düzen optimizasyonu için kaba kuvvet yöntemlerini kullanmaktan kaçınmasının ve yalnızca belirli bir platformda çalışan verimlilik teknikleri ve modellerine odaklanmasının ana nedenidir. geniş veri kümesi yelpazesi.
Otomatik Yazma ve Veri Ön İşleme
Farklı özellik türlerini farklı şekillerde ele almak için modelin her özellik türünü bilmesi gerekir. Küçük bir veri kümesine sahip tek bir görevin olduğu durumda kullanıcı, her özellik tipini manuel olarak belirleyebilir. Ancak, her özellik tipinin manuel olarak belirtilmesi, binlerce özellik içeren veri kümeleri ile yüzlerce görev içeren durumlarda artık geçerli bir seçenek değildir. TabularAutoML Ön Ayarı için LightAutoML çerçevesinin özellikleri üç sınıfa eşlemesi gerekir: sayısal, kategori ve tarihsaat. Basit ve açık bir çözüm, sütun dizisi veri türlerini gerçek özellik türleri olarak kullanmak, yani float/int sütunlarını, zaman damgası olarak ayrıştırılabilecek sayısal özelliklerle, zaman damgası veya dizeyle (tarih saatiyle ve diğerlerini de kategoriyle) eşlemektir. Ancak bu eşleme, kategori sütunlarında sayısal veri türlerinin sıklıkla bulunması nedeniyle en iyi eşleme değildir.
Doğrulama Şemaları
Doğrulama şemaları AutoML çerçevelerinin hayati bir bileşenidir, çünkü sektördeki veriler zaman içinde değişime tabidir ve bu değişim unsuru, model geliştirilirken IID veya Bağımsız Özdeş Dağıtılmış varsayımları önemsiz hale getirir. AutoML modelleri, performanslarını tahmin etmek, hiperparametreleri aramak ve kullanıma hazır tahmin oluşturmak için doğrulama şemaları kullanır. TabularAutoML işlem hattı üç doğrulama şemasını uygular:
- KFold Çapraz Doğrulama: KFold Çapraz Doğrulama, davranış modelleri için GroupKFold ve sınıflandırma görevleri için katmanlı KFold'u içeren TabularAutoML işlem hattı için varsayılan doğrulama şemasıdır.
- Uzatma Doğrulaması: Uzatma kümesi belirtilirse, Uzatma doğrulama şeması uygulanır.
- Özel Doğrulama Şemaları: Kullanıcılar tarafından bireysel gereksinimlerine göre özel doğrulama şemaları oluşturulabilir. Özel Doğrulama Şemaları, çapraz doğrulamayı ve zaman serisi bölme şemalarını içerir.
Öznitelik Seçimi
Özellik seçimi, çıkarım ve model uygulama maliyetlerinin azaltılmasını kolaylaştırdığı için endüstri standartlarına göre model geliştirmenin çok önemli bir yönü olmasına rağmen, AutoML çözümlerinin çoğu bu soruna pek odaklanmaz. Aksine, TabularAutoML işlem hattı üç özellik seçim stratejisi uygular: Seçim yok, Önem kesme seçimi ve Öneme dayalı ileri seçim. Üçü arasından, Önem kesme seçimi özelliği seçim stratejisi varsayılandır. Ayrıca, özelliğin önemini tahmin etmenin iki temel yolu vardır: bölünmüş tabanlı ağaç önemi ve GBM modelinin veya degrade artırılmış permütasyon önemi Karar ağaçları. Önem kesme seçiminin temel amacı, modele yardımcı olmayan özellikleri reddetmek, modelin performansı olumsuz etkilemeden özellik sayısını azaltmasına olanak tanımaktır; bu, model çıkarımını ve eğitimini hızlandırabilecek bir yaklaşımdır.
Yukarıdaki görüntü, ikili banka veri kümelerindeki farklı seçim stratejilerini karşılaştırmaktadır.
Hiperparametre Ayarı
TabularAutoML ardışık düzeni, neyin ayarlandığına bağlı olarak hiperparametreleri ayarlamak için farklı yaklaşımlar uygular.
- Hiperparametre Ayarlamanın Erken Durdurulması eğitim aşamasında tüm modeller için yineleme sayısını seçer.
- Uzman Sistem Hiperparametre Ayarı modeller için hiperparametreleri tatmin edici bir şekilde ayarlamanın basit bir yoludur. Nihai modelin, sert ayarlı modellere göre puanında yüksek bir düşüş yaşamasını engeller.
- Ağaç Yapılı Parzen Tahmini veya TPE GBM veya degrade destekli karar ağacı modelleri için. TPE, LightAutoML işlem hattında varsayılan seçim olan karma bir ayarlama stratejisidir. LightAutoML çerçevesi, her GMB çerçevesi için iki modeli eğitir: Birincisi uzman hiperparametreleri alır, ikincisi ise zaman bütçesine uyacak şekilde ince ayar yapar.
- Izgara Arama Hiperparametre Ayarı Erken durdurma ve sıcak başlatmanın yanı sıra doğrusal bir modelin düzenleme parametrelerine ince ayar yapmak için TabularAutoML işlem hattında uygulanır.
Model, kullanıcı tarafından tanımlanan veya çözülen görev için varsayılan olan metrik fonksiyonu maksimuma çıkararak tüm parametreleri ayarlar.
LightAutoML : Deney ve Performans
Performansı değerlendirmek için LightAutoML çerçevesi içindeki TabularAutoML Ön Ayarı, çeşitli görevlerde mevcut açık kaynak çözümleriyle karşılaştırılır ve LightAutoML çerçevesinin üstün performansını pekiştirir. İlk olarak karşılaştırma, 35 ikili ve çok sınıflı sınıflandırma görevi veri kümesi üzerinde değerlendirilen OpenML kıyaslaması üzerinde gerçekleştirilir. Aşağıdaki tablo LightAutoML çerçevesinin mevcut AutoML sistemleriyle karşılaştırmasını özetlemektedir.
Görüldüğü gibi LightAutoML çerçevesi, kıyaslama kapsamındaki 20 veri kümesinde diğer tüm AutoML sistemlerinden daha iyi performans gösteriyor. Aşağıdaki tablo, LightAutoML'nin farklı görev sınıflarında farklı performans sağladığını gösteren veri kümesi bağlamındaki ayrıntılı karşılaştırmayı içerir. İkili sınıflandırma görevlerinde LightAutoML performans açısından yetersiz kalırken, yüksek miktarda veri içeren görevlerde LightAutoML çerçevesi üstün performans sağlar.
Aşağıdaki tablo, çeşitli ikili sınıflandırma görevlerini içeren 15 banka veri kümesinde LightAutoML çerçevesinin performansını AutoML sistemleriyle karşılaştırır. Görülebileceği gibi LightAutoML, 12 veri kümesinin 15'sinde tüm AutoML çözümlerinden daha iyi performans gösteriyor ve kazanma yüzdesi 80'dir.
Son Düşüncelerimiz
Bu yazımızda öncelikli olarak finans sektöründe faaliyet gösteren Avrupalı bir şirket için geliştirilmiş bir AutoML sistemi olan LightAutoML'den ve ekosisteminden bahsettik. LightAutoML çerçevesi çeşitli uygulamalara dağıtıldı ve sonuçlar, yüksek kaliteli makine öğrenimi modelleri oluştururken bile veri bilimcilerin düzeyiyle karşılaştırılabilecek düzeyde üstün bir performans sergiledi. LightAutoML çerçevesi aşağıdaki katkıları sağlamaya çalışır. Birincisi, LightAutoML çerçevesi öncelikle büyük bir Avrupa finans ve bankacılık kurumunun ekosistemi için geliştirildi. LightAutoML çerçevesi, çerçevesi ve mimarisi sayesinde, çeşitli açık kıyaslamaların yanı sıra ekosistem uygulamalarında da son teknoloji ürünü AutoML çerçevelerinden daha iyi performans gösterebilir. LightAutoML çerçevesinin performansı, veri bilimcileri tarafından manuel olarak ayarlanan modellerle de karşılaştırıldı ve sonuçlar, LightAutoML çerçevesinin daha güçlü performans gösterdiğini gösterdi.