saplama Toplu Öğrenme Nedir? - Unite.AI
Bizimle iletişime geçin

AI 101

Toplu Öğrenme Nedir?

mm
Güncellenmiş on

En güçlü makine öğrenimi tekniklerinden biri topluluk öğrenimidir. Topluluk öğrenme tahminlerin güvenilirliğini ve doğruluğunu artırmak için çoklu makine öğrenimi modellerinin kullanılmasıdır. Yine de, çoklu makine öğrenimi modellerinin kullanılması nasıl daha doğru tahminlere yol açar? Topluluk öğrenme modelleri oluşturmak için ne tür teknikler kullanılır? Topluluk modellerini kullanmanın arkasındaki mantığa ve topluluk modelleri oluşturmanın birincil yollarına göz atarak bu soruların yanıtını keşfedeceğiz.

Toplu Öğrenme Nedir?

Basitçe ifade etmek gerekirse, topluluk öğrenimi, birden çok makine öğrenimi modelini eğitme ve çıktılarını bir araya getirme sürecidir. Farklı modeller, tek bir optimal öngörü modeli oluşturmak için temel olarak kullanılır. Çeşitli bireysel makine öğrenimi modellerini birleştirmek, genel modelin kararlılığını iyileştirerek daha doğru tahminlere yol açabilir. Toplu öğrenme modelleri genellikle bireysel modellerden daha güvenilirdir ve sonuç olarak çoğu makine öğrenimi yarışmasında genellikle birinci sırayı alır.

Bir mühendisin toplu öğrenme modeli oluşturmak için kullanabileceği farklı teknikler vardır. Basit topluluk öğrenme teknikleri, farklı modellerin çıktılarının ortalamasını almak gibi şeyleri içerirken, özellikle birçok temel öğrenicinin/modelin tahminlerini bir araya getirmek için geliştirilmiş daha karmaşık yöntemler ve algoritmalar da vardır.

Topluluk Eğitim Yöntemlerini Neden Kullanmalı?

Makine öğrenimi modelleri çeşitli nedenlerle birbirinden farklı olabilir. Farklı makine öğrenimi modelleri, popülasyon verilerinin farklı örnekleri üzerinde çalışabilir, farklı modelleme teknikleri kullanılabilir ve farklı bir hipotez kullanılabilir.

Büyük bir grup insanla bir trivia oyunu oynadığınızı hayal edin. Tek başına bir takımdaysanız, bilgi sahibi olduğunuz bazı konular ve bilmediğiniz birçok konu olacaktır. Şimdi diğer insanlarla bir takımda oynadığınızı varsayalım. Tıpkı sizin gibi, kendi uzmanlık alanlarına ilişkin bazı bilgilere sahip olacaklar ve diğer konularda hiçbir bilgileri olmayacak. Yine de bilgi birikiminiz birleştiğinde, daha fazla alan için daha doğru tahminlere sahip olursunuz ve ekibinizin bilgi eksikliği olan konu sayısı küçülür. Bu, doğruluğu artırmak ve hataları en aza indirmek için farklı ekip üyelerinin (bireysel modeller) tahminlerini birleştiren toplu öğrenmenin altında yatan ilkenin aynısıdır.

İstatistikçiler kanıtladı bir grup insandan belirli bir soru için bir dizi olası yanıtla doğru yanıtı tahmin etmeleri istendiğinde, tüm yanıtların bir olasılık dağılımı oluşturduğunu. Doğru cevabı gerçekten bilen insanlar doğru cevabı güvenle seçecek, yanlış cevapları seçenler ise tahminlerini olası yanlış cevaplar arasında dağıtacaktır. Bir trivia oyunu örneğine geri dönersek, siz ve iki arkadaşınız doğru cevabın A olduğunu biliyorsanız, üçünüz de A oyu verirken, takımınızdaki cevabı bilmeyen diğer üç kişi muhtemelen yanlış oy verecektir. tahmin edin B, C, D veya E. Sonuç olarak, A'nın üç oyu vardır ve diğer cevapların maksimum bir veya iki oyu olması muhtemeldir.

Tüm modellerde bir miktar hata vardır. Modellerin kendileri yukarıda açıklanan nedenlerden dolayı farklı olduğundan, bir modelin hataları başka bir modelin ürettiği hatalardan farklı olacaktır. Tüm hatalar incelendiğinde, bir cevap etrafında kümelenmeyecekler, etrafa dağılacaklar. Yanlış tahminler, temelde tüm olası yanlış cevaplara dağılır ve birbirini iptal eder. Bu arada, farklı modellerden doğru tahminler doğru, doğru cevap etrafında kümelenecektir. Topluluk eğitim yöntemleri kullanıldığında, doğru cevap daha fazla güvenilirlikle bulunabilir.

Basit Topluluk Eğitim Yöntemleri

Basit topluluk eğitimi yöntemleri tipik olarak sadece aşağıdakilerin uygulanmasını içerir: istatistiksel özet tekniğis, örneğin bir dizi tahminin modunu, ortalamasını veya ağırlıklı ortalamasını belirlemek gibi.

Mod, bir sayı kümesi içinde en sık meydana gelen öğeyi ifade eder. Modu elde etmek için, bireysel öğrenme modelleri tahminlerini döndürür ve bu tahminler nihai tahmine yönelik oylar olarak kabul edilir. Tahminlerin ortalamasının belirlenmesi, tahminlerin en yakın tam sayıya yuvarlanmış aritmetik ortalamasının hesaplanmasıyla yapılır. Son olarak, tahmin oluşturmak için kullanılan modellere farklı ağırlıklar atanarak ağırlıklı bir ortalama hesaplanabilir ve ağırlıklar söz konusu modelin algılanan önemini temsil eder. Sınıf tahmininin sayısal temsili, 0'dan 1.0'a kadar bir ağırlıkla çarpılır, daha sonra bireysel ağırlıklı tahminler toplanır ve sonuç en yakın tamsayıya yuvarlanır.

Gelişmiş Toplu Eğitim Yöntemleri

Her biri belirli bir makine öğrenimi sorunuyla başa çıkmak için tasarlanmış üç temel gelişmiş topluluk eğitimi tekniği vardır. "Torbalama" teknikleri bir modelin tahminlerinin varyansını azaltmak için kullanılır; varyans, aynı gözleme dayalı olarak tahminlerin sonucunun ne kadar farklı olduğuna atıfta bulunur. “Yükseltme” teknikleri modellerin yanlılığıyla mücadele etmek için kullanılır. Nihayet, "istifleme" genel olarak tahminleri iyileştirmek için kullanılır.

Topluluk öğrenme yöntemlerinin kendileri genellikle iki farklı gruptan birine ayrılabilir: sıralı yöntemler ve paralel topluluk yöntemleri.

Sıralı topluluk yöntemleri, temel öğreniciler/modeller sıralı olarak üretildiğinden "sıralı" adını alır. Sıralı yöntemler söz konusu olduğunda, temel fikir, daha doğru tahminler elde etmek için temel öğrenenler arasındaki bağımlılığın kullanılmasıdır. Yanlış etiketlenmiş örneklerin ağırlıkları ayarlanırken, uygun şekilde etiketlenmiş örneklerin ağırlıkları aynı kalır. Her yeni öğrenci oluşturulduğunda, ağırlıklar değişir ve doğruluk (umarız) gelişir.

Ardışık topluluk modellerinin aksine, paralel topluluk yöntemleri temel öğrenicileri paralel olarak üretir. Paralel topluluk öğrenimini gerçekleştirirken, genel hata oranı bireysel öğrencilerin tahminlerinin ortalaması alınarak azaltılabileceğinden, temel öğrenicilerin bağımsız olduğu gerçeğinden yararlanmaktır.

Topluluk eğitim yöntemleri, doğası gereği homojen veya heterojen olabilir. Topluluk halinde öğrenme yöntemlerinin çoğu homojendir, yani tek tip temel öğrenme modeli/algoritması kullanırlar. Buna karşılık, heterojen topluluklar, doğruluğun olabildiğince yüksek olmasını sağlamak için öğrenenleri çeşitlendirerek ve çeşitlendirerek farklı öğrenme algoritmalarından yararlanır.

Topluluk Öğrenme Algoritmalarına Örnekler

Topluluk güçlendirmenin görselleştirilmesi. Fotoğraf: Wikimedia Commons aracılığıyla Sirakorn, CC BY SA 4.0, (https://commons.wikimedia.org/wiki/File:Ensemble_Boosting.svg)

Sıralı topluluk yöntemlerinin örnekleri şunları içerir: AdaBoost, XGBoost, ve Gradyan ağacı artırma. Bunların hepsi yükseltici modellerdir. Bu güçlendirme modelleri için amaç, zayıf, düşük performans gösteren öğrencileri daha güçlü öğrenicilere dönüştürmektir. AdaBoost ve XGBoost gibi modeller, rastgele tahmin etmekten biraz daha iyi performans gösteren pek çok zayıf öğreniciyle başlar. Eğitim devam ettikçe verilere ağırlıklar uygulanır ve ayarlanır. Daha önceki eğitim turlarında öğrenciler tarafından yanlış sınıflandırılan örneklere daha fazla ağırlık verilir. Bu süreç, istenen sayıda eğitim turu için tekrarlandıktan sonra, tahminler ya ağırlıklı toplam (gerileme görevleri için) ve ağırlıklı oylama (sınıflandırma görevleri için) yoluyla birleştirilir.

Torbalama öğrenme süreci. Fotoğraf: Wikimedia Commons aracılığıyla SeattleDataGuy, CC BY SA 4.0 (https://commons.wikimedia.org/wiki/File:Bagging.png)

Paralel topluluk modeline bir örnek, Rastgele Orman sınıflandırıcı ve Rastgele Ormanlar da torbalama tekniğinin bir örneğidir. "Bagging" terimi, "bootstrap agregation" kelimesinden gelmektedir. Örnekler, temel öğrenenler tarafından tahmin yapmak için kullanılan "önyükleme örneklemesi" olarak bilinen bir örnekleme tekniği kullanılarak toplam veri kümesinden alınır. Sınıflandırma görevleri için, temel modellerin çıktıları oylama kullanılarak toplanırken, regresyon görevleri için bunların ortalaması alınır. Rastgele Ormanlar, temel öğrenicileri olarak bireysel karar ağaçlarını kullanır ve topluluktaki her ağaç, veri kümesinden farklı bir örnek kullanılarak oluşturulur. Ağacı oluşturmak için rastgele bir özellik alt kümesi de kullanılır. Güvenilir tahminler sağlamak için hepsi bir araya getirilen, yüksek oranda rastgele bireysel karar ağaçlarına yol açar.

Topluluk istiflemenin görselleştirilmesi. Fotoğraf: Wikimedia Commons aracılığıyla Supun Setunga, CC BY SA 4.0 (https://commons.wikimedia.org/wiki/File:Stacking.png)

Yığınlama topluluğu teknikleri açısından, çoklu regresyon veya sınıflandırma modelleri, daha yüksek düzeyde bir meta model aracılığıyla birleştirilir. Alt seviyedeki temel modeller, tüm veri kümesini besleyerek eğitim alıyor. Temel modellerin çıktıları daha sonra meta modeli eğitmek için özellikler olarak kullanılır. İstifleme topluluğu modelleri genellikle doğası gereği heterojendir.

Uzmanlık alanlarına sahip blogcu ve programcı Makine öğrenme ve Derin Öğrenme konular. Daniel, başkalarının yapay zekanın gücünü toplumsal fayda için kullanmasına yardım etmeyi umuyor.