AI 101

K-Ortalama Kümeleme Nedir?

Yayınlanan Ocak 15, 2021

Güncellenmiş Ocak 17, 2021

daniel nelson

K-ortalama kümeleme bir denetimsiz öğrenme algoritması ve tüm denetimsiz öğrenme algoritmaları arasında K-ortalama kümelemesi, gücü ve basitliği sayesinde en yaygın kullanılanı olabilir. K-aracı kümelemesi tam olarak nasıl çalışır?

Kısa cevap, K-means kümelemenin şu şekilde çalıştığıdır: bir referans noktası oluşturma (bir merkez) İstenilen sayıda sınıf için ve ardından sınıf kümelerine veri noktaları atama hangi referans noktasının en yakın olduğuna bağlı olarak. Bu, K-aracı kümeleme için hızlı bir tanım olsa da, K-aracı kümelemeye daha derinlemesine dalmak ve nasıl çalıştığına dair daha iyi bir sezgi elde etmek için biraz zaman ayıralım.

Kümelemeyi Tanımlama

K-aracı kümelemeyi gerçekleştirmek için kullanılan kesin algoritmaları incelemeden önce, kümelemeyi genel olarak tanımlamak için biraz zaman ayıralım.

Kümeler yalnızca öğe gruplarıdır ve kümeleme yalnızca öğeleri bu gruplara yerleştirmektir. Veri bilimi anlamında, kümeleme algoritmaları iki şeyi yapmayı hedefliyoruz:

Bir kümedeki tüm veri noktalarının mümkün olduğunca birbirine benzer olduğundan emin olun.
Farklı kümelerdeki tüm veri noktalarının mümkün olduğunca birbirine benzemediğinden emin olun.

Kümeleme algoritmaları, öğeleri bazı benzerlik ölçülerine göre gruplandırır. Bu genellikle veri kümesindeki farklı olası grupların "merkezini" bularak yapılır, ancak münhasıran değildir. Çeşitli farklı kümeleme algoritmaları vardır, ancak tüm kümeleme algoritmalarının amacı aynıdır, bir veri kümesine özgü grupları belirlemektir.

K-Kümeleme Demektir

K-Means Kümeleme, en eski ve en yaygın kullanılan kümeleme algoritmalarından biridir ve aşağıdakilere dayalı olarak çalışır: vektör nicemleme. Uzayda orijin olarak seçilen bir nokta vardır ve daha sonra orijinden veri setindeki tüm veri noktalarına vektörler çizilir.

Genel olarak, K-means kümeleme beş farklı adıma bölünebilir:

Tüm örnekleri, alt küme sayısının K'ye eşit olduğu alt kümelere yerleştirin.
Yeni oluşturulan küme bölümlerinin ortalama noktasını/merkezini bulun.
Bu merkezleri temel alarak, her noktayı belirli bir kümeye atayın.
Her noktadan merkezlere olan mesafeleri hesaplayın ve merkeze olan mesafenin minimum olduğu kümelere noktalar atayın.
Noktalar kümelere atandıktan sonra, kümelerin yeni merkezini bulun.

Eğitim süreci bitene kadar yukarıdaki adımlar tekrarlanır.

İlk aşamada, merkezler veri noktaları arasında bir yere yerleştirilir.
Fotoğraf: wikimedia commons aracılığıyla Weston.pace, GNU Özgür Belgeleme Lisansı (https://commons.wikimedia.org/wiki/File:K_Means_Example_Step_1.svg)

Alternatif olarak, merkezler yerleştirildikten sonra, K-aracı kümelemesini iki farklı aşama arasında gidip gelmek olarak tasavvur edebiliriz: veri noktalarının etiketlenmesi ve merkezlerin güncellenmesi.

İkinci adımda, Öklid mesafesi gibi bir mesafe metriği, belirli bir noktanın hangi ağırlık merkezine en yakın olduğunu hesaplamak için kullanılır ve ardından noktalar, o ağırlık merkezinin sınıfına atanır. Fotoğraf: Weston.pace, Wikimedia Commons, GNU Özgür Belge Lisansı (https://commons.wikimedia.org/wiki/File:K_Means_Example_Step_2.svg)

Veri noktası etiketleme aşamasında, her veri noktasına, onu en yakın merkeze ait kümeye yerleştiren bir etiket atanır. En yakın ağırlık merkezi tipik olarak karelenmiş Öklid mesafesi kullanılarak belirlenir, ancak kümeleme algoritmasına beslenen verilerin türüne bağlı olarak Manhattan mesafesi, Kosinüs ve Jaccard mesafesi gibi diğer mesafe ölçümleri de kullanılabilir.

Üçüncü adımda, ağırlık merkezi tüm veri noktalarının ortalamasına taşınır. Sınıflar daha sonra yeniden atanır. Fotoğraf: Wikiemedia Commons aracılığıyla Weston.pace, CC SA 3.0 (https://commons.wikimedia.org/wiki/File:K_Means_Example_Step_3.svg)

Centroid güncelleme adımında, ağırlık merkezi, o anda bir kümede bulunan tüm veri noktaları arasındaki ortalama mesafe bulunarak hesaplanır.

“K” İçin Doğru Değer Nasıl Seçilir?

K-means kümelemenin denetimsiz bir algoritma olduğu ve sınıf sayısının önceden bilinmediği göz önüne alındığında, uygun sınıf sayısına/K için doğru değere nasıl karar verirsiniz?

Doğru K-değerini seçmek için bir tekniğe “dirsek tekniği”. Dirsek tekniği, bir K-ortalama kümeleme algoritmasının bir dizi farklı K-değeri için çalıştırılmasından ve K'nin hangi değerlerinin en iyi sonuçları verdiğini belirlemek için tipik olarak Hatanın Karesi Toplamı olan bir doğruluk ölçüsünün kullanılmasından oluşur. Hatanın Karesi Toplamı, bir kümenin merkezi ile o kümedeki veri noktaları arasındaki ortalama mesafe hesaplanarak belirlenir.

"Dirsek tekniği" terimi, SSE'yi K'nin farklı değerlerine göre çizdiğinizde, ortaya çıkan çizgi grafiğinin genellikle "dirsek" şekline sahip olacağı gerçeğinden gelir; burada SSE, K'nin ilk birkaç değeri için hızla düşer. ama sonra seviye atlar. Bu gibi durumlarda dirsekte yer alan K değeri K için en iyi değerdir çünkü bu değerden sonra hızla azalan getiriler vardır.

Mini Toplu K-Means Kümeleme

Veri kümeleri büyüdükçe, hesaplama süresi de büyür. Temel K-aracı kümelemenin, büyük veri kümelerinde çalıştırıldığında tamamlanması uzun zaman alabilir ve sonuç olarak, algoritmanın uzamsal ve zamansal maliyetlerini azaltmak için K-aracı kümelemede ince ayarlar yapılmıştır.

Mini Toplu K-ortalama kümeleme K-ortalama kümelemenin bir çeşididir dikkate alınan veri kümesinin boyutunun sınırlandırıldığı yer. Normal K-ortalama kümeleme, tüm veri kümesi/toplu iş üzerinde bir kerede çalışırken, Mini-toplu K-ortalama kümeleme veri kümesini alt kümelere ayırır. Mini partiler, tüm veri kümesinden rastgele örneklenir ve her yeni yineleme için yeni bir rastgele örnek seçilir ve merkezlerin konumunu güncellemek için kullanılır.

Mini-Batch K-Means kümelemesinde, kümeler mini-batch değerleri ve bir öğrenme oranı kombinasyonu ile güncellenir. Öğrenme oranı yinelemeler boyunca azalır ve belirli bir kümeye yerleştirilen veri noktalarının sayısının tersidir. Öğrenme oranını düşürmenin etkisi, yeni verilerin etkisinin azalması ve birkaç yinelemeden sonra kümelerde herhangi bir değişiklik olmadığında yakınsamanın sağlanmasıdır.

Mini toplu K-aracı kümelemenin etkinliğine ilişkin çalışmaların sonuçları, küme kalitesinde hafif bir değiş tokuşla hesaplama süresini başarılı bir şekilde azaltabileceğini göstermektedir.

K-Means Kümeleme Uygulamaları

K-means kümeleme, veri noktalarının farklı gruplara/sınıflara bölünebildiği her durumda güvenle kullanılabilir. Burada, K-ortalama kümeleme için yaygın kullanım durumlarından bazı örnekler verilmiştir.

K-means kümeleme, belge sınıflandırmasına, konuların, etiketlerin, kelime kullanımının, meta verilerin ve diğer belge özelliklerinin özelliklerine göre belgelerin gruplandırılmasına uygulanabilir. Gönderiler ve yorumlar gibi etkinlik modellerine göre kullanıcıları bot olarak veya bot olarak sınıflandırmak için de kullanılabilir. K-means kümelemesi, sağlıklarını izlerken eşlik eden hastalıklar, yaş, hasta geçmişi vb. özelliklere dayalı olarak insanları endişe düzeylerine göre gruplara ayırmak için de kullanılabilir.

K-means kümeleme, öneri sistemleri oluşturmak gibi daha açık uçlu görevler için de kullanılabilir. Netflix gibi bir sistemin kullanıcıları, görüntüleme modellerine ve önerilen benzer içeriğe göre gruplandırılabilir. K-means kümeleme, olası dolandırıcılık veya kusurlu ürün örneklerini vurgulayarak anormallik tespit görevleri için kullanılabilir.