Best Of

En İyi 10 Makine Öğrenimi Algoritması

Güncellenmiş on Şubat 10, 2022

GPU ile hızlandırılmış makine öğreniminde olağanüstü yeniliklerin yaşandığı bir dönemden geçmemize rağmen, en son araştırma makaleleri sıklıkla (ve belirgin bir şekilde) onlarca yıllık, bazı durumlarda 70 yıllık algoritmalara yer veriyor.

Bazıları, bu eski yöntemlerin birçoğunun makine öğreniminden ziyade "istatistiksel analiz" kampına girdiğini iddia edebilir ve sektörün gelişini yalnızca 1957'ye kadar tarihlendirmeyi tercih edebilir. Perceptron'un icadı.

Bu eski algoritmaların makine öğrenimindeki en son trendleri ve manşet kapma gelişmelerini ne ölçüde desteklediği ve bunlarla iç içe olduğu göz önüne alındığında, bu tartışılabilir bir duruştur. Öyleyse, en son yeniliklerin temelini oluşturan 'klasik' yapı taşlarından bazılarının yanı sıra, yapay zeka şöhretler listesine erkenden giren bazı yeni girişlere bir göz atalım.

1: Transformatörler

2017'de Google Research, şu sonuca varan bir araştırma iş birliğine öncülük etti: kâğıt Dikkat İhtiyacınız Olan Her Şey. Çalışma, teşvik eden yeni bir mimarinin ana hatlarını çizdi. dikkat mekanizmaları kodlayıcı/kod çözücü ve tekrarlayan ağ modellerinde 'borulama'dan başlı başına bir merkezi dönüşüm teknolojisine.

Yaklaşımın adı verildi Trafove o zamandan beri Doğal Dil İşleme'de (NLP) devrim niteliğinde bir metodoloji haline geldi ve diğer birçok örneğin yanı sıra otoregresif dil modelini ve AI poster-çocuk GPT-3'ü güçlendirdi.

Transformers zarif bir şekilde problemini çözdü dizi transdüksiyonu'Dönüşüm' olarak da adlandırılan bu işlem, girdi dizilerinin çıktı dizilerine dönüştürülmesiyle ilgilidir. Bir transformatör aynı zamanda verileri sıralı gruplar yerine sürekli bir şekilde alır ve yönetir; bu da RNN mimarilerinin elde etmek üzere tasarlanmadığı bir 'bellek kalıcılığına' olanak tanır. Transformatörlere daha ayrıntılı bir genel bakış için şuraya bir göz atın: referans makalemiz.

CUDA döneminde ML araştırmalarına hakim olmaya başlayan Tekrarlayan Sinir Ağlarının (RNN'ler) aksine, Transformer mimarisi de kolaylıkla paralelleştirilmiş, RNN'lerden çok daha büyük bir veri topluluğunu verimli bir şekilde ele almanın yolunu açıyor.

Popüler Kullanım

Transformers, 2020'de OpenAI'nin o zamanlar rekor kıran GPT-3'ün piyasaya sürülmesiyle halkın hayal gücünü ele geçirdi. 175 milyar parametre. Bu görünüşte şaşırtıcı başarı, sonunda 2021 gibi daha sonraki projelerin gölgesinde kaldı. serbest Microsoft'un (adından da anlaşılacağı gibi) 530 milyardan fazla parametre içeren Megatron-Turing NLG 530B'sinin.

Hiper ölçekli Transformer NLP projelerinin zaman çizelgesi. Kaynak: Microsoft

Transformatör mimarisi aynı zamanda NLP'den bilgisayar görüşüne geçerek, yeni nesil OpenAI'ler gibi görüntü sentezi çerçevelerinin CLIP ve DALL-EArtan sayıda ilgili uygulama arasında, tamamlanmamış görüntüleri tamamlamak ve eğitimli alanlardan yeni görüntüleri sentezlemek için metin>görüntü alanı eşlemesini kullanan.

DALL-E, bir Platon büstünün kısmi bir görüntüsünü tamamlamaya çalışır. Kaynak: https://openai.com/blog/dall-e/

2: Üretici Düşman Ağları (GAN'lar)

Transformatörler, GPT-3'ün piyasaya sürülmesi ve benimsenmesiyle medyada olağanüstü yer bulsa da, Jeneratör Düşman Ağı (GAN) kendi başına tanınabilir bir marka haline geldi ve sonunda katılabilir deepfake bir fiil olarak.

İlk önerilen 2014 yılında ve öncelikle görüntü sentezi için kullanılır, bir Üretici Düşman Ağı mimari oluşur Jeneratör ve Ayrımcı. Jeneratör, bir veri kümesindeki binlerce görüntü arasında geçiş yapar ve bunları yinelemeli olarak yeniden oluşturmaya çalışır. Ayrımcı, her deneme için, Üreticinin çalışmasını derecelendirir ve Üreticiyi daha iyisini yapması için geri gönderir, ancak önceki yeniden yapılandırmanın nasıl hata yaptığına dair herhangi bir fikir sahibi olmaz.

Kaynak: https://developers.google.com/machine-learning/gan/gan_structure

Bu, Jeneratörü, Ayrımcının nerede yanlış gittiğini söylemesi durumunda ortaya çıkabilecek potansiyel çıkmaz sokakları takip etmek yerine çok sayıda caddeyi keşfetmeye zorlar (bkz. aşağıda #8). Eğitim sona erdiğinde, Oluşturucu, veri kümesindeki noktalar arasındaki ilişkilerin ayrıntılı ve kapsamlı bir haritasına sahip olur.

Araştırmacıların beraberindeki videosundan bir alıntı (makalenin sonuna yerleştirmeye bakın). Kullanıcının dönüşümleri bir 'tutma' imleciyle (sol üstte) manipüle ettiğini unutmayın. Kaynak: https://www.youtube.com/watch?v=k7sG4XY5rIc

kağıttan Mekansal Farkındalığı Arttırarak GAN Dengesini İyileştirme: Yeni bir çerçeve, bir GAN'ın bazen gizemli olan gizli alanında dönerek bir görüntü sentezi mimarisi için yanıt veren araçlar sağlar. Kaynak: https://genforce.github.io/eqgan/

Benzetecek olursak, Londra'nın merkezine gidip gelmek için tek bir monoton yol öğrenmek ile zahmetli bir şekilde Bilgi.

Sonuç, eğitilmiş modelin gizli uzayında yüksek düzeyde bir özellik koleksiyonudur. Üst düzey bir özelliğin semantik göstergesi 'kişi' olabilirken, özellikle ilgili özgüllük yoluyla bir iniş 'erkek' ve 'dişi' gibi diğer öğrenilmiş özellikleri ortaya çıkarabilir. Daha düşük seviyelerde, alt özellikler 'sarışın', 'Kafkas' ve diğerlerine bölünebilir.

Dolaşma dikkate değer bir sorun GAN'ların ve kodlayıcı/kod çözücü çerçevelerinin gizli alanında: GAN tarafından üretilen bir kadın yüzündeki gülümseme, onun 'kimliğinin' gizli alanda dolaşık bir özelliği mi, yoksa paralel bir kol mu?

Bu kişinin GAN tarafından oluşturulan yüzleri mevcut değil. Kaynak: https://this-person-does-not-exist.com/en

Geçtiğimiz birkaç yıl, bu açıdan giderek artan sayıda yeni araştırma girişimi ortaya çıkardı ve belki de bir GAN'ın gizli alanı için özellik düzeyinde, Photoshop tarzı düzenlemenin yolunu açtı, ancak şu anda birçok dönüşüm etkili bir şekilde " ya hep ya hiç' paketleri. Özellikle, NVIDIA'nın 2021 sonundaki EditGAN sürümü, yüksek düzeyde yorumlanabilirlik anlamsal segmentasyon maskeleri kullanarak gizli uzayda.

Popüler Kullanım

Popüler derin sahte videolara (aslında oldukça sınırlı) katılımlarının yanı sıra, görüntü/video merkezli GAN'lar son dört yılda çoğalarak hem araştırmacıları hem de halkı aynı şekilde büyüledi. GitHub deposu olsa da, yeni sürümlerin baş döndürücü hızına ve sıklığına ayak uydurmak zor. Müthiş GAN Uygulamaları kapsamlı bir liste sunmayı amaçlamaktadır.

Üretken Çekişmeli Ağlar, teoride, iyi çerçevelenmiş herhangi bir alandan özellikler türetebilir, metin dahil.

3: SVM

kaynaklı 1963 yılında, Destek Vektör Makinesi (SVM), yeni araştırmalarda sıklıkla ortaya çıkan bir çekirdek algoritmadır. DVM altında, vektörler bir veri kümesindeki veri noktalarının göreli yerleşimini eşlerken, destek vektörler, farklı gruplar, özellikler veya özellikler arasındaki sınırları çizer.

Destek vektörleri, gruplar arasındaki sınırları tanımlar. Kaynak: https://www.kdnuggets.com/2016/07/support-vector-machines-simple-explanation.html

Türetilmiş sınıra denir hiperdüzlem.

Düşük özellik seviyelerinde, SVM iki boyutlu (yukarıdaki resim), ancak tanınan grup veya tür sayısının daha yüksek olduğu yerlerde, Üç-boyutlu.

Daha derin bir nokta ve grup dizisi, üç boyutlu bir SVM gerektirir. Kaynak: https://cml.rhul.ac.uk/svm.html

Popüler Kullanım

Destek Vektör Makineleri birçok türde yüksek boyutlu veriyi etkili ve bağımsız bir şekilde ele alabildiğinden, çeşitli makine öğrenimi sektörlerinde geniş çapta ortaya çıkarlar. derin sahte algılama, görüntü sınıflandırması, nefret söylemi sınıflandırması, DNA analizi ve nüfus yapısı tahmini, Diğerleri arasında.

4: K-Kümeleme anlamına gelir

Genel olarak kümeleme bir denetimsiz öğrenme veri noktalarını kategorize etmeye çalışan bir yaklaşımdır. yoğunluk tahmini, incelenen verilerin dağılımının bir haritasını oluşturmak.

K-Means kümeleme, verilerdeki segmentleri, grupları ve toplulukları gösterir. Kaynak: https://aws.amazon.com/blogs/machine-learning/k-means-clustering-with-amazon-sagemaker/

K-Kümeleme Demektir veri noktalarını, demografik sektörleri, çevrimiçi toplulukları veya ham istatistiksel verilerde keşfedilmeyi bekleyen diğer olası gizli kümeleri gösterebilen farklı 'K Gruplarına' yönlendirerek bu yaklaşımın en popüler uygulaması haline geldi.

K-Means analizinde kümeler oluşur. Kaynak: https://www.geeksforgeeks.org/ml-determine-the-optimal-value-of-k-in-k-means-clustering/

K değerinin kendisi, sürecin faydasında ve bir küme için optimal bir değerin oluşturulmasında belirleyici faktördür. Başlangıçta, K değeri rastgele atanır ve özellikleri ve vektör özellikleri komşularıyla karşılaştırılır. Rastgele atanan değere sahip veri noktasına en çok benzeyen komşular, veri, sürecin izin verdiği tüm gruplamaları verene kadar yinelemeli olarak kendi kümesine atanır.

Hatanın karesi veya kümeler arasında farklı değerlerin 'maliyeti' için yapılan çizim, bir dirsek noktası veriler için:

Bir küme grafiğindeki 'dirsek noktası'. Kaynak: https://www.scikit-yb.org/en/latest/api/cluster/elbow.html

Dirsek noktası, kavram olarak, bir veri kümesi için eğitim oturumunun sonunda kaybın düzleşerek azalan getirilere dönüşmesine benzer. Gruplar arasında daha fazla ayrımın belirgin olmayacağı noktayı temsil eder ve veri hattında sonraki aşamalara geçilmesi veya bulguların raporlanması için gereken anı gösterir.

Popüler Kullanım

K-Means Kümeleme, bariz nedenlerden ötürü, büyük miktarda ticari kaydı demografik içgörülere ve "savunmalara" dönüştürmek için açık ve açıklanabilir bir metodoloji sunduğundan, müşteri analizinde birincil teknolojidir.

Bu uygulamanın dışında, K-Means Kümeleme ayrıca heyelan tahmini, tıbbi görüntü segmentasyonu, GAN'lar ile görüntü sentezi, belge sınıflandırması, ve şehir planlaması, diğer birçok potansiyel ve fiili kullanım arasında.

5: Rastgele Orman

Rastgele Orman bir toplu öğrenme bir diziden sonucun ortalamasını alan yöntem Karar ağaçları sonuç için genel bir tahmin oluşturmak için.

Kaynak: https://www.tutorialandexample.com/wp-content/uploads/2019/10/Decision-Trees-Root-Node.png

İzlemek kadar az da olsa araştırdıysanız Geleceğe Dönüş Üçlemede, bir karar ağacının kavramsallaştırılması oldukça kolaydır: önünüzde bir dizi yol uzanır ve her yol, daha başka olası yolları içeren yeni bir sonuca doğru dallanır.

In takviye öğrenme, bir yoldan geri çekilip daha önceki bir duruştan yeniden başlayabilirsiniz, oysa karar ağaçları yolculuklarını taahhüt eder.

Bu nedenle, Rastgele Orman algoritması esas olarak kararlar için yayılmış bahistir. Algoritmaya "rastgele" denir, çünkü özel anlamak için seçimler ve gözlemler medyan karar ağacı dizisinden elde edilen sonuçların toplamı.

Çok sayıda faktörü hesaba kattığı için, bir Rastgele Orman yaklaşımının anlamlı grafiklere dönüştürülmesi bir karar ağacına göre daha zor olabilir, ancak muhtemelen daha üretken olacaktır.

Karar ağaçları, elde edilen sonuçların verilere özgü olduğu ve genelleme yapma olasılığının olmadığı durumlarda fazla uydurmaya tabidir. Random Forest'ın keyfi veri noktaları seçimi, verilerde anlamlı ve yararlı temsili eğilimleri derinlemesine inceleyerek bu eğilimle mücadele eder.

Karar ağacı regresyonu. Kaynak: https://scikit-learn.org/stable/auto_examples/tree/plot_tree_regression.html

Popüler Kullanım

Bu listedeki birçok algoritmada olduğu gibi, Random Forest tipik olarak "erken" bir veri sıralayıcısı ve filtresi olarak çalışır ve bu nedenle sürekli olarak yeni araştırma makalelerinde ortaya çıkar. Rastgele Orman kullanımının bazı örnekleri şunları içerir: Manyetik Rezonans Görüntü Sentezi, Bitcoin fiyat tahmini, nüfus sayımı segmentasyonu, metin sınıflandırması ve kredi kartı dolandırıcılık tespiti.

Rastgele Orman, makine öğrenimi mimarilerinde düşük seviyeli bir algoritma olduğundan, diğer düşük seviyeli yöntemlerin yanı sıra aşağıdakiler de dahil olmak üzere görselleştirme algoritmalarının performansına katkıda bulunabilir: Endüktif Kümeleme, Özellik Dönüşümleri, metin belgelerinin sınıflandırılması seyrek özellikleri kullanma, ve ardışık düzenleri görüntüleme.

6: Saf Bayes

Yoğunluk tahmini ile birleştiğinde (bkz. 4, üstünde naif bayanlar sınıflandırıcı, verilerin hesaplanan özelliklerine dayalı olarak olasılıkları tahmin edebilen güçlü ancak nispeten hafif bir algoritmadır.

Saf bir Bayes sınıflandırıcısında özellik ilişkileri. Kaynak: https://www.sciencedirect.com/topics/computer-science/naive-bayes-model

'Saf' terimi, varsayımı ifade eder. Bayes teoremi özelliklerin ilgisiz olduğu, bilinen şartlı bağımsızlık. Bu bakış açısını benimserseniz, bir ördek gibi yürümek ve konuşmak, bir ördekle karşı karşıya olduğumuzu kanıtlamak için yeterli değildir ve 'bariz' hiçbir varsayım erken benimsenmez.

Bu düzeyde bir akademik ve araştırma titizliği, "sağduyunun" mevcut olduğu yerlerde aşırı olacaktır, ancak bir makine öğrenimi veri setinde var olabilecek birçok belirsizliği ve potansiyel olarak ilgisiz korelasyonları geçerken değerli bir standarttır.

Orijinal bir Bayes ağında, özellikler aşağıdakilere tabidir: puanlama işlevleri, minimum açıklama uzunluğu dahil ve Bayes puanlamasıBu, veri noktaları arasında bulunan tahmini bağlantılar ve bu bağlantıların akış yönü açısından verilere kısıtlamalar getirebilir.

Tersine, saf bir Bayes sınıflandırıcısı, belirli bir nesnenin özelliklerinin bağımsız olduğunu varsayarak ve ardından belirli bir nesnenin özelliklerine bağlı olarak olasılığını hesaplamak için Bayes teoremini kullanarak çalışır.

Popüler Kullanım

Naive Bayes filtreleri, hastalık tahmini ve belge kategorizasyonu, spam filtreleme, duygu sınıflandırması, tavsiye sistemleri, ve sahtekarlık tespiti, diğer uygulamaların yanı sıra.

7: K- En Yakın Komşular (KNN)

İlk olarak ABD Hava Kuvvetleri Havacılık Tıbbı Okulu tarafından önerildi. 1951 yılındave kendisini 20. yüzyılın ortalarındaki en son bilgi işlem donanımına uydurmak zorunda olmak, K-En Yakın Komşular (KNN), akademik makalelerde ve özel sektör makine öğrenimi araştırma girişimlerinde hâlâ öne çıkan bir yalın algoritmadır.

KNN, tam teşekküllü bir makine öğrenimi modelinin eğitimini gerektirmek yerine, veri noktaları arasındaki ilişkileri değerlendirmek için kapsamlı bir şekilde bir veri kümesini taradığı için "tembel öğrenen" olarak adlandırılmıştır.

Bir KNN gruplaması. Kaynak: https://scikit-learn.org/stable/modules/neighbors.html

KNN mimari olarak ince olmasına rağmen, sistematik yaklaşımı okuma/yazma işlemlerine kayda değer bir talep getirir ve çok büyük veri kümelerinde kullanımı, karmaşık ve yüksek hacimli veri kümelerini dönüştürebilen Temel Bileşen Analizi (PCA) gibi yardımcı teknolojiler olmadan sorunlu olabilir. içine temsili gruplamalar KNN'nin daha az çabayla geçebileceği.

A yeni bir çalışma Bir çalışanın bir şirketten ayrılıp ayrılmayacağını tahmin etmekle görevli bir dizi algoritmanın etkililiğini ve ekonomisini değerlendirdi ve yetmişlik KNN'nin doğruluk ve tahmine dayalı etkinlik açısından daha modern yarışmacılardan üstün olmaya devam ettiğini buldu.

Popüler Kullanım

Konsept ve yürütmedeki tüm popüler basitliğine rağmen, KNN 1950'lerde takılıp kalmamıştır. daha DNN odaklı bir yaklaşım Pennsylvania Eyalet Üniversitesi tarafından 2018 yılında yapılan bir teklifte ve çok daha karmaşık birçok makine öğrenimi çerçevesinde merkezi bir erken aşama süreci (veya işlem sonrası analitik araç) olmaya devam ediyor.

Çeşitli konfigürasyonlarda, KNN kullanılmıştır veya çevrimiçi imza doğrulama, görüntü sınıflandırması, metin madenciliği, mahsul tahmini, ve yüz tanıma, diğer uygulamalar ve birleştirmelerin yanı sıra.

Eğitimde KNN tabanlı bir yüz tanıma sistemi. Kaynak: https://pdfs.semanticscholar.org/6f3d/d4c5ffeb3ce74bf57342861686944490f513.pdf

Eğitimde KNN tabanlı bir yüz tanıma sistemi. Source: https://pdfs.semanticscholar.org/6f3d/d4c5ffeb3ce74bf57342861686944490f513.pdf

8: Markov Karar Süreci (MDP)

Amerikalı matematikçi Richard Bellman tarafından tanıtılan matematiksel bir çerçeve 1957 yılında, Markov Karar Süreci (MDP) en temel bloklardan biridir. takviye öğrenme mimariler. Kendi başına kavramsal bir algoritma, çok sayıda başka algoritmaya uyarlanmıştır ve mevcut AI/ML araştırması ürününde sıklıkla tekrarlanır.

MDP, bir sonraki veri düğümünün keşfedileceğine karar vermek için mevcut durumunun değerlendirmesini (yani, verilerin 'neresinde' olduğunu) kullanarak bir veri ortamını araştırır.

Kaynak: https://www.sciencedirect.com/science/article/abs/pii/S0888613X18304420

Temel bir Markov Karar Süreci, arzu edilen uzun vadeli hedeflere kıyasla kısa vadeli avantaja öncelik verecektir. Bu nedenle, genellikle takviyeli öğrenmede daha kapsamlı bir politika mimarisi bağlamına gömülür ve genellikle aşağıdakiler gibi sınırlayıcı faktörlere tabidir: indirimli ödülve daha geniş istenen sonucu dikkate almadan acil bir hedefe koşmasını engelleyecek diğer değiştirici çevresel değişkenler.

Popüler Kullanım

MDP'nin düşük seviye konsepti, makine öğreniminin hem araştırma hem de aktif dağıtımlarında yaygındır. için teklif edildi IoT güvenlik savunma sistemleri, balık hasadı, ve piyasa tahmini.

Bunun yanında bariz uygulanabilirlik Satranç ve diğer kesinlikle sıralı oyunlar için, MDP aynı zamanda doğal bir yarışmacıdır. robotik sistemlerin prosedürel eğitimi, aşağıdaki videoda görebileceğimiz gibi.

Markov Karar Sürecini Kullanan Küresel Planlayıcı - Mobil Endüstriyel Robotik

Global Planner using a Markov Decision Process - Mobile Industrial Robotics

Watch this video on YouTube

9: Terim Sıklığı-Ters Belge Sıklığı

Terim Sıklığı (TF) bir kelimenin bir belgede görünme sayısını o belgedeki toplam kelime sayısına böler. Böylece kelime mühürlemek bin kelimelik bir makalede bir kez çıkan terim sıklığı 0.001'dir. Anlamsız makalelerin (ör. a, ve, the, ve it) baskın.

Terim için anlamlı bir değer elde etmek için Ters Belge Frekansı (IDF), bir veri kümesindeki birden çok belgede bir kelimenin TF'sini hesaplar ve çok yüksek sıklığa düşük derecelendirme atayarak engellenecek kelimelermakaleler gibi. Ortaya çıkan özellik vektörleri, her kelimeye uygun bir ağırlık atanarak tam değerlere normalleştirilir.

TF-IDF, terimlerin alaka düzeyini, bir dizi belgedeki sıklığa göre ağırlıklandırır ve daha nadir geçtiği bir belirginlik göstergesidir. Kaynak: https://moz.com/blog/inverse-document-frequency-and-the-importance-of-uniqueness

Bu yaklaşım anlamsal olarak önemli kelimelerin kaybolmasını önlemesine rağmen aykırı, frekans ağırlığının ters çevrilmesi, otomatik olarak düşük frekanslı bir terimin olduğu anlamına gelmez. değil bir aykırı, çünkü bazı şeyler nadirdir ve değersiz. Bu nedenle, düşük frekanslı bir terimin, veri kümesindeki bir dizi belgede yer alarak (belge başına düşük sıklıkta olsa bile) değerini daha geniş mimari bağlamda kanıtlaması gerekecektir.

Ona rağmen yaş, TF-IDF, Doğal Dil İşleme çerçevelerinde ilk filtreleme geçişleri için güçlü ve popüler bir yöntemdir.

Popüler Kullanım

TF-IDF, son yirmi yılda Google'ın büyük ölçüde gizli PageRank algoritmasının geliştirilmesinde en azından bir rol oynadığından, çok yaygın olarak benimsenen John Mueller'in 2019'a rağmen manipülatif bir SEO taktiği olarak tanımama arama sonuçları için önemi.

PageRank etrafındaki gizlilik nedeniyle, TF-IDF'nin değil şu anda Google sıralamasında yükselmek için etkili bir taktik. kışkırtıcı tartışma Son zamanlarda BT uzmanları arasında, doğru olsun ya da olmasın, bu terimin kötüye kullanılmasının hala gelişmiş SEO yerleşimiyle sonuçlanabileceğine dair popüler bir anlayışa işaret etmektedir. tekeli kötüye kullanma suçlamaları ve aşırı reklam bu teorinin sınırlarını bulanıklaştırın).

10: Stokastik Gradyan İnişi

Stokastik Gradyan İniş (SGD), makine öğrenimi modellerinin eğitimini optimize etmek için giderek daha popüler bir yöntemdir.

Gradient Descent'in kendisi, bir modelin eğitim sırasında yaptığı iyileştirmeyi optimize etme ve ardından ölçme yöntemidir.

Bu anlamda, 'gradyan', soldaki 'tepenin' en yüksek noktasının eğitim sürecinin başlangıcını temsil ettiği aşağı doğru bir eğimi belirtir (renk tabanlı bir derecelendirme yerine, aşağıdaki resme bakın). Bu aşamada model henüz verilerin tamamını bir kez bile görmemiştir ve etkili dönüşümler üretmek için veriler arasındaki ilişkiler hakkında yeterince şey öğrenmemiştir.

Bir FaceSwap eğitim seansında bir gradyan iniş. Antrenmanın ikinci yarıda bir süre düzleştiğini, ancak sonunda kabul edilebilir bir yakınsamaya doğru yokuş aşağı indiğini görebiliriz.

Sağdaki en alt nokta yakınsamayı temsil eder (modelin dayatılan kısıtlamalar ve ayarlar altında hiç olmadığı kadar etkili olduğu nokta).

Gradyan, hata oranı (modelin şu anda veri ilişkilerini ne kadar doğru bir şekilde haritalandırdığı) ve ağırlıklar (modelin öğrenme şeklini etkileyen ayarlar) arasındaki eşitsizlik için bir kayıt ve tahmin işlevi görür.

Bu ilerleme kaydı, bir kişiyi bilgilendirmek için kullanılabilir. öğrenme oranı çizelgesi, erken belirsiz ayrıntılar net ilişkilere ve eşlemelere dönüştükçe mimariye daha ayrıntılı ve kesin olmasını söyleyen otomatik bir süreç. Aslında, gradyan kaybı, eğitimin bundan sonra nereye gitmesi ve nasıl ilerlemesi gerektiğine dair tam zamanında bir harita sağlar.

Stokastik Gradient Descent'in yeniliği, modelin parametrelerini her bir eğitim örneğinde yineleme başına güncellemesidir, bu da genellikle yakınsama yolculuğunu hızlandırır. Son yıllarda hiper ölçekli veri kümelerinin ortaya çıkması nedeniyle, SGD'nin popülaritesi son zamanlarda, ortaya çıkan lojistik sorunları çözmek için olası bir yöntem olarak arttı.

Öte yandan, SGD'nin olumsuz çıkarımlar özellik ölçeklendirme için ve normal Gradient Descent ile karşılaştırıldığında, ek planlama ve ek parametreler gerektirerek aynı sonucu elde etmek için daha fazla yineleme gerektirebilir.

Popüler Kullanım

Yapılandırılabilirliği nedeniyle ve eksikliklerine rağmen SGD, sinir ağlarını uydurmak için en popüler optimizasyon algoritması haline geldi. Yeni AI/ML araştırma makalelerinde baskın hale gelen bir SGD yapılandırması, Adaptive Moment Estimation (ADAM, kullanıma sunuldu) seçimidir. 2015 yılında) iyileştirici.

ADAM, her parametre için öğrenme oranını dinamik olarak uyarlar ("uyarlanabilir öğrenme oranı") ve önceki güncellemelerin sonuçlarını sonraki yapılandırmaya dahil eder ("momentum"). Ek olarak, aşağıdakiler gibi daha sonraki yenilikleri kullanacak şekilde yapılandırılabilir: Nesterov Momentumu.

Ancak bazıları, momentum kullanımının ADAM'ı (ve benzer algoritmaları) hızlandırabileceğini iddia ediyor. optimal olmayan sonuç. Makine öğrenimi araştırma sektörünün en uç noktalarında olduğu gibi, SGD de devam eden bir çalışmadır.

İlk olarak 10 Şubat 2022'de yayınlandı. 10 Şubat 20.05 EET'de değiştirildi – biçimlendirme.