Best Of

En İyi 10 Makine Öğrenimi Algoritması

Yayınlanan Şubat 10, 2022

Martin Anderson

GPU hızlandırmalı makine öğreniminde olağanüstü yeniliklerin yaşandığı bir dönemden geçiyor olmamıza rağmen, son araştırma makalelerinde sıklıkla (ve belirgin bir şekilde) onlarca yıllık, bazı durumlarda ise 70 yıllık algoritmalar yer alıyor.

Bazıları bu eski yöntemlerin çoğunun makine öğrenimi yerine 'istatistiksel analiz' kampına girdiğini iddia edebilir ve sektörün ortaya çıkışını yalnızca 1957'ye kadar götürmeyi tercih edebilir. Perceptron'un icadı.

Bu eski algoritmaların makine öğrenimindeki en son trendleri ve manşetlere konu olan gelişmeleri ne ölçüde desteklediği ve bunlarla ne kadar iç içe geçtiği göz önüne alındığında, bu tartışmalı bir duruş. Öyleyse, en son yeniliklerin temelindeki "klasik" yapı taşlarına ve yapay zeka onur listesine erken girmeye aday olan bazı yeni örneklere bir göz atalım.

1: Transformatörler

2017'de Google Research, şu sonuca varan bir araştırma iş birliğine öncülük etti: kâğıt Dikkat İhtiyacınız Olan Her Şey. Çalışma, teşvik eden yeni bir mimarinin ana hatlarını çizdi. dikkat mekanizmaları kodlayıcı/kod çözücüdeki 'borulama' ve tekrarlayan ağ modellerinden kendi başlarına merkezi bir dönüşüm teknolojisine.

Yaklaşımın adı verildi Trafove o zamandan beri Doğal Dil İşleme'de (NLP) devrim niteliğinde bir metodoloji haline geldi ve diğer birçok örneğin yanı sıra otoregresif dil modelini ve AI poster-çocuk GPT-3'ü güçlendirdi.

Transformers zarif bir şekilde problemini çözdü dizi transdüksiyonu, aynı zamanda 'dönüşüm' olarak da adlandırılır ve giriş dizilerinin çıkış dizilerine işlenmesiyle ilgilenir. Bir dönüştürücü ayrıca, verileri sıralı gruplar halinde değil, sürekli bir şekilde alır ve yönetir; bu da RNN mimarilerinin elde etmek üzere tasarlanmadığı bir 'bellek kalıcılığı' sağlar. Dönüştürücülere daha ayrıntılı bir genel bakış için şuraya bakın: referans makalemiz.

CUDA döneminde ML araştırmalarına hakim olmaya başlayan Tekrarlayan Sinir Ağlarının (RNN'ler) aksine, Transformer mimarisi de kolaylıkla paralelleştirilmiş, RNN'lerden çok daha büyük bir veri topluluğunu verimli bir şekilde ele almanın yolunu açıyor.

Popüler Kullanım

Transformers, 2020 yılında o dönem rekor kıran OpenAI'nin GPT-3'ünün piyasaya sürülmesiyle halkın ilgisini çekti. 175 milyar parametre. Bu görünüşte şaşırtıcı başarı, sonunda 2021 gibi daha sonraki projelerin gölgesinde kaldı. serbest Microsoft'un Megatron-Turing NLG 530B'si (adından da anlaşılacağı üzere) 530 milyardan fazla parametreye sahip.

Hiper ölçekli Transformer NLP projelerinin zaman çizelgesi. Kaynak: Microsoft

Transformatör mimarisi aynı zamanda NLP'den bilgisayar görüşüne geçerek, yeni nesil OpenAI'nin görüntü sentezleme çerçeveleri gibi CLIP ve DALL-EArtan sayıda ilgili uygulama arasında, tamamlanmamış görüntüleri tamamlamak ve eğitimli alanlardan yeni görüntüleri sentezlemek için metin>görüntü alanı eşlemesini kullanan.

DALL-E, bir Platon büstünün kısmi bir görüntüsünü tamamlamaya çalışır. Kaynak: https://openai.com/blog/dall-e/

2: Üretici Düşman Ağları (GAN'lar)

Transformatörler, GPT-3'ün piyasaya sürülmesi ve benimsenmesiyle medyada olağanüstü yer bulsa da, Jeneratör Düşman Ağı (GAN) kendi başına tanınabilir bir marka haline geldi ve sonunda katılabilir deepfake bir fiil olarak.

İlk önerilen 2014 yılında ve öncelikle görüntü sentezi için kullanılır, bir Üretici Düşman Ağı mimari oluşur Jeneratör ve AyrımcıÜretici, bir veri kümesindeki binlerce görüntü arasında geçiş yaparak bunları yinelemeli olarak yeniden oluşturmaya çalışır. Her denemede, Ayırıcı Üretici'nin çalışmasını derecelendirir ve Üretici'yi daha iyisini yapması için geri gönderir, ancak önceki yeniden yapılandırmanın hangi hatalara yol açtığına dair herhangi bir bilgi vermez.

Kaynak: https://developers.google.com/machine-learning/gan/gan_structure

Bu, Jeneratörü, Ayrımcının nerede yanlış gittiğini söylemesi durumunda ortaya çıkabilecek potansiyel çıkmaz sokakları takip etmek yerine çok sayıda caddeyi keşfetmeye zorlar (bkz. aşağıda #8). Eğitim sona erdiğinde, Oluşturucu, veri kümesindeki noktalar arasındaki ilişkilerin ayrıntılı ve kapsamlı bir haritasına sahip olur.

Araştırmacıların beraberindeki videosundan bir alıntı (makalenin sonuna yerleştirmeye bakın). Kullanıcının dönüşümleri bir 'tutma' imleciyle (sol üstte) manipüle ettiğini unutmayın. Kaynak: https://www.youtube.com/watch?v=k7sG4XY5rIc

kağıttan Mekansal Farkındalığı Arttırarak GAN Dengesini İyileştirme: Yeni bir çerçeve, bir GAN'ın bazen gizemli olan gizli alanında dönerek bir görüntü sentezi mimarisi için yanıt veren araçlar sağlar. Kaynak: https://genforce.github.io/eqgan/

Benzetecek olursak, Londra'nın merkezine gidip gelmek için tek bir monoton yol öğrenmek ile zahmetli bir şekilde Bilgi.

Sonuç, eğitilmiş modelin gizli uzayındaki üst düzey bir özellik koleksiyonudur. Üst düzey bir özelliğin anlamsal göstergesi "kişi" olabilirken, özellikle ilgili özgüllük üzerinden yapılan bir inceleme, "erkek" ve "kadın" gibi diğer öğrenilmiş özellikleri ortaya çıkarabilir. Daha düşük düzeylerde alt özellikler "sarışın", "Kafkasyalı" vb. şeklinde ayrılabilir.

Dolaşma dikkate değer bir sorun GAN'ların ve kodlayıcı/kod çözücü çerçevelerinin gizli uzayında: GAN tarafından oluşturulan bir kadın yüzündeki gülümseme, onun gizli uzaydaki 'kimliğinin' iç içe geçmiş bir özelliği midir, yoksa paralel bir dal mıdır?

Bu kişinin GAN tarafından oluşturulan yüzleri mevcut değil. Kaynak: https://this-person-does-not-exist.com/en

Son birkaç yılda bu konuda giderek artan sayıda yeni araştırma girişimi ortaya çıktı ve belki de bir GAN'ın gizli alanı için özellik düzeyinde, Photoshop tarzı düzenlemelerin önünü açtı. Ancak şu anda birçok dönüşüm, fiilen "ya hep ya hiç" paketleri niteliğinde. Özellikle NVIDIA'nın 2021 sonlarında piyasaya sürdüğü EditGAN sürümü, yüksek düzeyde yorumlanabilirlik anlamsal segmentasyon maskeleri kullanarak gizli uzayda.

Popüler Kullanım

Popüler derin sahte videolara (aslında oldukça sınırlı) katılımlarının yanı sıra, görüntü/video merkezli GAN'lar son dört yılda çoğalarak hem araştırmacıları hem de halkı aynı şekilde büyüledi. GitHub deposu olsa da, yeni sürümlerin baş döndürücü hızına ve sıklığına ayak uydurmak zor. Müthiş GAN Uygulamaları kapsamlı bir liste sunmayı amaçlamaktadır.

Üretken Çekişmeli Ağlar, teoride, iyi çerçevelenmiş herhangi bir alandan özellikler türetebilir, metin dahil.

3: SVM

kaynaklı 1963 yılında, Destek Vektör Makinesi (SVM), yeni araştırmalarda sıklıkla ortaya çıkan bir çekirdek algoritmadır. DVM altında, vektörler bir veri kümesindeki veri noktalarının göreli yerleşimini eşlerken, destek vektörler, farklı gruplar, özellikler veya özellikler arasındaki sınırları çizer.

Destek vektörleri, gruplar arasındaki sınırları tanımlar. Kaynak: https://www.kdnuggets.com/2016/07/support-vector-machines-simple-explanation.html

Türetilmiş sınıra denir hiperdüzlem.

Düşük özellik seviyelerinde, SVM iki boyutlu (yukarıdaki resim), ancak daha fazla sayıda tanınan grup veya tip olduğunda, Üç-boyutlu.

Daha derin bir nokta ve grup dizisi, üç boyutlu bir SVM gerektirir. Kaynak: https://cml.rhul.ac.uk/svm.html

Popüler Kullanım

Destek Vektör Makineleri birçok türde yüksek boyutlu veriyi etkili ve bağımsız bir şekilde ele alabildiğinden, çeşitli makine öğrenimi sektörlerinde geniş çapta ortaya çıkarlar. derin sahte algılama, görüntü sınıflandırması, nefret söylemi sınıflandırması, DNA analizi ve nüfus yapısı tahmini, Diğerleri arasında.

4: K-Kümeleme anlamına gelir

Genel olarak kümeleme bir denetimsiz öğrenme veri noktalarını kategorize etmeye çalışan bir yaklaşımdır. yoğunluk tahmini, incelenen verilerin dağılımının bir haritasını oluşturmak.

K-Means kümeleme, verilerdeki segmentleri, grupları ve toplulukları gösterir. Kaynak: https://aws.amazon.com/blogs/machine-learning/k-means-clustering-with-amazon-sagemaker/

K-Kümeleme Demektir Bu yaklaşımın en popüler uygulaması haline gelen, veri noktalarını belirgin 'K Grupları'na yönlendirmek, demografik sektörleri, çevrimiçi toplulukları veya ham istatistiksel verilerde keşfedilmeyi bekleyen diğer olası gizli kümelenmeleri gösterebilir.

K-Means analizinde kümeler oluşur. Kaynak: https://www.geeksforgeeks.org/ml-determine-the-optimal-value-of-k-in-k-means-clustering/

K değerinin kendisi, sürecin faydasında ve bir küme için optimal bir değerin oluşturulmasında belirleyici faktördür. Başlangıçta, K değeri rastgele atanır ve özellikleri ve vektör özellikleri komşularıyla karşılaştırılır. Rastgele atanan değere sahip veri noktasına en çok benzeyen komşular, veri, sürecin izin verdiği tüm gruplamaları verene kadar yinelemeli olarak kendi kümesine atanır.

Kümeler arasındaki farklı değerlerin karesel hatası veya 'maliyeti' için çizim, bir dirsek noktası veriler için:

Bir küme grafiğindeki 'dirsek noktası'. Kaynak: https://www.scikit-yb.org/en/latest/api/cluster/elbow.html

Dirsek noktası, kavram olarak, bir veri kümesi için eğitim oturumunun sonunda kaybın düzleşerek azalan getirilere dönüşmesine benzer. Gruplar arasında daha fazla ayrımın belirgin olmayacağı noktayı temsil eder ve veri hattında sonraki aşamalara geçilmesi veya bulguların raporlanması için gereken anı gösterir.

Popüler Kullanım

K-Means Kümeleme, açık nedenlerden dolayı, müşteri analizinde birincil bir teknolojidir, çünkü büyük miktarda ticari kaydı demografik içgörülere ve 'potansiyel müşterilere' dönüştürmek için net ve açıklanabilir bir metodoloji sunar.

Bu uygulamanın dışında, K-Means Kümeleme ayrıca heyelan tahmini, tıbbi görüntü segmentasyonu, GAN'lar ile görüntü sentezi, belge sınıflandırması, ve şehir planlaması, diğer birçok potansiyel ve fiili kullanım arasında.

5: Rastgele Orman

Rastgele Orman bir toplu öğrenme bir diziden sonucun ortalamasını alan yöntem Karar ağaçları sonuç için genel bir tahmin oluşturmak için.

Kaynak: https://www.tutorialandexample.com/wp-content/uploads/2019/10/Decision-Trees-Root-Node.png

Eğer bunu az da olsa araştırdıysanız, Geleceğe Dönüş Üçlemede, bir karar ağacının kavramsallaştırılması oldukça kolaydır: önünüzde bir dizi yol uzanır ve her yol, daha başka olası yolları içeren yeni bir sonuca doğru dallanır.

In takviye öğrenme, bir yoldan geri çekilip daha önceki bir duruştan yeniden başlayabilirsiniz, oysa karar ağaçları yolculuklarını taahhüt eder.

Dolayısıyla Rastgele Orman algoritması, kararlar için temelde spread-bahis yöntemidir. Algoritmaya "rastgele" adı verilmesinin nedeni, özel anlamak için seçimler ve gözlemler medyan karar ağacı dizisinden elde edilen sonuçların toplamı.

Çok sayıda faktörü hesaba kattığı için, bir Rastgele Orman yaklaşımının anlamlı grafiklere dönüştürülmesi bir karar ağacına göre daha zor olabilir, ancak muhtemelen daha üretken olacaktır.

Karar ağaçları, elde edilen sonuçların veriye özgü olduğu ve genelleştirilme olasılığının düşük olduğu aşırı uyum sorununa maruz kalır. Random Forest'ın veri noktalarını rastgele seçmesi, verilerdeki anlamlı ve faydalı temsili eğilimleri ortaya çıkararak bu eğilimi ortadan kaldırır.

Karar ağacı regresyonu. Kaynak: https://scikit-learn.org/stable/auto_examples/tree/plot_tree_regression.html

Popüler Kullanım

Bu listedeki birçok algoritma gibi, Random Forest da genellikle "erken" bir veri ayırıcı ve filtreleyici olarak çalışır ve bu nedenle yeni araştırma makalelerinde sürekli olarak karşımıza çıkar. Random Forest kullanımına dair bazı örnekler şunlardır: Manyetik Rezonans Görüntü Sentezi, Bitcoin fiyat tahmini, nüfus sayımı segmentasyonu, metin sınıflandırması ve kredi kartı dolandırıcılık tespiti.

Rastgele Orman, makine öğrenimi mimarilerinde düşük seviyeli bir algoritma olduğundan, diğer düşük seviyeli yöntemlerin yanı sıra aşağıdakiler de dahil olmak üzere görselleştirme algoritmalarının performansına katkıda bulunabilir: Endüktif Kümeleme, Özellik Dönüşümleri, metin belgelerinin sınıflandırılması seyrek özellikleri kullanma, ve ardışık düzenleri görüntüleme.

6: Saf Bayes

Yoğunluk tahmini ile birleştiğinde (bkz. 4, üstünde naif bayanlar sınıflandırıcı, verilerin hesaplanan özelliklerine dayalı olarak olasılıkları tahmin edebilen güçlü ancak nispeten hafif bir algoritmadır.

Saf bir Bayes sınıflandırıcısında özellik ilişkileri. Kaynak: https://www.sciencedirect.com/topics/computer-science/naive-bayes-model

'Saf' terimi, şu varsayımı ifade eder: Bayes teoremi özelliklerin ilgisiz olduğu, bilinen şartlı bağımsızlıkEğer bu bakış açısını benimsersek, bir ördek gibi yürümek ve konuşmak, bir ördekle uğraştığımızı kanıtlamak için yeterli olmaz ve hiçbir 'bariz' varsayım erken benimsenmez.

Bu düzeydeki akademik ve araştırma titizliği, 'sağduyu'nun mevcut olduğu durumlarda aşırıya kaçmak olur; ancak makine öğrenimi veri setinde var olabilecek birçok belirsizliği ve potansiyel olarak ilgisiz ilişkileri ele alırken değerli bir standarttır.

Orijinal bir Bayes ağında, özellikler aşağıdakilere tabidir: puanlama işlevleri, minimum açıklama uzunluğu dahil ve Bayes puanlamasıBu, veri noktaları arasında bulunan tahmini bağlantılar ve bu bağlantıların akış yönü açısından verilere kısıtlamalar getirebilir.

Saf bir Bayes sınıflandırıcısı ise, tersine, belirli bir nesnenin özelliklerinin bağımsız olduğunu varsayarak çalışır ve daha sonra belirli bir nesnenin özelliklerine dayanarak olasılığını hesaplamak için Bayes teoremini kullanır.

Popüler Kullanım

Naive Bayes filtreleri, hastalık tahmini ve belge kategorizasyonu, spam filtreleme, duygu sınıflandırması, tavsiye sistemleri, ve sahtekarlık tespiti, diğer uygulamaların yanı sıra.

7: K- En Yakın Komşular (KNN)

İlk olarak ABD Hava Kuvvetleri Havacılık Tıbbı Okulu tarafından önerildi. 1951 yılındave kendisini 20. yüzyılın ortalarındaki en son bilgi işlem donanımına uydurmak zorunda olmak, K-En Yakın Komşular (KNN), akademik makalelerde ve özel sektör makine öğrenimi araştırma girişimlerinde hâlâ öne çıkan bir yalın algoritmadır.

KNN, tam teşekküllü bir makine öğrenimi modelinin eğitimini gerektirmek yerine, veri noktaları arasındaki ilişkileri değerlendirmek için bir veri setini ayrıntılı bir şekilde taradığı için 'tembel öğrenen' olarak adlandırılmıştır.

Bir KNN gruplaması. Kaynak: https://scikit-learn.org/stable/modules/neighbors.html

KNN mimari olarak ince olmasına rağmen, sistematik yaklaşımı okuma/yazma işlemlerine kayda değer bir talep getirir ve çok büyük veri kümelerinde kullanımı, karmaşık ve yüksek hacimli veri kümelerini dönüştürebilen Temel Bileşen Analizi (PCA) gibi yardımcı teknolojiler olmadan sorunlu olabilir. içine temsili gruplamalar KNN'nin daha az çabayla geçebileceği.

A yeni bir çalışma Bir çalışanın bir şirketten ayrılıp ayrılmayacağını tahmin etmekle görevli bir dizi algoritmanın etkililiğini ve ekonomisini değerlendirdi ve yetmişlik KNN'nin doğruluk ve tahmine dayalı etkinlik açısından daha modern yarışmacılardan üstün olmaya devam ettiğini buldu.

Popüler Kullanım

Konsept ve uygulamadaki tüm popüler sadeliğine rağmen KNN 1950'lerde takılıp kalmadı; daha DNN odaklı bir yaklaşım Pennsylvania Eyalet Üniversitesi tarafından 2018 yılında yapılan bir teklifte ve çok daha karmaşık birçok makine öğrenimi çerçevesinde merkezi bir erken aşama süreci (veya işlem sonrası analitik araç) olmaya devam ediyor.

Çeşitli konfigürasyonlarda, KNN kullanılmıştır veya çevrimiçi imza doğrulama, görüntü sınıflandırması, metin madenciliği, mahsul tahmini, ve yüz tanıma, diğer uygulamalar ve birleştirmelerin yanı sıra.

Eğitimde KNN tabanlı bir yüz tanıma sistemi. Kaynak: https://pdfs.semanticscholar.org/6f3d/d4c5ffeb3ce74bf57342861686944490f513.pdf

Eğitimde KNN tabanlı bir yüz tanıma sistemi. Source: https://pdfs.semanticscholar.org/6f3d/d4c5ffeb3ce74bf57342861686944490f513.pdf

8: Markov Karar Süreci (MDP)

Amerikalı matematikçi Richard Bellman tarafından tanıtılan matematiksel bir çerçeve 1957 yılında, Markov Karar Süreci (MDP) en temel bloklardan biridir. takviye öğrenme mimariler. Kendi başına kavramsal bir algoritma, çok sayıda başka algoritmaya uyarlanmıştır ve mevcut AI/ML araştırması ürününde sıklıkla tekrarlanır.

MDP, veri ortamını, verinin mevcut durumunun (yani verinin 'nerede' olduğunun) değerlendirmesini kullanarak araştırır ve daha sonra verinin hangi düğümünün araştırılacağına karar verir.

Kaynak: https://www.sciencedirect.com/science/article/abs/pii/S0888613X18304420

Temel bir Markov Karar Süreci, daha arzu edilen uzun vadeli hedefler yerine kısa vadeli avantajlara öncelik verecektir. Bu nedenle, genellikle takviyeli öğrenmede daha kapsamlı bir politika mimarisi bağlamına gömülür ve çoğu zaman indirimli ödül gibi sınırlayıcı faktörlere ve düşünmeden acil bir hedefe acele etmesini önleyecek diğer değiştirici çevresel değişkenlere tabidir. İstenilen daha geniş sonuç.

Popüler Kullanım

MDP'nin düşük seviyeli konsepti, makine öğreniminin hem araştırma hem de aktif uygulamalarında yaygındır. IoT güvenlik savunma sistemleri, balık hasadı, ve piyasa tahmini.

Bunun yanında bariz uygulanabilirlik Satranç ve diğer kesinlikle sıralı oyunlar için, MDP aynı zamanda doğal bir yarışmacıdır. robotik sistemlerin prosedürel eğitimi, aşağıdaki videoda görebileceğimiz gibi.

Markov Karar Sürecini Kullanan Küresel Planlayıcı - Mobil Endüstriyel Robotik

Global Planner using a Markov Decision Process - Mobile Industrial Robotics

Watch this video on YouTube

9: Terim Sıklığı-Ters Belge Sıklığı

Terim Sıklığı (TF) bir kelimenin bir belgede görünme sayısını o belgedeki toplam kelime sayısına böler. Böylece kelime mühürlemek bin kelimelik bir makalede bir kez çıkan terim sıklığı 0.001'dir. Anlamsız makalelerin (ör. a, ve, the, ve it) baskın.

Terim için anlamlı bir değer elde etmek için Ters Belge Frekansı (IDF), bir veri kümesindeki birden çok belgede bir kelimenin TF'sini hesaplar ve çok yüksek sıklığa düşük derecelendirme atayarak engellenecek kelimelermakaleler gibi. Ortaya çıkan özellik vektörleri, her kelimeye uygun bir ağırlık atanarak tam değerlere normalleştirilir.

TF-IDF, terimlerin alaka düzeyini, bir dizi belgedeki sıklığa göre ağırlıklandırır ve daha nadir geçtiği bir belirginlik göstergesidir. Kaynak: https://moz.com/blog/inverse-document-frequency-and-the-importance-of-uniqueness

Bu yaklaşım anlamsal olarak önemli kelimelerin kaybolmasını önlemesine rağmen aykırı, frekans ağırlığının ters çevrilmesi, otomatik olarak düşük frekanslı bir terimin olduğu anlamına gelmez. değil bir aykırı, çünkü bazı şeyler nadirdir ve değersiz. Bu nedenle, düşük frekanslı bir terimin, veri kümesindeki bir dizi belgede yer alarak (belge başına düşük sıklıkta olsa bile) değerini daha geniş mimari bağlamda kanıtlaması gerekecektir.

Ona rağmen yaş, TF-IDF, Doğal Dil İşleme çerçevelerinde ilk filtreleme geçişleri için güçlü ve popüler bir yöntemdir.

Popüler Kullanım

TF-IDF, son yirmi yıldır Google'ın büyük ölçüde gizli PageRank algoritmasının geliştirilmesinde en azından bir miktar rol oynadığı için, çok yaygın olarak benimsenen John Mueller'in 2019'daki SEO taktiğine rağmen, manipülatif bir SEO taktiği olarak tanımama arama sonuçları için önemi.

PageRank etrafındaki gizlilik nedeniyle, TF-IDF'nin değil Google'ın sıralamalarında yükselmek için şu anda etkili bir taktik. tartışma Son zamanlarda BT uzmanları arasında, doğru olsun ya da olmasın, bu terimin kötüye kullanılmasının hala gelişmiş SEO yerleşimiyle sonuçlanabileceğine dair popüler bir anlayışa işaret etmektedir. tekeli kötüye kullanma suçlamaları ve aşırı reklam bu teorinin sınırlarını bulanıklaştırın).

10: Stokastik Gradyan İnişi

Stokastik Gradyan İniş (SGD), makine öğrenimi modellerinin eğitimini optimize etmek için giderek daha popüler bir yöntemdir.

Gradient Descent'in kendisi, bir modelin eğitim sırasında yaptığı iyileştirmeyi optimize etme ve ardından ölçme yöntemidir.

Bu anlamda, "eğim" aşağı doğru bir eğimi ifade eder (aşağıdaki görsele bakın, renk tabanlı bir derecelendirme yerine). Soldaki "tepe"nin en yüksek noktası ise eğitim sürecinin başlangıcını temsil eder. Bu aşamada model, verilerin tamamını henüz bir kez bile görmemiş ve etkili dönüşümler üretmek için veriler arasındaki ilişkiler hakkında yeterli bilgi edinmemiştir.

Bir FaceSwap eğitim seansında bir gradyan iniş. Antrenmanın ikinci yarıda bir süre düzleştiğini, ancak sonunda kabul edilebilir bir yakınsamaya doğru yokuş aşağı indiğini görebiliriz.

Sağdaki en alt nokta yakınsamayı temsil eder (modelin dayatılan kısıtlamalar ve ayarlar altında hiç olmadığı kadar etkili olduğu nokta).

Gradyan, hata oranı (modelin şu anda veri ilişkilerini ne kadar doğru bir şekilde haritalandırdığı) ve ağırlıklar (modelin öğrenme şeklini etkileyen ayarlar) arasındaki eşitsizlik için bir kayıt ve tahmin işlevi görür.

Bu ilerleme kaydı, bir kişiyi bilgilendirmek için kullanılabilir. öğrenme oranı çizelgesi, erken belirsiz ayrıntılar net ilişkilere ve eşlemelere dönüştükçe mimariye daha ayrıntılı ve kesin olmasını söyleyen otomatik bir süreç. Aslında, gradyan kaybı, eğitimin bundan sonra nereye gitmesi ve nasıl ilerlemesi gerektiğine dair tam zamanında bir harita sağlar.

Stokastik Gradyan İnişinin yeniliği, modelin parametrelerini her eğitim örneğinde her yinelemede güncellemesidir; bu da genellikle yakınsama yolculuğunu hızlandırır. Son yıllarda hiper ölçekli veri kümelerinin ortaya çıkmasıyla birlikte, SGD, ortaya çıkan lojistik sorunları ele almak için olası bir yöntem olarak son zamanlarda popülerlik kazanmıştır.

Öte yandan, SGD'nin olumsuz çıkarımlar özellik ölçeklendirme için ve normal Gradient Descent ile karşılaştırıldığında, ek planlama ve ek parametreler gerektirerek aynı sonucu elde etmek için daha fazla yineleme gerektirebilir.

Popüler Kullanım

Yapılandırılabilirliği nedeniyle ve eksikliklerine rağmen SGD, sinir ağlarını uydurmak için en popüler optimizasyon algoritması haline geldi. Yeni AI/ML araştırma makalelerinde baskın hale gelen bir SGD yapılandırması, Adaptive Moment Estimation (ADAM, kullanıma sunuldu) seçimidir. 2015 yılında) iyileştirici.

ADAM, her parametrenin öğrenme hızını dinamik olarak uyarlar ('uyarlanabilir öğrenme hızı') ve önceki güncellemelerden elde edilen sonuçları sonraki yapılandırmaya dahil eder ('momentum'). Ayrıca, daha sonraki yenilikleri kullanacak şekilde yapılandırılabilir, örneğin: Nesterov Momentumu.

Ancak bazıları, momentum kullanımının ADAM'ı (ve benzer algoritmaları) hızlandırabileceğini iddia ediyor. optimal olmayan sonuç. Makine öğrenimi araştırma sektörünün en uç noktalarında olduğu gibi, SGD de devam eden bir çalışmadır.

İlk olarak 10 Şubat 2022'de yayınlandı. 10 Şubat 20.05 EET'de değiştirildi – biçimlendirme.

İlgili konular:AI AI iş araçları yapay zeka Makine öğrenmesi

Bir sonraki

Konuşmaya Dayalı Yapay Zeka için En İyi 10 Yapay Zeka Temsilcisi ve Sohbet Robotu (Eylül 2025)

Kaçırmayın

İşletmeler İçin En İyi 10 Yapay Zeka Aracı (Eylül 2025)

Martin Anderson

Makine öğrenimi yazarı, insan görüntü sentezi alanında uzman. Metaphysic.ai'de eski araştırma içeriği başkanı.
Kişisel sitesi: martinanderson.ai
İletişim [e-posta korumalı]
Twitter: @manders_ai

Unite.AI

En İyi 10 Makine Öğrenimi Algoritması

1: Transformatörler

2: Üretici Düşman Ağları (GAN'lar)

3: SVM

4: K-Kümeleme anlamına gelir

5: Rastgele Orman

6: Saf Bayes

7: K- En Yakın Komşular (KNN)

8: Markov Karar Süreci (MDP)

9: Terim Sıklığı-Ters Belge Sıklığı

10: Stokastik Gradyan İnişi

Beğenebilirsin