saplama Derin Öğrenmede RNN'ler ve LSTM'ler nelerdir? - Unite.AI
Bizimle iletişime geçin

AI 101

Derin Öğrenmede RNN'ler ve LSTM'ler nelerdir?

mm
Güncellenmiş on

Doğal dil işleme ve yapay zeka sohbet robotlarındaki en etkileyici ilerlemelerin çoğu, Tekrarlayan Sinir Ağları (RNN'ler) ve Uzun Kısa Süreli Bellek (LSTM) ağları. RNN'ler ve LSTM'ler sıralı verileri, kronolojik sıralamanın önemli olduğu verileri işleyebilen özel sinir ağı mimarileridir. LSTM'ler RNN'lerin temel olarak geliştirilmiş sürümleri, daha uzun veri dizilerini yorumlayabilir. RNN'lerin ve LSTMS'nin nasıl yapılandırıldığına ve gelişmiş doğal dil işleme sistemlerinin oluşturulmasını nasıl mümkün kıldığına bir göz atalım.

İleri Beslemeli Sinir Ağları nedir?

Uzun Kısa Süreli Bellek (LSTM) ve Konvolüsyonel Sinir Ağlarının (CNN) nasıl çalıştığı hakkında konuşmadan önce, genel olarak bir sinir ağının formatını tartışmalıyız.

Bir sinir ağı, verileri incelemeyi ve ilgili kalıpları öğrenmeyi amaçlar, böylece bu kalıplar diğer verilere uygulanabilir ve yeni veriler sınıflandırılabilir. Yapay sinir ağları üç bölüme ayrılır: bir giriş katmanı, bir gizli katman (veya çoklu gizli katmanlar) ve bir çıkış katmanı.

Girdi katmanı, verileri sinir ağına alan, gizli katmanlar ise verilerdeki kalıpları öğrenen katmandır. Veri kümesindeki gizli katmanlar, girdi ve çıktı katmanlarına, yalnızca veri noktalarının birbiriyle nasıl ilişkili olduğuna dair varsayımlar olan "ağırlıklar" ve "yanlılıklar" ile bağlanır. Bu ağırlıklar antrenman sırasında ayarlanır. Ağ eğitirken, modelin eğitim verileri (çıktı değerleri) hakkındaki tahminleri gerçek eğitim etiketleriyle karşılaştırılır. Eğitim süresince, ağın veri noktaları arasındaki ilişkileri tahmin etmede (umarız) daha doğru olması gerekir, böylece yeni veri noktalarını doğru bir şekilde sınıflandırabilir. Derin sinir ağları, orta/daha fazla gizli katmanda daha fazla katmana sahip ağlardır. Modelin sahip olduğu daha fazla gizli katman ve daha fazla nöron/düğüm, model verideki kalıpları daha iyi tanıyabilir.

Yukarıda tanımladığım gibi düzenli, ileri beslemeli sinir ağları genellikle "yoğun sinir ağları" olarak adlandırılır. Bu yoğun sinir ağları, farklı veri türlerini yorumlamada uzmanlaşmış farklı ağ mimarileriyle birleştirilir.

RNN'ler (Tekrarlayan Sinir Ağları) nedir?

Tekrarlayan Sinir Ağları, ileri beslemeli sinir ağlarının genel prensibini alır ve sıralı verileri şu şekilde işlemelerini sağlar: modele dahili bir hafıza vermek. RNN adının “Tekrarlayan” kısmı giriş ve çıkışların döngüsel olmasından kaynaklanmaktadır. Ağın çıktısı üretildiğinde çıktı kopyalanır ve girdi olarak ağa geri gönderilir. Karar verirken sadece mevcut girdi ve çıktılar analiz edilmez, aynı zamanda önceki girdiler de dikkate alınır. Başka bir deyişle, ağın ilk girişi X ve çıkışı H ise, hem H hem de X1 (veri dizisindeki bir sonraki giriş), bir sonraki öğrenme turu için ağa beslenir. Bu şekilde, verinin içeriği (önceki girdiler) ağ trenleri olarak korunur.

Bu mimarinin sonucu, RNN'lerin sıralı verileri işleme yeteneğine sahip olmasıdır. Ancak, RNN'ler birkaç sorundan muzdariptir. RNN'ler muzdarip kaybolan gradyan ve patlayan gradyan problemleri.

Bir RNN'nin yorumlayabileceği dizilerin uzunluğu, özellikle LSTM'lere kıyasla oldukça sınırlıdır.

LSTM'ler (Uzun Kısa Süreli Bellek Ağları) nedir?

Uzun Kısa Süreli Bellek ağları, bir kez daha girdilerin bağlamını koruma kavramını uygulayarak, RNN'lerin uzantıları olarak düşünülebilir. Bununla birlikte, LSTM'ler, geçmiş verileri üstün yöntemlerle yorumlamalarına olanak tanıyan birkaç önemli şekilde değiştirilmiştir. LSTM'lerde yapılan değişiklikler, yok olan gradyan problemini ele alır ve LSTM'lerin çok daha uzun girdi dizilerini dikkate almasını sağlar.

LSTM modelleri şunlardan oluşur: üç farklı bileşen veya kapı. bir var giriş kapısı, çıkış kapısı ve unutma kapısı. RNN'lere çok benzeyen LSTM'ler, modelin belleğini ve girdi ağırlıklarını değiştirirken önceki zaman adımındaki girdileri hesaba katar. Giriş kapısı, hangi değerlerin önemli olduğu ve modelden geçmesi gerektiğine karar verir. Giriş kapısında, tekrarlayan ağ üzerinden hangi değerlerin iletileceğini belirleyen bir sigmoid işlevi kullanılır. Sıfır, değeri düşürürken, 1 değeri korur. Burada -1 ile 1 arasında değişen giriş değerlerinin model için ne kadar önemli olduğuna karar veren bir TanH işlevi de kullanılır.

Geçerli girişler ve bellek durumu hesaba katıldıktan sonra, çıkış kapısı bir sonraki adıma hangi değerlerin gönderileceğine karar verir. Çıkış kapısında değerler analiz edilir ve -1 ile 1 arasında bir önem verilir. Bu, bir sonraki zaman adımı hesaplamasına geçmeden önce verileri düzenler. Son olarak, unutma kapısının işi, girdi değerlerinin doğası hakkında bir karar vermek için modelin gereksiz gördüğü bilgileri bırakmaktır. Unutma kapısı, değerler üzerinde bir sigmoid işlevi kullanır ve 0 (bunu unut) ile 1 (bunu tut) arasında sayılar verir.

Bir LSTM sinir ağı, hem sıralı kelime verilerini hem de yukarıda açıklananlar gibi yoğun bir şekilde bağlı olanları yorumlayabilen özel LSTM katmanlarından yapılır. Veriler LSTM katmanlarından geçtikten sonra, yoğun şekilde bağlı katmanlara doğru ilerler.

Uzmanlık alanlarına sahip blogcu ve programcı Makine öğrenme ve Derin Öğrenme konular. Daniel, başkalarının yapay zekanın gücünü toplumsal fayda için kullanmasına yardım etmeyi umuyor.