Connect with us

Yapay Zekâ 101

Derin Öğrenmede RNN’ler ve LSTMLer Nedir?

mm

Doğal dil işleme ve AI sohbet botlarında birçok etkileyici ilerleme, Tekrarlı Sinir Ağları (RNN’ler) ve Uzun Kısa Süreli Hafıza (LSTM) ağları tarafından yönlendirilir. RNN’ler ve LSTMLer, kronolojik sıralamanın önemli olduğu sıralı verileri işleyebilecek özel sinir ağı mimarileridir. LSTMLer, esasen RNN’lerin geliştirilmiş sürümleridir ve daha uzun veri dizilerini yorumlayabilme yeteneğine sahiptir. RNN’ler ve LSTMLerin nasıl yapılandırıldığını ve nasıl gelişmiş doğal dil işleme sistemlerinin oluşturulmasını mümkün kıldığını inceleyelim.

İleri Beslemeli Sinir Ağları Nedir?

LSTM (Uzun Kısa Süreli Hafıza) ve CNN’ler (Evrişimli Sinir Ağları) nasıl çalıştığını tartışmadan önce, genel olarak bir sinir ağı formatını ele alalım.

Bir sinir ağı, verileri incelemek ve ilgili kalıpları öğrenmek nhằm bu kalıpları diğer verilerde uygulayarak yeni verileri sınıflandırmak için tasarlanmıştır. Sinir ağları üç bölüme ayrılmıştır: girdi katmanı, gizli katman (veya birden fazla gizli katman) ve çıktı katmanı.

Girdi katmanı, verileri sinir ağına alan kısımdır, जबकi gizli katmanlar, verilerin kalıplarını öğrenen kısımlardır. Gizli katmanlar, girdi ve çıktı katmanlarına “ağırlıklar” ve “önyargılar” ile bağlanır, bunlar da veri noktaları arasındaki ilişkilerin varsayımlarıdır. Bu ağırlıklar, eğitim sırasında ayarlanır. Ağ eğitilirken, modelin eğitim verilerine ilişkin tahminleri (çıktı değerleri) 실제 eğitim etiketleriyle karşılaştırılır. Eğitim sürecinde, ağın veri noktaları arasındaki ilişkileri daha doğru bir şekilde tahmin edebilmesi ve böylece yeni veri noktalarını doğru bir şekilde sınıflandırabilmesi amaçlanır. Derin sinir ağları, ortada daha fazla katmana sahip ağlardır. Modelin daha fazla gizli katmanı ve nöronu/neuronu ne kadar fazla olursa, verilerin kalıplarını o kadar iyi tanıyabilir.

Sık, ileri beslemeli sinir ağları, yukarıda tanımladığım gibi sıklıkla “yoğun sinir ağları” olarak adlandırılır. Bu yoğun sinir ağları, farklı veri türlerini yorumlayabilen çeşitli ağ mimarileriyle birleştirilir.

RNN’ler (Tekrarlı Sinir Ağları) Nedir?

Tekrarlı Sinir Ağları, ileri beslemeli sinir ağlarının genel prensibini alır ve bunları sıralı verileri işleyebilecek şekilde, modele bir iç hafıza vererek ermöglicht. RNN adı中的 “Tekrarlı” kısmı, girdilerin ve çıktıların döngüsünden gelir. Ağın çıktısı üretildikten sonra, çıktı kopyalanır ve ağa girdi olarak geri verilir. Bir karar verirken, yalnızca geçerli girdi ve çıktı analiz edilmez, aynı zamanda önceki girdi de dikkate alınır. Başka bir deyişle, ağın ilk girdisi X ve çıktısı H ise, hem H hem de X1 (veri dizisindeki sonraki girdi), sonraki öğrenme turu için ağa verilir. Bu şekilde, ağ eğitilirken verilerin bağlamı (önceki girdiler) korunur.

Bu mimarinin sonucu, RNN’lerin sıralı verileri işleyebilmesidir. Ancak, RNN’ler beberapa sorunla karşı karşıyadır. RNN’ler, kaybolan gradyan ve patlayan gradyan sorunlarından muzdariptir.

RNN’lerin yorumlayabileceği dizilerin uzunluğu, özellikle LSTMLere kıyasla sınırlıdır.

LSTM’ler (Uzun Kısa Süreli Hafıza Ağları) Nedir?

Uzun Kısa Süreli Hafıza ağları, RNN’lerin uzantıları olarak düşünülebilir, yine de girdilerin bağlamını korumak kavramını uygular. Ancak, LSTMLer beberapa önemli şekilde değiştirilmiştir, bu da onlara daha iyi yöntemlerle geçmiş verileri yorumlama yeteneği kazandırır. LSTMLerde yapılan değişiklikler, kaybolan gradyan sorununu ele alır ve LSTMLerin çok daha uzun girdi dizilerini dikkate alabilmesini sağlar.

LSTM modelleri, üç farklı bileşenden oluşur, veya kapılar. Bir girdi kapısı, bir çıktı kapısı ve bir unutma kapısı vardır. RNN’ler gibi, LSTMLer de önceki zaman adımından girdileri dikkate alırken, modelin hafızasını ve girdi ağırlıklarını değiştirir. Girdi kapısı, hangi değerlerin önemli olduğu ve modele geçirilmesi gerektiği hakkında kararlar verir. Girdi kapısında bir sigmoid fonksiyonu kullanılır, bu da hangi değerlerin geçirileceğini belirler. 0 değeri düşürür, 1 ise korur. Burada bir TanH fonksiyonu da kullanılır, bu da girdi değerlerinin model için ne kadar önemli olduğunu, -1 ile 1 arasında bir değer olarak belirler.

Mevcut girdiler ve hafıza durumu hesaplandıktan sonra, çıktı kapısı hangi değerlerin sonraki zaman adımına geçirileceğini belirler. Çıkış kapısında, değerler analiz edilir ve -1 ile 1 arasında bir önem derecesi atanır. Bu, verilerin sonraki zaman adımına hesaplanmadan önce düzenlenmesini sağlar. Son olarak, unutma kapısının görevi, modelin kararı hakkında gereksiz olduğunu düşündüğü bilgileri düşürmektir. Unutma kapısında, sigmoid fonksiyonu kullanılır ve 0 (bu değeri unut) ile 1 (bu değeri kor) arasında değerler üretilir.

Bir LSTM sinir ağı, hem özel LSTM katmanlarından oluşur, bu katmanlar sıralı kelime verilerini yorumlayabilir, hem de yukarıda tanımlanan gibi yoğun bağlı katmanlardan oluşur. Veriler LSTM katmanlarından geçtikten sonra, yoğun bağlı katmanlara geçer.

Blog yazarı ve programcı, Machine Learning ve Deep Learning konularında uzmanlık sahibi. Daniel, başkalarının AI'nin gücünü sosyal fayda için kullanmasına yardımcı olmak umudu taşıyor.