Yapay Zeka

NLP Transformatör Modelleriyle Yükseliyor | T5, BERT ve GPT'nin Kapsamlı Analizi

Yayınlanan

6 ay önce

8 Kasım 2023

Doğal Dil İşleme (NLP), özellikle transformatör mimarisi nedeniyle son yıllarda en etkili atılımlardan bazılarını yaşadı. Bu atılımlar yalnızca makinelerin insan dilini anlama ve üretme yeteneklerini geliştirmekle kalmadı, aynı zamanda arama motorlarından konuşma yapay zekasına kadar çok sayıda uygulamanın manzarasını da yeniden tanımladı.

Transformatörlerin önemini tam olarak anlayabilmek için öncelikle bu devrim niteliğindeki mimarinin temelini oluşturan öncüllere ve yapı taşlarına bakmalıyız.

Erken NLP Teknikleri: Transformers'tan Önceki Temeller

Kelime Gömmeleri: One-Hot'tan Word2Vec'e

Geleneksel NLP yaklaşımlarında, kelimelerin temsili genellikle gerçek anlamdaydı ve herhangi bir anlamsal veya sözdizimsel anlayıştan yoksundu. Tek-hot kodlama bu sınırlamanın başlıca örneğidir.

Tek sıcak kodlama, kategorik değişkenlerin, yalnızca bir bitin "sıcak" (1'e ayarlı) ve diğerlerinin "soğuk" (0'a ayarlı) olduğu ikili vektör temsiline dönüştürüldüğü bir işlemdir. NLP bağlamında, bir kelime dağarcığı içindeki her kelime, her bir vektörün kelime dağarcığının boyutu olduğu bir-sıcak vektörlerle temsil edilir ve her kelime, o kelimeye karşılık gelen indekste tümü 0'lardan ve bir 1'den oluşan bir vektör ile temsil edilir. kelime listesi.

Tek Kullanımlık Kodlama Örneği

Yalnızca beş kelimeden oluşan küçük bir kelime dağarcığımız olduğunu varsayalım: [“kral”, “kraliçe”, “erkek”, “kadın”, “çocuk”]. Her kelime için tek sıcak kodlama vektörleri şöyle görünecektir:

“kral” -> [1, 0, 0, 0, 0]
“kraliçe” -> [0, 1, 0, 0, 0]
“adam” -> [0, 0, 1, 0, 0]
“kadın” -> [0, 0, 0, 1, 0]
“çocuk” -> [0, 0, 0, 0, 1]

Matematiksel Gösterim

Eğer belirtirsek $V$ Kelime dağarcığımızın büyüklüğü ve $w_{i}$ kelime dağarcığında i'inci kelimenin tek sıcak vektör temsili olarak, matematiksel temsili $w_{i}$ olabilir:

$w_{i} = [0, 0, ..., 1, ..., 0, 0]$ $burada i'inci konum 1'dir ve diğer tüm konumlar 0'dır.$

Tek sıcak kodlamanın en büyük dezavantajı, her bir kelimeyi diğer kelimelerle hiçbir ilişkisi olmayan yalıtılmış bir varlık olarak ele almasıdır. Kelimelerle ilgili herhangi bir anlamsal veya sözdizimsel bilgi yakalamayan seyrek ve yüksek boyutlu vektörlerle sonuçlanır.

Kelime yerleştirmelerin, özellikle de Word2Vec'in kullanıma sunulması, NLP'de çok önemli bir andı. 2013 yılında Google'da Tomas Mikolov liderliğindeki bir ekip tarafından geliştirilen Word2Vec, kelimeleri yoğun bir vektör uzayında temsil ediyor ve geniş bir metin bütünü içindeki bağlamlarına dayalı olarak sözdizimsel ve anlamsal kelime ilişkilerini yakalıyordu.

Tek seferde kodlamanın aksine, Word2Vec genellikle yüzlerce boyuta sahip yoğun vektörler üretir. Benzer bağlamlarda görünen “kral” ve “kraliçe” gibi kelimeler, vektör uzayında birbirine daha yakın vektör temsillerine sahip olacaktır.

Örnek olarak, bir Word2Vec modelini eğittiğimizi ve şimdi kelimeleri varsayımsal bir 3 boyutlu uzayda temsil ettiğimizi varsayalım. Gömmeler (genellikle 3B'den fazladır ancak basitlik amacıyla burada küçültülmüştür) şöyle görünebilir:

“kral” -> [0.2, 0.1, 0.9]
“kraliçe” -> [0.21, 0.13, 0.85]
“adam” -> [0.4, 0.3, 0.2]
“kadın” -> [0.41, 0.33, 0.27]
“çocuk” -> [0.5, 0.5, 0.1]

Bu sayılar hayali olmakla birlikte, benzer kelimelerin ne kadar benzer vektörlere sahip olduğunu göstermektedir.

Matematiksel Gösterim

Bir kelimenin Word2Vec gömülmesini şu şekilde temsil edersek: $v_{w}$ ve yerleştirme alanımız $d$ o zaman boyutlar $v_{w}$ şu şekilde temsil edilebilir:

$v_{w} = [v_{1}, v_{2}, ..., v_{d}]$ $her biri nerede v_{i} gömme alanındaki kelimenin bir özelliğini temsil eden kayan noktalı bir sayıdır.$

Anlamsal İlişkiler

Word2Vec analojiler gibi karmaşık ilişkileri bile yakalayabilir. Örneğin, Word2Vec yerleştirmeleri tarafından yakalanan ünlü ilişki şöyledir:

$vektör(“kral”) - vektör(“erkek”) + vektör(“kadın”) \approx vektör(“kraliçe”)$

Bu mümkündür çünkü Word2Vec, eğitim sırasında kelime vektörlerini, derlemdeki ortak bağlamları paylaşan kelimelerin vektör uzayında yakın konumlandırılmasını sağlayacak şekilde ayarlar.

Word2Vec, kelimelerin dağıtılmış bir temsilini üretmek için iki ana mimari kullanır: Sürekli Kelime Çantası (CBOW) ve Skip-Gram. CBOW, etrafındaki bağlam sözcüklerinden bir hedef kelimeyi tahmin ederken, Skip-Gram bunun tersini yaparak hedef sözcükten bağlam sözcüklerini tahmin eder. Bu, makinelerin kelime kullanımını ve anlamını daha incelikli bir şekilde anlamaya başlamasına olanak sağladı.

Dizi Modelleme: RNN'ler ve LSTM'ler

Alan ilerledikçe odak noktası, makine çevirisi, metin özetleme ve duygu analizi gibi görevler için çok önemli olan metin dizilerini anlamaya doğru kaydı. Tekrarlayan Sinir Ağları (RNN'ler), bir bellek biçimini koruyarak sıralı verileri işleme yetenekleri nedeniyle bu uygulamaların temel taşı haline geldi.

Ancak RNN'ler sınırlamasız değildi. Bilginin uzun diziler boyunca kaybolduğu, uzak olaylar arasındaki korelasyonların öğrenilmesini zorlaştıran yok olan gradyan sorunu nedeniyle uzun vadeli bağımlılıklarla mücadele ettiler.

Uzun Kısa Süreli Bellek ağları (LSTM'ler), tarafından tanıtılmıştır. 1997'de Sepp Hochreiter ve Jürgen Schmidhuber, bu sorunu daha gelişmiş bir mimariyle ele aldı. LSTM'lerin bilgi akışını kontrol eden kapıları vardır: giriş kapısı, unutma kapısı ve çıkış kapısı. Bu kapılar hangi bilgilerin saklanacağını, güncelleneceğini veya atılacağını belirleyerek ağın uzun vadeli bağımlılıklarını korumasına ve çok çeşitli NLP görevlerinde performansı önemli ölçüde artırmasına olanak tanır.

Trafo Mimarisi

NLP'nin manzarası, Vaswani ve arkadaşlarının çığır açan makalesi "İhtiyacınız Olan Tek Şey Dikkatdir"de dönüştürücü modelin tanıtılmasıyla dramatik bir dönüşüm geçirdi. Transformatör mimarisi, RNN'lerin ve LSTM'lerin sıralı işlenmesinden ayrılıyor ve bunun yerine, giriş verilerinin farklı bölümlerinin etkisini tartmak için 'öz dikkat' adı verilen bir mekanizma kullanıyor.

Transformatörün temel fikri, giriş verilerinin tamamını sıralı olarak değil, aynı anda işleyebilmesidir. Bu, çok daha fazla paralelleştirmeye ve bunun sonucunda da eğitim hızında önemli artışlara olanak tanır. Öz-dikkat mekanizması, modelin metni işlerken metnin farklı bölümlerine odaklanmasını sağlar; bu, metindeki konumları ne olursa olsun, bağlamı ve kelimeler arasındaki ilişkileri anlamak için çok önemlidir.

Transformatörlerde Kodlayıcı ve Kod Çözücü:

Orijinal Transformer modelinde, makalede anlatıldığı gibi “Tüm İhtiyacınız Olan Dikkat” Vaswani ve diğerleri tarafından mimari iki ana bölüme ayrılmıştır: kodlayıcı ve kod çözücü. Her iki parça da aynı genel yapıya sahip ancak farklı amaçlara hizmet eden katmanlardan oluşur.

Encoder:

Rol: Kodlayıcının rolü, giriş verilerini işlemek ve öğeler arasındaki ilişkileri (cümledeki kelimeler gibi) yakalayan bir temsil oluşturmaktır. Transformatörün bu kısmı herhangi bir yeni içerik üretmez; girişi basitçe kod çözücünün kullanabileceği bir duruma dönüştürür.
İşlevsellik: Her kodlayıcı katmanında öz-dikkat mekanizmaları ve ileri beslemeli sinir ağları bulunur. Öz-dikkat mekanizması, kodlayıcıdaki her konumun, kodlayıcının önceki katmanındaki tüm konumlara katılmasına olanak tanır; böylece her kelimenin etrafındaki bağlamı öğrenebilir.
Bağlamsal Gömmeler: Kodlayıcının çıkışı, yüksek boyutlu bir uzayda giriş sırasını temsil eden bir dizi vektördür. Bu vektörlere genellikle bağlamsal yerleştirmeler denir çünkü bunlar yalnızca tek tek kelimeleri değil aynı zamanda cümle içindeki bağlamlarını da kodlar.

dekoder:

Rol: Kod çözücünün rolü, kodlayıcıdan aldığı girdiye ve o ana kadar ürettiğine bağlı olarak çıktı verilerini sırayla, her seferinde bir parça olarak oluşturmaktır. Oluşturma sırasının çok önemli olduğu metin oluşturma gibi görevler için tasarlanmıştır.
İşlevsellik: Kod çözücü katmanları ayrıca öz-dikkat mekanizmaları içerir, ancak konumların sonraki konumlara katılmasını önlemek için maskelenirler. Bu, belirli bir konum için tahminin yalnızca kendisinden önceki konumlardaki bilinen çıktılara bağlı olmasını sağlar. Ek olarak kod çözücü katmanları, kodlayıcının çıktısıyla ilgilenen ve girdiden gelen bağlamı üretim sürecine entegre eden ikinci bir dikkat mekanizması içerir.
Sıralı Üretim Yetenekleri: Bu, kod çözücünün daha önce ürettiğini temel alarak her seferinde bir öğe olacak şekilde bir dizi oluşturma yeteneğini ifade eder. Örneğin, metin oluştururken kod çözücü, kodlayıcı tarafından sağlanan bağlama ve önceden oluşturulmuş sözcük sırasına bağlı olarak bir sonraki sözcüğü tahmin eder.

Kodlayıcı ve kod çözücü içindeki bu alt katmanların her biri, modelin karmaşık NLP görevlerini yerine getirme yeteneği açısından çok önemlidir. Özellikle çok kafalı dikkat mekanizması, modelin seçici olarak sekansın farklı bölümlerine odaklanmasına olanak tanıyarak bağlamın zengin bir şekilde anlaşılmasını sağlar.

Transformatörlerden Yararlanan Popüler Modeller

Transformatör modelinin ilk başarısının ardından, mimarisi üzerine inşa edilen, her biri farklı görevlere yönelik kendi yenilikleri ve optimizasyonları olan yeni modellerde bir patlama yaşandı:

BERT (Transformatörlerden Çift Yönlü Kodlayıcı Temsilleri): Google tarafından 2018'de tanıtılan BERT, bağlamsal bilgilerin dil temsillerine entegre edilme biçiminde devrim yarattı. BERT, maskelenmiş bir dil modeli ve sonraki cümle tahmini ile geniş bir metin külliyatı üzerinde ön eğitim alarak, zengin çift yönlü bağlamları yakalar ve çok çeşitli NLP görevlerinde en son teknolojiye sahip sonuçlara ulaşır.

Bert

T5 (Metinden Metne Aktarım Transformatörü): Tarafından tanıtıldı 2020'de GoogleT5, birleşik metin tabanlı bir format kullanarak tüm NLP görevlerini metinden metne problem olarak yeniden çerçevelendirir. Bu yaklaşım, modelin çeviri, özetleme ve soru yanıtlama gibi çeşitli görevlere uygulanması sürecini basitleştirir.

T5 Mimarlık

GPT (Üretken Önceden Eğitimli Transformatör): Tarafından geliştirilmiş OpenAI, GPT model serisi GPT-1 ile başladı ve 4 itibarıyla GPT-2023'e ulaştı. Bu modeller, büyük miktarda metin verisi üzerinde denetimsiz öğrenme kullanılarak önceden eğitilir ve çeşitli görevler için ince ayarlar yapılır. Tutarlı ve bağlamsal olarak alakalı metinler üretme yetenekleri, onları hem akademik hem de ticari yapay zeka uygulamalarında oldukça etkili hale getirdi.

GPT Mimarisi

T5, BERT ve GPT modellerinin çeşitli boyutlara göre daha ayrıntılı bir karşılaştırmasını burada bulabilirsiniz:

1. Tokenizasyon ve Kelime Bilgisi

Bert: Yaklaşık 30,000 jetonluk kelime dağarcığı boyutuyla WordPiece jetonlaştırmasını kullanır.
GPT: Geniş kelime dağarcığı boyutuna sahip Bayt Çifti Kodlaması (BPE) kullanır (örneğin, GPT-3'ün sözcük dağarcığı boyutu 175,000'dir).
T5: Metni ham olarak ele alan ve önceden bölümlere ayrılmış kelimeler gerektirmeyen SentencePiece tokenizasyonunu kullanır.

2. Eğitim Öncesi Hedefler

Bert: Maskeli Dil Modellemesi (MLM) ve Sonraki Cümle Tahmini (NSP).
GPT: Nedensel Dil Modellemesi (CLM), burada her jeton dizideki bir sonraki jetonu tahmin eder.
T5: Rastgele metin aralıklarının bir koruyucu belirteçle değiştirildiği ve modelin orijinal metni yeniden oluşturmayı öğrendiği gürültü giderme hedefi kullanır.

3. Giriş Gösterimi

Bert: Belirteç, Segment ve Konumsal Yerleştirmeler girişi temsil edecek şekilde birleştirilir.
GPT: Belirteç ve Konumsal Yerleştirmeler birleştirilmiştir (cümle çifti görevleri için tasarlanmadığından bölüm yerleştirme yoktur).
T5: Dikkat operasyonları sırasında yalnızca Göreceli Konumsal Kodlamaların eklendiği Jeton Yerleştirmeleri.

4. Dikkat Mekanizması

Bert: Mutlak konumsal kodlamalar kullanır ve her jetonun soldaki ve sağdaki tüm jetonlarla ilgilenmesine olanak tanır (çift yönlü dikkat).
GPT: Ayrıca mutlak konumsal kodlamalar kullanır ancak dikkati yalnızca önceki belirteçlerle sınırlandırır (tek yönlü dikkat).
T5: Konumsal yerleştirmeler yerine göreceli konum öngerilimlerini kullanan transformatörün bir çeşidini uygular.

5. Model Mimarisi

Bert: Çok katmanlı transformatör bloklarına sahip yalnızca kodlayıcı mimarisi.
GPT: Yalnızca kod çözücü mimarisi, yine birden çok katmana sahiptir ancak üretken görevler için tasarlanmıştır.
T5: Hem kodlayıcının hem de kod çözücünün transformatör katmanlarından oluştuğu Kodlayıcı-kod çözücü mimarisi.

6. İnce Ayar Yaklaşımı

Bert: Önceden eğitilmiş modelin son gizli durumlarını, gerektiğinde ek çıktı katmanlarıyla aşağı akış görevleri için uyarlar.
GPT: Transformatörün üstüne doğrusal bir katman ekler ve aynı nedensel dil modelleme hedefini kullanarak aşağı akış görevinde ince ayarlar yapar.
T5: Tüm görevleri, giriş dizisinden hedef diziyi oluşturacak şekilde modelin ince ayarlandığı metinden metne biçimine dönüştürür.

7. Eğitim Verileri ve Ölçeği

Bert: BooksCorpus ve İngilizce Wikipedia eğitimi aldı.
GPT: GPT-2 ve GPT-3, internetten alınan çeşitli veri kümeleri üzerinde eğitilmiştir; GPT-3, Ortak Tarama adı verilen daha da büyük bir külliyat üzerinde eğitilmiştir.
T5: Ortak Taramanın büyük ve temiz bir versiyonu olan “Colossal Clean Crawled Corpus” konusunda eğitim aldı.

8. Bağlamın ve Çift Yönlülüğün Ele Alınması

Bert: Her iki yöndeki bağlamı aynı anda anlamak için tasarlandı.
GPT: İçeriği ileri yönde (soldan sağa) anlamak için eğitildi.
T5: Sıradan diziye görevlere uygun olarak kodlayıcıda çift yönlü ve kod çözücüde tek yönlü bağlamı modelleyebilir.

9. Aşağı Yöndeki Görevlere Uyarlanabilirlik

Bert: Her bir aşağı yönlü görev için göreve özel kafa katmanları ve ince ayar gerektirir.
GPT: Doğası gereği üretkendir ve yapısında minimum değişiklikle görevleri gerçekleştirmesi istenebilir.
T5: Her görevi bir "metinden metne" sorunu olarak ele alır, bu da onu doğası gereği esnek ve yeni görevlere uyarlanabilir hale getirir.

10. Yorumlanabilirlik ve Açıklanabilirlik

Bert: Çift yönlü yapısı, zengin bağlamsal yerleştirmeler sağlar ancak yorumlanması daha zor olabilir.
GPT: Tek yönlü bağlamın takip edilmesi daha kolay olabilir ancak çift yönlü bağlamın derinliği yoktur.
T5: Kodlayıcı-kod çözücü çerçevesi, işleme adımlarının net bir şekilde ayrılmasını sağlar ancak üretken doğası nedeniyle analiz edilmesi karmaşık olabilir.

Transformatörlerin NLP Üzerindeki Etkisi

Transformatörler, modellerin veri dizilerini paralel olarak işlemesini sağlayarak NLP alanında devrim yarattı; bu, büyük sinir ağlarının eğitiminin hızını ve verimliliğini önemli ölçüde artırdı. Modellerin, dizi içindeki mesafeye bakılmaksızın girdi verilerinin her bir bölümünün önemini tartmasına olanak tanıyan öz-dikkat mekanizmasını tanıttılar. Bu, çeviri, soru yanıtlama ve metin özetleme dahil ancak bunlarla sınırlı olmamak üzere çok çeşitli NLP görevlerinde benzeri görülmemiş gelişmelere yol açtı.

Araştırmalar, transformatör tabanlı modellerin başarabileceklerinin sınırlarını zorlamaya devam ediyor. GPT-4 ve çağdaşları yalnızca ölçek olarak daha büyük değil, aynı zamanda mimari ve eğitim yöntemlerindeki ilerlemeler nedeniyle daha verimli ve yeteneklidir. Modellerin minimum örneklerle görevleri yerine getirdiği birkaç adımlı öğrenme gibi teknikler ve daha etkili transfer öğrenimine yönelik yöntemler mevcut araştırmaların ön saflarında yer alıyor.

Transformatörleri temel alan dil modelleri, önyargı içerebilen verilerden öğrenir. Araştırmacılar ve uygulayıcılar bu önyargıları belirlemek, anlamak ve azaltmak için aktif olarak çalışıyorlar. Teknikler, seçilmiş eğitim veri kümelerinden adalet ve tarafsızlığı amaçlayan eğitim sonrası düzenlemelere kadar çeşitlilik gösterir.

İlgili konular:nlp transformatörler

Bir sonraki

Humane'nin AI Pin'i Giyilebilir Teknolojide Bir Adım İleri, Ancak Dezavantajları Var

Kaçırmayın

Özel GPT'ler Var ve Yapay Zekayla İlgili Her Şeyi Etkileyecek

Aayush Mittal

Son beş yılımı, Makine Öğrenimi ve Derin Öğrenmenin büyüleyici dünyasına dalarak geçirdim. Tutkum ve uzmanlığım, özellikle AI/ML'ye odaklanarak 50'den fazla farklı yazılım mühendisliği projesine katkıda bulunmamı sağladı. Devam eden merakım, beni daha fazla keşfetmeye hevesli olduğum bir alan olan Doğal Dil İşleme'ye de çekti.