Connect with us

Üretken AI: CHATGPT, Dall-E, Midjourney ve Daha Fazlasının Arkasındaki Fikir

Yapay Zekâ

Üretken AI: CHATGPT, Dall-E, Midjourney ve Daha Fazlasının Arkasındaki Fikir

mm
Generative AI - Midjourney Prompt

Sanat, iletişim ve gerçekliği algılama dünyası hızla dönüşüyor. İnsan icatlarının tarihine baktığımızda, tekerleğin icadı veya elektriğin keşfini devasa adımlar olarak düşünebiliriz. Bugün, bir devrim gerçekleşiyor – insan yaratıcılığı ve makine hesaplama arasındaki uçurumu köprüleyen bir devrim. Bu, Üretken AI’dir.

Üretken modeller, insanları ve makineleri ayıran çizgiyi bulanıklaştırdı. GPT-4 gibi modellerin ortaya çıkışı ile birlikte, doğal ve bağlam açısından zengin dil oluşturma konusunda önemli adımlar atıldı. Bu gelişmeler, belge oluşturma, sohbet botu diyalog sistemleri ve hatta sentetik müzik besteleme gibi uygulamaları teşvik etti.

Son büyük teknoloji kararları, bunun önemini vurguluyor. Microsoft, bu ay Cortana uygulamasını sonlandırıyor ve Bing Chat gibi daha yeni Üretken AI yeniliklerine öncelik veriyor. Apple da, CEO Tim Cook tarafından belirtildiği gibi, 22.6 milyar dolarlık AR-GE bütçesinin önemli bir kısmını üretken AI’ye ayırdı.

Yeni Bir Model Çağı: Üretken ve Ayırt Edici

Üretken AI’nin hikayesi, yalnızca uygulamaları hakkında değil, temel olarak iç işleyişi hakkında. Yapay zeka ekosisteminde, iki model vardır: ayırt edici ve üretken.

Ayırt edici modeller, günlük hayatımızda karşılaştığımız modellerdir. Bu algoritmalar, metin veya resim gibi girdi verilerini alır ve bunları hedef çıktılarla, örneğin kelime çevirisi veya tıbbi teşhis gibi, eşler. Bunlar, eşleme ve tahmin hakkında.

Üretken modeller, diğer yandan, yaratıcılardır. Sadece yorumlama veya tahmin yapmazlar; yeni, karmaşık çıktılar oluştururlar ve bunlar genellikle gerçek dünya değerleriyle ilgili olmayan sayı vektörlerinden oluşur.

 

Üretken AI Türleri: Metin-Metin, Metin-Resim (GPT, DALL-E, Midjourney)

Üretken Modellerin Arkasındaki Teknolojiler

Üretken modeller, derin sinir ağlarına borçludur; insan beyninin işlevselliğini taklit etmek için tasarlanmış karmaşık yapılar. Verilerdeki çok yönlü varyasyonları yakalayarak ve işleyerek, bu ağlar, numerous üretken modellerin omurgasını oluşturur.

Bu üretken modeller nasıl hayat bulur? Genellikle, derin sinir ağları ile inşa edilirler ve verideki çok yönlü varyasyonları yakalamak için optimize edilirler. Bir örnek, Generative Adversarial Network (GAN) olarak karşımıza çıkar; burada iki sinir ağı, üretici ve ayrımcı, benzersiz bir öğretmen-öğrenci ilişkisinde birbirlerinden öğrenirler ve birbirleriyle yarışirler. Resimden stil aktarımına, müzik bestelemekten oyun oynamaya kadar, bu modeller previously düşünülmesi mümkün olmayan yollarda evrimleşiyor ve genişliyor.

Bu, GAN’lerle sınırlı değil. Variational Autoencoders (VAE’ler), üretken model alanındaki başka bir önemli oyuncudur. VAE’ler, görünüşte rastgele sayıları işleyerek fotoğrafik görüntüler oluşturma yetenekleri ile öne çıkıyorlar. Nasıl? Bu sayıları bir gizil vektör aracılığıyla işleyerek, insan estetiğinin karmaşıklıklarını yansıtan sanata hayat veriyorlar.

Üretken AI Türleri: Metin-Metin, Metin-Resim

Transformers ve LLM

“Attention Is All You Need” adlı makale, Google Brain tarafından yayınlandı ve dil modellemesi hakkında düşüncelerimizi değiştirdi. Karmaşık ve sıralı mimarilere sahip RNN’ler veya CNN’ler yerine, Transformer modeli, bağlama bağlı olarak girdi metninin farklı kısımlarına odaklanma kavramını tanıttı. Bunun temel avantajlarından biri, paralelleştirme kolaylığıydı. RNN’lerin aksine, metni sıralı olarak işleyen ve bu nedenle büyük veri kümelerinde ölçeklenmesi daha zor olan RNN’lerin aksine, Transformer’lar metnin kısımlarını aynı anda işleyebilir, bu da büyük veri kümelerinde eğitimi daha hızlı ve verimli hale getirir.

Uzun bir metinde, okuduğunuz her kelime veya cümle aynı öneme sahip değildir. Bazı kısımlar, bağlama bağlı olarak daha fazla dikkat gerektirir. Bu, bağlama bağlı olarak odaklanabilme yeteneğini taklit eden dikkat mekanizmasıdır.

Bunu anlamak için, bir cümle düşünün: “Unite AI, AI ve robotik haberleri yayınlıyor.” Sonraki kelimenin öngörüsü, önceki bağlamın anlaşılmasını gerektirir. “Robotik” terimi, sonraki kelimenin robotik alanındaki belirli bir ilerleme veya olayla ilgili olabileceğini öne sürebilir, mentre “Yayınlıyor” ifadesi, sonraki bağlamın bir makale veya yayın hakkında olabileceğini gösterebilir.

Kendini Dikkat Mekanizması açıklaması bir demo cümlesi
Kendini Dikkat Görseli

Transformer’lerdeki dikkat mekanizmaları, bu seçici odaklanmayı gerçekleştirmek üzere tasarlanmıştır. Girdi metninin farklı kısımlarının önemini ölçer ve yanıt oluştururken nereye “bakacağını” karar verir. Bu, daha eski mimarilerin, tüm girdi metninin özünü tek bir “durum” veya “hafıza”ya sıkıştırmaya çalıştığına kıyasla, bir ayrıcalıktır.

Dikkat mekanizmasının işleyişi, bir anahtar-değer alma sistemine benzetilebilir. Bir cümledeki sonraki kelimenin öngörüsü için, her önceki kelime, potansiyel alakalılığını gösteren bir “anahtar” sunar ve bu anahtarlara dayalı olarak, bağlam veya sorguya göre bir “değer” veya ağırlık ekler.

Bu gelişmiş AI derin öğrenme modelleri, çeşitli uygulamalara sorunsuz bir şekilde entegre oldu. Google’ın BERT ile arama motoru iyileştirmelerinden GitHub’ın Copilot’u, Large Language Models (LLM)’lerin basit kod parçalarını tam işlevsel kaynak kodlarına dönüştürme yeteneğini kullanıyor.

Large Language Models (LLM) gibi GPT-4, Bard ve LLaMA, insan dilini, kodu ve daha fazlasını çözmeye ve oluşturmaya tasarlanmış devasa yapılar. Milyarlarca veya trilyonlarca parametreye sahip olmaları, tanımlayıcı özelliklerinden biridir. Bu LLM’ler, metin verisi ile beslenir ve insan dilinin inceliklerini kavramalarına olanak sağlar. Bu modellerin dikkat çekici bir özelliği, “few-shot” öğrenme yeteneğidir. Geleneksel modellerin, belirli eğitim verilerine ihtiyaç duyduğu aksine, LLM’ler çok sınırlı sayıda örnekten (veya “atışlardan”) genelleyebilir

2023’ün Ortasından Sonra Büyük Dil Modellerinin Durumu

Model Adı Geliştirici Parametreler Erişim ve Kullanılabilirlik Önemli Özellikler ve Notlar
GPT-4 OpenAI 1.5 Trilyon Açık Kaynak Değil, API Erişimi Sadece Çeşitli görevlerde etkileyici performans, resim ve metin işleyebilir, maksimum girdi uzunluğu 32.768 token
GPT-3 OpenAI 175 Milyar Açık Kaynak Değil, API Erişimi Sadece Few-shot ve zero-shot öğrenme yetenekleri gösterdi. Doğal dilde metin tamamlama gerçekleştirir.
BLOOM BigScience 176 Milyar İndirilebilir Model, Barındırılan API Mevcut Çok dilli LLM, 13 programlama dilini destekler.
LaMDA Google 173 Milyar Açık Kaynak Değil, API veya İndirme Yok Tartışmaya dayalı eğitim aldı,几乎 her konuda konuşabilir.
MT-NLG Nvidia/Microsoft 530 Milyar API Erişimi Başvuru ile Megatron mimarisini kullanır, çeşitli NLP görevleri için.
LLaMA Meta AI 7M ile 65M İndirme Başvuru ile AI’yi demokratikleştirmeyi amaçlar, araştırma, hükümet ve akademisyenler için erişim sağlar.

LLM’lerin Kullanımı

LLM’ler çeşitli şekillerde kullanılabilir:

  1. Doğrudan Kullanım: Basitçe, önceden eğitilmiş bir LLM’i metin oluşturma veya işleme için kullanmak. Örneğin, GPT-4’ü bir blog yazısı yazmak için, ek fine-tuning olmadan.
  2. Fine-Tuning: Bir LLM’i, transfer öğrenme olarak bilinen bir yöntem ile, belirli bir görev için uyarlamak. Bir örnek, T5’i belirli bir endüstri belgesi için özetleme oluşturmak için uyarlamaktır.
  3. Bilgi Alımı: LLM’leri, BERT veya GPT gibi, daha büyük mimarilerin bir parçası olarak kullanarak, bilgi alımı ve kategorileme sistemleri geliştirmek.
Üretken AI ChatGPT Fine Tuning
ChatGPT Fine Tuning Mimarisi

Çoklu Başlıklı Dikkat: Neden Bir Taneyken Çoklu Olmak?

Ancak, tek bir dikkat mekanizmasına güvenmek sınırlayıcı olabilir. Bir metindeki farklı kelimeler veya diziler, çeşitli türde alakalılık veya ilişkiler içerebilir. İşte burada çoklu başlıklı dikkat devreye girer. Tek bir dikkat ağırlığı kümesi yerine, çoklu başlıklı dikkat, birden fazla küme kullanır ve bu sayede model, girdi metnindeki daha zengin ilişki çeşitliliğini yakalayabilir. Her bir dikkat “başlığı”, girdinin farklı kısımlarına veya yönlerine odaklanabilir ve birleşik bilgiler, nihai öngörüyü yapmak için kullanılır.

ChatGPT: En Popüler Üretken AI Aracı

GPT’nin 2018’deki başlangıcından itibaren, model esas olarak 12 katman, 12 dikkat başlığı ve 120 milyon parametre ile inşa edildi ve主要 olarak BookCorpus veri kümesiyle eğitildi. Bu, gelecekteki dil modellerine bir bakış sunan etkileyici bir başlangıçtı.

GPT-2, 2019’da ortaya çıktı ve katman ve dikkat başlıklarında dört kat artışa tanık oldu. Önemli olarak, parametre sayısı 1.5 milyara fırladı. Bu geliştirilmiş versiyon, WebText veri kümesinden eğitimini aldı.

GPT-3, Mayıs 2020’de 96 katman, 96 dikkat başlığı ve 175 milyar parametre ile piyasaya sürüldü. GPT-3’ü ayıran şey, çeşitli eğitim verilerini içermesiydi; CommonCrawl, WebText, İngilizce Wikipedia, kitap koleksiyonları ve diğer kaynaklar, toplam 570 GB’ı oluşturuyordu.

ChatGPT’nin işleyişinin ayrıntıları, yakın korunan bir sır olarak kalıyor. Ancak, “insan geri bildirimi ile pekiştirme öğrenimi” (RLHF) olarak bilinen bir süreç, bu teknoloji için kilit rol oynuyor. Daha önceki bir ChatGPT projesinden kaynaklanan bu teknik, GPT-3.5 modelini yazılı talimatlara daha uygun hale getirmek için kullanıldı.

ChatGPT’nin eğitimi, üç aşamalı bir yaklaşımı içerir:

  1. Gözetimli fine-tuning: İnsan tarafından yazılmış sohbet girdileri ve çıktılarını, temel GPT-3.5 modelini iyileştirmek için kullanma.
  2. Ödül modelleme: İnsanların, model çıktılarının kalitesine göre puanlamasını yaparak, bir ödül modeli eğitme; bu model, sohbet bağlamına göre her çıktıyı puanlar.
  3. Pekiştirme öğrenimi: Sohbet bağlamı, temel modelin bir yanıt önermesini sağlar ve bu yanıt, ödül modeli tarafından değerlendirilir; ardından proximal policy optimization (PPO) algoritması ile optimize edilir.

ChatGPT’ye yeni başlayanlar için, burada kapsamlı bir başlangıç rehberi bulunabilir. ChatGPT ile.prompt mühendisliği hakkında daha derinlemesine bilgi edinmek isteyenler için, en son ve state-of-the-art prompt tekniklerine ışık tutan gelişmiş bir rehber, ‘ChatGPT & Gelişmiş Prompt Mühendisliği: AI Devrimini Sürdürmek‘ adresinde mevcuttur.

Dağılma ve Çoklu Modal Modeller

VAE’ler ve GAN’ler gibi modellerin çıktıları, tek bir geçişte oluşturulur ve bu nedenle ürettikleri şeye kilitlenmiştir. Dağılma modelleri ise, “iterative refinement” kavramını tanıttılar. Bu yöntemle, hataları önceki adımlardan düzelterek ve yavaş yavaş daha iyi bir sonuç üretirler.

Dağılma modellerinin merkezinde, “kirlenme” ve “iyileştirme” sanatı yatıyor. Eğitim aşamasında, tipik bir resim, çeşitli seviyelerde gürültü eklenerek kirlenir. Bu gürültülü versiyon, modele verilir ve model, bunu “gürültüsüz” hale getirmeye çalışır. Bu işlemin tekrarlanmasıyla, model, restorasyon konusunda uzmanlaşır ve hem küçük hem de büyük sapmaları anlamayı öğrenir.

Midjourney İle Oluşturulan Resim
Midjourney İle Oluşturulan Resim

Eğitim sonrası yeni resimler oluşturma süreci ilginçtir. Tamamen rastgele bir girdi ile başlayarak, modelin öngörülerini kullanarak sürekli olarak iyileştirilir. Amaç, minimum adımla mükemmel bir resim elde etmektir. Gürültü seviyesini kontrol etmek, “gürültü zamanlaması” olarak bilinen bir mekanizma ile yapılır; bu, çeşitli algoritmalar temelinde gürültülü versiyonların doğasını belirler.

Dağılma modellerinin temel mimari taşlarından biri, UNet‘tir; bu, girdilerin spatial boyutuna benzer çıktılar üreten işlemler için tasarlanmış bir konvolüsyonel sinir ağıdır. UNet, aşağı örnekleyici ve yukarı örnekleyici katmanların bir bileşimidir ve yüksek çözünürlüklü verilerin korunması için kritiktir; bu, görüntü ile ilgili çıktılar için önemlidir.

Üretken modellerin daha derinlerine inerken, OpenAI’nin DALL-E 2 modeli, metinsel ve görsel AI yeteneklerinin birleşimini gösteren bir örnek olarak ortaya çıkıyor. Üç katmanlı bir mimariye sahiptir:

DALL-E 2, üçlü bir mimari sunar:

  1. Metin Kodlayıcısı: Metin girdisini, gizil bir uzayda kavramsal bir gömme olarak dönüştürür. Bu model, sıfırdan başlamaz. OpenAI’nin Kontrastif Dil-Görüntü Ön Eğitimi (CLIP) veri kümesini temel alır. CLIP, görsel kavramları doğal dil kullanarak öğrenen ve görüntüleri metin açıklamalarıyla eşleştiren bir mekanizmadır.
  2. Önceki: Metin gömme, metin kodlayıcısından elde edilir ve resim gömme olarak dönüştürülür. DALL-E 2, bu görev için otoregresif ve difüzyon yöntemlerini test etti ve difüzyon yönteminin daha iyi sonuçlar verdiği görüldü.
  3. Çözücü: Son aşama, metin girdisi ve resim gömme temelinde nihai görsel çıktıyı üretir. DALL-E 2’nin çözücü kısmı, GLIDE modelinin mimarisine dayanır; GLIDE de metinsel ipuçlarından gerçekçi resimler oluşturabilir.
DALL-E Modelinin Basitleştirilmiş Mimarisi (difüzyon multi model)
DALL-E Modelinin Basitleştirilmiş Mimarisi

Python kullanıcıları, Langchain ile ilgileniyorsa, temel kavramlardan gelişmiş tekniklere kadar her şeyi kapsayan ayrıntılı bir öğretici bulabilir.

Üretken AI Uygulamaları

Metinsel Alanlar

Metinle başlayarak, Üretken AI, ChatGPT gibi sohbet botları ile temel olarak değişti. Doğal Dil İşleme (NLP) ve büyük dil modellerine (LLM) dayanarak, bu varlıklar, kod oluşturma, dil çevirisi, özetleme ve duygu analizi gibi görevleri gerçekleştirebiliyor. ChatGPT, geniş bir kabul gördü ve milyonlarca kişi tarafından kullanılmaya başlandı. Bu, LLM’ler gibi GPT-4, PaLM ve BLOOM temelindeki sohbet AI platformları ile daha da güçlendirildi; bu platformlar, metin üretimi, programlama yardımı ve hatta matematiksel akıl yürütme gibi görevleri gerçekleştirebiliyor.

Ticari açıdan, bu modeller giderek daha değerli hale geliyor. İşletmeler, risk yönetimi, envanter optimizasyonu ve talep tahmini gibi çeşitli operasyonlar için bunları kullanıyor. Bazı dikkat çekici örnekler, Bing AI, Google’ın BARD’ı ve ChatGPT API’dir.

Sanat

Görüntüler dünyası, özellikle DALL-E 2’nin 2022’deki tanıtımı ile birlikte, Üretken AI ile dramatik dönüşümler gördü. Bu teknoloji, metinsel ipuçlarından resimler oluşturabiliyor ve hem sanatsal hem de profesyonel etkileri var. Örneğin, midjourney bu teknolojiyi kullanarak gerçekçi resimler üretti. Bu recent post midjourney hakkında ayrıntılı bir rehber sunuyor ve hem platformu hem de.prompt mühendisliği ayrıntılarını açıklıyor. Ayrıca, Alpaca AI ve Photoroom AI gibi platformlar, Üretken AI’yi gelişmiş resim düzenleme özellikleri için kullanıyor; arka plan silme, nesne silme ve hatta yüz geri kazanımı gibi.

Video Üretimi

Video üretimi, Üretken AI’nin masih gelişmekte olan bir alanıdır, ancak vaat edilen gelişmeler gösteriliyor. Imagen Video, Meta Make A Video ve Runway Gen-2 gibi platformlar, gerçekçi video oluşturma sınırlarını zorluyor,尽管 gerçekçi çıktılar masih uzakta. Bu modeller, dijital insan videoları oluşturma için önemli fayda sağlıyor ve Synthesia ve SuperCreator gibi uygulamalar liderlik ediyor. Özellikle, Tavus AI, videoları bireysel izleyici üyeleri için kişiselleştirme özelliği sunuyor; bu, işletmeler için bir avantaj.

Kod Oluşturma

Kodlama, dijital dünyamızın ayrılmaz bir parçası ve Üretken AI’nin etkisinden muaf değil. ChatGPT favori bir araç olsa da, kodlama amaçları için çeşitli AI uygulamaları geliştirildi. Bu platformlar, GitHub Copilot, Alphacode ve CodeComplete gibi, kod asistanları olarak hizmet ediyor ve metinsel ipuçlarından kod oluşturabiliyor. İlginctir ki, bu araçlar uyarlanabilir. Codex, GitHub Copilot’un arkasındaki güç, bireysel kodlama stilinize uyarlanabilir, böylece Üretken AI’nin kişiselleştirme potansiyelini vurguluyor.

Sonuç

İnsan yaratıcılığını makine hesabıyla birleştiren Üretken AI, değerlenebilir bir araç haline geldi ve ChatGPT, DALL-E 2 gibi platformlar, hayal edilebileceklerin sınırlarını zorluyor. Metinsel içerik oluşturmaktan görsel şaheserler yaratmaya kadar, uygulamaları geniş ve çeşitlidir.

Her teknoloji gibi, etik etkileri önemlidir. Üretken AI sınırsız yaratıcılık vaat etse de, sorumlu bir şekilde kullanmak ve veri manipülasyonunun gücünden haberdar olmak önemlidir.

ChatGPT gibi araçlar daha erişilebilir hale geldikçe, şimdi bunları denemek ve denelemek için mükemmel bir zaman. Sanatçı, kodlayıcı veya teknoloji meraklısı olmanız fark etmez, Üretken AI dünyası keşfedilmeyi bekleyen olanaklarla dolu. Devrim ufukta değil, şimdi ve burada. O halde, dalmaya hazır mısınız?

Son beş yıldır Makine Öğrenimi ve Derin Öğrenme dünyasına kendimi daldırmış bulunuyorum. Tutkum ve uzmanlığım, özellikle AI/ML odaklı 50'den fazla çeşitli yazılım mühendisliği projesine katkıda bulunmama yol açtı. Süregelen meraklılığım ayrıca beni Doğal Dil İşleme'ye doğru çekti, bu alanda daha fazla keşfetmeye hevesliyim.