saplama Üretken Yapay Zeka: CHATGPT, Dall-E, Midjourney ve Daha Fazlasının Arkasındaki Fikir - Unite.AI
Bizimle iletişime geçin

Yapay Zeka

Üretken Yapay Zeka: CHATGPT, Dall-E, Midjourney ve Daha Fazlasının Arkasındaki Fikir

mm
Güncellenmiş on
Üretken Yapay Zeka - Yolculuk Ortası İstemi

Sanat dünyası, iletişim ve gerçekliği nasıl algıladığımız hızla dönüşüyor. İnsan buluşlarının tarihine dönüp bakarsak, tekerleğin icadını veya elektriğin keşfini anıtsal sıçramalar olarak görebiliriz. Bugün, insan yaratıcılığı ile makine hesaplaması arasındaki uçurumu kapatan yeni bir devrim yaşanıyor. Bu Üretken Yapay Zekadır.

Üretken modeller, insanlar ve makineler arasındaki çizgiyi bulanıklaştırdı. Transformatör modülleri kullanan GPT-4 gibi modellerin ortaya çıkmasıyla birlikte, doğal ve bağlam açısından zengin dil üretimine bir adım daha yaklaştık. Bu ilerlemeler, belge oluşturma, sohbet robotu diyalog sistemleri ve hatta sentetik müzik kompozisyonundaki uygulamaları ateşledi.

Son Big-Tech kararları, öneminin altını çiziyor. Microsoft zaten Cortana uygulamasını sonlandırıyor Bing Chat gibi daha yeni Üretken AI yeniliklerine öncelik vermek için bu ay. Apple da bütçesinin önemli bir bölümünü ayırdı. 22.6 milyar dolarlık Ar-Ge bütçesi CEO Tim Cook'un belirttiği gibi üretken yapay zekaya.

Modellerde Yeni Bir Çağ: Generative Vs. ayrımcı

Üretken Yapay Zekanın hikayesi yalnızca uygulamalarıyla ilgili değil, temelde iç işleyişiyle ilgilidir. Yapay zeka ekosisteminde ayrımcı ve üretici olmak üzere iki model vardır.

Ayrımcı modeller, çoğu insanın günlük yaşamda karşılaştığı şeydir. Bu algoritmalar, metin veya görüntü gibi girdi verilerini alır ve bunu kelime çevirisi veya tıbbi teşhis gibi bir hedef çıktıyla eşleştirir. Haritalama ve tahminle ilgilidirler.

Üretken modeller ise yaratıcılardır. Sadece yorumlamaz veya tahmin etmezler; genellikle gerçek dünya değerleriyle bile ilgili olmayan sayı vektörlerinden yeni, karmaşık çıktılar üretirler.

 

Üretken AI Türleri: Metinden Metne, Metinden Görüntüye (GPT, DALL-E, Midjourney)

Üretken Modellerin Arkasındaki Teknolojiler

Üretken modeller varlıklarını, insan beyninin işlevselliğini taklit etmek için tasarlanmış karmaşık yapılar olan derin sinir ağlarına borçludur. Verilerdeki çok yönlü varyasyonları yakalayıp işleyerek, bu ağlar çok sayıda üretken modelin omurgasını oluşturur.

Bu üretken modeller nasıl hayata geçiyor? Genellikle, verilerdeki çok yönlü varyasyonları yakalamak için optimize edilmiş derin sinir ağları ile oluşturulurlar. Bunun başlıca örneği, Jeneratör Düşman Ağı (GAN), iki nöral ağın, üreticinin ve ayrımcının, benzersiz bir öğretmen-öğrenci ilişkisi içinde rekabet ettiği ve birbirinden öğrendiği. Resimden stil aktarımına, müzik bestelemeden oyun oynamaya kadar bu modeller daha önce hayal bile edilemeyecek şekillerde gelişiyor ve genişliyor.

Bu GAN'larla bitmiyor. Varyasyonel Otomatik Kodlayıcılar (VAE'ler), üretken model alanında başka bir önemli oyuncudur. VAE'ler, görünüşte rastgele sayılardan fotogerçekçi görüntüler oluşturma yetenekleriyle öne çıkıyor. Nasıl? Bu sayıları gizli bir vektör aracılığıyla işlemek, insan estetiğinin karmaşıklığını yansıtan sanatı doğurur.

Üretken Yapay Zeka Türleri: Metinden Metne, Metinden Görüntüye

Transformers ve Yüksek Lisans

Kağıt "Dikkat İhtiyacınız Olan Her Şey" Google Brain tarafından yazılan metin modelleme hakkındaki düşüncelerimizde bir değişime işaret etti. Transformer modeli, Tekrarlayan Sinir Ağları (RNN'ler) veya Evrişimli Sinir Ağları (CNN'ler) gibi karmaşık ve sıralı mimariler yerine, esasen bağlama bağlı olarak girdi metninin farklı bölümlerine odaklanmak anlamına gelen dikkat kavramını tanıttı. Bunun temel faydalarından biri paralelleştirme kolaylığıydı. Metni sıralı olarak işleyerek ölçeklendirmeyi zorlaştıran RNN'lerin aksine Transformers, metnin bazı kısımlarını aynı anda işleyerek büyük veri kümelerinde eğitimi daha hızlı ve daha verimli hale getirebilir.

Uzun bir metinde okuduğunuz her kelime veya cümle aynı öneme sahip değildir. Bazı bölümler bağlama göre daha fazla dikkat gerektirir. İlgiye dayalı olarak odağımızı değiştirme yeteneği, dikkat mekanizmasının taklit ettiği şeydir.

Bunu anlamak için bir cümle düşünün: "Yapay Zekayı Birleştirin Yapay Zeka ve Robotik haberlerini yayınlayın." Şimdi, bir sonraki kelimeyi tahmin etmek, bir önceki bağlamda neyin en önemli olduğunun anlaşılmasını gerektirir. 'Robotik' terimi, bir sonraki kelimenin robotik alanındaki belirli bir ilerleme veya olayla ilgili olabileceğini öne sürerken, 'Yayınla' aşağıdaki bağlamın yakın tarihli bir yayın veya makaleye ait olabileceğini belirtebilir.

Bir demo cümlesi üzerine Öz-Dikkat Mekanizması açıklaması
Öz-Dikkat Çizimi

Transformers'daki dikkat mekanizmaları, bu seçici odağı elde etmek için tasarlanmıştır. Girilen metnin farklı bölümlerinin önemini ölçerler ve bir yanıt oluştururken nereye “bakacaklarına” karar verirler. Bu, tüm girdi metninin özünü tek bir "durum" veya "belleğe" sıkıştırmaya çalışan RNN'ler gibi eski mimarilerden bir sapmadır.

Dikkatin işleyişi, bir anahtar-değer geri alma sistemine benzetilebilir. Bir cümledeki bir sonraki kelimeyi tahmin etmeye çalışırken, önceki her kelime potansiyel alaka düzeyini gösteren bir 'anahtar' sunar ve bu anahtarların mevcut bağlamla (veya sorguyla) ne kadar iyi eşleştiğine bağlı olarak, cümleye bir 'değer' veya ağırlık katarlar. tahmin.

Bu gelişmiş yapay zeka derin öğrenme modelleri, Google'ın BERT ile yaptığı arama motoru geliştirmelerinden, basit kod parçacıklarını tamamen işlevsel kaynak kodlarına dönüştürmek için Büyük Dil Modellerinin (LLM'ler) yeteneğinden yararlanan GitHub'ın Yardımcı Pilotuna kadar çeşitli uygulamalara sorunsuz bir şekilde entegre edilmiştir.

GPT-4, Bard ve LLaMA gibi Büyük Dil Modelleri (LLM'ler), insan dilini, kodunu ve daha fazlasını deşifre etmek ve oluşturmak için tasarlanmış devasa yapılardır. Milyarlarca ila trilyonlarca parametre arasında değişen muazzam boyutları, tanımlayıcı özelliklerden biridir. Bu LLM'ler, insan dilinin inceliklerini kavramalarını sağlayan bol miktarda metin verisiyle beslenir. Bu modellerin çarpıcı bir özelliği, “az vuruş” öğrenme. Çok miktarda özel eğitim verisine ihtiyaç duyan geleneksel modellerin aksine, LLM'ler çok sınırlı sayıda örnekten (veya “çekimlerden”) genelleme yapabilir.

2023 ortası sonrası Büyük Dil Modellerinin Durumu (LLM'ler)

Model adıGeliştiriciparametrelerKullanılabilirlik ve ErişimÖnemli Özellikler ve Açıklamalar
GPT 4OpenAI1.5 TrilyonAçık Kaynak Değil, Yalnızca API ErişimiÇeşitli görevlerde etkileyici performans, görüntüleri ve metni işleyebilir, maksimum giriş uzunluğu 32,768 belirteç
GPT 3OpenAI175 milyarAçık Kaynak Değil, Yalnızca API ErişimiBirkaç atış ve sıfır atış öğrenme yetenekleri gösterildi. Doğal dilde metin tamamlama gerçekleştirir.
ÇİÇEK AÇMAKBüyük Bilim176 milyarİndirilebilir Model, Barındırılan API MevcutKüresel işbirliği ile geliştirilen çok dilli LLM. 13 programlama dilini destekler.
MDAGoogle173 milyarAçık Kaynak Değil, API Yok veya İndirme YokDiyalog üzerine eğitilmiş, neredeyse her şey hakkında konuşmayı öğrenebilir
MT-NLGNvidia/Microsoft530 milyarUygulamaya göre API ErişimiÇeşitli NLP görevleri için trafo tabanlı Megatron mimarisini kullanır.
aramalarmeta yapay zeka7B ila 65B)Uygulama ile indirilebilirAraştırma, hükümet ve akademidekilere erişim sunarak yapay zekayı demokratikleştirmeyi amaçlıyor.

LLM'ler Nasıl Kullanılır?

LLM'ler, aşağıdakiler dahil olmak üzere birçok şekilde kullanılabilir:

  1. Doğrudan Kullanım: Metin oluşturma veya işleme için önceden eğitilmiş bir LLM kullanmak. Örneğin, herhangi bir ek ince ayar yapmadan bir blog gönderisi yazmak için GPT-4'ü kullanmak.
  2. İnce Ayar: Önceden eğitilmiş bir LLM'nin belirli bir göreve uyarlanması, transfer öğrenimi olarak bilinen bir yöntemdir. Bir örnek, T5'in belirli bir sektördeki belgeler için özetler oluşturacak şekilde özelleştirilmesi olabilir.
  3. Bilgi Erişimi: Bilgi getirip kategorize edebilen sistemler geliştirmek için daha büyük mimarilerin bir parçası olarak BERT veya GPT gibi LLM'leri kullanma.
Üretken AI ChatGPT İnce Ayarı
ChatGPT İnce Ayar Mimarisi

Çok Başlı Dikkat: Birden Çok Başınız Olabilecekken Neden Bir?

Ancak, tek bir dikkat mekanizmasına güvenmek sınırlayıcı olabilir. Bir metindeki farklı kelimeler veya diziler, çeşitli türlerde alaka veya çağrışımlara sahip olabilir. Burada çok başlı dikkat devreye giriyor. Tek bir dikkat ağırlıkları seti yerine, çok başlı dikkat birden fazla takım kullanıyor ve bu da modelin giriş metninde daha zengin bir çeşitlilikteki ilişkileri yakalamasını sağlıyor. Her dikkat "başı", girdinin farklı bölümlerine veya yönlerine odaklanabilir ve bunların birleştirilmiş bilgisi nihai tahmin için kullanılır.

ChatGPT: En Popüler Üretken Yapay Zeka Aracı

GPT'nin 2018'deki başlangıcından itibaren model, temel olarak BookCorpus adlı bir veri kümesi üzerinde eğitilen 12 katman, 12 dikkat başlığı ve 120 milyon parametre temeli üzerine inşa edildi. Bu, dil modellerinin geleceğine bir bakış sunan etkileyici bir başlangıçtı.

2'da tanıtılan GPT-2019, katmanlarda ve dikkat kafalarında dört kat artışla övünüyordu. Önemli bir şekilde, parametre sayısı 1.5 milyara fırladı. Bu gelişmiş sürüm, eğitimini çeşitli Reddit bağlantılarından 40 GB metinle zenginleştirilmiş bir veri kümesi olan WebText'ten almıştır.

Mayıs 3'de piyasaya sürülen GPT-2020, 96 katmana, 96 dikkat başlığına ve 175 milyar gibi devasa bir parametre sayısına sahipti. GPT-3'ü diğerlerinden ayıran şey, CommonCrawl, WebText, İngilizce Wikipedia, kitap derlemi ve diğer kaynakları kapsayan toplam 570 GB'lık çeşitli eğitim verileriydi.

ChatGPT'nin işleyişindeki incelikler, sıkı bir şekilde korunan bir sır olmaya devam ediyor. Bununla birlikte, 'insan geri bildiriminden pekiştirmeli öğrenme' (RLHF) olarak adlandırılan bir sürecin çok önemli olduğu bilinmektedir. Daha eski bir ChatGPT projesinden yola çıkan bu teknik, GPT-3.5 modelinin yazılı talimatlarla daha uyumlu hale getirilmesinde etkili oldu.

ChatGPT'nin eğitimi üç aşamalı bir yaklaşımdan oluşur:

  1. Denetimli ince ayar: Temel GPT-3.5 modelini iyileştirmek için insan tarafından yazılan konuşma girdilerini ve çıktılarını iyileştirmeyi içerir.
  2. Ödül modelleme: İnsanlar çeşitli model çıktılarını kaliteye göre derecelendirerek, konuşmanın bağlamını göz önünde bulundurarak her çıktıyı puanlayan bir ödül modelinin geliştirilmesine yardımcı olur.
  3. Takviyeli öğrenme: Konuşma bağlamı, temel alınan modelin bir yanıt önerdiği bir zemin görevi görür. Bu yanıt, ödül modeli tarafından değerlendirilir ve süreç, proksimal politika optimizasyonu (PPO) adlı bir algoritma kullanılarak optimize edilir.

ChatGPT'ye yeni başlayanlar için kapsamlı bir başlangıç ​​kılavuzu bulunabilir. okuyun. ChatGPT ile hızlı mühendislik konusunda daha derine inmek istiyorsanız, ' adresinde bulabileceğiniz en son ve Son Teknoloji bilgi istemi tekniklerine ışık tutan gelişmiş bir kılavuzumuz da var.ChatGPT ve Gelişmiş Bilgi İstemi Mühendisliği: Yapay Zeka Evrimini Desteklemek'.

Difüzyon & Multimodal Modeller

VAE'ler ve GAN'lar gibi modeller çıktılarını tek bir geçişle üretirken, dolayısıyla ürettikleri her şeye kilitlenirken, difüzyon modelleri "yinelemeli iyileştirme'. Bu yöntemle, önceki adımlardaki hataları düzelterek ve kademeli olarak daha gösterişli bir sonuç üreterek geri dönerler.

Difüzyon modellerinin merkezinde "rüşvet” ve “iyileştirme”. Eğitim aşamasında, tipik bir görüntü, değişen düzeylerde gürültü eklenerek aşamalı olarak bozulur. Bu gürültülü versiyon daha sonra modele beslenir ve model onu "gürültüyü gidermeye" veya "bozukluğunu gidermeye" çalışır. Bunun birden fazla turu sayesinde model, hem ince hem de önemli sapmaları anlayarak restorasyonda ustalaşır.

Üretken Yapay Zeka - Yolculuk Ortası İstemi
Midjourney'den Oluşturulan Görüntü

Eğitim sonrası yeni görüntüler oluşturma süreci ilgi çekicidir. Tamamen rastgele bir girdiyle başlayarak, modelin tahminleri kullanılarak sürekli olarak iyileştirilir. Amaç, minimum adım sayısı ile bozulmamış bir görüntü elde etmektir. Yolsuzluk seviyesinin kontrolü, farklı aşamalarda ne kadar gürültü uygulanacağını yöneten bir mekanizma olan "gürültü programı" aracılığıyla yapılır. " gibi kitaplıklarda görüldüğü gibi bir zamanlayıcıdifüzörler", yerleşik algoritmalara dayalı olarak bu gürültülü yorumlamaların doğasını belirler.

Birçok difüzyon modeli için önemli bir mimari omurga, UNet—girdilerin uzamsal boyutunu yansıtan çıktılar gerektiren görevler için uyarlanmış evrişimli bir sinir ağı. Görüntüyle ilgili çıktılar için çok önemli olan, yüksek çözünürlüklü verileri korumak için karmaşık bir şekilde bağlanan alt örnekleme ve üst örnekleme katmanlarının bir karışımıdır.

Üretken modeller dünyasının derinliklerine inen OpenAI'ler, DALL-E2 metinsel ve görsel AI yeteneklerinin birleşiminin parlak bir örneği olarak ortaya çıkıyor. Üç katmanlı bir yapı kullanır:

DALL-E 2, üç katlı bir mimari sergiliyor:

  1. Metin Kodlayıcı: Metin istemini gizli bir alana kavramsal bir gömme haline dönüştürür. Bu model sıfırdan başlamaz. OpenAI'nin Karşıt Dil-Görüntü Ön Eğitimine (CLIP) temeli olarak veri kümesi. CLIP, doğal dili kullanarak görsel kavramları öğrenerek görsel ve metinsel veriler arasında bir köprü görevi görür. Karşılaştırmalı öğrenme olarak bilinen bir mekanizma aracılığıyla, görüntüleri tanımlar ve bunlara karşılık gelen metinsel açıklamalarla eşleştirir.
  2. Önceki: Kodlayıcıdan türetilen metin gömme daha sonra bir görüntü gömmeye dönüştürülür. DALL-E 2, bu görev için hem otoregresif hem de difüzyon yöntemlerini test etti ve ikincisi üstün sonuçlar sergiledi. Transformers ve PixelCNN'de görüldüğü gibi otoregresif modeller, diziler halinde çıktılar üretir. Öte yandan, DALL-E 2'de kullanılana benzer difüzyon modelleri, metin yerleştirmelerin yardımıyla rastgele gürültüyü tahmin edilen görüntü yerleştirmelerine dönüştürür.
  3. Kod Çözücü: Sürecin doruk noktası olan bu bölüm, metin istemine ve önceki aşamadaki görüntü yerleştirmeye dayalı olarak nihai görsel çıktıyı oluşturur. DALL.E 2'nin kod çözücüsü, mimarisini başka bir modele borçludur. SÜRÜŞmetinsel ipuçlarından gerçekçi görüntüler de üretebilir.
DALL-E modelinin mimarisi (difüzyon çoklu modeli)
DALL-E Modelinin Basitleştirilmiş Mimarisi

İlgilenen Python kullanıcıları Uzun zincir temellerden ileri tekniklere kadar her şeyi kapsayan ayrıntılı eğitimimize göz atmalısınız.

Üretken Yapay Zeka Uygulamaları

Metin Alanları

Metinle başlayan Üretken Yapay Zeka, aşağıdakiler gibi sohbet robotları tarafından temelden değiştirildi: ChatGPT. Büyük ölçüde Doğal Dil İşleme (NLP) ve büyük dil modellerine (LLM'ler) dayanan bu varlıklar, kod oluşturma ve dil çevirisinden özetleme ve duygu analizine kadar çeşitli görevleri gerçekleştirme yetkisine sahiptir. Örneğin ChatGPT, geniş çapta benimsenerek milyonlarca kişinin vazgeçilmezi haline geldi. Bu, GPT-4 gibi Yüksek Lisans'lara dayanan konuşma yapay zeka platformları ile daha da güçlendirilir. Avuç içi, ve ÇİÇEK AÇMAKzahmetsizce metin üreten, programlamaya yardımcı olan ve hatta matematiksel muhakeme sunan.

Ticari açıdan bakıldığında, bu modeller paha biçilmez hale geliyor. İşletmeler bunları risk yönetimi, envanter optimizasyonu ve tahmin talepleri dahil olmak üzere sayısız operasyon için kullanır. Bazı dikkate değer örnekler arasında Bing AI, Google'ın BARD ve ChatGPT API'si bulunur.

Sanat

Görüntüler dünyası, özellikle 2'de DALL-E 2022'nin kullanıma sunulmasından bu yana, Üretken Yapay Zeka ile dramatik dönüşümler gördü. Metin komutlarından görüntüler üretebilen bu teknolojinin hem sanatsal hem de profesyonel etkileri var. Örneğin midjourney, etkileyici derecede gerçekçi görüntüler üretmek için bu teknolojiden yararlandı. Bu son gönderi Midjourney'in gizemini çözer hem platformu hem de hızlı mühendislik inceliklerini açıklayan ayrıntılı bir kılavuzda. Ayrıca Alpaca AI ve Photoroom AI gibi platformlar, arka plan kaldırma, nesne silme ve hatta yüz restorasyonu gibi gelişmiş görüntü düzenleme işlevleri için Generative AI kullanır.

Video Prodüksiyon

Video prodüksiyonu, Üretken Yapay Zeka alanında henüz başlangıç ​​aşamasındayken, umut verici ilerlemeler sergiliyor. Imagen Video, Meta Make A Video ve Runway Gen-2 gibi platformlar, gerçekten gerçekçi çıktılar ufukta görünse bile, mümkün olanın sınırlarını zorluyor. Bu modeller, Synthesia ve SuperCreator gibi uygulamaların liderliğini üstlendiği dijital insan videoları oluşturmak için önemli bir fayda sağlar. Özellikle, Tavus AI, videoları bireysel izleyiciler için kişiselleştirerek benzersiz bir satış teklifi sunuyor, bu da işletmeler için bir nimet.

Kod Oluşturma

Dijital dünyamızın vazgeçilmez bir yönü olan kodlama, Generative AI tarafından dokunulmaz kalmadı. ChatGPT tercih edilen bir araç olmasına rağmen, kodlama amaçları için birkaç başka AI uygulaması geliştirilmiştir. GitHub Copilot, Alphacode ve CodeComplete gibi bu platformlar, kodlama yardımcıları olarak işlev görür ve hatta metin istemlerinden kod üretebilir. İlginç olan, bu araçların uyarlanabilirliğidir. GitHub Copilot'un arkasındaki itici güç olan Codex, bir bireyin kodlama stiline göre uyarlanabilir ve Üretken Yapay Zekanın kişiselleştirme potansiyelinin altını çizer.

Sonuç

İnsan yaratıcılığını makine hesaplamasıyla harmanlayarak, ChatGPT ve DALL-E 2 gibi platformların akla gelebilecek olanın sınırlarını zorlamasıyla paha biçilmez bir araca dönüştü. Metin içeriği oluşturmaktan görsel şaheserler oluşturmaya kadar, uygulamaları çok geniş ve çeşitlidir.

Herhangi bir teknolojide olduğu gibi, etik çıkarımlar çok önemlidir. Üretici Yapay Zeka sınırsız yaratıcılık vaat ederken, potansiyel önyargıların ve veri manipülasyonunun gücünün farkında olarak onu sorumlu bir şekilde kullanmak çok önemlidir.

ChatGPT gibi araçların daha erişilebilir hale gelmesiyle, şimdi suları test etmek ve deney yapmak için mükemmel bir zaman. İster sanatçı, ister kodlayıcı veya teknoloji meraklısı olun, Üretken Yapay Zeka alanı keşfedilmeyi bekleyen olasılıklarla doludur. Devrim ufukta görünmüyor; burada ve şimdi. Dalın!

Son beş yılımı, Makine Öğrenimi ve Derin Öğrenmenin büyüleyici dünyasına dalarak geçirdim. Tutkum ve uzmanlığım, özellikle AI/ML'ye odaklanarak 50'den fazla farklı yazılım mühendisliği projesine katkıda bulunmamı sağladı. Devam eden merakım, beni daha fazla keşfetmeye hevesli olduğum bir alan olan Doğal Dil İşleme'ye de çekti.