Yapay Zeka

AI'da Difüzyon Modelleri - Bilmeniz Gereken Her Şey

Yayınlanan

1 yıl önce

31 Mart, 2023

AI görüntü oluşturucu kullanılarak oluşturulan insan yüzlerinden oluşan bir kolaj

Yapay zeka ekosisteminde, yayılma modelleri teknolojik ilerlemenin yönünü ve hızını belirliyor. Komplekse yaklaşma şeklimizde devrim yaratıyorlar üretken yapay zeka görevler. Bu modeller gauss ilkeleri, varyans, diferansiyel denklemler ve üretken dizilerin matematiğine dayanmaktadır. (Teknik jargonu aşağıda açıklayacağız)

Nvidia, Google, Adobe ve OpenAI tarafından geliştirilen modern yapay zeka merkezli ürünler ve çözümler, yayılma modellerini ilgi odağı haline getirdi. DALL.E 2, Kararlı Difüzyon, ve yolculuk son zamanlarda internette dolaşan difüzyon modellerinin öne çıkan örnekleridir. Kullanıcılar girdi olarak basit bir metin istemi sağlar ve bu modeller bunları aşağıda gösterilen gibi gerçekçi görüntülere dönüştürebilir.

Giriş istemi kullanılarak Midjourney v5 ile oluşturulan bir görüntü: canlı California haşhaşları. Kaynak: yolculuk

Difüzyon modellerinin temel çalışma ilkelerini ve bugün gördüğümüz şekliyle dünyanın yön ve normlarını nasıl değiştirdiklerini keşfedelim.

Difüzyon Modelleri Nedir?

Araştırma yayınına göre “Denoising Difüzyon Olasılık Modelleri,” difüzyon modelleri şu şekilde tanımlanır:

"Bir difüzyon modeli veya olasılıksal difüzyon modeli, sonlu bir süre sonra verilerle eşleşen örnekler üretmek için değişken çıkarım kullanılarak eğitilmiş parametreli bir Markov zinciridir"

Basitçe söylemek gerekirse, difüzyon modelleri, eğitildiklerine benzer veriler üretebilir. Model, kedi resimleri üzerinde çalışırsa, kedilerin benzer gerçekçi resimlerini oluşturabilir.

Şimdi yukarıda bahsedilen teknik tanımı parçalara ayırmaya çalışalım. Yayılma modelleri, borsa getirisini veya salgının yayılmasını tahmin etmek gibi bir sistemin zamanla değişen davranışını analiz edebilen ve tahmin edebilen olasılıksal bir modelin çalışma prensibinden ve matematiksel temelinden ilham alır.

Tanım, değişken çıkarımla eğitilmiş parametreli Markov zincirleri olduklarını belirtir. Markov zincirleri, zaman içinde farklı durumlar arasında geçiş yapan bir sistemi tanımlayan matematiksel modellerdir. Sistemin mevcut durumu, yalnızca belirli bir duruma geçiş olasılığını belirleyebilir. Başka bir deyişle, bir sistemin mevcut durumu, sistemin herhangi bir zamanda takip edebileceği veya elde edebileceği olası durumları içerir.

Değişken çıkarım kullanarak modeli eğitmek, olasılık dağılımları için karmaşık hesaplamalar içerir. Belirli bir süre sonra gözlemlenen (bilinen veya gerçek) verilerle eşleşen Markov zincirinin kesin parametrelerini bulmayı amaçlar. Bu süreç, tahmin edilen (bilinmeyen) ve gözlenen (bilinen) durum arasındaki fark olan modelin kayıp fonksiyonunun değerini en aza indirir.

Eğitildikten sonra model, gözlemlenen verilerle eşleşen örnekler üretebilir. Bu örnekler olası yörüngeleri temsil eder veya sistemin zaman içinde takip edebileceğini veya edinebileceğini belirtir ve her yörüngenin farklı bir gerçekleşme olasılığı vardır. Bu nedenle model, bir dizi örnek oluşturarak ve bunların ilgili olasılıklarını (bu olayların olma olasılığı) bularak sistemin gelecekteki davranışını tahmin edebilir.

Yapay Zekada Difüzyon Modelleri Nasıl Yorumlanır?

Difüzyon modelleri, mevcut eğitim verilerine gürültü (Gauss gürültüsü) ekleyerek (ileri difüzyon süreci olarak da bilinir) ve ardından verileri kurtarmak için süreci tersine çevirerek (gürültü giderme veya ters difüzyon süreci olarak bilinir) çalışan derin üretken modellerdir. Model yavaş yavaş gürültüyü gidermeyi öğrenir. Bu öğrenilmiş gürültü giderme işlemi, aşağıdaki resimde gösterildiği gibi rastgele tohumlardan (rastgele parazitli görüntüler) yeni, yüksek kaliteli görüntüler üretir.

Ters difüzyon işlemi: Eğitimli bir difüzyon modeli aracılığıyla orijinal görüntüyü kurtarmak (veya onun varyasyonlarını oluşturmak) için gürültülü bir görüntünün gürültüsü giderilir. Kaynak: Denoising Difüzyon Olasılık Modelleri

3 Difüzyon Modeli Kategorileri

Var üç temel matematiksel çerçeve bu, difüzyon modellerinin arkasındaki bilimin temelini oluşturur. Üçü de, yeni örnekler oluşturmak için gürültü ekleme ve ardından onu çıkarma ilkeleri üzerinde çalışır. Bunları aşağıda tartışalım.

Difüzyon modeli, görüntüye parazit ekler ve kaldırır. Kaynak: Vizyonda Yayılma Modelleri: Bir Araştırma

1. Gürültü Giderici Difüzyon Olasılık Modelleri (DDPM'ler)

Yukarıda açıklandığı gibi, DDPM'ler esas olarak görsel veya işitsel verilerden paraziti gidermek için kullanılan üretken modellerdir. Çeşitli görüntü ve ses gürültü giderme görevlerinde etkileyici sonuçlar gösterdiler. Örneğin, film yapımcılığı endüstrisi, üretim kalitesini artırmak için modern görüntü ve video işleme araçlarını kullanır.

2. Gürültü Koşullu Skor Tabanlı Üretken Modeller (SGM'ler)

SGM'ler belirli bir dağıtımdan yeni örnekler üretebilir. Hedef dağılımın günlük yoğunluğunu tahmin edebilen bir tahmin puanı işlevi öğrenerek çalışırlar. Günlük yoğunluğu tahmini, bilinmeyen bir veri kümesinin (test kümesi) parçası olan mevcut veri noktaları için varsayımlarda bulunur. Bu puan işlevi daha sonra dağıtımdan yeni veri noktaları oluşturabilir.

Örneğin, derin sahte ünlü kişiliklerin sahte videolarını ve seslerini üretmekle ünlüdür. Ama çoğunlukla şunlara atfedilirler: Generatif Düşman Ağları (GAN'lar). Bununla birlikte, SGM'lerin sahip olduğu benzer yetenekler gösterdi - bazen daha iyi performans gösterdi – yüksek kaliteli ünlü yüzleri oluşturmada. Ayrıca SGM'ler, sıkı düzenlemeler ve endüstri standartları nedeniyle büyük miktarlarda kolayca bulunamayan sağlık hizmeti veri setlerinin genişletilmesine yardımcı olabilir.

3. Stokastik Diferansiyel Denklemler (SDE'ler)

SDE'ler zamanla ilgili rastgele süreçlerdeki değişiklikleri tanımlar. Piyasa sonuçlarını önemli ölçüde etkileyen rastgele faktörleri içeren fizik ve finansal piyasalarda yaygın olarak kullanılırlar.

Örneğin, emtia fiyatları oldukça dinamiktir ve bir dizi rastgele faktörden etkilenir. SDE'ler, vadeli işlem sözleşmeleri (ham petrol sözleşmeleri gibi) gibi finansal türevleri hesaplar. Bir güvenlik hissi vermek için dalgalanmaları modelleyebilir ve uygun fiyatları doğru bir şekilde hesaplayabilirler.

Yapay Zekada Difüzyon Modellerinin Başlıca Uygulamaları

AI'da yaygın olarak uyarlanmış bazı uygulamalara ve difüzyon modellerinin kullanımlarına bakalım.

Yüksek Kaliteli Video Üretimi

Kullanarak üst düzey videolar oluşturma derin öğrenme video karelerinin yüksek sürekliliğini gerektirdiği için zordur. Eksik karelerin arasını doldurmak için video karelerinin bir alt kümesini oluşturabildikleri için difüzyon modellerinin kullanışlı olduğu yer burasıdır, bu da gecikme olmaksızın yüksek kaliteli ve akıcı videolar sağlar.

Araştırmacılar, geliştirdikleri Esnek Difüzyon Modeli ve Artık Video Difüzyonu Bu amaca hizmet edecek teknikler. Bu modeller, gerçek kareler arasına yapay zeka tarafından oluşturulan kareleri sorunsuz bir şekilde ekleyerek gerçekçi videolar da üretebilir.

Bu modeller, mevcut çerçevelerden kalıpları öğrendikten sonra sahte çerçeveler ekleyerek düşük FPS'li bir videonun FPS'sini (saniyedeki kare sayısı) basitçe genişletebilir. Neredeyse hiç çerçeve kaybı olmayan bu çerçeveler, derin öğrenmeye dayalı modellerin üst düzey kamera kurulumlarından doğal çekimler gibi görünen sıfırdan yapay zeka tabanlı videolar oluşturmasına yardımcı olabilir.

Çok çeşitli dikkat çekici AI video üreteçleri video içeriği üretimi ve düzenlemesini hızlı ve kolay hale getirmek için 2023'te kullanıma sunulmuştur.

Metinden Görüntüye Oluşturma

Metinden resme modeller, yüksek kaliteli görüntüler oluşturmak için giriş istemlerini kullanır. Örneğin, "tabakta kırmızı elma" girdisi vermek ve bir tabakta bir elmanın fotogerçekçi görüntüsünü oluşturmak. harmanlanmış difüzyon ve klipsini aç kullanıcı girişine dayalı olarak son derece alakalı ve doğru görüntüler oluşturabilen bu tür modellerin iki önemli örneğidir.

Ayrıca, OpenAI tarafından GLIDE 2021'de piyasaya sürülen ve kullanıcı girdisini kullanarak fotogerçekçi görüntüler üreten, yaygın olarak bilinen başka bir çözümdür. Daha sonra OpenAI, şimdiye kadarki en gelişmiş görüntü oluşturma modeli olan DALL.E-2'yi piyasaya sürdü.

Benzer şekilde Google, olarak bilinen bir görüntü oluşturma modeli de geliştirmiştir. Görüntü, giriş metninin derin bir metinsel anlayışını geliştirmek için büyük bir dil modeli kullanır ve ardından fotogerçekçi görüntüler oluşturur.

Midjourney ve Stable Diffusion gibi diğer popüler görüntü oluşturma araçlarından bahsetmiştik (Rüya Stüdyosu) üstünde. Aşağıdaki Kararlı Difüzyon kullanılarak oluşturulmuş bir görüntüye bakın.

Stable Difüzyon 1.5 ile oluşturulmuş insan yüzlerinden oluşan bir kolaj

Aşağıdaki istem kullanılarak Stable Diffusion 1.5 ile oluşturulmuş bir görüntü: “kolajlar, hiper-gerçekçi, çok eski Thom Yorke'un birçok varyasyon portresi, yüz varyasyonları, şarkıcı-söz yazarı, (yan) profil, çeşitli yaşlar, makro lens, eşik alanı, tarafından lee bermejo, alphonse mucha ve greg rutkowski, gri sakal, pürüzsüz yüz, elmacık kemikleri”

Yapay Zekada Difüzyon Modelleri – Gelecekte Ne Beklenmeli?

Difüzyon modelleri, karmaşık görüntü ve video veri kümelerinden yüksek kaliteli örnekler oluşturmaya yönelik sağlam bir yaklaşım olarak umut verici bir potansiyel ortaya koymuştur. Yayılma modelleri, verileri kullanma ve manipüle etme konusundaki insan kapasitesini geliştirerek, bugün gördüğümüz şekliyle dünyayı potansiyel olarak kökten değiştirebilir. Günlük hayatımızın ayrılmaz bir parçası haline gelen difüzyon modellerinin daha da fazla uygulamasını görmeyi bekleyebiliriz.

Bununla birlikte, difüzyon modelleri tek üretken AI tekniği değildir. Araştırmacılar ayrıca Üretken Düşman Ağları (GAN'lar), Varyasyonel Otomatik kodlayıcılarve yapay zeka içeriği oluşturmak için akış tabanlı derin üretken modeller. Difüzyon modellerini diğer üretken modellerden ayıran temel özelliklerin anlaşılması, önümüzdeki günlerde daha etkin çözümler üretilmesine yardımcı olabilir.

AI tabanlı teknolojiler hakkında daha fazla bilgi edinmek için şu adresi ziyaret edin: Unite.ai. Üretken yapay zeka araçlarıyla ilgili derlenmiş kaynaklarımıza aşağıdan göz atın.