Yapay Zekâ 101

Yapay Zeka’de Diffüzyon Modelleri – Her Şeyi Bilmeniz Gereken

Published March 31, 2023

Updated April 5, 2026

Haziqa Sajid

A collage of human faces created using AI image generator

Yapay zeka ekosisteminde, diffüzyon modelleri teknolojik ilerlemenin yönünü ve hızını belirliyor. Karmaşık yapay zeka görevleri için yaklaşım şeklimizi devrimleştiriyorlar. Bu modeller, gaussian ilkeleri, varyans, diferansiyel denklemler ve üretken dizilerin matematiğine dayanıyor. (Aşağıda teknik jargonları açıklıyoruz)

Modern, Nvidia, Google, Adobe ve OpenAI tarafından geliştirilen AI odaklı ürün ve çözümler, diffüzyon modellerini ön plana çıkardı. DALL.E 2, Stable Diffusion ve Midjourney son zamanlarda internet üzerinde diffüzyon modellerinin dikkat çekici örnekleridir. Kullanıcılar basit bir metin girişi sağlar ve bu modeller bunları gerçekçi görsellere dönüştürebilir, aşağıdaki gibi.

Midjourney v5 kullanarak oluşturulan bir görüntü: parlak California haşhaşları. Kaynak: Midjourney

Diffüzyon modellerinin temel çalışma prensiplerini ve dünyayı şekillendirmede nasıl değişikliklere yol açtıklarını keşfedelim.

Diffüzyon Modelleri Nedir?

Araştırma yayını “Denoising Diffusion Probabilistic Models“e göre, diffüzyon modelleri şöyle tanımlanır:

“Diffüzyon modeli veya olasılıksal diffüzyon modeli, varyasyonel çıkarım kullanarak verilere benzer örnekler üretebilen parametrik bir Markov zinciridir.”

Basitçe söylemek gerekirse, diffüzyon modelleri eğitim aldıkları verilere benzer veri üretebilir. Model kedilerin resimlerine eğitim alırsa, benzer gerçekçi kedi resimleri üretebilir.

Şimdi yukarıda belirtilen teknik tanımı parçalayalım. Diffüzyon modelleri, zaman içinde değişen bir sistemin davranışını analiz edebilen ve öngörebilen olasılıksal bir modelin çalışma prensibi ve matematiksel temelinden esinleniyorlar.

Tanım, bunların parametrik Markov zincirleri olduğunu ve varyasyonel çıkarım kullanılarak eğitildiklerini belirtiyor. Markov zincirleri, sistemlerin zaman içinde farklı durumlar arasında geçişlerini tanımlayan matematiksel modellerdir. Sistemlerin mevcut durumu, belirli bir durumdan diğerine geçiş olasılığını belirler. Diğer bir deyişle, bir sistemin mevcut durumu, belirli bir zamanda sahip olabileceği veya alabileceği olası durumları belirler.

Varyasyonel çıkarım kullanarak modeli eğitmek, olasılık dağılımları için karmaşık hesaplamaları içerir. Modelin loss fonksiyonunun değerini en aza indirerek, gözlemlenen (bilinen veya gerçek) verilere belirli bir zaman sonra uyan parametrik Markov zincirinin parametrelerini bulmayı hedefler.

Eğitildikten sonra, model gözlemlenen verilere benzer örnekler üretebilir. Bu örnekler, sistemin zaman içinde takip edebileceği veya alabileceği olası yolları veya durumları temsil eder ve her yolun meydana gelme olasılığı farklıdır. Böylece, model sistemin gelecekteki davranışını, örnekler üreterek ve bunların olasılıklarını (bu olayların meydana gelme olasılığını) bularak öngörebilir.

Yapay Zekadaki Diffüzyon Modellerini Nasıl Yorumlayabilirsiniz?

Diffüzyon modelleri, mevcut eğitim verilerine (ileri diffüzyon süreci olarak da bilinen) gürültü (Gaussian gürültü) ekleyerek ve sonra bu süreci tersine çevirerek (gürültü giderme veya ters diffüzyon süreci olarak da bilinen) veriyi kurtararak çalışan derin üretken modellerdir. Model, yavaş yavaş gürültüyü kaldırma öğrenir. Bu öğrenilen gürültü giderme işlemi, rastgele tohumlardan (rastgele gürültülü görsellerden) yüksek kaliteli yeni görseller üretebilir, aşağıdaki illüstrasyonda gösterildiği gibi.

Ters diffüzyon süreci: Gürültülü bir görüntü, eğitilmiş bir diffüzyon modeli aracılığıyla orijinal görüntü (veya varyasyonlarını) kurtarmak için gürültüden arındırılır. Kaynak: Denoising Diffusion Probabilistic Models

3 Diffüzyon Modeli Kategorisi

Diffüzyon modellerinin arkasındaki bilimi destekleyen üç temel matematiksel çerçeve vardır. Hepsi gürültü ekleyerek ve sonra onu kaldırarak yeni örnekler üretebilen aynı prensiplere dayanır. Aşağıda onları tartışalım.

Bir diffüzyon modeli, bir görüntüden gürültü ekler ve kaldırır. Kaynak: Diffüzyon Modelleri: Bir Araştırma

1. Gürültü Giderme Diffüzyon Olasılıksal Modelleri (DDPM’ler)

Yukarıda açıklandığı gibi, DDPM’ler, görsel veya ses verisinden gürültüyü gidermek için kullanılan üretken modellerdir. various görüntü ve ses gürültü giderme görevlerinde etkileyici sonuçlar gösterdiler. Örneğin, film endüstrisi, üretim kalitesini iyileştirmek için modern görüntü ve video işleme araçlarını kullanır.

2. Gürültü Koşullu Skor Tabanlı Üretken Modeller (SGM’ler)

SGM’ler, verilen bir dağılımdan yeni örnekler üretebilir. Gürültü koşullu bir skor fonksiyonu öğrenerek, hedef dağılımın log yoğunluğunu tahmin edebilir. Log yoğunluk tahmini, mevcut veri noktalarının bilinmeyen bir veri kümesinin (test kümesi) bir parçası olduğunu varsayar. Bu skor fonksiyonu daha sonra dağılımdan yeni veri noktaları üretebilir.

Örneğin, derin sahtecilik ünlü kişilerin sahte videoları ve sesleri üretmesiyle ünlüdür, ancak bunlar genellikle Üretken Karşıt Ağlar (GAN’lar) ile ilişkilendirilir. Ancak SGM’ler, benzer yetenekler göstermiştir – bazen GAN’ları aşar – yüksek kaliteli ünlülerin yüzlerini üretmede. Ayrıca, SGM’ler, sağlık veri kümelerini genişletmeye yardımcı olabilir, bu veri kümeleri sıkı düzenlemeler ve endüstri standartları nedeniyle büyük miktarlarda mevcut değildir.

3. Stokastik Diferansiyel Denklemler (SDE’ler)

SDE’ler, zamanla ilgili rastgele süreçlerdeki değişiklikleri tanımlar. Fizik ve finansal piyasalarda, piyasa sonuçlarını önemli ölçüde etkileyen rastgele faktörlerin bulunduğu durumlarda yaygın olarak kullanılırlar.

Örneğin, emtia fiyatları son derece dinamiktir ve çeşitli rastgele faktörler tarafından etkilenir. SDE’ler, vadeli sözleşmeler (ham petrol sözleşmeleri gibi) gibi finansal türevleri hesaplar. Dalgalanmaları modelleyebilir ve güvenlik duygusu vermek için uygun fiyatları hesaplayabilir.

Yapay Zekadaki Diffüzyon Modellerinin Ana Uygulamaları

Yapay zekadaki diffüzyon modellerinin yaygın olarak benimsenen bazı uygulamalarına bakalım.

Yüksek Kaliteli Video Oluşturma

Derin öğrenme kullanarak yüksek kaliteli video oluşturmak zorlu bir görevdir, çünkü video karelerinin yüksek sürekliliğini gerektirir. İşte burada diffüzyon modelleri devreye girer, çünkü eksik kareleri doldurmak için video karelerinin bir alt kümesini üretebilir, böylece gecikme olmadan yüksek kaliteli ve pürüzsüz videolar elde edilebilir.

Araştırmacılar, bu amaç için Esnek Diffüzyon Modeli ve Artık Video Diffüzyon tekniklerini geliştirdiler. Bu modeller, aynı zamanda AI tarafından üretilen kareleri gerçek kareler arasında sorunsuz bir şekilde ekleyerek gerçekçi videolar üretebilir.

Bu modeller, mevcut karelerden öğrenilen desenleri kullanarak düşük kare hızı videolarının kare saniye değerini (FPS) artırabilir ve sahte kareler ekleyerek bunları yüksek kaliteli videolara dönüştürebilir. Çerçeve kaybı olmadan, bu çerçeveler ayrıca derin öğrenme tabanlı modellerin doğal çekimlere benzeyen AI tabanlı videoları sıfırdan üretmesine yardımcı olabilir.

2023’te video içeriği üretimi ve düzenleme işlemlerini hızlandırmanıza yardımcı olabilecek çeşitli dikkat çekici AI video jeneratörleri mevcuttur.

Metin-Resim Oluşturma

Metin-resim modelleri, yüksek kaliteli görseller oluşturmak için girdi metinleri kullanır. Örneğin, “tabaktaki kırmızı elma” girişini verip, bir tabaktaki gerçekçi bir elma resmi üretmek. Karışmış diffüzyon ve unCLIP gibi modeller, kullanıcı girişine dayalı olarak yüksek kaliteli ve doğru görseller üretebilir.

Ayrıca, GLIDE by OpenAI 2021’de yayınlanan ve kullanıcı girişini kullanarak gerçekçi görseller üreten başka bir yaygın çözümdür. Daha sonra OpenAI, en gelişmiş görüntü oluşturma modeli olan DALL.E-2’yi çıkardı.

Benzer şekilde, Google da büyük bir dil modelini kullanarak gerçekçi görseller oluşturabilen Imagen adlı bir görüntü oluşturma modeli geliştirdi.

Yukarıda Midjourney ve Stable Diffusion (DreamStudio) gibi diğer popüler görüntü oluşturma araçlarından bahsetmiştik. Aşağıda Stable Diffusion ile oluşturulan bir görüntüyü inceleyin.

Stable Diffusion 1.5 kullanarak oluşturulan bir görüntü: çok gerçekçi, birçok varyasyonlu portre, yaşlı Thom Yorke, yüz varyasyonları, şarkıcı-söz yazarı, (yan) profil, çeşitli yaşlar, makro lens, liminal alan, Lee Bermejo, Alphonse Mucha ve Greg Rutkowski tarafından.

Yapay Zekadaki Diffüzyon Modelleri – Gelecekte Neler Bekleyebilirsiniz?

Diffüzyon modelleri, karmaşık görüntü ve video veri kümelerinden yüksek kaliteli örnekler üretme konusunda güçlü bir yaklaşım olarak büyük bir potansiyel gösterdiler. İnsanların verilerini kullanma ve manipüle etme yeteneğini geliştirerek, diffüzyon modelleri dünyayı bugün gördüğümüz şekilde potentially devrimleştirebilir. Diffüzyon modellerinin daha da fazla uygulamasının günlük hayatımızın bir parçası haline geldiğini görmeyi bekleyebiliriz.

Bununla birlikte, diffüzyon modelleri tek üretken AI tekniği değildir. Araştırmacılar ayrıca Üretken Karşıt Ağlar (GAN’lar), Değişken Otomatik Kodlayıcılar ve akış tabanlı derin üretken modelleri AI içeriği üretmek için kullanır. Diffüzyon modelleriyle diğer üretken modeller arasındaki temel özellikleri anlamak, gelecekte daha etkili çözümler üretmeye yardımcı olabilir.

AI tabanlı teknolojiler hakkında daha fazla bilgi edinmek için Unite.ai‘yi ziyaret edin. Aşağıda, üretken AI araçlarına ilişkin derlediğimiz kaynaklara göz atın.