Yapay Zekâ

Sinirsel Oluşturma: Giriş Açısından Ne Kadar Düşük Olabilirsiniz?

Published May 13, 2021

Updated April 5, 2026

Martin Anderson

Dün, Intel araştırmacıları tarafından yeni bir yöntem açıklanarak, sentetik görüntülerin gerçekçiliğini artırmak için yeni bir çalışma internette dikkatleri ve hayal gücünü üzerine çekti.

Sistem, Intel’den video olarak gösterildiği gibi, Grand Theft Auto V video oyununun görüntü işlem hattına doğrudan müdahale ediyor ve bir convolutional neural network (CNN) kullanarak, Mapillary veri setinden gerçek dünya görüntülerini kullanarak, oyun motorunun menos gerçekçi aydınlatma ve dokularını otomatik olarak geliştiriyor.

Yorumcular, Reddit ve Hacker News gibi topluluklarda geniş bir yelpazede tepkilerde bulunarak, bu tür sinirsel oluşturmanın geleneksel oyun motorlarının ve VFX düzeyindeki CGI’nin menos gerçekçi çıktısını etkili bir şekilde değiştirebileceğini, ayrıca bu işlemin Intel’in GTA5 demo’da gösterildiğinden çok daha temel girişlerle gerçekleştirilebileceğini öne sürdüler — efektif olarak ‘kukla’ proxy girişleri ile çok gerçekçi çıktılar oluşturmak.

Çift Veri Setleri

Bu prensip, son üç yıl içinde GAN ve encoder/decoder sistemlerinin yeni bir nesli tarafından örneklenmiştir, örneğin NVIDIA’nın GauGAN, kaba daub’lerden fotoğrafik gerçekçi manzara görüntüleri oluşturur.

Aslında bu prensip, bilgisayar vizyonunda sembolik segmentasyonu kullanmanın geleneksel kullanımını, makinelerin gözlemlenen nesneleri tanımlamak ve izole etmek için bir yöntem olarak değiştirir, yaratıcı bir girişe dönüştürür, burada kullanıcı ‘sembolik segmentasyon haritası’ çizer ve sistem, önceden sınıflandırılmış ve segmentlenmiş bir domaine (örneğin manzara) ait ilişkileri anladığından tutarlı görüntüler oluşturur.

Makine öğrenimi çerçevesi çeşitli dış mekan sahnelerine sembolik segmentasyon uygular, etkileşimli sistemlerin geliştirilmesine izin veren mimari paradigmayı sağlar, kullanıcı sembolik segmentasyon bloğu çizer ve sistem bloğu, Almanya’nın Mapillary sokak görünümü seti gibi domaine özgü veri setinden uygun görüntülerle doldurur. Kaynak: http://ais.informatik.uni-freiburg.de/publications/papers/valada17icra.pdf

Çift veri seti görüntü sentez sistemleri, iki veri setindeki sembolik etiketlerin korelasyonunu kullanarak çalışır: zengin ve eksiksiz bir görüntü seti, ya gerçek dünya görüntülerinden (Intel’in GTA5 demo’sunda kullanılan Mapillary seti gibi) ya da sentetik görüntülerden (CGI görüntüler gibi) oluşturulur.

Görsel sentez sistemi için çift veri seti örnekleri, sinirsel oluşturma karakterleri kaba çizimlerden oluşturur. Solda, CGI veri setinden örnekler. Orta, ‘çizim’ veri setinden karşılık gelen örnekler. Sağda, çizimlerden yüksek kaliteli görüntülere çeviren sinirsel oluşturmalar. Kaynak: https://www.youtube.com/watch?v=miLIwQ7yPkA

Dış mekan ortamları, bu tür çift veri seti dönüşümlerini oluştururken nispeten zor değildir, çünkü çıkıntılar genellikle sınırlıdır, topografya sınırlı varyans aralığına sahiptir ve yapay insanları oluşturmak veya Uncanny Valley ile başa çıkmak zorunda değiliz (henüz).

Segmentasyon Haritalarını Tersine Çevirme

Google, GauGAN şemasının animasyonlu bir versiyonunu geliştirdi, Sonsuz Doğa adlı bir sistem, sahte sembolik haritaları fotoğrafik gerçekçi görüntülere çevirebiliyor, NVIDIA’nın SPADE infill sistemi aracılığıyla:

Kaynak: https://www.youtube.com/watch?v=oXUf6anNAtc

Ancak, Sonsuz Doğa bir görüntüyü başlangıç noktası olarak kullanır ve yalnızca ardışık çerçevelerde eksik kısımları boyamak için SPADE’yi kullanır, oysa SPADE kendisi doğrudan segmentasyon haritalarından görüntü dönüşümleri oluşturur.

Kaynak: https://nvlabs.github.io/SPADE/

Bu kapasite, Intel Görüntü Geliştirme sisteminin hayranlarını etkilemiştir — çok yüksek kaliteli fotoğrafik gerçekçi görüntüleri, hatta gerçek zamanlı olarak, çok kaba girişlerden elde etme olasılığı.

Dokuları ve Aydınlatmayı Sinirsel Oluşturma ile Değiştirme

GTA5 girişi durumunda, bazıları oyun motorunun çıktısında bulunan menos gerçekçi aydınlatma ve dokuların, gelecekte sinirsel oluşturma sistemlerinde gerçekten gerekli olup olmayacağını sorguladı — ya da düşük çözünürlüklü, tel çerçeveli düzeyde girişi, oyun motorlarının gölgelendirme, doku ve aydınlatma yeteneklerini aşan fotoğrafik gerçekçi videolara dönüştürmek mümkün olabilir mi?

Bu, Intel’in gösterdiği sinirsel oluşturma sisteminin, geleneksel oyun motorlarının ve VFX düzeyindeki CGI’nin menos gerçekçi çıktısını etkili bir şekilde değiştirebileceğini öne süren yorumcuların tepkilerine benzer.

Oyun motoru tarafından üretilen bazı yönlerin, örneğin yansımalar, dokular ve diğer çevre detaylarının, bu tür sinirsel oluşturma sistemi için gerekli kaynaklar olduğunu düşünmek mantıklı görünüyor. Ancak, NVIDIA’nın UNIT (UNsupervised Image-to-image Translation Networks) beberapa yıl önce, sadece domaine önemli olduğunu ve ‘gece veya gündüz’ gibi yönlerin, stil aktarımı tarafından ele alınabilecek konular olduğunu gösterdi:

Gerekli girişin açısından, bu potansiyel olarak oyun motorunu yalnızca temel geometri ve fizik simülasyonlarını üretmekle sınırlar, çünkü sinirsel oluşturma motoru, sembolik haritaları yorumlama katmanı olarak kullanarak, diğer tüm yönleri veri setinden sentezlenen görüntülerle överboyayabilir.

Intel sisteminin, GTA5’den tamamen işlenmiş ve oluşturulmuş bir kareyi, segmentasyon ve değerlendirilmiş derinlik haritaları ekleyerek geliştirdiği görülmektedir — bu iki yön, potansiyel olarak bir oyun motoru tarafından doğrudan sağlanabilir. Kaynak: https://www.youtube.com/watch?v=P1IcaBn3ej0

Intel’in sinirsel oluşturma yaklaşımı, GTA5 buffer’larından tamamen işlenmiş karelerin analizini içerir ve sinirsel sistem, hem derinlik haritalarını hem de segmentasyon haritalarını oluşturma ek yükünü taşır. Derinlik haritaları geleneksel 3D boru hatlarında açıkça mevcuttur (ve doku, ışın izleme veya küresel aydınlatma gibi daha az talep edilir) ve oyun motorunun bunları ele alması daha iyi bir kaynak kullanımı olabilir.

Kesilip Düzenlenmiş Giriş için Sinirsel Oluşturma Motoru

Intel görüntü geliştirme ağı’nın mevcut uygulaması, bu nedenle, muhtemelen çok fazla hesaplamalı döngü içerir, çünkü oyun motoru sinirsel oluşturma motorunun gerçekten ihtiyacı olmayan, hesaplama açısından yoğun doku ve aydınlatma oluşturur. Sistem bu şekilde tasarlanmış gibi görünüyor, çünkü mevcut bir boru hattına sinirsel oluşturma motorunu uyarlamak, sinirsel oluşturma yaklaşımına optimize edilmiş yeni bir oyun motoru oluşturmaktan daha kolaydır.

Bu tür bir oyun sistemi için en ekonomik kaynak kullanımı, sinirsel oluşturma sistemini tamamen GPU ile işleme tabi tutmak ve kesilip düzenlenmiş proxy girişi CPU ile işleme tabi tutmaktır.

Ayrıca, oyun motoru, tüm gölgelendirme ve aydınlatmayı çıkışımda kapatarak, temsilci sembolik haritaları kendisi üretebilir. Ayrıca, normalde gerektirdiğinden çok daha düşük çözünürlükte video üretebilir, çünkü video yalnızca içeriği geniş olarak temsil etmesi gerekir, yüksek çözünürlüklü ayrıntı sinirsel motor tarafından ele alınabilir, bu da yerel hesaplamalı kaynakları daha da serbest bırakır.

Intel ISL’nin Önceki Çalışması: Segmentasyon > Görüntü

Sembolik segmentasyondan fotoğrafik gerçekçi videoya doğrudan çevirme fikri uzak bir ihtimal değildir. 2017’de Intel ISL, dünün heyecanının yaratıcıları, kentsel video sentezini doğrudan sembolik segmentasyondan gerçekleştirebilen ilk araştırmayı yayınladı.

görüntü” width=”1661″ height=”885″ /> Intel ISL’nin 2017’deki segmentasyon > görüntü çalışması. Kaynak: https://awesomeopensource.com/project/CQFIO/PhotographicImageSynthesis

Aslında, bu orijinal 2017 boru hattı, sadece GTA5’in tamamen işlenmiş çıktısına uyduruldu.

VFX’de Sinirsel Oluşturma

Sanal sembolik haritalardan sinirsel oluşturma, VFX için de umut verici bir teknoloji gibi görünüyor, çok temel videogramları doğrudan bitirilmiş görsel efekt görüntülerine çevirebilme olasılığıyla, modellerden veya sentetik (CGI) görüntülerden alınan domaine özgü veri setlerini kullanarak:

Hypothetical sinirsel oluşturma sistemi, her hedef nesnenin kapsamlı kapsamı, katkıda bulunan veri setine dönüştürülür ve yapay olarak oluşturulan sembolik segmentasyon haritaları, tam çözünürlüklü fotoğrafik gerçekçi çıktının temelini oluşturur. Kaynak: https://rossdawson.com/futurist/implications-of-ai/comprehensive-guide-ai-artificial-intelligence-visual-effects-vfx/

Sanal sinirsel oluşturma sistemi, her hedef nesnenin kapsamlı kapsamı, katkıda bulunan veri setine dönüştürülür ve yapay olarak oluşturulan sembolik segmentasyon haritaları, tam çözünürlüklü fotoğrafik gerçekçi çıktının temelini oluşturur. Kaynak: https://rossdawson.com/futurist/implications-of-ai/comprehensive-guide-ai-artificial-intelligence-visual-effects-vfx/

Bu tür sistemlerin geliştirilmesi ve benimsenmesi, sanatsal çabanın odak noktasını yorumlayıcıdan temsilciye kaydıracaktır ve domaine dayalı veri toplama işini, destekleyici bir role sahip olmaktan, görsel sanatlarda merkezi bir role sahip olmaya dönüştürecektir.

Makale, 16:55’de Intel ISL 2017 araştırması hakkında materyal eklenerek güncellendi.

Martin Anderson

Makine öğrenimi üzerine yazar, insan görüntü sentezinde alan uzmanı. Metaphysic.ai'de eski araştırma içeriği başkanı.
Kişisel site: martinanderson.ai
İletişim: [email protected]