saplama Görsel Otoregresif Modelleme: Sonraki Ölçek Tahmini Aracılığıyla Ölçeklenebilir Görüntü Oluşturma - Unite.AI
Bizimle iletişime geçin

Yapay Zeka

Görsel Otoregresif Modelleme: Sonraki Ölçek Tahminiyle Ölçeklenebilir Görüntü Oluşturma

mm

Yayınlanan

 on

Görsel Otoregresif Modelleme: Sonraki Ölçek Tahminiyle Ölçeklenebilir Görüntü Oluşturma

Diğer otoregresif veya AR büyük dil modelleriyle birlikte GPT modellerinin ortaya çıkışı, makine öğrenimi ve yapay zeka alanında yeni bir çığır açtı. GPT ve otoregresif modeller genellikle halüsinasyonlar gibi bazı sorunlara sahip olmasına rağmen genel yapay zekaya veya AGI'ye doğru önemli bir adım olarak kabul edilen genel zeka ve çok yönlülük sergiler. Bununla birlikte, bu büyük modellerdeki kafa karıştırıcı sorun, modelin bir sonraki jetonu sırayla tahmin etmesine olanak tanıyan kendi kendini denetleyen bir öğrenme stratejisidir; bu basit ama etkili bir stratejidir. Son çalışmalar bu büyük otoregresif modellerin başarısını ortaya koymuş, genelleştirilebilirlik ve ölçeklenebilirliklerini vurgulamıştır. Ölçeklenebilirlik, araştırmacıların büyük modelin performansını küçük modellerin performansından tahmin etmesine olanak tanıyan ve kaynakların daha iyi tahsis edilmesini sağlayan mevcut ölçeklendirme yasalarının tipik bir örneğidir. Öte yandan, genelleştirilebilirlik genellikle sıfır adımlı, tek adımlı ve birkaç adımlı öğrenme gibi öğrenme stratejileriyle kanıtlanır; bu da denetimsiz ancak eğitimli modellerin çeşitli ve görünmeyen görevlere uyum sağlama yeteneğini vurgular. Genelleştirilebilirlik ve ölçeklenebilirlik birlikte, otoregresif modellerin büyük miktarda etiketlenmemiş veriden öğrenme potansiyelini ortaya çıkarır. 

Aynı temelden yola çıkarak, bu makalede, görseller üzerinde otoregresif öğrenmeyi kabadan inceye "sonraki çözünürlük tahmini" veya "sonraki ölçek tahmini" olarak yeniden tanımlayan yeni nesil bir model olan Visual AutoRegressive veya VAR çerçevesinden bahsedeceğiz. . Basit olmasına rağmen yaklaşım etkilidir ve otoregresif transformatörlerin görsel dağılımları daha iyi öğrenmesine ve gelişmiş genelleştirilebilirliğe olanak tanır. Ayrıca, Visual AutoRegressive modelleri, GPT tarzı otoregresif modellerin ilk kez görüntü oluşturmada difüzyon transferlerini aşmasını sağlıyor. Deneyler ayrıca VAR çerçevesinin otoregresif taban çizgilerini önemli ölçüde iyileştirdiğini ve veri verimliliği, görüntü kalitesi, ölçeklenebilirlik ve çıkarım hızı da dahil olmak üzere birçok boyutta Difüzyon Transformatörü veya DiT çerçevesinden daha iyi performans gösterdiğini gösteriyor. Ayrıca, Visual AutoRegressive modellerinin ölçeğinin büyütülmesi, büyük dil modellerinde gözlemlenenlere benzer güç yasası ölçeklendirme yasalarını gösterir ve ayrıca düzenleme, iç boyama ve dış boyama gibi aşağı akış görevlerinde sıfır atışlı genelleme yeteneğini gösterir. 

Bu makale, Visual AutoRegressive çerçevesini derinlemesine ele almayı amaçlamaktadır ve çerçevenin mekanizmasını, metodolojisini, mimarisini ve bunun en son teknoloji çerçevelerle karşılaştırmasını araştırıyoruz. Ayrıca Visual AutoRegressive çerçevesinin LLM'lerin iki önemli özelliğini nasıl gösterdiğinden de bahsedeceğiz: Ölçekleme Yasaları ve sıfır atışlı genelleme. Öyleyse başlayalım.

Görsel OtoRegresif Modelleme: Görüntü Oluşturmayı Ölçeklendirme

Son zamanlardaki büyük dil modelleri arasında ortak bir model, sıradaki bir sonraki jetonu tahmin eden basit ama etkili bir yaklaşım olan kendi kendini denetleyen bir öğrenme stratejisinin uygulanmasıdır. Bu yaklaşım sayesinde, günümüzde otoregresif ve büyük dil modelleri, genelleştirilebilirliğin yanı sıra dikkate değer bir ölçeklenebilirlik de göstermiştir; bu özellikler, otoregresif modellerin etiketlenmemiş büyük bir veri havuzundan öğrenme potansiyelini ortaya çıkararak Genel Yapay Zekanın özünü özetlemektedir. Ayrıca, bilgisayarla görme alanındaki araştırmacılar, etkileyici ölçeklenebilirlik ve genelleştirilebilirliklerini eşleştirmek veya aşmak amacıyla büyük otoregresif veya dünya modelleri geliştirmek için paralel olarak çalışıyorlar; DALL-E ve VQGAN gibi modeller halihazırda bu alandaki otoregresif modellerin potansiyelini gösteriyor görüntü üretimiyle ilgili. Bu modeller sıklıkla, sürekli görüntüleri 2 boyutlu belirteçlerden oluşan bir ızgara halinde temsil eden veya bunlara yaklaşan, daha sonra otoregresif öğrenme için 1 boyutlu bir diziye düzleştirilen ve böylece sıralı dil modelleme sürecini yansıtan bir görsel belirteç uygular. 

Ancak araştırmacılar henüz bu modellerin ölçeklendirme yasalarını keşfetmediler ve daha da sinir bozucu olan şey, aşağıdaki resimde de gösterildiği gibi, bu modellerin performansının genellikle difüzyon modellerinin önemli bir farkla gerisinde kalmasıdır. Performanstaki boşluk, büyük dil modelleriyle karşılaştırıldığında bilgisayar görüşündeki otoregresif modellerin yeteneklerinin yeterince araştırılmadığını gösteriyor. 

Bir yandan geleneksel otoregresif modeller tanımlanmış bir veri sırası gerektirirken diğer yandan Görsel OtoRegresif veya VAR modeli bir görüntünün nasıl sıralanacağını yeniden ele alır ve VAR'ı mevcut AR yöntemlerinden ayıran şey budur. Tipik olarak, insanlar bir görüntüyü hiyerarşik bir şekilde yaratır veya algılar; küresel yapıyı ve ardından yerel ayrıntıları yakalar; görüntü için doğal bir düzen öneren çok ölçekli, kabadan inceye bir yaklaşımdır. Ayrıca, çok ölçekli tasarımlardan ilham alan VAR çerçevesi, öğrenmeyi bir sonraki belirteç tahmini olarak tanımlayan geleneksel yaklaşımların aksine, görüntüler için otoregresif öğrenmeyi bir sonraki ölçek tahmini olarak tanımlar. VAR çerçevesi tarafından uygulanan yaklaşım, bir görüntünün çok ölçekli jeton haritalarına kodlanmasıyla başlar. Çerçeve daha sonra 1×1 jeton haritasından otoregresif süreci başlatır ve çözünürlükte aşamalı olarak genişler. Transformatör her adımda, öncekilerin tümüne bağlı olarak bir sonraki daha yüksek çözünürlüklü token haritasını tahmin eder; bu, VAR çerçevesinin VAR modelleme olarak adlandırdığı bir metodolojidir. 

VAR çerçevesi, görsel otoregresif öğrenme için GPT-2'nin transformatör mimarisinden yararlanmaya çalışmaktadır ve sonuçlar, VAR modelinin AR temel çizgisini önemli ölçüde iyileştirdiği, 1.80 FID'ye ve 356 başlangıç ​​puanına ulaştığı ImageNet karşılaştırmasında açıkça görülmektedir. çıkarım hızında 20 kat artış sağlandı. Daha da ilginci, VAR çerçevesinin FID & IS puanları, ölçeklenebilirlik, çıkarım hızı ve veri verimliliği açısından DiT veya Difüzyon Transformer çerçevesinin performansını aşmayı başarmasıdır. Ayrıca Visual AutoRegressive modeli, büyük dil modellerinde görülenlere benzer güçlü ölçeklendirme yasaları sergiler. 

Özetlemek gerekirse, VAR çerçevesi aşağıdaki katkıları sağlamaya çalışmaktadır. 

  1. Geleneksel sonraki belirteç tahmininin aksine, sonraki ölçek tahmini ile çok ölçekli bir otoregresif yaklaşım kullanan yeni bir görsel üretken çerçeve önermekte ve bunun sonucunda bilgisayarlı görme görevleri için otoregresif algoritmanın tasarlanması sağlanmaktadır. 
  2. LLM'lerin çekici özelliklerini taklit eden sıfır atışlı genelleme potansiyeli ile birlikte otoregresif modeller için ölçeklendirme yasalarını doğrulamaya çalışır. 
  3. Görsel otoregresif modellerin performansında bir atılım sunarak GPT tarzı otoregresif çerçevelerin mevcutları aşmasını sağlar difüzyon modelleri şimdiye kadar ilk kez görüntü sentezi görevlerinde. 

Ayrıca, veri kümesi boyutları, model parametreleri, performans iyileştirmeleri ve makine öğrenimi modellerinin hesaplama kaynakları arasındaki ilişkiyi matematiksel olarak tanımlayan mevcut güç yasası ölçeklendirme yasalarının tartışılması da hayati önem taşımaktadır. Birincisi, bu güç yasası ölçeklendirme yasaları, model boyutunu, hesaplama maliyetini ve veri boyutunu büyüterek, gereksiz maliyetlerden tasarruf ederek ve ilkeler sağlayarak eğitim bütçesini tahsis ederek daha büyük bir modelin performansının uygulanmasını kolaylaştırır. İkincisi, ölçeklendirme yasaları performansta tutarlı ve doymayan bir artış göstermiştir. Sinir dili modellerinde yasaları ölçeklendirme ilkeleriyle ilerleyen birçok Yüksek Lisans, model ölçeğini artırmanın daha iyi performans sonuçları sağlama eğiliminde olduğu ilkesini bünyesinde barındırıyor. Öte yandan sıfır atışlı genelleme, bir modelin, özellikle de üzerinde açıkça eğitilmediği görevleri gerçekleştiren bir LLM'nin yeteneğini ifade eder. Bilgisayarla görme alanında, sıfır atış ve temel modellerin bağlam içi öğrenme yeteneklerinin geliştirilmesine yönelik ilgi. 

Dil modelleri, metin tokenizasyonu için WordPiece algoritmalarına veya Bayt Çifti Kodlama yaklaşımına dayanır. Dil modellerine dayalı görsel oluşturma modelleri aynı zamanda büyük ölçüde 2 boyutlu görüntülerin 1 boyutlu belirteç dizilerine kodlanmasına da dayanır. VQVAE gibi ilk çalışmalar, görüntüleri orta düzeyde yeniden yapılandırma kalitesiyle ayrı belirteçler olarak temsil etme yeteneğini gösterdi. VQVAE'nin halefi olan VQGAN çerçevesi, görüntü doğruluğunu artırmak için algısal ve rakipsel kayıpları birleştirdi ve ayrıca standart raster tarama otoregresif tarzında görüntü belirteçleri oluşturmak için yalnızca kod çözücüye yönelik bir transformatör kullandı. Öte yandan difüzyon modelleri, çeşitlilikleri ve üstün üretim kaliteleri sayesinde uzun süredir görsel sentez görevlerinde öncü olarak kabul ediliyor. Difüzyon modellerinin gelişimi, örnekleme tekniklerinin iyileştirilmesi, mimari iyileştirmeler ve daha hızlı örnekleme etrafında yoğunlaşmıştır. Gizli yayılma modelleri, eğitim verimliliğini ve çıkarımı artıran gizli alanda yayılma uygular. Difüzyon Transformatörü modelleri, geleneksel U-Net mimarisini transformatör tabanlı bir mimariyle değiştirir ve SORA gibi son görüntü veya video sentez modellerinde kullanılmıştır ve Kararlı Difüzyon

Görsel OtoRegresif: Metodoloji ve Mimari

VAR çerçevesinin özünde iki ayrı eğitim aşaması vardır. İlk aşamada, çok ölçekli bir kuantize edilmiş otomatik kodlayıcı veya VQVAE, bir görüntüyü simge haritalarına kodlar ve bileşik yeniden yapılandırma kaybı, eğitim amacıyla uygulanır. Yukarıdaki şekilde gömme, ayrı belirteçlerin sürekli gömme vektörlerine dönüştürülmesini tanımlamak için kullanılan bir kelimedir. İkinci aşamada, VAR modelindeki transformatör, çapraz entropi kaybının en aza indirilmesi veya bir sonraki ölçek tahmin yaklaşımı kullanılarak olasılığın maksimumlaştırılması yoluyla eğitilmektedir. Eğitilen VQVAE daha sonra VAR çerçevesi için belirteç haritası temel gerçeğini üretir. 

Sonraki Belirteç Tahmini Yoluyla Otoregresif Modelleme

Her bir jetonun V boyutunda bir kelime dağarcığından bir tam sayı olduğu belirli bir ayrık jeton dizisi için, sonraki jeton otoregresif modeli, mevcut jetonu gözlemleme olasılığının yalnızca önekine bağlı olduğunu öne sürer. Tek yönlü jeton bağımlılığının varsayılması, VAR çerçevesinin sıra şanslarını koşullu olasılıkların çarpımına ayrıştırmasına olanak tanır. Otoregresif bir modelin eğitimi, modelin bir veri kümesi genelinde optimize edilmesini içerir ve bu optimizasyon süreci şu şekilde bilinir: sonraki jeton tahminive eğitilen modelin yeni diziler oluşturmasına olanak tanır. Ayrıca, görüntüler kalıtım yoluyla 2 boyutlu sürekli sinyallerdir ve otoregresif modelleme yaklaşımını sonraki belirteç tahmin optimizasyon süreci aracılığıyla görüntülere uygulamak için birkaç önkoşul vardır. İlk olarak görüntünün birkaç ayrı tokena dönüştürülmesi gerekiyor. Genellikle, görüntü özellik haritasını ayrık belirteçlere dönüştürmek için nicelenmiş bir otomatik kodlayıcı uygulanır. İkinci olarak, tek yönlü modelleme için 1 boyutlu jeton sırası tanımlanmalıdır. 

Ayrı belirteçlerdeki görüntü belirteçleri 2 boyutlu bir ızgarada düzenlenir ve doğası gereği soldan sağa sıralamaya sahip olan doğal dil cümlelerinden farklı olarak, tek yönlü otoregresif öğrenme için görüntü belirteçlerinin sırasının açıkça tanımlanması gerekir. Önceki otoregresif yaklaşımlar, ayrık belirteçlerin 2 boyutlu ızgarasını, satır ana taramalı tarama, z eğrisi veya spiral düzen gibi yöntemleri kullanarak 1 boyutlu bir dizi halinde düzleştirdi. Ayrık jetonlar düzleştirildikten sonra, AR modelleri veri kümesinden bir dizi dizi çıkardı ve ardından sonraki jeton tahminini kullanarak T koşullu olasılıklarının çarpımına olan olasılığı en üst düzeye çıkarmak için bir otoregresif model eğitti. 

Sonraki Ölçek Tahmini Aracılığıyla Görsel-OtoRegresif Modelleme

VAR çerçevesi, bir sonraki jeton tahmininden sonraki ölçek tahmin yaklaşımına geçiş yaparak görüntüler üzerindeki otoregresif modellemeyi yeniden kavramsallaştırır; bu süreç, otoregresif birimin tek bir jeton olmak yerine tam bir jeton haritası olduğu bir süreçtir. Model ilk önce özellik haritasını, her biri öncekinden daha yüksek çözünürlüğe sahip olan çok ölçekli simge haritalarına nicemler ve orijinal özellik haritalarının çözünürlüğünü eşleştirerek sonuçlanır. Ayrıca, VAR çerçevesi, bir görüntüyü VAR öğrenimi için gerekli olan çok ölçekli ayrık simge haritalarına kodlamak için yeni bir çok ölçekli niceleme kodlayıcı geliştirir. VAR çerçevesi, VQGAN ile aynı mimariyi kullanır, ancak aşağıdaki görüntüde gösterilen algoritmalarla değiştirilmiş çok ölçekli niceleme katmanına sahiptir. 

Görsel OtoRegresif: Sonuçlar ve Deneyler

VAR çerçevesi, K ekstra evrişimli çok ölçekli bir niceleme şemasına sahip vanilya VQVAE mimarisini kullanır ve tüm ölçekler için paylaşılan bir kod kitabı ve 32'lik gizli bir dim kullanır. Ana odak noktası, model mimarisi tasarımının sayesinde VAR algoritmasında yatmaktadır. basit ama etkili tutulur. Çerçeve, GPT-2 modellerinde uygulananlara benzer, standart bir yalnızca kod çözücü transformatörünün mimarisini benimser; tek değişiklik, uyarlanabilir normalleştirme veya AdaLN yerine geleneksel katman normalleştirmesinin kullanılmasıdır. Sınıf koşullu sentez için VAR çerçevesi, başlangıç ​​belirteci olarak sınıf yerleştirmelerini ve ayrıca uyarlanabilir normalleştirme katmanının koşulunu uygular. 

Son Teknoloji Görüntü Oluşturma Sonuçları

Aşağıdakiler de dahil olmak üzere mevcut üretken çerçevelerle eşleştirildiğinde: GAN'lar veya Üretken Rekabetçi Ağlar, BERT tarzı maskeli tahmin modelleri, difüzyon modelleri ve GPT tarzı otoregresif modeller, Visual AutoRegressive çerçevesi, aşağıdaki tabloda özetlenen umut verici sonuçları göstermektedir. 

Görülebileceği gibi, Visual AutoRegressive çerçevesi yalnızca FID ve IS puanlarını en iyi şekilde elde etmekle kalmıyor, aynı zamanda son teknoloji modellerle karşılaştırılabilecek olağanüstü görüntü oluşturma hızı da sergiliyor. Ayrıca VAR çerçevesi, anlamsal tutarlılığını doğrulayan tatmin edici kesinlik ve geri çağırma puanlarını da korur. Ancak asıl sürpriz, VAR çerçevesinin geleneksel AR yetenekleri görevlerinde sunduğu olağanüstü performanstır; bu, aşağıdaki tabloda gösterildiği gibi, onu bir Difüzyon Transformatörü modelinden daha iyi performans gösteren ilk otoregresif model haline getirmektedir. 

Sıfır Atışlı Görev Genelleştirme Sonucu

İç ve dış boyama görevleri için, VAR çerçevesi öğretmeni temel doğruluk belirteçlerini maskenin dışına zorlar ve modele hiçbir sınıf etiketi bilgisi enjekte edilmeden modelin yalnızca maske içindeki belirteçleri oluşturmasına izin verir. Sonuçlar aşağıdaki resimde gösterilmektedir ve görülebileceği gibi, VAR modeli, parametreleri ayarlamadan veya ağ mimarisini değiştirmeden aşağı akış görevlerinde kabul edilebilir sonuçlar elde ederek, VAR çerçevesinin genelleştirilebilirliğini göstermektedir. 

Son Düşüncelerimiz

Bu makalede, 1) standart görüntü otoregresif (AR) modellerinde bulunan bazı sorunları teorik olarak ele alan ve 2) dil modeli tabanlı AR modellerinin ilk önce üstün olmasını sağlayan, Visual AutoRegressive modelleme (VAR) adlı yeni bir görsel üretken çerçeveden bahsettik. görüntü kalitesi, çeşitlilik, veri verimliliği ve çıkarım hızı açısından güçlü yayılma modelleri. Bir yandan geleneksel otoregresif modeller tanımlanmış bir veri sırası gerektirirken diğer yandan Görsel OtoRegresif veya VAR modeli bir görüntünün nasıl sıralanacağını yeniden ele alır ve VAR'ı mevcut AR yöntemlerinden ayıran şey budur. VAR'ı 2 milyar parametreye ölçeklendirdikten sonra, VAR çerçevesinin geliştiricileri, test performansı ile model parametreleri veya eğitim hesaplaması arasında net bir güç yasası ilişkisi gözlemledi; Pearson katsayıları -0.998'e yaklaştı ve bu da performans tahmini için sağlam bir çerçeveye işaret ediyor. LLM'lerin ayırt edici özellikleri olan bu ölçeklendirme yasaları ve sıfır atışlı görev genelleştirme olasılığı, artık ilk olarak VAR transformatör modellerimizde doğrulandı. 

"Meslek olarak bir mühendis, ezbere bir yazar". Kunal, yapay zeka ve makine öğrenimine derin bir sevgi ve anlayışa sahip, ilgi çekici ve bilgilendirici belgeleriyle bu alanlardaki karmaşık kavramları basitleştirmeye kendini adamış bir teknik yazardır.