tunggul Modeling Autoregressive Visual: Generasi Gambar Scalable via Prediksi Skala Salajengna - Unite.AI
Connect with kami

Kacerdasan buatan

Visual Autoregressive Modeling: Scalable Gambar Generation via Next-Skala Prediksi

mm

dimuat

 on

Visual Autoregressive Modeling: Scalable Gambar Generation via Next-Skala Prediksi

Munculna model GPT, babarengan jeung autoregressive séjén atawa AR model basa badag Har unfurled a epoch anyar dina widang mesin learning, sarta kecerdasan jieunan. Modél GPT sareng autoregressive sering nunjukkeun kacerdasan umum sareng kabébasan anu dianggap léngkah anu penting pikeun kacerdasan jieunan umum atanapi AGI sanaos gaduh sababaraha masalah sapertos halusinasi. Sanajan kitu, masalah ngahudangkeun tatarucingan kalawan model badag ieu mangrupa strategi learning timer diawasan anu ngamungkinkeun model pikeun ngaduga token salajengna dina urutan, strategi basajan acan éféktif. Karya panganyarna geus nunjukkeun kasuksésan model autoregressive badag ieu, panyorot generalizability na scalability maranéhanana. Skalabilitas mangrupikeun conto umum tina undang-undang skala anu tos aya anu ngamungkinkeun para panalungtik pikeun ngaduga kinerja model ageung tina kinerja model anu langkung alit, hasilna alokasi sumber daya anu langkung saé. Di sisi séjén, generalisasi mindeng dibuktikeun ku strategi diajar kawas zero-shot, one-shot jeung sababaraha-shot learning, nyorot kamampuh model unsupervised acan dilatih pikeun adaptasi jeung tugas rupa-rupa tur ghaib. Kalawan babarengan, generalisasi sareng skalabilitas ngungkabkeun poténsi model autoregressive pikeun diajar tina sajumlah data anu teu dilabélan. 

Ngawangun sami, dina artikel ieu, urang bakal ngobrol ngeunaan Visual AutoRegressive atawa kerangka VAR, pola generasi anyar nu ngartikeun ulang pangajaran autoregressive dina gambar salaku kasar-ka-halus "prediksi resolusi salajengna" atawa "prediksi skala salajengna" . Sanaos saderhana, pendekatanna efektif sareng ngamungkinkeun trafo autoregressive diajar distribusi visual anu langkung saé, sareng ningkatkeun generalisasi. Salajengna, modél Visual AutoRegressive ngamungkinkeun modél autoregressive gaya GPT pikeun ngalangkungan transfer difusi dina generasi gambar pikeun kahiji kalina. Ékspérimén ogé nunjukkeun yén kerangka VAR ningkatkeun garis dasar autoregressive sacara signifikan, sareng langkung saé dina kerangka Diffusion Transformer atanapi DiT dina sababaraha dimensi kalebet efisiensi data, kualitas gambar, skalabilitas, sareng kagancangan inferensi. Salajengna, skala up model Visual AutoRegressive demonstrate hukum skala kakuatan-hukum nu sarupa jeung nu dititénan ku model basa badag, sarta ogé mintonkeun enol-shot kamampuhan generalisasi dina tugas hilir kaasup éditan, in-lukisan, sarta kaluar-lukisan. 

Tulisan ieu tujuanana pikeun nutupan kerangka Visual AutoRegressive sacara jero, sareng urang ngajalajah mékanisme, metodologi, arsitéktur kerangka sareng ngabandingkeunana sareng kaayaan kerangka seni. Urang ogé bakal ngobrol ngeunaan kumaha kerangka Visual AutoRegressive nunjukkeun dua sipat penting tina LLMs: Skala Hukum sareng generalisasi enol-shot. Ku kituna hayu urang ngamimitian.

Visual AutoRegressive Modeling: Skala Gambar Generation

Hiji pola umum diantara model basa badag panganyarna nyaeta palaksanaan strategi learning timer diawasan, pendekatan basajan acan éféktif nu ngaramalkeun token salajengna dina urutan. Hatur nuhun kana pendekatan, autoregressive jeung model basa badag kiwari geus nunjukkeun scalability luar biasa ogé generalizability, sipat nu nembongkeun potensi model autoregressive diajar tina pool badag data unlabeled, ku kituna nyimpulkeun hakekat General Artificial Intelligence. Saterusna, panalungtik dina widang visi komputer geus digawé paralel pikeun ngamekarkeun autoregressive badag atawa model dunya kalawan tujuan pikeun cocog atawa ngaleuwihan scalability impressive maranéhanana jeung generalizability, jeung model kawas DALL-E jeung VQGAN geus demonstrating potensi model autoregressive di lapangan. tina generasi gambar. Modél ieu mindeng nerapkeun tokenizer visual nu ngagambarkeun atawa perkiraan gambar kontinyu kana grid of tokens 2D, nu lajeng flattened kana runtuyan 1D pikeun autoregressive learning, sahingga mirroring prosés modeling basa sequential. 

Tapi, panalungtik can ngajajah hukum skala model ieu, sarta naon leuwih frustrating kanyataan yén kinerja model ieu mindeng ragrag balik model difusi ku margin signifikan, sakumaha ditémbongkeun dina gambar di handap ieu. Celah dina kinerja nunjukkeun yén lamun dibandingkeun model basa badag, kamampuhan model autoregressive dina visi komputer underexplored. 

Di hiji sisi, model autoregressive tradisional merlukeun urutan data nu tangtu, sedengkeun di sisi séjén, Visual AutoRegressive atawa modél VAR nimbangkeun balik kumaha carana mesen hiji gambar, sarta ieu anu ngabedakeun VAR ti métode AR aya. Ilaharna, manusa nyieun atawa ngarasa hiji gambar dina ragam hirarkis, néwak struktur global dituturkeun ku rinci lokal, pendekatan multi-skala, kasar-ka-halus anu nunjukkeun urutan pikeun gambar sacara alami. Salajengna, ngagambar inspirasi tina desain multi-skala, kerangka VAR ngahartikeun pangajaran autoregressive pikeun gambar salaku prediksi skala salajengna sabalikna pendekatan konvensional anu nangtukeun pembelajaran salaku prediksi token salajengna. Pendekatan anu dilaksanakeun ku kerangka VAR dilaksanakeun ku ngodekeun gambar kana peta token multi-skala. kerangka lajeng dimimitian prosés autoregressive ti 1 × 1 peta token, sarta expands dina resolusi progressively. Dina unggal léngkah, trafo ngaramalkeun peta token résolusi anu langkung luhur anu dikondisikeun kana sadaya anu sateuacana, hiji metodologi anu dirujuk ku kerangka VAR salaku modél VAR. 

Kerangka VAR nyoba ngungkit arsitéktur trafo GPT-2 pikeun pembelajaran autoregressive visual, sarta hasilna dibuktikeun dina benchmark ImageNet dimana model VAR ngaronjatkeun garis dasar AR na sacara signifikan, ngahontal FID 1.80, sarta skor awal 356 sapanjang. kalawan 20x pamutahiran dina speed inferensi. Anu langkung pikaresepeun nyaéta kerangka VAR tiasa ngaleuwihan kinerja kerangka DiT atanapi Diffusion Transformer dina hal skor FID & IS, skalabilitas, laju inferensi, sareng efisiensi data. Saterusna, modél Visual AutoRegressive némbongkeun hukum skala kuat sarupa jeung nu disaksian dina model basa badag. 

Pikeun nyimpulkeun éta, kerangka VAR nyobian ngadamel kontribusi di handap ieu. 

  1. Ieu proposes kerangka generative visual anyar anu ngagunakeun pendekatan autoregressive multi-skala kalawan prediksi skala salajengna, sabalikna tina prediksi hareup-token tradisional, hasilna ngarancang algoritma autoregressive pikeun tugas visi komputer. 
  2. Ieu nyobian sangkan méré konfirmasi hukum skala pikeun model autoregressive sapanjang kalawan poténsi generalisasi enol-shot nu emulates sipat pikaresepeun tina LLMs. 
  3. Éta nawiskeun terobosan dina pagelaran modél autoregressive visual, ngamungkinkeun kerangka autoregressive gaya GPT pikeun ngaleuwihan anu aya. modél difusi dina tugas sintésis gambar pikeun kahiji kalina kantos. 

Salaku tambahan, penting ogé pikeun ngabahas undang-undang skala kakuatan-hukum anu sacara matematis ngajelaskeun hubungan antara ukuran set data, parameter modél, perbaikan kinerja, sareng sumber komputasi modél pembelajaran mesin. Kahiji, undang-undang skala kakuatan-hukum ieu ngagampangkeun aplikasi kinerja modél anu langkung ageung ku cara ngagedékeun ukuran modél, biaya komputasi, sareng ukuran data, ngahémat biaya anu teu perlu sareng ngalokasikeun anggaran pelatihan ku cara nyayogikeun prinsip. Kadua, undang-undang skala parantos nunjukkeun paningkatan kinerja anu konsisten sareng henteu jenuh. Maju sareng prinsip hukum skala dina modél basa saraf, sababaraha LLM ngawujudkeun prinsip yén ningkatkeun skala modél condong ngahasilkeun hasil kinerja anu ditingkatkeun. Generalisasi nol-shot di sisi séjén nujul kana kamampuh model, utamana hiji LLM nu ngalakukeun tugas eta teu acan dilatih dina eksplisit. Dina domain visi komputer, minat ngawangun dina zero-shot, sareng kamampuan diajar dina kontéks modél yayasan. 

Model basa ngandelkeun algoritma WordPiece atanapi pendekatan Byte Pair Encoding pikeun tokenisasi téks. Modél generasi visual dumasar kana modél basa ogé ngandelkeun pisan kana encoding gambar 2D kana runtuyan token 1D. Karya awal sapertos VQVAE nunjukkeun kamampuan pikeun ngagambarkeun gambar salaku token diskrit kalayan kualitas rekonstruksi sedeng. Panerusna VQVAE, kerangka VQGAN ngalebetkeun karugian persépsi sareng lawan pikeun ningkatkeun kasatiaan gambar, sareng ogé ngagunakeun trafo ngan ukur dekoder pikeun ngahasilkeun token gambar dina cara autoregressive raster-scan standar. Modél difusi di sisi anu sanés parantos lami dianggap pangheulana pikeun tugas sintésis visual anu nyayogikeun karagamanna, sareng kualitas generasi anu unggul. Kamajuan modél difusi parantos dipuseurkeun kana ningkatkeun téknik sampling, perbaikan arsitéktur, sareng sampling anu langkung gancang. Model difusi laten nerapkeun difusi dina rohangan laten anu ningkatkeun efisiensi latihan sareng inferensi. Modél Diffusion Transformer ngagentos arsitéktur U-Net tradisional kalayan arsitéktur dumasar-trafo, sareng éta parantos dianggo dina modél sintésis gambar atanapi vidéo énggal sapertos SORA, sareng Difusi Stabil

Visual AutoRegressive: Métodologi jeung Arsitéktur

Dina inti na, kerangka VAR boga dua tahap latihan diskrit. Dina tahap kahiji, hiji autoencoder quantized multi-skala atawa VQVAE encodes hiji gambar kana peta token, sarta leungitna rekonstruksi sanyawa dilaksanakeun pikeun tujuan latihan. Dina gambar di luhur, embedding mangrupakeun kecap dipaké pikeun ngartikeun ngarobah token diskrit kana véktor embedding kontinyu. Dina tahap kadua, trafo dina modél VAR dilatih ku cara ngaminimalkeun leungitna cross-éntropi atanapi ku maksimalkeun kamungkinan ngagunakeun pendekatan prediksi skala salajengna. VQVAE anu dilatih teras ngahasilkeun bebeneran taneuh peta token pikeun kerangka VAR. 

Modeling Autoregressive via Prediksi Next-Token

Pikeun runtuyan token diskrit anu tangtu, dimana unggal token mangrupa integer tina kosakata ukuran V, model autoregressive hareup-token nempatkeun maju yén kamungkinan observasi token ayeuna gumantung ngan dina awalan na. Anggap katergantungan token unidirectional ngamungkinkeun kerangka VAR pikeun nguraikeun kasempetan sekuen kana produk probabiliti kondisional. Latihan model autoregressive ngalibatkeun optimizing model sakuliah dataset, sarta prosés optimasi ieu katelah prediksi salajengna-token, sarta ngidinan model dilatih pikeun ngahasilkeun runtuyan anyar. Saterusna, gambar mangrupakeun sinyal kontinyu 2D ku warisan, sarta pikeun nerapkeun pendekatan modeling autoregressive kana gambar via prosés optimasi prediksi hareup-token boga sababaraha prerequisites. Kahiji, gambar perlu tokenized kana sababaraha tokens diskrit. Biasana, autoencoder dikuantisasi dilaksanakeun pikeun ngarobih peta fitur gambar kana token diskrit. Kadua, urutan 1D of tokens kudu dihartikeun pikeun modeling unidirectional. 

The tokens gambar dina tokens diskrit disusun dina grid 2D, sarta teu saperti kalimah basa alam nu inherently boga urutan kénca ka katuhu, urutan tokens gambar kudu dihartikeun eksplisit pikeun unidirectional autoregressive learning. Pendekatan autoregressive saméméhna ngaratakeun grid 2D tina token diskrit kana runtuyan 1D ngagunakeun métode kawas scan raster baris-utama, z-kurva, atawa urutan spiral. Sakali token diskrit ieu flattened, model AR sasari susunan runtuyan tina dataset, lajeng ngalatih model autoregressive pikeun maksimalkeun pungsi likelihood kana produk tina probabiliti kondisional T ngagunakeun prediksi hareup-token. 

Modeling Visual-AutoRegressive via Prediksi Skala Salajengna

Kerangka VAR reconceptualizes modeling autoregressive on gambar ku mindahkeun tina prediksi hareup-token ka pendekatan prediksi skala salajengna, prosés nu tinimbang keur token tunggal, unit autoregressive mangrupa sakabéh peta token. Modél mimiti ngitung peta fitur kana peta token multi-skala, masing-masing kalayan résolusi anu langkung luhur tibatan anu sateuacana, sareng puncakna ku cocog sareng résolusi peta fitur asli. Saterusna, kerangka VAR ngamekarkeun encoder kuantisasi multi-skala anyar pikeun ngodekeun gambar kana peta token diskrit multi-skala, dipikabutuh pikeun diajar VAR. Kerangka VAR nganggo arsitéktur anu sami sareng VQGAN, tapi kalayan lapisan kuantisasi multi-skala anu dirobih, kalayan algoritma anu ditingalikeun dina gambar di handap ieu. 

Visual AutoRegressive: Hasil sareng Percobaan

Kerangka VAR nganggo arsitéktur vanili VQVAE kalayan skéma kuantisasi multi-skala kalayan konvolusi tambahan K, sareng nganggo buku kode anu dibagi pikeun sadaya skala sareng taram laten 32. Fokus utami perenahna dina algoritma VAR kusabab desain arsitéktur modél. tetep basajan tapi éféktif. Kerangka ieu ngadopsi arsitéktur trafo ukur-dekoder standar anu sami sareng anu dilaksanakeun dina modél GPT-2, sareng hiji-hijina modifikasi nyaéta substitusi normalisasi lapisan tradisional pikeun normalisasi adaptif atanapi AdaLN. Pikeun sintésis kondisional kelas, kerangka VAR nerapkeun embeddings kelas salaku token mimiti, sarta ogé kaayaan lapisan normalisasi adaptif. 

Kaayaan Hasil Generasi Gambar Seni

Nalika dipasangkeun ngalawan frameworks generative aya kaasup GAN atanapi Generative Adversarial Networks, Model prediksi masked BERT-gaya, model difusi, sarta model autoregressive GPT-gaya, kerangka Visual AutoRegressive nembongkeun hasil ngajangjikeun diringkeskeun dina tabel di handap ieu. 

Salaku bisa dititénan, kerangka Visual AutoRegressive teu ukur bisa pangalusna FID sarta skor IS, tapi ogé mendemonstrasikan speed generasi gambar luar biasa, comparable kana kaayaan tina model seni. Saterusna, kerangka VAR ogé ngajaga precision nyugemakeun jeung skor ngelingan, nu confirms konsistensi semantis na. Tapi reuwas nyata kinerja luar biasa dikirimkeun ku kerangka VAR on tugas kamampuhan AR tradisional, sahingga model autoregressive munggaran nu outperformed model Difusi Transformer, sakumaha ditémbongkeun dina tabel di handap ieu. 

Hasil Generalisasi Tugas Zero-Shot

Pikeun pancén ngalukis kaluar-asup, guru kerangka VAR maksakeun token bebeneran taneuh di luar topéng, sareng ngantepkeun modél ngan ukur ngahasilkeun token dina topéng, tanpa inpormasi labél kelas anu disuntikkeun kana modél. Hasilna ditingalikeun dina gambar di handap ieu, sareng sakumaha anu katingali, modél VAR ngahontal hasil anu tiasa ditampi dina tugas hilir tanpa parameter tuning atanapi ngarobih arsitéktur jaringan, nunjukkeun kamampuan umum kerangka VAR. 

Pikiran final

Dina artikel ieu, urang geus ngobrol ngeunaan kerangka generative visual anyar ngaranna Visual AutoRegressive modeling (VAR) yén 1) sacara téoritis alamat sababaraha masalah alamiah dina standar gambar autoregressive (AR) model, jeung 2) ngajadikeun model AR basis basa-model munggaran ngaleuwihan. model difusi kuat dina hal kualitas gambar, diversity, efisiensi data, jeung speed inferensi. Di hiji sisi, model autoregressive tradisional merlukeun urutan data nu tangtu, sedengkeun di sisi séjén, Visual AutoRegressive atawa modél VAR nimbangkeun balik kumaha carana mesen hiji gambar, sarta ieu anu ngabedakeun VAR ti métode AR aya. Saatos skala VAR kana 2 milyar parameter, pamekar kerangka VAR niténan hubungan kakuatan-hukum anu jelas antara kinerja tés sareng parameter modél atanapi komputasi latihan, kalayan koefisien Pearson ngadeukeutan −0.998, nunjukkeun kerangka anu kuat pikeun prediksi kinerja. Undang-undang skala ieu sareng kamungkinan generalisasi tugas nol-shot, salaku ciri khas LLM, ayeuna parantos diverifikasi dina modél trafo VAR kami. 

"Insinyur ku profési, panulis ku haté". Kunal mangrupikeun panulis téknis anu mikanyaah sareng pamahaman anu jero ngeunaan AI sareng ML, didédikasikeun pikeun nyederhanakeun konsép anu kompleks dina widang ieu ngaliwatan dokuméntasi anu pikaresepeun sareng informatif.