tunggul HD-Painter: Inpainting Gambar Dipandu Téks Resolusi Tinggi sareng Modél Difusi - Unite.AI
Connect with kami

Kacerdasan buatan

HD-Painter: Inpainting Gambar Dipandu Téks Resolusi Tinggi sareng Model Difusi

mm

dimuat

 on

HD-Painter: Inpainting Gambar Dipandu Téks Resolusi Tinggi sareng Model Difusi

Modél difusi geus undoubtedly revolutionized industri AI jeung ML, kalawan aplikasi maranéhanana sacara real-time jadi bagian integral kahirupan urang sapopoé. Saatos modél téks-ka-gambar nunjukkeun kamampuan anu luar biasa, téknik manipulasi gambar dumasar difusi, sapertos generasi anu tiasa dikontrol, sintésis gambar khusus sareng pribadi, éditan gambar tingkat obyék, variasi anu dikondisikeun, sareng éditan, muncul salaku topik panalungtikan anu panas. pikeun aplikasi maranéhanana dina industri visi komputer.

Sanajan kitu, sanajan kamampuhan impressive maranéhanana sarta hasil luar biasa, frameworks text-to-image, utamana text-to-image inpainting frameworks, masih boga wewengkon poténsial pikeun ngembangkeun. Ieu kalebet kamampuan ngartos pamandangan global, khususna nalika nyéépkeun gambar dina léngkah-léngkah difusi anu luhur. Ngabéréskeun masalah ieu, panalungtik ngenalkeun HD-Painter, kerangka lengkep tanpa palatihan anu leres-leres nuturkeun paréntah sareng skala pikeun ngalukis gambar résolusi luhur sacara koheren. Kerangka HD-Painter nganggo lapisan Prompt Aware Introverted Attention (PAIntA), anu ngungkit inpormasi ajakan pikeun ningkatkeun skor perhatosan diri, nyababkeun generasi alignment téks anu langkung saé.

Pikeun ningkatkeun kohérénsi ajakan, modél HD-Painter ngenalkeun pendekatan Reweighting Attention Score Guidance (RASG). Pendekatan ieu ngahijikeun strategi sampling post-hoc kana bentuk umum komponén DDIM sacara mulus, nyegah pergeseran laten kaluar-distribusi. Salaku tambahan, kerangka HD-Painter gaduh téknik super-resolusi khusus anu disaluyukeun pikeun ngalukis, ngamungkinkeun éta manjangkeun kana skala anu langkung ageung sareng ngalengkepan daérah anu leungit dina gambar kalayan résolusi dugi ka 2K.

HD-Painter: Téks-dipandu Gambar Inpainting

Modél difusi téks-ka-gambar memang parantos janten topik anu penting dina industri AI sareng ML dina sababaraha bulan ayeuna, kalayan modél nunjukkeun kamampuan sacara real-time anu pikaresepeun dina sababaraha aplikasi praktis. Modél generasi téks-ka-gambar anu tos dilatih sapertos DALL-E, Imagen, sareng Stable Diffusion parantos nunjukkeun kasesuaianna pikeun ngalengkepan gambar ku cara ngahijikeun daérah anu teu dipikanyaho (dihasilkeun) sareng daérah anu dipikanyaho disebarkeun salami prosés difusi mundur. Sanajan ngahasilkeun kaluaran visually pikaresepeun tur well-harmonized, model aya bajoang pikeun ngarti adegan global, utamana dina prosés denoising timestep difusi tinggi. Ku ngaropea modél difusi téks-ka-gambar anu tos dilatih pikeun ngalebetkeun inpormasi kontéks tambahan, aranjeunna tiasa disaluyukeun pikeun ngalengkepan gambar anu dipandu téks.

Saterusna, dina model difusi, inpainting dipandu téks jeung téks-dipandu gambar parantosan wewengkon utama dipikaresep ku panalungtik. Minat ieu didorong ku kanyataan yén modél lukisan anu dipandu téks tiasa ngahasilkeun kontén di daérah khusus tina gambar input dumasar kana paréntah tékstual, ngarah kana aplikasi poténsial sapertos rétouching daérah gambar khusus, ngarobih atribut subjek sapertos warna atanapi baju, sareng nambihan atanapi ngaganti objék. Kasimpulanana, modél difusi téks-ka-gambar anyar-anyar ieu ngahontal kasuksésan anu teu pernah terjadi, kusabab kamampuan generasi anu réalistis sareng pikaresepeun sacara visual.

Tapi, seuseueurna kerangka anu tos aya nunjukkeun ngalalaworakeun gancang dina dua skénario. Anu kahiji nyaéta Latar Dominasi lamun model ngalengkepan wewengkon kanyahoan ku ignoring ajakan di tukang sedengkeun skenario kadua dominasi objék caket dieu lamun model nyebarkeun objék wewengkon dipikawanoh ka wewengkon kanyahoan ngagunakeun likelihood konteks visual tinimbang ajakan input. Aya kamungkinan yén duanana masalah ieu bisa jadi hasil tina vanili inpainting kamampuhan difusi urang napsirkeun ajakan tékstual akurat atawa nyampur jeung informasi kontekstual dicandak ti wewengkon dipikawanoh. 

Pikeun ngatasi halangan-halangan ieu, kerangka HD-Painter ngenalkeun Prompt Aware Introverted Attention atanapi lapisan PAINtA, anu ngagunakeun inpormasi ajakan pikeun ningkatkeun skor perhatian diri anu pamustunganana ngahasilkeun alignment téks anu langkung saé. PAIntA nganggo udar tékstual anu dipasihkeun pikeun ningkatkeun perhatian diri skor kalawan tujuan pikeun ngurangan dampak informasi relevan non-prompt ti wewengkon gambar bari dina waktos anu sareng ngaronjatkeun kontribusi ti piksel dipikawanoh Blok kalawan ajakan. Pikeun langkung ningkatkeun alignment téks tina hasil anu dihasilkeun, kerangka HD-Painter ngalaksanakeun metodeu pituduh post-hoc anu ngungkit skor cross-perhatian. Sanajan kitu, palaksanaan mékanisme pituduh post-hoc vanili bisa ngabalukarkeun kaluar tina shifts distribusi salaku hasil tina istilah gradién tambahan dina persamaan difusi. Kaluar tina shift distribusi pamustunganana bakal ngakibatkeun degradasi kualitas kaluaran dihasilkeun. Pikeun ngarengsekeun halangan jalan ieu, kerangka HD-Painter nerapkeun Reweighting Attention Score Guidance atanapi RASG, metode anu ngahijikeun strategi sampling post-hoc kana bentuk umum komponén DDIM sacara mulus. Hal ieu ngamungkinkeun kerangka pikeun ngahasilkeun hasil inpainting visually masuk akal ku guiding sampel ka arah latent-Blok ajakan, sarta ngandung aranjeunna dina domain dilatih maranéhanana.

Ku nyebarkeun komponén RASH sareng PAIntA dina arsitékturna, kerangka HD-Painter gaduh kaunggulan anu signifikan pikeun anu aya, kalebet kaayaan seni, lukisan, sareng téks kana modél difusi gambar sabab éta tiasa ngabéréskeun masalah anu aya dina ngalalaworakeun ajakan. Salaku tambahan, komponén RASH sareng PAIntA nawiskeun fungsionalitas plug and play, anu ngamungkinkeun aranjeunna cocog sareng modél inpainting dasar difusi pikeun ngatasi tantangan anu disebatkeun di luhur. Saterusna, ku nerapkeun téhnologi blending waktu-iterative sarta ku leveraging kamampuhan model difusi resolusi luhur, pipa HD-Painter tiasa beroperasi sacara efektif dugi ka 2K résolusi inpainting. 

Pikeun nyimpulkeun éta, HD-Painter boga tujuan pikeun ngadamel kontribusi di handap ieu di lapangan:

  1. Tujuanana pikeun ngabéréskeun masalah ngalalaworakeun gancang tina latar tukang sareng dominasi objék caket dieu anu dialaman ku kerangka lukisan gambar dipandu téks ku ngalaksanakeun Prompt Aware Introverted Attention atanapi lapisan PAIntA dina arsitékturna. 
  2. Tujuanana pikeun ningkatkeun alignment téks kaluaran ku ngalaksanakeun Reweighting Attention Score Guidance atanapi RASG lapisan dina arsitékturna anu ngamungkinkeun kerangka HD-Painter pikeun ngalakukeun sampling dipandu post-hoc bari nyegah panyebaran shift. 
  3. Pikeun ngararancang pipa parantosan gambar anu dipandu téks tanpa latihan anu épéktip anu tiasa ngaunggulan kaayaan kerangka seni anu tos aya, sareng nganggo kerangka résolusi super-spésialisasi anu sederhana tapi efektif pikeun ngalakukeun gambar anu dipandu téks dina lukisan nepi ka resolusi 2K. 

HD-Painter: Métode jeung Arsitéktur

Sateuacan urang ningali arsitektur, penting pisan pikeun ngartos tilu konsép dasar anu ngawangun pondasi kerangka HD-Painter: Lukisan Gambar, Pitunjuk Post-Hoc dina Kerangka Difusi, jeung Inpainting Blok Arsitéktur husus. 

Inpainting Gambar mangrupikeun pendekatan anu tujuanana pikeun ngeusian daérah anu leungit dina gambar bari mastikeun daya tarik visual tina gambar anu dihasilkeun. Kerangka pembelajaran jero tradisional dilaksanakeun metode anu ngagunakeun daérah anu dipikanyaho pikeun nyebarkeun fitur anu jero. Sanajan kitu, bubuka model difusi geus hasil dina évolusi model inpainting, utamana frameworks inpainting gambar dipandu téks. Sacara tradisional, téks anu tos dilatih pikeun modél difusi gambar ngagentos daérah anu teu kedok tina laten ku cara ngagunakeun vérsi wilayah anu dipikanyaho nalika prosés sampling. Sanajan pendekatan ieu jalan ka extent, éta degrades kualitas kaluaran dihasilkeun nyata saprak jaringan denoising ngan ningali versi noised wewengkon dipikawanoh. Pikeun ngatasi halangan ieu, sababaraha pendekatan anu ditujukeun pikeun nyaluyukeun téks anu tos dilatih pikeun modél gambar pikeun ngahontal lukisan gambar anu dipandu téks. Ku ngalaksanakeun pendekatan ieu, kerangka tiasa ngahasilkeun topéng acak via concatenation sabab modél tiasa ngondisikeun kerangka denoising dina daérah anu teu kedok. 

Pindah sapanjang, model pembelajaran jero tradisional nerapkeun lapisan desain husus pikeun inpainting efisien kalawan sababaraha frameworks bisa nimba informasi éféktif tur ngahasilkeun gambar visually pikaresepeun ku ngawanohkeun lapisan konvolusi husus nungkulan wewengkon dipikawanoh tina gambar. Sababaraha kerangka malah nambihan lapisan perhatian kontekstual dina arsitékturna pikeun ngirangan sarat komputasi beurat anu teu dihoyongkeun sadayana ka sadaya perhatian diri pikeun lukisan kualitas luhur. 

Pamustunganana, métode pituduh Post-hoc nyaéta métode sampling difusi mundur anu nungtun prediksi laten lengkah satuluyna nuju tujuan ngaminimalkeun fungsi tinangtu. Métode bimbingan post-hoc mangrupikeun bantosan anu saé pikeun ngahasilkeun kontén visual khususna ku ayana konstrain tambahan. Sanajan kitu, métode pituduh Post-hoc boga kalemahan utama: aranjeunna dipikawanoh ngabalukarkeun degradasi kualitas gambar sabab condong mindahkeun prosés generasi laten ku istilah gradién. 

Datang ka arsitéktur HD-Painter, kerangka mimiti ngarumuskeun masalah ngalengkepan gambar dipandu téks, teras ngenalkeun dua modél difusi nyaéta Stable Inpainting sareng Difusi Stabil. Modél HD-Painter teras ngenalkeun PAIntA sareng blok RASG, sareng tungtungna urang dugi ka téknik résolusi super khusus pikeun lukisan. 

Difusi Stabil sareng Inpainting Stabil

Difusi Stabil nyaéta modél difusi anu beroperasi dina rohangan laten tina autoencoder. Pikeun sintésis téks kana gambar, kerangka Difusi Stable nerapkeun ajakan téks pikeun nungtun prosésna. Fungsi panuntun gaduh struktur anu sami sareng arsitéktur UNet, sareng lapisan cross-perhatian ngondisikeun kana paréntah tékstual. Saterusna, modél Difusi Stabil tiasa ngalakukeun inpainting gambar kalawan sababaraha modifikasi sarta fine-tuning. Pikeun ngahontal éta, fitur gambar masked dihasilkeun ku encoder ieu concatenated jeung downscaled topeng binér ka latents. Tensor anu dihasilkeun lajeng diasupkeun kana arsitéktur UNet pikeun meunangkeun estimasi noise. Kerangka ieu teras ngamimitian saringan konvolusi anu nembé ditambah ku nol sedengkeun sésa UNet diinisialisasi nganggo titik pamariksaan anu tos dilatih tina modél Difusi Stable. 

Gambar di luhur nunjukkeun gambaran ngeunaan kerangka HD-Painter anu diwangun ku dua tahap. Dina tahap kahiji, kerangka HD-Painter ngalaksanakeun lukisan gambar anu dipandu téks, sedengkeun dina tahap kadua, modél ngalukiskeun resolusi super khusus tina kaluaran. Pikeun ngeusian wilayah misi sareng tetep konsisten sareng ajakan input, modél nyandak modél difusi inpainting anu tos dilatih, ngagentos lapisan perhatian diri sareng lapisan PAIntA, sareng ngalaksanakeun mékanisme RASG pikeun ngalaksanakeun prosés difusi mundur. Modél lajeng decodes diperkirakeun final laten hasilna gambar inpainted. HD-Painter teras nerapkeun modél difusi super stabil pikeun ngalukis gambar ukuran asli, sareng ngalaksanakeun prosés mundur difusi kerangka Difusi Stabil anu dikondisikeun dina gambar input résolusi rendah. Modél ieu ngagabungkeun prediksi anu diturunkeun sareng panyandian gambar asli saatos unggal léngkah di daérah anu dipikanyaho sareng ngahasilkeun laten salajengna. Tungtungna, modél nga-decode laten sareng nerapkeun campuran Poisson pikeun nyegah artefak tepi. 

Prompt Aware Introverted Attention or PAIntA

Modél inpainting anu aya sapertos Stable Inpainting condong langkung ngandelkeun kontéks visual di sabudeureun daérah inpainting sareng teu malire paréntah pangguna input. Dumasar kana pangalaman pangguna, masalah ieu tiasa digolongkeun kana dua kelas: dominasi objék caket dieu sareng dominasi latar. Isu dominasi kontéks visual dina paréntah input tiasa janten hasil tina hiji-hijina sipat spasial sareng bébas ajakan tina lapisan perhatian diri. Pikeun ngatasi masalah ieu, kerangka HD-Painter ngenalkeun Prompt Aware Introverted Attention atanapi PAIntA anu ngagunakeun matriks cross-perhatian sareng topéng inpainting pikeun ngontrol kaluaran lapisan perhatian diri di daérah anu teu dipikanyaho. 

Komponén Prompt Aware Introverted Attention mimitina nerapkeun lapisan proyéksi pikeun meunangkeun konci, nilai, sareng patarosan sareng matriks kasaruaan. Modél ieu teras nyaluyukeun skor perhatian piksel anu dipikanyaho pikeun ngirangan pangaruh kuat daérah anu dipikanyaho dina daérah anu teu dipikanyaho, sareng netepkeun matriks kasaruaan énggal ku cara ngungkit ajakan téks. 

Reweighting Pitunjuk Skor Perhatosan atanapi RASG

Kerangka HD-Painter ngadopsi metode bimbingan sampling post-hoc pikeun ningkatkeun alignment generasi sareng paréntah tékstual langkung jauh. Marengan hiji fungsi obyektif, pendekatan pituduh sampling post-hoc boga tujuan pikeun ngungkit sipat segmentation open-vocabulary tina lapisan cross-perhatian. Sanajan kitu, pendekatan ieu vanili post-hoc hidayah boga potensi pikeun mindahkeun domain difusi laten nu bisa ngaruksak kualitas gambar dihasilkeun. Pikeun nungkulan masalah ieu, modél HD-Painter nerapkeun Reweighting Attention Score Guidance atanapi RASG mékanisme anu ngawanohkeun mékanisme gradién reweighting hasilna pelestarian domain laten. 

HD-Painter: Percobaan sareng Hasil

Pikeun nganalisa kinerjana, kerangka HD-Painter dibandingkeun sareng kaayaan modél seni ayeuna kalebet Stable Inpainting, GLIDE, sareng BLD atanapi Blended Latent Diffusion langkung ti 10000 conto acak dimana ajakan dipilih salaku labél tina topéng conto anu dipilih. 

Sakumaha anu tiasa dititénan, kerangka HD-Painter langkung seueur kerangka anu aya dina tilu métrik anu béda ku margin anu signifikan, khususna paningkatan 1.5 poin dina métrik CLIP sareng bédana skor akurasi anu dibangkitkeun sakitar 10% tina metodeu seni anu sanés. . 

Pindah sapanjang, inohong di handap nunjukkeun ngabandingkeun kualitatif kerangka HD-Painter kalawan frameworks inpainting séjén. Salaku bisa dititénan, model dasar séjén boh ngarekonstruksikeun wewengkon leungit dina gambar salaku tuluyan tina objék wewengkon dipikawanoh disregarding ajakan atawa maranéhna ngahasilkeun latar. Di sisi anu sanés, kerangka HD-Painter tiasa ngahasilkeun objék udagan anu suksés kusabab palaksanaan PAIntA sareng komponén RASG dina arsitékturna. 

Pikiran final

Dina artikel ieu, urang geus dikaitkeun HD-Painter, téks bébas palatihan dipandu pendekatan inpainting resolusi luhur nu alamat tantangan ngalaman ku frameworks inpainting aya kaasup ngalalaworakeun ajakan, sarta caket dieu na leuwih dominan obyék latar. Kerangka HD-Painter ngalaksanakeun hiji Prompt Aware Introverted Attention atawa lapisan PAIntA, anu ngagunakeun inpormasi ajakan pikeun ningkatkeun skor perhatian diri anu pamustunganana ngahasilkeun generasi alignment téks anu langkung saé. 

Pikeun ningkatkeun kohérénsi ajakan langkung jauh, modél HD-Painter ngenalkeun Reweighting Attention Score Guidance atanapi pendekatan RASG anu ngahijikeun strategi sampling post-hoc kana bentuk umum komponén DDIM sacara mulus pikeun nyegah panyebaran pergeseran laten. Salajengna, kerangka HD-Painter ngenalkeun téknik super-resolusi khusus anu disaluyukeun pikeun lukisan anu nyababkeun ékspansi kana skala anu langkung ageung, sareng ngamungkinkeun kerangka HD-Painter pikeun ngalengkepan daérah anu leungit dina gambar kalayan résolusi dugi ka 2K.

"Insinyur ku profési, panulis ku haté". Kunal mangrupikeun panulis téknis anu mikanyaah sareng pamahaman anu jero ngeunaan AI sareng ML, didédikasikeun pikeun nyederhanakeun konsép anu kompleks dina widang ieu ngaliwatan dokuméntasi anu pikaresepeun sareng informatif.