Kacerdasan buatan

InstantID: Generasi Ngawétkeun Idéntitas Zero-shot dina Detik

dimuat

bulan 2 ago

Maret 12, 2024

Téknologi generasi gambar anu dikuatkeun ku AI parantos nyaksian kamekaran anu luar biasa dina sababaraha taun ka pengker ti saprak téks ageung kana modél difusi gambar sapertos DALL-E, GLIDE, Stable Diffusion, Imagen, sareng seueur deui. Sanaos kanyataan yén modél AI generasi gambar gaduh arsitéktur sareng metode latihan anu unik, aranjeunna sadayana gaduh titik fokus anu umum: generasi gambar anu disaluyukeun sareng dipersonalisasi anu tujuanana pikeun nyiptakeun gambar kalayan ID karakter, subjek, sareng gaya anu konsisten dina dasar gambar rujukan. Kusabab kamampuan generatif anu luar biasa, kerangka AI generasi gambar modern parantos mendakan aplikasi dina widang kalebet animasi gambar, kanyataan virtual, E-Commerce, potret AI, sareng seueur deui. Nanging, sanaos kamampuan generatifna anu luar biasa, kerangka ieu sadayana gaduh halangan umum, seuseueurna aranjeunna henteu tiasa ngahasilkeun gambar anu disaluyukeun bari ngajaga detil idéntitas anu hipu tina objék manusa.

Ngahasilkeun gambar anu disaluyukeun bari ngajaga detil anu rumit penting pisan khususna dina tugas identitas raray manusa anu meryogikeun standar kasatiaan & detil anu luhur, sareng semantik bernuansa upami dibandingkeun sareng tugas ngahasilkeun gambar objék umum anu konsentrasi utamina dina tékstur sareng warna kasar. Salajengna, kerangka sintésis gambar anu dipersonalisasi dina taun-taun ayeuna sapertos LoRA, DreamBooth, Textual Inversion, sareng seueur deui parantos maju sacara signifikan. Sanajan kitu, model AI generatif gambar pribadi masih teu sampurna pikeun deployment dina skenario dunya nyata sabab boga syarat gudang tinggi, aranjeunna merlukeun sababaraha gambar rujukan, sarta aranjeunna mindeng boga prosés fine-tuning lengthy. Di sisi séjén, sanajan métode dumasar ID-embedding aya merlukeun ngan hiji rujukan maju tunggal, aranjeunna boh kakurangan kasaluyuan jeung model tos dilatih sadia masarakat awam, atawa maranéhna butuh prosés fine-tuning kaleuleuwihan dina sababaraha parameter, atawa maranéhna gagal pikeun ngajaga luhur. nyanghareupan kasatiaan.

Pikeun ngatasi tantangan ieu, sareng ningkatkeun kamampuan ngahasilkeun gambar, dina tulisan ieu, urang bakal ngobrol ngeunaan InstantID, solusi dumasar modél difusi pikeun ngahasilkeun gambar. InstantID mangrupikeun modul plug-and-play anu tiasa ngatur generasi gambar sareng personalisasi sacara adept dina sagala rupa gaya kalayan ngan ukur hiji gambar rujukan sareng ngajamin kasatiaan anu luhur. Tujuan utama artikel ieu nyaéta pikeun masihan pamiarsa urang pamahaman anu lengkep ngeunaan dasar-dasar téknis sareng komponén kerangka InstantID sabab urang bakal gaduh tampilan anu lengkep ngeunaan arsitektur modél, prosés pelatihan, sareng skenario aplikasi. Ku kituna hayu urang ngamimitian.

InstantID: Nol-Shot Identity-Preserving Gambar Generasi

Munculna model difusi téks kana gambar geus nyumbang signifikan dina kamajuan téhnologi generasi gambar. Tujuan utama model ieu ngaropéa tur pribadi generasi, sarta nyieun gambar kalawan subyek konsisten, gaya, sarta ID karakter ngagunakeun hiji atawa leuwih gambar rujukan. Kamampuh kerangka ieu pikeun nyiptakeun gambar anu konsisten parantos nyiptakeun aplikasi poténsial dina industri anu béda-béda kalebet animasi gambar, generasi potret AI, E-Commerce, realitas maya sareng ditambah, sareng seueur deui.

Sanajan kitu, sanajan kamampuhan maranéhanana luar biasa, frameworks ieu nyanghareupan tantangan fundamental: aranjeunna mindeng bajoang pikeun ngahasilkeun gambar ngaropéa nu ngajaga rinci intricate subjek manusa akurat. Perhatos yén ngahasilkeun gambar anu disaluyukeun sareng detil intrinsik mangrupikeun tugas anu nangtang sabab identitas raray manusa peryogi tingkat kasatiaan sareng detil anu langkung luhur sareng semantik anu langkung maju upami dibandingkeun sareng objék umum atanapi gaya anu museurkeun utamina kana warna atanapi tékstur kasar. Téks anu aya kana modél gambar gumantung kana déskripsi tékstual anu lengkep, sareng aranjeunna berjuang pikeun ngahontal relevansi semantis anu kuat pikeun ngahasilkeun gambar anu disesuaikan. Salajengna, sababaraha téks anu tos dilatih ageung kana kerangka gambar nambihan kadali udar spasial pikeun ningkatkeun kamampuan kontrol, ngagampangkeun kontrol struktural anu halus nganggo elemen sapertos pose awak, peta jero, sketsa anu ditarik ku pangguna, peta segmentasi semantik, sareng seueur deui. Sanajan kitu, sanajan tambahan ieu sarta perbaikan, frameworks ieu ngan bisa ngahontal kasatiaan parsial tina gambar dihasilkeun kana gambar rujukan.

Pikeun ngatasi halangan-halangan ieu, kerangka InstantID museurkeun kana sintésis gambar anu ngajaga identitas instan, sareng nyobian ngajambatan jurang antara efisiensi sareng kasatiaan anu luhur ku ngenalkeun modul plug and play saderhana anu ngamungkinkeun kerangka pikeun nanganan personalisasi gambar nganggo ngan hiji gambar raray. bari ngajaga kasatiaan luhur. Saterusna, pikeun ngawétkeun identitas raray tina gambar rujukan, kerangka InstantID nerapkeun hiji encoder raray novél nu nahan detil gambar intricate ku nambahkeun spasial lemah jeung kaayaan semantik kuat nu pituduh prosés generasi gambar ku ngasupkeun ajakan tékstual, gambar landmark, jeung gambar raray. .

Aya tilu fitur anu ngabédakeun anu misahkeun kerangka InstantID tina téks anu aya kana kerangka generasi gambar.

Kasaluyuan sareng Pluggability: Gantina latihan dina parameter pinuh ku kerangka UNet, kerangka InstantID museurkeun kana latihan adaptor lightweight. Hasilna, kerangka InstantID cocog sareng pluggable sareng modél anu tos dilatih.

Bébas Tuning: Métodologi kerangka InstantID ngaleungitkeun sarat pikeun fine-tuning sabab butuh ngan hiji rambatan maju tunggal pikeun inferensi, sahingga model kacida praktis tur ekonomis pikeun fine-tuning.
Kinerja Luhur: Kerangka InstantID nunjukkeun kalenturan sareng kasatiaan anu luhur sabab tiasa nganteurkeun pagelaran seni ngan ukur nganggo gambar rujukan tunggal, dibandingkeun sareng metode dumasar latihan anu ngandelkeun sababaraha gambar rujukan.

Gemblengna, kontribusi kerangka InstantID tiasa digolongkeun dina titik-titik ieu.

Kerangka InstantID mangrupikeun metode adaptasi anu ngawétkeun ID anu inovatif pikeun téks anu tos dilatih pikeun modél difusi gambar anu tujuanana pikeun ngajagi jurang antara efisiensi sareng kasatiaan.
Kerangka InstantID cocog sareng pluggable sareng modél anu disaluyukeun khusus nganggo modél difusi anu sami dina arsitékturna ngamungkinkeun pelestarian ID dina modél anu tos dilatih tanpa biaya tambahan.

InstantID: Métodologi sareng Arsitéktur

Sakumaha anu disebatkeun sateuacana, kerangka InstantID mangrupikeun adaptor ringan anu éfisién anu masihan téks anu tos dilatih pikeun modél difusi gambar kalayan kamampuan pelestarian ID sacara gampang.

Ngawangkong ngeunaan arsitéktur, kerangka InstantID diwangun dina luhureun éta Modél Difusi Stabil, Sohor pikeun kamampuanna pikeun ngalakukeun prosés difusi kalayan efisiensi komputasi anu luhur dina rohangan laten diménsi-rendah tinimbang rohangan piksel sareng encoder otomatis. Pikeun gambar input, encoder mimitina peta gambar ka ngagambarkeun laten kalawan faktor downsampling jeung dimensi laten. Satuluyna, pikeun ngaleungitkeun bising anu sebaran normal kalayan bising laten, kaayaan, sareng léngkah-léngkah ayeuna, prosés difusi ngadopsi komponén UNet anu nyéépkeun. Kaayaanana nyaéta nyelapkeun ajakan tékstual anu dibangkitkeun nganggo komponén encoder téks CLIP anu tos dilatih.

Salajengna, kerangka InstantID ogé ngagunakeun komponén ControlNet anu mampuh nambihan kontrol spasial kana modél difusi anu tos dilatih salaku kaayaanana, ngalegaan jalan saluareun kamampuan tradisional paréntah tékstual. Komponén ControlNet ogé ngahijikeun arsitéktur UNet tina kerangka Difusi Stable ngagunakeun réplikasi terlatih tina komponén UNet. Réplika komponén UNet ngagaduhan lapisan konvolusi nol dina blok tengah sareng blok encoder. Sanajan kamiripan maranéhna, komponén ControlNet distinguishes sorangan ti modél Difusi Stabil; duanana béda dina item residual dimungkinkeun. Komponén ControlNet ngodekeun inpormasi kaayaan spasial sapertos pose, peta jero, sketsa sareng seueur deui ku cara nambihan sésa-sésa ka Blok UNet, teras ngalebetkeun sésa-sésa ieu kana jaringan asli.

Kerangka InstantID ogé narik inspirasi ti IP-Adapter atanapi Image Prompt Adapter anu ngenalkeun pendekatan novel pikeun ngahontal kamampuan ajakan gambar anu sajajar sareng ajakan tékstual tanpa kedah ngarobih téks asli kana modél gambar. Komponén IP-Adaptor ogé ngagunakeun strategi cross-perhatian decoupled unik anu ngagunakeun lapisan cross-perhatian tambahan pikeun embed fitur gambar bari ninggalkeun parameter séjén unchanged.

métodologi

Pikeun masihan anjeun gambaran ringkes, kerangka InstantID tujuanana pikeun ngahasilkeun gambar anu disaluyukeun sareng gaya atanapi pose anu béda-béda ngan ukur nganggo gambar ID rujukan tunggal kalayan kasatiaan anu luhur. Gambar di handap sakeudeung nyadiakeun tinjauan kerangka InstantID.

Sakumaha anu tiasa dititénan, kerangka InstantID ngagaduhan tilu komponén penting:

Komponén ID embedding anu ngarebut inpormasi semantis anu kuat ngeunaan fitur raray dina gambar.
A modul diadopsi lightweight kalawan komponén cross-perhatian decoupled pikeun mempermudah pamakéan hiji gambar salaku ajakan visual.
Komponén IdentityNet anu ngodekeun fitur lengkep tina gambar rujukan ngagunakeun kontrol spasial tambahan.

ID Embedding

Beda sareng metodeu anu aya sapertos FaceStudio, PhotoMaker, IP-Adapter sareng seueur deui anu ngandelkeun encoder gambar CLIP anu tos dilatih pikeun nimba ajakan visual, kerangka InstantID museurkeun kana kasatiaan anu ditingkatkeun sareng detil semantik anu langkung kuat dina tugas pelestarian ID. Perhatoskeun yén watesan anu aya dina komponén CLIP utamina aya dina prosés palatihanna dina data anu saluyu sareng lemah hartosna fitur anu disandikeun tina encoder CLIP utamina ngarebut inpormasi semantis anu lega sareng ambigu sapertos warna, gaya, sareng komposisi. Sanajan fitur ieu bisa meta salaku suplement umum pikeun embeddings téks, aranjeunna henteu cocog pikeun tugas pelestarian ID tepat anu iklas tekenan beurat kana semantik kuat sarta kasatiaan tinggi. Saterusna, panalungtikan panganyarna dina model ngagambarkeun beungeut utamana sabudeureun pangakuan raray geus nunjukkeun efisiensi tina ngagambarkeun beungeut dina tugas kompléks kaasup rekonstruksi raray jeung pangakuan. Diwangun dina hal anu sami, kerangka InstantID tujuanana pikeun ngungkit modél pameunteu anu tos dilatih pikeun ngadeteksi sareng nimba embeddings ID wajah tina gambar rujukan, ngabimbing modél pikeun ngahasilkeun gambar.

Adaptor Gambar

Kamampuhan tina téks tos dilatih pikeun modél difusi gambar dina tugas ngadorong gambar ningkatkeun téks ajakan sacara signifikan, khususna pikeun skenario anu teu tiasa dijelaskeun cekap ku paréntah téks. Kerangka InstantID ngadopsi strategi anu nyarupaan anu dianggo ku modél IP-Adapter pikeun dorongan gambar, anu ngenalkeun modul adaptif anu hampang dipasangkeun sareng komponén cross-perhatian anu dipisahkeun pikeun ngadukung gambar salaku paréntah input. Sanajan kitu, sabalikna tina embeddings CLIP kasar-Blok, kerangka InstantID diverges ku employing embeddings ID sakumaha gambar nyarankeun dina usaha pikeun ngahontal integrasi gancang semantically euyeub tur leuwih bernuansa.

IdentityNet

Sanajan métode nu geus aya sanggup ngahijikeun ajakan gambar jeung ajakan téks, kerangka InstantID boga pamadegan yén métode ieu ngan ngaronjatkeun fitur kasar-grained kalawan tingkat integrasi nu teu cukup pikeun ID-preserveing generasi gambar. Saterusna, nambahkeun gambar jeung téks tokens dina cross-perhatian lapisan langsung condong ngaleuleuskeun kadali token téks, sarta usaha pikeun ngaronjatkeun kakuatan tokens gambar 'bisa ngakibatkeun impairing kamampuhan token téks dina tugas ngedit. Pikeun ngalawan tantangan ieu, kerangka InstantID milih ControlNet, hiji metodeu embedding fitur alternatif anu ngagunakeun informasi spasial salaku input pikeun modul controllable, sahingga bisa ngajaga konsistensi jeung setelan UNet dina model difusi.

Kerangka InstantID nyieun dua parobahan kana arsitéktur ControlNet tradisional: pikeun input kondisional, kerangka InstantID milih 5 titik konci raray tinimbang titik konci raray OpenPose. Kadua, kerangka InstantID ngagunakeun embeddings ID tinimbang paréntah téks salaku kaayaan pikeun lapisan cross-perhatian dina arsitektur ControlNet.

Latihan jeung Inferensi

Salila fase latihan, kerangka InstantID ngaoptimalkeun parameter IdentityNet sareng Adaptor Gambar bari beku parameter modél difusi anu tos dilatih. Sakabéh jalur pipa InstantID dilatih dina pasangan gambar-téks anu ngagaduhan subjek manusa, sareng ngalaksanakeun tujuan latihan anu sami sareng anu dianggo dina kerangka difusi stabil sareng kaayaan gambar khusus. Sorotan tina metode latihan InstantID nyaéta pamisahan antara gambar sareng téks lapisan cross-perhatian dina adaptor ajakan gambar, pilihan anu ngamungkinkeun kerangka InstantID pikeun nyaluyukeun beurat kaayaan gambar ieu sacara fleksibel sareng mandiri, ku kituna mastikeun langkung targét sareng dikontrol. inferensi jeung prosés latihan.

InstantID : Percobaan jeung Hasil

Kerangka InstantID ngalaksanakeun Stable Diffusion sareng ngalatihna dina LAION-Face, dataset open-source skala ageung anu diwangun ku langkung ti 50 juta pasangan gambar-téks. Salaku tambahan, kerangka InstantID ngumpulkeun langkung ti 10 juta gambar manusa kalayan otomatisasi anu dihasilkeun sacara otomatis ku modél BLIP2 pikeun ningkatkeun kualitas generasi gambar. Kerangka InstantID utamana museurkeun kana gambar jalma tunggal, sareng nganggo modél wajah anu tos dilatih pikeun ngadeteksi sareng nimba embeddings ID raray tina gambar manusa, sareng tinimbang ngalatih set data raray anu dipotong, ngalatih gambar manusa asli. Saterusna, salila latihan, kerangka InstantID freezes téks pre-dilatih pikeun model gambar, sarta ngan ngamutahirkeun parameter tina IdentityNet na Image Adapter.

Generasi Ngan Gambar

Modél InstantID nganggo ajakan kosong pikeun nungtun prosés ngahasilkeun gambar ngan ukur nganggo gambar rujukan, sareng hasil tanpa paréntah ditingalikeun dina gambar di handap ieu.

Generasi 'Empty Prompt' sapertos anu ditingalikeun dina gambar di luhur nunjukkeun kamampuan kerangka InstantID pikeun ngajaga fitur raray semantis anu beunghar sapertos identitas, umur, sareng ekspresi sacara kuat. Sanajan kitu, eta sia noting yén ngagunakeun prompts kosong bisa jadi teu bisa ngayakeun réplikasi hasil dina semantik séjén kawas gender akurat. Saterusna, dina gambar di luhur, kolom 2 ka 4 ngagunakeun hiji gambar jeung ajakan, sarta sakumaha eta bisa ditempo, gambar dihasilkeun teu demonstrate degradasi sagala kamampuhan kontrol téks, sarta ogé ensures konsistensi identitas. Tungtungna, kolom 5 ka 9 ngagunakeun gambar, kontrol ajakan jeung spasial, demonstrating kasaluyuan model jeung model kontrol spasial pre-dilatih ngamungkinkeun modél InstantID pikeun flexibly ngenalkeun kadali spasial ngagunakeun komponén ControlNet pre-dilatih.

Ogé kudu dicatet yén jumlah gambar rujukan boga dampak signifikan dina gambar dihasilkeun, sakumaha ditémbongkeun dina gambar di luhur. Sanajan kerangka InstantID bisa nganteurkeun hasil alus maké gambar rujukan tunggal, sababaraha gambar rujukan ngahasilkeun gambar kualitas hadé saprak kerangka InstantID nyokot rata-rata embeddings ID salaku ajakan gambar. Pindah sapanjang, penting pikeun ngabandingkeun kerangka InstantID sareng metode saméméhna anu ngahasilkeun gambar pribadi nganggo gambar rujukan tunggal. Angka di handap ieu ngabandingkeun hasil anu dihasilkeun ku kerangka InstantID sareng kaayaan modél seni anu aya pikeun rujukan tunggal generasi gambar ngaropéa.

Sakumaha anu tiasa ditingali, kerangka InstantID tiasa ngawétkeun ciri raray berkat ID embedding inherently mawa inpormasi semantis anu beunghar, sapertos identitas, umur, sareng gender. Ieu bakal aman disebutkeun yen kerangka InstantID outperforms frameworks aya dina generasi gambar ngaropéa sabab bisa ngawétkeun identitas manusa bari ngajaga kontrol jeung kalenturan gaya.

Pikiran final

Dina artikel ieu, urang geus ngobrol ngeunaan InstantID, solusi dumasar model difusi pikeun generasi gambar. InstantID mangrupikeun modul colokan sareng muter anu ngatur generasi gambar sareng personalisasi sacara adept dina sagala rupa gaya kalayan ngan ukur hiji gambar rujukan sareng ngajamin kasatiaan anu luhur. Kerangka InstantID museurkeun kana sintésis gambar anu ngawétkeun identitas instan, sareng nyobian ngajagi jurang antara efisiensi sareng kasatiaan anu luhur ku ngenalkeun modul plug and play basajan anu ngamungkinkeun kerangka pikeun ngatur personalisasi gambar nganggo ngan hiji gambar raray bari ngajaga kasatiaan anu luhur.

nepi salajengna

Nyegerkeun Katerangan Digital: Transformasi LimeWire janten Generatif AI Powerhouse

Ulah Cik

Évolusi Jempé dina AI: Kebangkitan Sistem AI Sanyawa Saluareun Model AI Tradisional

Kunal Kejriwal

"Insinyur ku profési, panulis ku haté". Kunal mangrupikeun panulis téknis anu mikanyaah sareng pamahaman anu jero ngeunaan AI sareng ML, didédikasikeun pikeun nyederhanakeun konsép anu kompleks dina widang ieu ngaliwatan dokuméntasi anu pikaresepeun sareng informatif.

Ngahiji.AI

InstantID: Generasi Ngawétkeun Idéntitas Zero-shot dina Detik

Kacerdasan buatan

InstantID: Generasi Ngawétkeun Idéntitas Zero-shot dina Detik

Daptar eusi

InstantID: Nol-Shot Identity-Preserving Gambar Generasi