Tekoäly

InstantID: Zero-shot Identity-Preserving Generation in Seconds

Published March 12, 2024

Updated April 4, 2026

Kunal Kejriwal

Tekoälypohjaisen kuvanluontiteknologian kehitys on ollut merkittävää viime vuosina, kun suuret teksti-kuva-diffuusiomallit kuten DALL-E, GLIDE, Stable Diffusion, Imagen ja monet muut tulivat kuvanluontialalle. Vaikka kuvanluontiin tarkoitetut tekoälymallit ovat ainutlaatuisia arkkitehtuureiltaan ja koulutusmenetelmiltaan, niillä kaikilla on yhteinen tavoite: mukautettu ja henkilökohtainen kuvanluonti, jonka tavoitteena on luoda kuvia, joissa on johdonmukainen hahmo-ID, aihe ja tyyli viitekuvien perusteella. Nykyaikaisilla kuvanluontitekoälykehyksillä on sovelluksia useilla aloilla, kuten kuvanimaatiossa, virtuaalitodellisuudessa, sähköisessä kaupankäynnissä, tekoälymuotokuvissa ja monilla muilla aloilla. Kuitenkin näiden kehysten huippuluokan generoivien ominaisuuksien huolimatta, niillä kaikilla on yhteinen este: useimmat niistä eivät pysty luomaan mukautettuja kuvia säilyttäen samalla hienostuneita ihmishahmojen yksityiskohtia.

Mukautettujen kuvien luonti yksityiskohtien säilyttämisellä on erittäin tärkeää, etenkin silloin, kun on kyse ihmisen kasvojen tunnistamisesta, jossa vaaditaan korkea uskottavuuden ja yksityiskohtien taso sekä hienostuneet semantiikat verrattuna yleisiin esineiden kuvien luontiin, jotka keskittyvät lähinnä karkeisiin tekstureihin ja väreihin. Lisäksi viime vuosien henkilökohtaiset kuvien luontikehykset, kuten LoRA, DreamBooth, Textual Inversion ja monet muut, ovat edistyneet merkittävästi. Kuitenkin henkilökohtaiset kuvien luontitekoälymallit eivät ole vielä täydellisiä käytettäviksi todellisissa tilanteissa, sillä niillä on suuri tallennustarve, ne vaativat useita viitekuvia ja niillä on usein pitkä hienosäätöprosessi. Toisaalta, vaikka olemassa olevat ID-upotusmenetelmät vaativat vain yhden eteenpäin viitteen, ne eivät ole yhteensopivia julkisesti saatavilla olevien esikoulutettujen mallien kanssa, tai ne vaativat liiallista hienosäätöprosessia useiden parametrejen yli, tai ne eivät pysty ylläpitämään korkeaa kasvon uskottavuutta.

Tätä haastetta vastaan, ja edelleen parantaakseen kuvanluontiominaisuuksia, tässä artikkelissa puhumme InstantID:stä, diffuusiomallipohjaisesta ratkaisusta kuvanluontiin. InstantID on plug and play -moduuli, joka hallitsee kuvanluontia ja mukauttamista taitavasti eri tyyleissä vain yhden viitekuvan avulla ja varmistaa samalla korkean uskottavuuden. Tämän artikkelin pääasiallinen tavoite on antaa lukijoilleen perusteellinen ymmärrys InstantID-kehyksen teknisistä perusteista ja komponenteista, kun tarkastelemme yksityiskohtaisesti mallin arkkitehtuuria, koulutusprosessia ja soveltamistilanteita. Joten aloitetaan.

InstantID: Zero-Shot Identity-Preserving Image Generation

Teksti-kuva-diffuusiomallien kehittyminen on vaikuttanut merkittävästi kuvanluontiteknologian edistymiseen. Näiden mallien pääasiallinen tavoite on mukautettu ja henkilökohtainen luonti, ja luominen kuvia, joissa on johdonmukainen aihe, tyyli ja hahmo-ID yhden tai useamman viitekuvan perusteella. Näiden kehysten kyky luoda johdonmukaisia kuvia on luonut sovelluksia eri aloilla, kuten kuvanimaatiossa, tekoälymuotokuvissa, sähköisessä kaupankäynnissä, virtuaali- ja lisättyssä todellisuudessa ja monilla muilla aloilla.

Kuitenkin, vaikka näillä kehyksillä on huippuluokan ominaisuudet, ne kohtaavat perusongelman: useimmat niistä kamppailevat mukautettujen kuvien luontia, jotka säilyttävät tarkasti ihmishahmojen yksityiskohtia. On huomattava, että mukautettujen kuvien luonti yksityiskohtien säilyttämisellä on haasteellinen tehtävä, sillä ihmisen kasvojen tunnistaminen vaatii korkeamman uskottavuuden ja yksityiskohtien tason sekä hienostuneet semantiikat verrattuna yleisiin esineisiin tai tyyleihin, jotka keskittyvät lähinnä väreihin ja karkeisiin tekstureihin. Olemassa olevat teksti-kuva-mallit riippuvat yksityiskohtaisista tekstikuvauksista, ja ne kamppailevat vahvan semanttisen merkityksen saavuttamisessa mukautetun kuvan luontiin.

Tätä haastetta vastaan, InstantID-kehyksen tavoitteena on nopea identiteetin säilyttävä kuvien luonti, ja se pyrkii silittämään tehokkuuden ja korkean uskottavuuden välistä kuilua esittelemällä yksinkertaisen plug and play -moduulin, joka mahdollistaa kehyksen käsitellä kuvan mukauttamista vain yhden kasvokuvan avulla säilyttäen samalla korkean uskottavuuden. Lisäksi, säilyttääkseen kasvojen identiteetin viitekuvasta, InstantID-kehyksessä on toteutettu uusi kasvojen koodaaja, joka säilyttää hienostuneet kuvan yksityiskohtia lisäämällä heikot spatiaaliset ja vahvat semanttiset ehdot, jotka ohjaavat kuvan luontiprosessia sisällyttämällä tekstipromptit, maamerkki-kuvat ja kasvokuvat.

On kolme erottuvaa piirrettä, jotka erottavat InstantID-kehyksen olemassa olevista teksti-kuva-malleista.

Yhteensopivuus ja liitettävyys: Sen sijaan, että koulutettaisiin UNet-kehyksen täysiä parametreja, InstantID-kehyksessä koulutetaan kevyt sovittimella. Tämän seurauksena, InstantID-kehyksessä on yhteensopivuus ja liitettävyys olemassa olevien esikoulutettujen mallien kanssa.

Säätövapaa: InstantID-kehyksen metodologia poistaa hienosäätövaatimuksen, sillä se tarvitsee vain yhden eteenpäin propagaation inferenceä varten, mikä tekee mallista erittäin käytännöllisen ja taloudellisen hienosäätöä varten.
Ylivoimainen suorituskyky: InstantID-kehyksessä on korkea joustavuus ja uskottavuus, sillä se pystyy toimittamaan huippuluokan suorituskyvyn vain yhden viitekuvan avulla, joka on vertailukelpoinen koulutusmenetelmiin, jotka riippuvat useista viitekuvista.

Yhteenvetona, InstantID-kehyksen panokset voidaan luokitella seuraaviin kohtiin.

InstantID-kehyksessä on innovatiivinen, ID-säilyttävä sovittamismenetelmä esikoulutetuille teksti-kuva-diffuusiomalleille, jonka tavoitteena on silittää tehokkuuden ja uskottavuuden välinen kuilu.
InstantID-kehyksessä on yhteensopivuus ja liitettävyys mukautettujen mallejen kanssa, jotka käyttävät samaa diffuusiomallia arkkitehtuurissaan, mikä mahdollistaa ID-säilyttämisen esikoulutetuissa malleissa ilman lisäkustannuksia.

InstantID: Metodologia ja Arkkitehtuuri

Kuten mainittiin aiemmin, InstantID-kehyksessä on tehokas kevyt sovittimella, joka antaa esikoulutetuille teksti-kuva-diffuusiomalleille ID-säilyttämismahdollisuudet vaivattomasti.

Puhuttaessa arkkitehtuurista, InstantID-kehyksessä on rakennettu Stable Diffusion -mallin päälle, joka on tunnettu kyvystään suorittaa diffuusioprosessia korkealla laskennallisen tehokkuudella matala-ulotteisessa latenttilaissa pikselien sijaan autoenkooderilla. Syötekuvan kohdalla, enkooderi kartoittaa kuvan latenttiesitykseen alennussuhteen ja latenttidimensioiden kanssa. Lisäksi, denoisataksesi normaalisti jakautuneen melun, meluisan latentin, ehdot ja nykyisen aikataulun, diffuusioprosessi omaksuu denoising UNet -komponentin. Ehto on tekstiprompttien upotus, joka on luotu esikoulutetulla CLIP-teksti-enkooderilla.

Lisäksi, InstantID-kehyksessä on käytössä ControlNet-komponentti, joka pystyy lisäämään spatiaalisen ohjauksen esikoulutetulle diffuusiomallille ehtona, laajentamalla perinteisten tekstiprompttien mahdollisuuksia. ControlNet-komponentti integroi myös UNet-arkkitehtuurin Stable Diffusion -mallista käyttämällä koulutettua replikaa UNet-komponentista. UNet-komponentin replika omalta osaltaan sisältää nolla konvoluutio kerroksia keskellä olevissa lohkossa ja enkooderilohkossa. Vaikka ne ovat samankaltaisia, ControlNet-komponentti erottuu Stable Diffusion -mallista; ne eroavat jälkimmäisessä residuaalikohteessa. ControlNet-komponentti koodaa spatiaalisen ehtotiedon kuten asennot, syvyydet, piirrokset ja muut, lisäämällä residuaalit UNet-lohkoon, ja upottamalla nämä residuaalit alkuperäiseen verkkoon.

InstantID-kehyksessä on myös vaikuttanut IP-Adapterista eli kuvapromptista, joka esittää uuden lähestymistavan saavuttamaan kuvapromptin ominaisuudet rinnakkain tekstiprompttien kanssa ilman alkuperäisten teksti-kuva-mallien muuttamista.

Metodologia

Jotta antaisimme lyhyen katsauksen, InstantID-kehyksen tavoitteena on luoda mukautettuja kuvia eri tyyleillä tai asennoilla vain yhden viitekuvan avulla korkealla uskottavuudella. Seuraava kuva antaa lyhyen katsauksen InstantID-kehyksestä.

Kuten voidaan havaita, InstantID-kehyksessä on kolme olennaista komponenttia:

ID-upotuskomponentti, joka sieppaa vahvan semanttisen tiedon kasvojen piirteistä kuvassa.
Kevyt sovittimella, jossa on irrotettu ristivirtaushuomio, jotta voidaan käyttää kuvaa visuaalisena prompttina.
IdentityNet-komponentti, joka koodaa yksityiskohtaiset piirteet viitekuvasta lisäämällä spatiaalista ohjausta.

ID-Upotus

Toisin kuin olemassa olevat menetelmät, kuten FaceStudio, PhotoMaker, IP-Adapter ja monet muut, jotka riippuvat esikoulutetusta CLIP-kuva-enkooderista visuaalisten prompttien poistamiseksi, InstantID-kehyksessä painotetaan parannettua uskottavuutta ja vahvempaa semanttista yksityiskohtaa ID-säilyttämisessä. On huomattava, että CLIP-komponentin sisäinen rajoitus liittyy lähinnä sen koulutusprosessiin heikosti kohdennettuun dataan, mikä tarkoittaa, että CLIP-enkooderin koodatut piirteet sieppaavat lähinnä laajoja ja epämääräisiä semanttisia tietoja, kuten värejä, tyyliä ja sommittelua. Vaikka nämä piirteet voivat toimia yleisenä täydentymisenä tekstiupotuksille, ne eivät sovellu tarkkaan ID-säilyttämistehtäviin, jotka korostavat vahvaa semantiikkaa ja korkeaa uskottavuutta.

Kuva-Adapteri

Esikoulutettujen teksti-kuva-diffuusiomallien kyky kuvaprompteissa parantaa tekstipromptteja erityisesti tilanteissa, joissa tekstipromptit eivät ole riittäviä. InstantID-kehyksessä on omaksuttu strategia, joka muistuttaa IP-Adapterin käyttämää menetelmää kuvaprompteissa, joka esittää kevyen sovittimen, joka tukee kuvia syötepromptteina. Kuitenkin toisin kuin karkeasti kohdennetut CLIP-upotukset, InstantID-kehyksessä poikkeaa siinä, että se käyttää ID-upotuksia kuvapromptteina pyrkien saavuttamaan semanttisesti rikkaamman ja hienostuneemman promptin integroinnin.

IdentityNet

Vaikka olemassa olevat menetelmät pystyvät integroimaan kuvapromptit tekstiprompttien kanssa, InstantID-kehyksessä väittää, että nämä menetelmät vain parantavat karkeita piirteitä, ja että integraatio on riittämätön ID-säilyttävälle kuvien luontiin. Lisäksi, teksti- ja kuvatokien lisääminen ristivirtauskerroksiin suoraan heikentää tekstiprompttien ohjausta, ja kuvatokien vahvistaminen voi heikentää tekstiprompttien kykyjä editointitehtävissä.

Tätä vastaan, InstantID-kehyksessä valitaan ControlNet, vaihtoehtoinen piirteiden upotusmenetelmä, joka käyttää spatiaalista tietoa syöte-ehtona ohjattavalle moduulille, mikä mahdollistaa yhdenmukaisuuden UNet-asetusten kanssa diffuusiomalleissa.

Koulutus ja Inferenssi

Koulutusvaiheessa, InstantID-kehyksessä optimoidaan IdentityNetin ja Kuva-Adapterin parametreja, kun esikoulutetun diffuusiomallin parametreja jäädytetään. Koko InstantID-pipeline koulutetaan kuvateksti-parien avulla, jotka sisältävät ihmishahmoja, ja se käyttää koulutusohjelmaa, joka on samankaltainen kuin Stable Diffusion -kehyksessä käytetty, mutta siinä on tehtäväkohtaisia kuvaehtoja. InstantID-kehyksen koulutusmenetelmän huomionarvoisa piirre on erottelu kuvan ja tekstin ristivirtauskerrosten välillä kuvapromptissa, mikä mahdollistaa InstantID-kehykselle sovittaa näiden kuvaehtojen painoja joustavasti ja riippumattomasti, varmistaen siten kohdennetumman ja ohjatun koulutus- ja inferenssiprosessin.

InstantID: Kokeet ja Tulokset

InstantID-kehyksessä on toteutettu Stable Diffusion, ja se on koulutettu LAION-Face-aineistolla, joka on suuri avoimen lähdekoodin aineisto, joka sisältää yli 50 miljoonaa kuvateksti-paria. Lisäksi, InstantID-kehyksessä on kerätty yli 10 miljoonaa ihmiskuvaa, joissa on automaattisesti generoituja kuvia BLIP2-mallilla, jotta kuvien luontilaatu parannettaisiin. InstantID-kehyksessä keskitytään lähinnä yksilökuviin, ja siinä käytetään esikoulutettua kasvomallia tunnistamaan ja poistamaan kasvojen ID-upotuksia viitekuvasta, jotta ohjata kuvien luontia.

Kuvien Vain Luonti

InstantID-malli käyttää tyhjää prompttia ohjaamaan kuvien luontiprosessia vain viitekuvan avulla, ja tulokset ilman promptteja on esitetty seuraavassa kuvassa.

’Tyhjä prompt’ -luonti, kuten edellä olevassa kuvassa, osoittaa InstantID-kehyksen kyvyn ylläpitää rikkaasti semanttisia kasvon piirteitä, kuten identiteetti, ikä ja ilme vahvasti. On kuitenkin huomattava, että tyhjien prompttien käyttäminen saattaa ei välttämättä pysty toistamaan tuloksia muilla semantiikoilla, kuten sukupuolella, tarkasti.

On myös huomattava, että viitekuvien määrällä on merkittävä vaikutus luotuun kuvaan, kuten edellä olevassa kuvassa. Vaikka InstantID-kehyksessä voidaan saavuttaa hyvät tulokset vain yhden viitekuvan avulla, useat viitekuvat tuottavat paremman laadun kuvan, koska InstantID-kehyksessä otetaan keskiarvo ID-upotuksista kuvaprompttina.

Kuten voidaan nähdä, InstantID-kehyksessä voidaan säilyttää kasvon piirteet ansiosta ID-upotuksesta, joka sisältää rikkaan semanttisen tiedon, kuten identiteetin, iän ja sukupuolen. On turvallista sanoa, että InstantID-kehyksessä ylittää olemassa olevat kehykset mukautetun kuvien luontiin, koska se pystyy säilyttämään ihmisen identiteetin säilyttäen samalla ohjattavuuden ja tyylien joustavuuden.

Lopputajat

Tässä artikkelissa, puhuimme InstantID:stä, diffuusiomallipohjaisesta ratkaisusta kuvanluontiin. InstantID on plug and play -moduuli, joka hallitsee kuvanluontia ja mukauttamista taitavasti eri tyyleissä vain yhden viitekuvan avulla ja varmistaa samalla korkean uskottavuuden. InstantID-kehyksen tavoitteena on nopea identiteetin säilyttävä kuvien luonti, ja se pyrkii silittämään tehokkuuden ja korkean uskottavuuden välistä kuilua esittelemällä yksinkertaisen plug and play -moduulin, joka mahdollistaa kehyksen käsitellä kuvan mukauttamista vain yhden kasvokuvan avulla säilyttäen samalla korkean uskottavuuden.

Kunal Kejriwal

Ammattina insinööri, sydämen vuoksi kirjailija. Kunal on tekninen kirjailija, jolla on syvä rakkaus ja ymmärrys AI: sta ja ML: stä, omistautunut yksinkertaistamaan monimutkaisia käsitteitä näissä aloissa hänen viihdyttävän ja informatiivisen dokumentaationsa kautta.