Tekoäly

Ohjausperusteinen kuvanmuokkaus Multimodaalisten suurten kielen mallien avulla

Julkaistu 23. helmikuuta 2024

Päivitetty 22. toukokuuta 2026

Tekijä

Kunal Kejriwal

GUIDING INSTRUCTION-BASED IMAGE EDITING VIA MULTIMODAL LARGE LANGUAGE MODELS

Visuaaliset suunnittelutyökalut ja visioliittymämallit ovat laajalti sovellettavissa monimedialla. Huolimatta merkittävistä edistysaskelista viime vuosina, vankka ymmärrys näistä työkaluista on edelleen välttämätöntä niiden toiminnalle. Lisätäkseen saatavuutta ja ohjattavuutta, monimedialla on omaksuttu yhä enemmän teksti-ohjattuja tai ohjausperusteisia kuvanmuokkaustekniikoita. Nämä tekniikat käyttävät luonnollisen kielen komentoja perinteisten alueellisten maskien tai yksityiskohtaisten kuvausten sijaan, mahdollistaen joustavamman ja ohjattavamman kuvanmuokkauksen. Ohjausperusteiset menetelmät antavat usein lyhyitä ohjeita, jotka voivat olla haasteellisia olemassa oleville malleille. Lisäksi diffuusiomallit, jotka ovat tunnettuja realististen kuvien luomisesta, ovat suuressa suosiossa kuvanmuokkaussektorilla.

Lisäksi, Multimodaaliset suuret kielen mallit (MLLM) ovat osoittaneet vaikuttavat suorituskykyä tehtävissä, jotka liittyvät visuaaliseen vastineeseen ja ristimodaaliseen ymmärrykseen. MLLM-ohjattu kuvanmuokkaus (MGIE) on MLLM:ien inspiroima tutkimus, joka arvioi niiden kykyjä ja analysoi, miten ne tukevat muokkausta teksti- tai ohjausperusteisilla ohjeilla. Tämä lähestymistapa käsittää oppimista antamaan selkeää ohjausta ja johdettua ilmaisullista ohjeistusta. MGIE-muokkausmalli ymmärtää visuaalista tietoa ja suorittaa muokkauksen loppupään koulutuksen kautta. Tässä artikkelissa tutkimme syvällisemmin MGIE:tä, arvioimalla sen vaikutusta maailmanlaajuiseen kuvan optimointiin, Photoshop-tyyppisiin muokkauksiin ja paikalliseen muokkaamiseen. Käymme myös läpi MGIE:n merkitystä ohjausperusteisissa kuvanmuokkaustehtävissä, jotka riippuvat ilmaisullisista ohjeista. Aloita tutkimuksemme.

MLLM-ohjattu kuvanmuokkaus tai MGIE: Johdanto

Multimodaaliset suuret kielen mallit ja diffuusiomallit ovat kahden suosituimman AI- ja ML-kehyksen joukossa, joista molemmat ovat tunnettuja merkittävistä luovista kyvyistään. Toisaalta, sinulla on diffuusiomallit, jotka ovat parhaiten tunnettuja korkealaatuisista ja visuaalisesti viehättävistä kuvista, kun taas toisaalta sinulla on multimodaaliset suuret kielen mallit, jotka ovat tunnettuja poikkeuksellisista kyvyistään luoda laaja valikoima sisältöä, mukaan lukien teksti, kieli, puhe ja kuvat/videot.

Diffuusiomallit vaihtavat latenttiset ristimodaaliset kartat suorittaakseen visuaalista manipulaatiota, joka heijastaa muutosta syötteen tavoitteen kuvauksessa, ja ne voivat myös käyttää ohjattua maskia muokataksesi tiettyä aluetta kuvassa. Mutta pääsyy, miksi diffuusiomallit ovat laajalti käytettyjä monimediallisissa sovelluksissa, on se, että ne eivät riipu yksityiskohtaisista kuvausten tai alueellisten maskien käytöstä, vaan diffuusiomallit käyttävät ohjausperusteisia muokkauslähestymistapoja, jotka sallivat käyttäjien ilmoittaa, miten he haluavat muokata kuvaa suoraan käyttäen tekstikomentoja tai -ohjeita. Jatkaessa, suuret kielen mallit eivät tarvitse esittelyä, koska ne ovat osoittaneet merkittäviä edistysaskelia moninaisissa kielitehtävissä, mukaan lukien tekstin tiivistäminen, konekääntäminen, tekstin luominen ja kysymysten vastaaminen. Suuret kielen mallit koulutetaan laajalla ja monipuolisella koulutusaineistolla, joka varustaa ne visuaalisella luovuudella ja tietämyksellä, mahdollistaen niiden suorittamisen useita visiolingvistisiä tehtäviä. Rakentamalla suurten kielen mallien pohjalle, multimodaaliset suuret kielen mallit voivat käyttää kuvia luonnollisina syötteinä ja antaa sopivia visuaalisesti tietoisia vastauksia.

Sanottuna, vaikka diffuusiomallit ja MLLM-kehykset ovat laajalti käytettyjä kuvanmuokkaustehtävissä, on olemassa joitakin ohjausongelmia tekstipohjaisissa ohjeissa, jotka haittaavat koko suorituskykyä, johtaen MGIE:n tai MLLM-ohjatun kuvanmuokkauksen kehittämiseen, joka on AI-pohjainen kehys, joka koostuu diffuusiomallista ja MLLM-mallista, kuten seuraavassa kuvassa on esitetty.

MGIE-arkkitehtuurissa diffuusiomalli on koulutettu loppupäästä suorittaakseen kuvanmuokkausta latentin mielikuvituksen avulla tavoiteltua tavoitetta varten, kun taas MLLM-kehys oppii ennustamaan tarkat ilmaisulliset ohjeet. Yhdessä diffuusiomalli ja MLLM-kehys hyödyntävät visuaalisen johdannaisen visualisointia, joka mahdollistaa visuaalisen mielikuvituksen latentin visualisoinnin, joka ohjaa diffuusiomallia saavuttamaan muokkaustehtävät. MGIE-kehys on kykeneväinen suorittamaan visuaalisen havainnon tehtäviä järkevän kuvanmuokkauksen vuoksi.

MGIE-kehys ammentaa voimakkaasti kahdesta olemassa olevasta lähestymistavasta: Ohjausperusteinen kuvanmuokkaus ja Visiolingvistiset suuret kielen mallit.

Ohjausperusteinen kuvanmuokkaus voi parantaa visuaalisen manipulaation saatavuutta ja ohjattavuutta merkittävästi noudattamalla ihmisen komentoja. On kaksi pääasiallista kehystä, joita käytetään ohjausperusteiseen kuvanmuokkaamiseen: GAN-kehykset ja diffuusiomallit. GAN eli generatiiviset vastakkainasettelumallit pystyvät muokkaamaan kuvia, mutta ne ovat joko rajoitettuja tiettyihin domeeneihin tai tuottavat epärealistisia tuloksia. Toisaalta diffuusiomallit, jotka on koulutettu laajassa mittakaavassa, voivat ohjata ristimodaalisten huomion karttoja globaaleille kartoille saavuttaakseen kuvanmuokkausta ja muunnosta. Ohjausperusteinen muokkaus toimii vastaanottamalla suorat komennot syötteenä, usein rajoittamatta alueellisiin maskeihin ja yksityiskohtaisiin kuvausten. On kuitenkin mahdollista, että annetut ohjeet ovat epäselviä tai eivät ole riittävän tarkkoja seuratakseen ohjeita muokkaustehtävissä.

Visiolingvistiset suuret kielen mallit ovat tunnettuja tekstiluovista ja yleistyskyvystään monissa tehtävissä, ja ne usein tarjoavat vahvan tekstuaalisen ymmärryksen ja voivat tuottaa suoritettavissa ohjelmissa tai pseudokoodissa. Tämä suurten kielen mallien kyky mahdollistaa MLLM:ille havaita kuvia ja antaa sopivia visuaalisesti tietoisia vastauksia visuaalisen ominaisuuden johdannaisen avulla ohjausjärjestelmällä, ja viimeaikaiset mallit ovat omaksuneet MLLM:itä luomaan kuvia, jotka liittyvät keskusteluun tai syöte-tekstiin. Kuitenkin, se, mikä erottaa MGIE:n MLLM:istä tai VLLM:istä, on se, että kun jälkimmäinen voi tuottaa kuvia, jotka ovat erillisiä syötteistä alusta alkaen, MGIE hyödyntää MLLM:ien kykyjä parantamaan kuvanmuokkauskykyjä johdetuilla ohjeilla.

MGIE: Arkkitehtuuri ja menetelmä

Perinteisesti suuret kielen mallit on käytetty luonnollisen kielen prosessointitehtävissä. Mutta koska MLLM:t ovat tulleet suosituiksi, LLM:t on varustettu kyvylle antaa järkeviä vastauksia havaitsemalla kuvia. Yleensä multimodaalinen suuri kielen malli alkaa esikoulutetusta LLM:stä, ja se sisältää visuaalisen koodarin ja sovittimen, joka poistaa visuaaliset ominaisuudet ja projisoi visuaaliset ominaisuudet kielimodaaliin. Tämän ansiosta MLLM-kehys on kykeneväinen havaitsemaan visuaalisen syötteen, vaikka tuloste on edelleen rajoitettu tekstiin.

Ehdotettu MGIE-kehys pyrkii ratkaisemaan tämän ongelman ja mahdollistamaan MLLM:lle muokata syötekuvaa tulostekuvaksi annetun tekstiohjeen perusteella. Tämän saavuttamiseksi MGIE-kehys sisältää MLLM:n, joka on koulutettu johdettuaan tiiviitä ja ilmaisullisia tekstiohjeita. Lisäksi MGIE-kehys lisää erityisiä kuvatokeneja arkkitehtuuriinsa siltaamaan visuaalisen ja kielimodaalisen aukon, ja se omaksuu muokkauspään muunnokseen modaalien välillä. Nämä modaaliset toimivat latentin visuaalisen mielikuvituksen Multimodaalisen suuren kielen mallin avulla, ja ne ohjaavat diffuusiomallia saavuttamaan muokkaustehtävät. MGIE-kehys on kykeneväinen suorittamaan visuaalisen havainnon tehtäviä järkevän kuvanmuokkauksen vuoksi.

Tiivis ilmaisullinen ohje

Perinteisesti multimodaaliset suuret kielen mallit voivat tarjota visuaalisiin liittyviä vastauksia ristimodaalisen havainnon ansiosta ohjausjärjestelmällä ja ominaisuuksien johdannaisella. Kuvanmuokkaamiseksi MGIE-kehys käyttää tekstipromptia pääasiallisena kielen syötteenä kuvan kanssa, ja se johdattaa yksityiskohtaisen selityksen muokkausohjeelle. Kuitenkin nämä selitykset voivat usein olla liian pitkiä tai sisältää toistuvia kuvauskohtia, joista seuraa väärin tulkitseva aikomus, joka pakottaa MGIE:n soveltamaan esikoulutetun tiivistäjän saadakseen lyhyet kertomukset, jolloin MLLM voi tuottaa tiivistetyt tulokset. Kehys käsittää tiivisen ja ilmaisullisen ohjeen ilmaisulliseksi ohjeeksi, ja se soveltaa ristiriitaisen menetyskoulutusta opettaakseen multimodaalista suurta kielen mallia opettajan pakottamisella.

Ilmaisullisen ohjeen käyttäminen tarjoaa konkreettisemman idean verrattuna tekstiohjeeseen, koska se siltaa aukon järkevän kuvanmuokkauksen vuoksi, parantaen kehysjärjestelmän tehokkuutta. Lisäksi MGIE-kehys johdattaa tiiviitä ilmaisullisia ohjeita selitysajan aikana, sen sijaan, että se tuottaisi pitkiä kertomuksia ja riippuisi ulkoisesta tiivistämisestä. Tämän ansiosta MGIE-kehys pystyy saamaan visuaalisen mielikuvituksen muokkausaikeista, mutta se on edelleen rajoitettu kielimodaaliin. Ylittääkseen tämän esteen MGIE-malli liittää tietyn määrän visuaalisia tokeneja ilmaisullisen ohjeen jälkeen koulutettavilla sanasto- upotusten avulla, jolloin MLLM voi tuottaa niitä LM:än (kielimallin) avulla.

Kuvanmuokkaus latentin mielikuvituksella

Seuraavassa vaiheessa MGIE-kehys omaksuu muokkauspään muunnokseen kuvan ohjeita todelliseksi visuaaliseksi ohjeeksi. Muokkauspää on järjestä-järjestä-malli, joka auttaa kartoittamaan visuaalisten tokenien järjestyksen MLLM:stä mielekkääksi latentin semanttiseksi ohjeeksi. Tarkemmin sanottuna, muunnos sanasto-upotusten yli voidaan tulkita yleisenä edustajana visuaalisessa modaalisuudessa, ja se käyttää tapahtumakohtaista visuaalista mielikuvitusta muokkausaikeiden vuoksi. Lisäksi, ohjatakseen kuvanmuokkausta visuaalisella mielikuvituksella, MGIE-kehys upottaa latentin diffuusiomallin arkkitehtuuriinsa, joka sisältää variational autoencoderin ja käsittelee denoising-diffuusion latentti-avaruudessa. Latentin diffuusiomallin pääasiallinen tavoite on tuottaa latentti tavoite, joka säilyttää latentin syötteen ja seuraa muokkausohjeita. Diffuusioprosessi lisää melua latenttiin tavoitteeseen säännöllisin väliajoin, ja melutaso lisääntyy jokaisen aikavälin aikana.

MGIE:n oppiminen

Seuraava kuva tiivistää ehdotetun MGIE-kehysjärjestelmän oppimisalgoritmin.

Kuten voidaan havaita, MLLM oppii johdattamaan tiiviitä ilmaisullisia ohjeita käyttäen ohjeiden menetystä. Käyttäen latentin mielikuvitusta syötekuvan ohjeista, kehys muuntaa muokkauspään modaalien, ja ohjaa latentin diffuusiomallia syntetisoidakseen tulostekuvan, ja soveltaa muokkausmenetystä diffuusiokoulutukseen. Lopulta kehys jäädyttää useimmat painot, mikä johtaa parametrin tehokkaaseen loppupään koulutukseen.

MGIE: Tulokset ja arviointi

MGIE-kehys käyttää IPr2Pr-aineistoa pääasiallisena esikoulutusaineistona, ja se sisältää yli 1 miljoonan CLIP-suodatetun aineiston, josta on poimittu ohjeita GPT-3-mallista, ja Prompt-to-Prompt-mallista, joka syntetisoi kuvat. Lisäksi MGIE-kehys käsittelee InsPix2Pix-kehystä, joka on rakennettu CLIP-tekstikooderin ja diffuusiomallin avulla, ohjausperusteisissa kuvanmuokkaustehtävissä. Lisäksi MGIE-malli ottaa huomioon LLM-ohjatun kuvanmuokkausmallin, joka on sovellettu ilmaisullisista ohjeista ohjausvain syötteistä ilman visuaalista havainnontaa.

Määrällinen analyysi

Seuraava kuva tiivistää muokkaustulokset nollasuorituskykyisessä asetelussa, jossa mallit on koulutettu ainoastaan IPr2Pr-aineistolla. GIER- ja EVR-aineistoissa, jotka liittyvät Photoshop-tyyppisiin muokkauksiin, ilmaisulliset ohjeet voivat paljastaa konkreettisia tavoitteita epäselvien komentojen sijaan, mikä mahdollistaa muokkaustuloksien muistuttaa muokkausaikeita paremmin.

Vaikka sekä LGIE että MGIE on koulutettu samalla aineistolla kuin InsPix2Pix-malli, ne voivat tarjota yksityiskohtaisia selityksiä oppimalla suurten kielen mallien avulla, mutta LGIE on edelleen rajoitettu yhteen modaaliin. Lisäksi MGIE-kehys voi tarjota merkittävän suorituskyvyn parannuksen, koska se pystyy käyttämään kuvia ja johtamaan niistä eksplisiittisiä ohjeita.

Arvioidakseen suorituskyvyn ohjausperusteisissa kuvanmuokkaustehtävissä tiettyjen tarkoituksien vuoksi, kehittäjät ovat hienosäädettyjä useita malleja kullekin aineistolle, kuten seuraavassa taulukossa on tiivistetty.

Kuten voidaan havaita, sopeuttaessaan Photoshop-tyyppisiä muokkausohjeita EVR- ja GIER-aineistoihin, mallit osoittavat parannusta suorituskyvyssä. On kuitenkin huomattava, että hienosäätö tekee ilmaisulliset ohjeet enemmän alakohtaisiksi, joten MGIE-kehys todistaa merkittävän suorituskyvyn parannuksen, koska se oppii myös alakohtaisen ohjeen, jolloin diffuusiomalli pystyy esittämään konkreettisia muokattuja kohtauksia hienosäädetyn suuren kielen mallin hyödyllä, hyödyttäen sekä paikallista muokkausta että paikallista optimointia. Lisäksi, koska visuaalisesti tietoinen ohje on enemmän linjassa tavoiteltujen muokkausaikeiden kanssa, MGIE-kehys toimittaa johdonmukaisesti parempia tuloksia verrattuna LGIE-malliin.

Seuraava kuva osoittaa CLIP-S-pisteytystä syöte- tai peruskuvien ja ilmaisullisten ohjeiden välillä. Korkeampi CLIP-piste osoittaa ohjeiden merkitystä muokkauslähteen suhteen, ja kuten voidaan havaita, MGIE:llä on korkeampi CLIP-piste verrattuna LGIE-malliin sekä syöte- että tulostekuvissa.

Laadulliset tulokset

Seuraava kuva tiivistää laadullisen analyysin MGIE-kehystä.

Kuten tiedetään, LGIE-kehys on rajoitettu yhteen modaaliin, mikä johtaa yksittäiseen kieliin perustuvaan näkemykseen, ja se on altis johtamaan virheellisiä tai epäolennaisia selityksiä kuvan muokkaamiseksi. Sen sijaan MGIE-kehys on multimodaalinen, ja se pystyy käyttämään kuvia, suorittamaan muokkaustehtävät ja tarjoamaan eksplisiittisen visuaalisen mielikuvituksen, joka on linjassa tavoitteen kanssa.

Lopputulet

Tässä artikkelissa olemme käyneet läpi MGIE:tä eli MLLM-ohjattua kuvanmuokkausta, joka on MLLM:ien inspiroima tutkimus, joka pyrkii arvioimaan Multimodaalisten suurten kielen mallien kykyjä ja analysoimaan, miten ne tukevat muokkausta teksti- tai ohjattujen ohjeiden avulla, samalla kun se oppii antamaan eksplisiittistä ohjausta johdattamalla ilmaisullisia ohjeita samanaikaisesti. MGIE-muokkausmalli ymmärtää visuaalista tietoa ja suorittaa muokkausta loppupään koulutuksen avulla. Sen sijaan, että se antaisi epäselviä ja lyhyitä ohjeita, MGIE-kehys tuottaa eksplisiittisiä visuaalisesti tietoisia ohjeita, jotka johtavat järkevään kuvanmuokkaukseen.