Andersonin kulma
Tekoälyn kuvankäsittelyn tarkkuuden parantaminen

Vaikka Adoben tulikärpänen latentti diffuusiomalli (LDM) on kiistatta yksi parhaista tällä hetkellä saatavilla olevista, sen luovia ominaisuuksia kokeilleet Photoshopin käyttäjät ovat huomanneet, että se ei pysty helposti muokata olemassa olevia kuvia – sen sijaan kokonaan korvikkeet käyttäjän valitsema alue kuvilla käyttäjän tekstikehotteen perusteella (vaikka Firefly on taitava integroimaan tuloksena olevan luodun osan kuvan kontekstiin).
Nykyisessä beta-versiossa Photoshop voi ainakin sisällyttää viitekuvan osittaisena kuvakehotteena, joka nostaa Adoben lippulaivatuotteen esiin sen toiminnallisuuden osalta, joka Vakaa diffuusio käyttäjät ovat nauttineet yli kahden vuoden ajan, kiitos kolmansien osapuolien kehysten, kuten Controlnet:

Adobe Photoshopin nykyinen beta-versio sallii referenssikuvien käytön uutta sisältöä luotaessa valinnan sisään – vaikkakin se on tällä hetkellä satunnaista.
Tämä havainnollistaa kuvien synteesitutkimuksen avointa ongelmaa – diffuusiomallien vaikeutta muokata olemassa olevia kuvia ilman käyttäjän osoittaman valinnan täysimittaista "uudelleenkuvittelua".

Vaikka tämä diffuusioon perustuva sisäänmaalaus tottelee käyttäjän kehotetta, se keksii lähdeaiheen täysin uudelleen ottamatta alkuperäistä kuvaa huomioon (paitsi sekoittamalla uuden sukupolven ympäristöön). Lähde: https://arxiv.org/pdf/2502.20376
Tämä ongelma ilmenee, koska LDM:t luovat kuvia läpi iteratiivinen melunvaimennus, jossa jokainen prosessin vaihe riippuu käyttäjän toimittamasta tekstikehotuksesta. Kun tekstikehotteen sisältö muunnetaan merkkien upottaminen, ja hyperskaalalla mallilla, kuten Stable Diffusion tai Flux, joka sisältää satoja tuhansia (tai miljoonia) kehotteeseen liittyviä lähes vastaavia upotuksia, prosessilla on laskettu ehdollinen jakelu kohti; ja jokainen otetu askel on askel kohti tätä 'ehdollista jakaumatavoitetta'.
Eli kyseessä on tekstistä kuvaksi -tilanne, jossa käyttäjä "toivoo parasta", koska ei ole varmaa tietoa, millainen sukupolvi tulee olemaan.
Sen sijaan monet ovat pyrkineet hyödyntämään LDM:n tehokasta generatiivista kapasiteettia olemassa olevien kuvien muokkaamiseen – mutta tämä edellyttää tasapainottelua tarkkuuden ja joustavuuden välillä.
Kun kuva heijastetaan mallin piilevään tilaan esim DDIM-inversio, tavoitteena on palauttaa alkuperäinen mahdollisimman tarkasti, mutta silti mahdollistaa merkitykselliset muokkaukset. Ongelmana on, että mitä tarkemmin kuva rekonstruoidaan, sitä paremmin malli pitää kiinni alkuperäinen rakenne, mikä tekee suurista muutoksista vaikeaa.

Kuten monien muiden viime vuosina ehdotettujen diffuusiopohjaisten kuvankäsittelykehysten kohdalla, Renoise-arkkitehtuurilla on vaikeuksia tehdä todellisia muutoksia kuvan ulkonäköön, ja kissan kurkun tyveen ilmestyy vain pinnallinen merkki rusetista.
Toisaalta, jos prosessi asettaa etusijalle muokattavuuden, malli löysää otettaan alkuperäisestä, mikä helpottaa muutosten tekemistä – mutta yleisen johdonmukaisuuden kustannuksella lähdekuvan kanssa:

Tehtävä suoritettu – mutta useimmissa tekoälypohjaisissa kuvankäsittelyjärjestelmissä kyse on pikemminkin muutoksesta kuin säädöstä.
Koska kyseessä on ongelma, jonka ratkaisemiseksi jopa Adoben huomattavat resurssit kamppailevat, voimme kohtuudella olettaa, että haaste on huomattava, eikä se välttämättä mahdollista helppoja ratkaisuja, jos sellaisia onkaan.
Tiukka inversio
Siksi tällä viikolla julkaistun uuden artikkelin esimerkit kiinnittivät huomioni, sillä teos tarjoaa arvokkaan ja huomionarvoisen parannuksen tämän alan nykyiseen tekniikkaan osoittamalla, että se pystyy soveltamaan hienovaraisia ja hienostuneita muokkauksia mallin piilevään tilaan projisoituihin kuviin – ilman, että muokkaukset ovat merkityksettömiä tai muuten ylittäneet lähdekuvan alkuperäisen sisällön:

Kun Tight Inversion käytetään olemassa oleviin inversiomenetelmiin, lähteen valintaa tarkastellaan paljon yksityiskohtaisemmin, ja muunnokset mukautuvat alkuperäiseen materiaaliin sen korvaamisen sijaan.
LDM-harrastajat ja -ammattilaiset voivat tunnistaa tällaisen tuloksen, koska suuri osa niistä voidaan luoda monimutkaisessa työnkulussa käyttämällä ulkoisia järjestelmiä, kuten Controlnet ja IP-sovitin.
Itse asiassa uusi menetelmä - dubattu Tiukka inversio – hyödyntää todellakin IP-sovitinta ja omistettua kasvopohjaista mallia ihmisten kuvaamiseen.

Alkuperäisestä 2023 IP-Adapter -paperista esimerkkejä sopivien muokkausten tekemisestä lähdemateriaaliin. Lähde: https://arxiv.org/pdf/2308.06721
Tight Inversionin signaalisaavutus on siis prosessoimalla monimutkaiset tekniikat yhdeksi drop-in plug-in modaliteetiksi, jota voidaan soveltaa olemassa oleviin järjestelmiin, mukaan lukien monet suosituimmista LDM-jakeluista.
Tämä tarkoittaa luonnollisesti sitä, että Tight Inversion (TI), kuten sen hyödyntämät lisäjärjestelmät, käyttää lähdekuvaa oman muokatun versionsa ehdollisena tekijänä sen sijaan, että luottaisi vain tarkkoihin tekstikehotuksiin:

Lisää esimerkkejä Tight Inversionin kyvystä soveltaa aidosti sekoitettuja editointimenetelmiä lähdemateriaaliin.
Vaikka kirjoittajat myöntävät, että heidän lähestymistapansa ei ole vapaa diffuusiopohjaisten kuvanmuokkaustekniikoiden perinteisestä ja jatkuvasta jännitteestä kuvanlaadun ja muokattavuuden välillä, he raportoivat huippuluokan tuloksista injektoimalla TI:tä olemassa oleviin järjestelmiin verrattuna perustason suorituskykyyn.
- uutta työtä on otsikko Tiukka käännös: Kuvan ehdollinen inversio todellista kuvankäsittelyä varten, ja se tulee viideltä tutkijalta Tel Avivin yliopistosta ja Snap Researchista.
Menetelmä
Aluksi Large Language Model (LLM) -mallia käytetään luomaan joukko erilaisia tekstikehotteita, joista kuva luodaan. Sitten jokaiseen kuvaan sovelletaan edellä mainittua DDIM-inversiota kolmella tekstiehdolla: kuvan luomiseen käytetty tekstikehote; saman lyhennetty versio; ja tyhjä (tyhjä) kehote.
Näistä prosesseista palautetun käänteisen kohinan avulla kuvat regeneroidaan uudelleen samassa kunnossa ja ilman luokittelematon opastus (CFG).

DDIM-inversiopisteet eri mittareilla vaihtelevilla kehoteasetuksilla.
Kuten yllä olevasta kaaviosta nähdään, eri mittareiden pisteet paranevat tekstin pituuden kasvaessa. Käytetyt mittarit olivat Huippusignaali-kohinasuhde (PSNR); L2 etäisyys; Rakenteellisen samankaltaisuuden indeksi (SSIM); ja Opittu havainnollisen kuvan samankaltaisuus (LPIPS).
Kuvatietoinen
Tehokkaasti Tight Inversion muuttaa tapaa, jolla isäntädiffuusiomalli muokkaa todellisia kuvia, säätelemällä inversioprosessia itse kuvalla sen sijaan, että luottaisi vain tekstiin.
Normaalisti kuvan kääntäminen diffuusiomallin kohinaavaruuteen edellyttää aloituskohinan estimoimista, joka vaimennettuna rekonstruoi tulon. Vakiomenetelmät käyttävät tekstikehotetta ohjaamaan tätä prosessia; mutta epätäydellinen kehote voi johtaa virheisiin, yksityiskohtien menettämiseen tai rakenteiden muuttamiseen.
Tight Inversion käyttää sen sijaan IP-sovitinta visuaalisen tiedon syöttämiseen malliin, jotta se rekonstruoi kuvan tarkemmin, muuntaa lähdekuvat ehdollisiksi tunnisteiksi ja projisoi ne inversioputkeen.
Nämä parametrit ovat muokattavissa: lähdekuvan vaikutuksen lisääminen tekee rekonstruktiosta lähes täydellisen, kun taas pienentäminen mahdollistaa luovemmat muutokset. Tämä tekee Tight Inversion -toiminnosta hyödyllisen sekä hienovaraisissa muokkauksissa, kuten paidan värin vaihtamisessa, että merkittävimmässä muokkauksessa, kuten objektien vaihtamisessa – ilman muiden inversiomenetelmien yhteisiä sivuvaikutuksia, kuten pienten yksityiskohtien menetystä tai odottamattomia poikkeavuuksia taustasisällössä.
Kirjoittajat toteavat:
"Huomaamme, että Tight Inversion voidaan helposti integroida aiempiin inversiomenetelmiin (esim. Edit Friendly DDPM, ReNoise) [vaihtamalla IP-sovittimen muokatun mallin natiivi diffuusioydin], [ja] tight Inversion parantaa johdonmukaisesti tällaisia menetelmiä sekä rekonstruoinnin että muokattavuuden suhteen."
Tiedot ja testit
Tutkijat arvioivat TI:n kykyä rekonstruoida ja muokata todellisen maailman lähdekuvia. Kaikki kokeet käytetty Vakaa diffuusio XL DDIM-ajastimen kanssa, kuten kohdassa on kuvattu alkuperäinen Stable Diffusion -paperi; ja kaikissa testeissä käytettiin 50 vaimennusvaihetta oletusarvoisella ohjausasteikolla 7.5.
Kuvankäsittelyyn, IP-sovitin-plus sdxl vit-h käytettiin. Tutkijat käyttivät muutaman askeleen testejä SDXL-Turbo Euler-suunnittelijalla ja suoritti myös kokeita FLUX.1-dev, ilmastointilaite jälkimmäisessä tapauksessa päälle PuLID-Flux, Käyttäen RF-inversio 28 askelmassa.
PulID:tä käytettiin yksinomaan tapauksissa, joissa oli ihmiskasvoja, koska PulID oli koulutettu käsittelemään tätä aluetta – ja vaikka onkin huomionarvoista, että tälle yhdelle mahdolliselle kehotetyypille käytetään erikoistunutta alijärjestelmää, kohtuuton kiinnostuksemme ihmiskasvojen luomiseen viittaa siihen, että pelkästään perusmallin, kuten Stable Diffusionin, laajempiin painotuksiin luottaminen ei välttämättä riitä tässä tehtävässä vaatimiemme standardien täyttämiseen.
Rekonstruktiotestit suoritettiin laadullista ja kvantitatiivista arviointia varten. Alla olevassa kuvassa näemme laadullisia esimerkkejä DDIM-inversiosta:

Laadulliset tulokset DDIM-inversiolle. Jokainen rivi näyttää erittäin yksityiskohtaisen kuvan rekonstruoitujen versioiden rinnalla, ja jokaisessa vaiheessa käytetään asteittain tarkempia olosuhteita inversion ja kohinan poiston aikana. Kun ilmastointi tarkentuu, rekonstruoinnin laatu paranee. Oikeanpuoleisin sarake näyttää parhaat tulokset, kun itse alkuperäistä kuvaa käytetään ehtona, jolloin saavutetaan korkein tarkkuus. CFG:tä ei käytetty missään vaiheessa. Katso lähdedokumentista parempi resoluutio ja yksityiskohdat.
Paperissa todetaan:
"Nämä esimerkit korostavat, että inversioprosessin muokkaaminen kuvaan parantaa merkittävästi rekonstruktiota erittäin yksityiskohtaisilla alueilla.
"On huomattava, että [alla olevan kuvan] kolmannessa esimerkissä menetelmämme onnistuneesti rekonstruoi oikean nyrkkeilijän selässä olevan tatuoinnin. Lisäksi nyrkkeilijän jalan asento säilyy tarkemmin ja jalassa oleva tatuointi tulee näkyviin."

Lisää laadullisia tuloksia DDIM-inversiolle. Kuvaavat ehdot parantavat DDIM-inversiota, ja kuvankäsittely on parempi kuin teksti, erityisesti monimutkaisissa kuvissa.
Kirjoittajat testasivat myös Tight Inversion -moduulia olemassa oleviin järjestelmiin, jolloin muunnetut versiot vastasivat niiden perussuorituskykyä.
Kolme testattua järjestelmää olivat edellä mainitut DDIM Inversion ja RF-Inversion; ja myös ReNoise, joka jakaa jonkin verran kirjoittajaa tässä käsiteltävän paperin kanssa. Koska DDIM-tuloksilla ei ole vaikeuksia saada 100 % rekonstruktiota, tutkijat keskittyivät vain muokattavuuteen.
(Laadulliset tuloskuvat on muotoiltu tavalla, jota on vaikea toistaa tässä, joten pyydämme lukijaa käyttämään lähde-PDF-tiedostoa kattavamman kattavuuden ja paremman resoluution saamiseksi huolimatta siitä, että joitain valintoja on esitelty alla)

Vasen, laadulliset rekonstruktiotulokset Tight Inversionille SDXL:llä. Aivan, jälleenrakennus Fluxilla. Näiden tulosten asettelu julkaistussa työssä vaikeuttaa niiden toistamista täällä, joten katso lähde-PDF saadaksesi todellisen vaikutelman saaduista eroista.
Tässä kirjoittajat kommentoivat:
"Kuten on havainnollistettu, Tight Inversion -menetelmän integrointi olemassa oleviin menetelmiin parantaa johdonmukaisesti rekonstruktiota. Esimerkiksi menetelmämme rekonstruoi tarkasti kaiteen vasemmanpuoleisimmassa esimerkissä ja sinipaitaisen miehen oikeanpuoleisimmassa esimerkissä [paperin kuvassa 5]."
Kirjoittajat testasivat järjestelmää myös kvantitatiivisesti. Aikaisempien töiden mukaisesti he käyttivät vahvistussarja of MS-COCO, ja huomaa, että tulokset (kuvitettu alla) paransivat rekonstruointia kaikissa mittareissa kaikilla menetelmillä.

Vertaamalla järjestelmien suorituskykyä Tight Inversionilla ja ilman sitä.
Seuraavaksi kirjoittajat testasivat järjestelmän kykyä muokata Valokuvat, mikä vertaa sen aikaisempien lähestymistapojen perusversioihin prompt2prompt; Muokkaa ystävällistä DDPM:ää; LED-ITS++; ja RF-inversio.
Alla on valikoima artikkelin kvalitatiivisia tuloksia SDXL:lle ja Fluxille (ja viittaamme lukijaan alkuperäisen artikkelin melko tiivistettyyn asetteluun lisäesimerkkien saamiseksi).

Valikoima rönsyilevistä laadullisista tuloksista (melko hämmentävästi) levisi koko paperille. Suosittelemme lukijaa käyttämään lähde-PDF-tiedostoa tarkkuuden ja merkityksellisen selkeyden parantamiseksi.
Kirjoittajat väittävät, että Tight Inversion ylittää jatkuvasti olemassa olevat inversiotekniikat saavuttamalla paremman tasapainon rekonstruoinnin ja muokattavuuden välillä. Vakiomenetelmät, kuten DDIM-inversio ja ReNoise, voivat palauttaa kuvan hyvin, paperi toteaa, että niillä on usein vaikeuksia säilyttää hienoja yksityiskohtia muokkauksen yhteydessä.
Sitä vastoin Tight Inversion hyödyntää kuvankäsittelyä ankkuroidakseen mallin lähdön tarkemmin alkuperäiseen, mikä estää ei-toivotut vääristymät. Kirjoittajat väittävät, että vaikka kilpailevat lähestymistavat tuottavat rekonstruktioita näyttää Tarkka, muokkausten tekeminen johtaa usein artefakteihin tai rakenteellisiin epäjohdonmukaisuuksiin, ja Tight Inversion lieventää näitä ongelmia.
Lopuksi kvantitatiiviset tulokset saatiin arvioimalla Tight Inversion vastaan MagicBrush benchmark, käyttäen DDIM-inversiota ja LEDITS++:aa, mitattuna CLIP Sim.

Tight Inversionin kvantitatiiviset vertailut MagicBrush-benchmarkiin.
Kirjoittajat päättelevät:
Molemmissa kaavioissa kompromissi kuvan säilyttämisen ja tavoitemuokkauksen noudattamisen välillä on selvästi [havaittu]. Tight Inversion tarjoaa paremman hallinnan tässä kompromississa ja säilyttää syöttökuvan paremmin samalla, kun se on kohdistettu muokkaukseen [kehote].
"Huomaa, että kuvan ja tekstikehotteen CLIP-samankaltaisuus, joka on yli 0.3, osoittaa uskottavan yhdenmukaisuuden kuvan ja kehotteen välillä."
Yhteenveto
Vaikka Tight Inversion ei edustakaan läpimurtoa yhdessä LDM-pohjaisen kuvasynteesin vaikeimmista haasteista, se yhdistää useita raskaita apumenetelmiä yhtenäiseksi tekoälypohjaiseksi kuvanmuokkausmenetelmäksi.
Vaikka muokattavuuden ja tarkkuuden välinen jännite ei ole kadonnut tällä menetelmällä, se vähenee esitettyjen tulosten mukaan huomattavasti. Ottaen huomioon, että tämän työn keskeinen haaste voi osoittautua lopulta vaikeaksi ratkaistavaksi, jos sitä käsitellään omin ehdoin (sen sijaan, että katsottaisiin LDM-pohjaisten arkkitehtuurien ulkopuolelle tulevissa järjestelmissä), Tight Inversion on tervetullut asteittainen parannus viimeisimpään tekniikkaan.
Julkaistu ensimmäisen kerran perjantaina 28