Andersonův úhel

Zlepšení přesnosti AI obrazového editování

Published February 28, 2025

Updated April 26, 2026

Martin Anderson

Images from the paper ' Tight Inversion: Image-Conditioned Inversion for Real Image Editing'

Ačkoli je Adobe Firefly latentní difuzní model (LDM) pravděpodobně jedním z nejlepších目前 dostupných, uživatelé Photoshopu, kteří vyzkoušeli jeho generativní funkce, si všimli, že není schopen snadno editovat existující obrázky – místo toho úplně nahrazuje vybranou oblast uživatele obrazem založeným na textovém promptu uživatele (ačkoli Firefly je způsobilý integrovat výslednou generovanou sekci do kontextu obrázku).

V aktuální beta verzi může Photoshop alespoň zahrnout referenční obrázek jako částečný obrazový prompt, což dohání Adobe vlajkovou lodí produkt na úroveň funkcionality, kterou Stable Diffusion uživatelé užívali po dobu více než dvou let, díky třetím stranám frameworkům, jako je Controlnet:

Aktuální beta Adobe Photoshop umožňuje použití referenčních obrázků při generování nového obsahu uvnitř výběru – i když je to zatím hit-and-miss záležitost.

To ilustruje otevřený problém ve výzkumu obrazové syntézy – obtíž, kterou difuzní modely mají při editování existujících obrázků bez implementace plnohodnotného “přeobrazení” výběru označeného uživatelem.

Ačkoli tato difuzní založená inpaint dodržuje prompt uživatele, úplně reinventuje zdrojový předmět bez ohledu na původní obraz (kromě sloučení nové generace s prostředím). Zdroj: https://arxiv.org/pdf/2502.20376

Tento problém nastává, protože LDM generuje obrázky prostřednictvím iterativní denoising, kde každá fáze procesu je podmíněna textovým promptem dodaným uživatelem. S textovým promptem obsahu převedeným do embedding tokenů a s hyperscale modelem, jako je Stable Diffusion nebo Flux, obsahujícím stovky tisíc (nebo miliony) téměř shodných embeddingů souvisejících s promptem, proces má vypočítanou podmíněnou distribuci k cílení; a každá fáze je krokem směrem k tomuto “cílovému rozdělení”.

Takže to je text na obrázek – scénář, ve kterém uživatel “doufá v nejlepší”.

Místo toho mnoho lidí se snažilo využít generativní kapacitu LDM k editování existujících obrázků – ale to vyžaduje rovnováhu mezi věrností a flexibilitou.

Když je obrázek projekčně transformován do latentního prostoru modelu metodami, jako je DDIM inversion, cílem je obnovit původní co nejpřesněji, zatímco stále umožňuje smysluplné úpravy. Problém je, že čím přesněji je obrázek rekonstruován, tím více se model drží své původní struktury, což dělá majoritní úpravy obtížnými.

Stejně jako mnoho dalších difuzních založených frameworků pro editování obrázků navržených v posledních letech, má architektura Renoise obtížnost při provádění skutečných změn vzhledu obrázku, s pouze povrchním náznakem motýlku, který se objevuje na základně krku kočky.

Na druhé straně, pokud proces prioritizuje editovatelnost, model uvolňuje svůj úchop na původní, což usnadňuje zavádění změn – ale za cenu celkové konzistence se zdrojovým obrázkem:

Mise splněna – ale je to transformace spíše než úprava, pro většinu AI-založených frameworků pro editování obrázků.

Jelikož je to problém, který i Adobe značné zdroje bojují řešit, můžeme rozumně předpokládat, že výzva je pozoruhodná a nemusí mít snadná řešení, pokud vůbec nějaká.

Pevná Inverze

Protože příklady v novém článku zveřejněném tento týden upoutaly mou pozornost, protože práce nabízí užitečné a pozoruhodné zlepšení současného stavu v této oblasti, tím, že prokázala schopnost aplikovat jemné a rafinované úpravy obrázků projekčně transformovaných do latentního prostoru modelu – bez toho, aby úpravy byly zanedbatelné nebo naopak přehlušily původní obsah ve zdrojovém obrázku:

S Pevnou Inverzí aplikovanou na stávající metody inverze, je zdrojový výběr považován za mnohem více granulární, a transformace se přizpůsobují původnímu materiálu místo toho, aby je přepisovaly.

LDM nadšenci a praktici mohou rozpoznat tento typ výsledku, protože většina z nich může být vytvořena v komplexním pracovním postupu pomocí externích systémů, jako je Controlnet a IP-Adapter.

Ve skutečnosti nová metoda – nazvaná Pevná Inverze – skutečně využívá IP-Adapter, spolu s věnovaným modelem pro lidské zobrazení.

Z původního článku IP-Adapter z roku 2023, příklady vytvoření vhodných úprav zdrojového materiálu. Zdroj: https://arxiv.org/pdf/2308.06721

Signální úspěch Pevné Inverze spočívá v tom, že proceduralizoval komplexní techniky do jediného drop-in plug-in modality, který lze aplikovat na stávající systémy, včetně mnoha z nejpopulárnějších LDM distribucí.

Pozoruhodně Pevná Inverze (TI), stejně jako příbuzné systémy, které využívá, používá zdrojový obrázek jako podmíněný faktor pro svou vlastní editovanou verzi, místo toho, aby se spoléhal pouze na přesné textové prompty:

Další příklady schopnosti Pevné Inverze aplikovat skutečně smíchané úpravy zdrojového materiálu.

Ačkoli autoři přiznávají, že jejich přístup není prostý tradiční a pokračující napětí mezi věrností a editovatelností v difuzních založených technikách editování obrázků, hlásí stavové výsledky, když vstřikují TI do stávajících systémů, vs. základní výkon.

Nová práce je nazvaná Pevná Inverze: Image-Conditioned Inverze pro Reálné Editování Obrázků, a pochází od pěti výzkumníků napříč Tel Aviv University a Snap Research.

Metoda

Počátečně je Large Language Model (LLM) použit k vygenerování sady různých textových promptů, z nichž je vygenerován obrázek. Poté je výše zmíněná DDIM inverze aplikována na každý obrázek s třemi textovými podmínkami: textový prompt použitý k vygenerování obrázku; zkrácená verze stejného; a null (prázdný) prompt.

S invertovaným šumem vráceným z těchto procesů jsou obrázky opět vygenerovány se stejnou podmínkou, a bez classifier-free guidance (CFG).

DDIM inverzní skóre napříč různými metrikami s různými nastaveními promptů.

Jak můžeme vidět z grafu výše, skóre napříč různými metrikami se zlepšuje se zvýšenou délkou textu. Metriky používané byly Peak Signal-to-Noise Ratio (PSNR); L2 vzdálenost; Structural Similarity Index (SSIM); a Learned Perceptual Image Patch Similarity (LPIPS).

Image-Conscious

Efektivně Pevná Inverze mění, jak hostitelský difuzní model edituje reálné obrázky, tím, že podmíněně invertuje proces na samotném obrázku, místo toho, aby se spoléhal pouze na text.

Normálně, inverze obrázku do difuzního modelového prostoru vyžaduje odhadnutí počátečního šumu, který, když je denoizován, rekonstruuje vstup. Standardní metody používají textový prompt k vedení tohoto procesu; ale nedokonalý prompt může vést k chybám, ztrátě detailů nebo změně struktur.

Pevná Inverze místo toho používá IP Adapter k vložení vizuální informace do modelu, aby rekonstruoval obrázek s větší přesností, převádí zdrojové obrázky na podmíněné tokeny a projektuje je do invertovaného potrubí.

Tyto parametry jsou editovatelné: zvýšení vlivu zdrojového obrázku činí rekonstrukci téměř dokonalou, zatímco snížení umožňuje více kreativních změn. To činí Pevnou Inverzi užitečnou pro jak jemné úpravy, tak i významnější úpravy – bez běžných vedlejších účinků jiných invertovaných metod, jako je ztráta jemných detailů nebo neočekávané aberace v pozadí.

Autoři prohlašují:

‘Poznamenáváme, že Pevná Inverze může být snadno integrována s předchozími invertovanými metodami (například Edit Friendly DDPM, ReNoise) přepnutím nativního difuzního jádra pro IP Adapter upravený model, a Pevná Inverze konzistentně zlepšuje tyto metody z hlediska rekonstrukce i editovatelnosti.’

Data a Testy

Výzkumníci vyhodnotili TI na jeho kapacitě rekonstruovat a editovat reálné zdrojové obrázky. Všechny experimenty používaly Stable Diffusion XL s DDIM plánovačem, jak je popsáno v originálním článku o Stable Diffusion; a všechny testy používaly 50 denoizních kroků při výchozím měřítku vedení 7,5.

Pro obrazové podmínky se používal IP-Adapter-plus sdxl vit-h. Pro few-step testy se používal SDXL-Turbo s Eulerovým plánovačem, a také se prováděly experimenty s FLUX.1-dev, podmíněně modelu v posledně jmenovaném případě na PuLID-Flux, pomocí RF-Inversion na 28 krocích.

PulID se používal výhradně v případech s lidskými tvářemi, protože tato je doména, pro kterou byl PulID trénován – a zatímco je pozoruhodné, že se používá specializovaný subsystém pro tento jeden možný typ promptu, naše nadměrná závislost na generování lidských tváří naznačuje, že spoléhání se pouze na širší váhy základního modelu, jako je Stable Diffusion, nemusí být dostatečné pro standardy, které požadujeme pro tuto konkrétní úlohu.

Testy rekonstrukce se prováděly pro kvalitativní a kvantitativní hodnocení. Na obrázku níže vidíme kvalitativní příklady pro DDIM inverzi:

Kvalitativní výsledky pro DDIM inverzi. Každý řádek ukazuje velmi detailní obrázek vedle jeho rekonstruovaných verzí, s každým krokem, který používá postupně přesnější podmínky během inverze a denoisingu. Jak se podmínky stávají přesnějšími, kvalita rekonstrukce se zlepšuje. Pravý sloupec ukazuje nejlepší výsledky, kde je původní obrázek sám použit jako podmínka, dosahující nejvyšší věrnosti. CFG nebyl použit v žádné fázi. Prosím, odkážete se na zdroj dokumentu pro lepší rozlišení a detaily.

Článek prohlašuje:

‘Tyto příklady zdůrazňují, že podmíněné invertování procesu na obrázku významně zlepšuje rekonstrukci ve vysoce detailních oblastech. ‘

‘Pozoruhodně, ve třetím příkladu [obrázku níže], naše metoda úspěšně rekonstruuje tetování na zádech pravého boxera. Kromě toho je boxerova noha lépe zachována, a tetování na noze se stává viditelným.’

Další kvalitativní výsledky pro DDIM inverzi. Popisné podmínky zlepšují DDIM inverzi, s obrazovou podmínkou, která převyšuje text, zejména u složitých obrázků.

Autoři také otestovali Pevnou Inverzi jako drop-in modul pro stávající systémy, porovnávají modifikované verze se základním výkonem.

Tři systémy testované byly výše zmíněná DDIM Inverze a RF-Inverze; a také ReNoise, který sdílí některé autorství s článkem, který je zde diskutován. Jelikož DDIM výsledky nemají problém s dosažením 100% rekonstrukce, výzkumníci se soustředili pouze na editovatelnost.

(Kvalitativní výsledky obrázků jsou formátovány způsobem, který je obtížné reprodukovat zde, takže odkážeme čtenáře na zdroj PDF pro lepší rozlišení a smysluplnou jasnost)

Vlevo, kvalitativní rekonstrukční výsledky pro Pevnou Inverzi se SDXL. Vpravo, rekonstrukce s Flux. Rozložení těchto výsledků v publikovaném článku je obtížné reprodukovat zde, takže prosím, odkážete se na zdroj PDF pro pravdivý dojem o rozdílech získaných.

Zde autoři komentují:

‘Jak je ilustrováno, integrace Pevné Inverze se stávajícími metodami konzistentně zlepšuje rekonstrukci. Pro [příklad], naše metoda přesně rekonstruuje madlo v levém největším příkladu a muže s modrou košilí v pravém největším příkladu [v obrázku 5 článku].’

Autoři také otestovali systém kvantitativně. V souladu s předchozími pracemi použili validační sadu MS-COCO, a poznamenávají, že výsledky (zobrazené níže) zlepšily rekonstrukci napříč všemi metrikami pro všechny metody.

Porovnání metrik pro výkon systémů s a bez Pevné Inverze.

Další, autoři otestovali schopnost systému editovat fotografie, porovnávají ji s základními verzemi předchozích přístupů prompt2prompt; Edit Friendly DDPM; LED-ITS++; a RF-Inverze.

Zobrazeny níže jsou výběry kvalitativních výsledků pro SDXL a Flux (a odkážeme čtenáře na zdroj PDF pro lepší rozlišení a smysluplnou jasnost).

Výběry z rozsáhlých kvalitativních výsledků (poměrně zmateně) rozesetých po celém článku. Odkážeme čtenáře na zdroj PDF pro lepší rozlišení a smysluplnou jasnost.

Autoři prohlašují, že Pevná Inverze konzistentně převyšuje stávající invertované techniky tím, že nachází lepší rovnováhu mezi rekonstrukcí a editovatelností. Standardní metody, jako je DDIM inverze a ReNoise, mohou obnovit obrázek dobře, článek prohlašuje, že často bojují s uchováním jemných detailů, když jsou aplikovány úpravy.

Naopak, Pevná Inverze využívá obrazové podmínky k ukotvení výstupu modelu blíže k originálu, čímž se předcházejí nežádoucí deformace. Autoři prohlašují, že i když konkurenční přístupy produkují rekonstrukce, které zdají se přesné, zavedení úprav často vede k artefaktem nebo strukturálním nesrovnalostem, a že Pevná Inverze zmírňuje tyto problémy.

Nakonec, kvantitativní výsledky byly získány vyhodnocením Pevné Inverze proti MagicBrush benchmarku, pomocí DDIM inverze a LEDITS++, měřeno s CLIP Sim.

Kvantitativní srovnání Pevné Inverze proti MagicBrush benchmarku.

Autoři uzavírají:

‘V obou grafech je obchodování mezi obrazovou保ováním a dodržením cílové úpravy jasně pozorováno. Pevná Inverze poskytuje lepší kontrolu nad tímto obchodováním a lépe uchovává vstupní obrázek, zatímco stále se shoduje s úpravou [promptu]. ‘

‘Poznamenáváme, že CLIP podobnost nad 0,3 mezi obrázkem a textovým promptem indikuje uvěřitelné zarovnání mezi obrázkem a promptem.’

Závěr

Ačkoli Pevná Inverze nepředstavuje “průlom” v jedné z nejtrnštějších výzev v LDM-založené obrazové syntéze, Pevná Inverze konsoliduje řadu obtížných pomocných přístupů do ujednocené metody AI-založeného obrazového editování.

Ačkoli napětí mezi editovatelností a věrností není pryč touto metodou, je pozoruhodně sníženo, podle výsledků prezentovaných. Při zohlednění toho, že centrální výzva, kterou tato práce řeší, může se ukázat jako konečná, pokud se bude řešit sama o sobě (místo toho, aby se hledaly budoucí systémy za hranicemi LDM-založených architektur), Pevná Inverze představuje vítané inkrementální zlepšení současného stavu.

Poprvé zveřejněno v pátek, 28. února 2025