Artificiell intelligens
UniTune: Googles alternativa neurala bildredigeringsteknik

Det verkar som att Google Research attackerar textbaserad bildredigering frÄn flera olika hÄll, och förmodligen vÀntar de pÄ att se vad som "ska hÀnda". De Àr hett pÄ spÄren inför veckans lansering av dess Trollpapper, har sökjÀtten föreslagit ytterligare en latent diffusionsbaserad metod för att utföra annars omöjliga AI-baserade redigeringar pÄ bilder via textkommandon, denna gÄng kallad UniTune.
Baserat pÄ exemplen som ges i projektets nytt papper, UniTune har uppnÄtt en extraordinÀr grad av lösgöring av semantisk pose och idé frÄn verkligt hÄrd bildinnehÄll:

UniTunes behÀrskning av semantisk komposition Àr enastÄende. LÀgg mÀrke till hur de tvÄ personernas ansikten i den översta raden av bilder inte har förvrÀngts av den extraordinÀra förvandlingen i resten av kÀllbilden (höger). KÀlla: https://arxiv.org/pdf/2210.09477.pdf
Som Stable Diffusion fans kommer att ha lĂ€rt sig vid det hĂ€r laget, kan det vara en knepig, ibland omöjlig operation, att tillĂ€mpa redigeringar pĂ„ delar av en bild utan att negativt förĂ€ndra resten av bilden. Ăven om populĂ€ra distributioner som t.ex AUTOMATISK1111 kan skapa masker för lokala och begrĂ€nsade redigeringar, processen Ă€r slingrande och ofta oförutsĂ€gbar.
Det uppenbara svaret, Ätminstone för en utövare av datorseende, Àr att lÀgga in ett lager av semantisk segmentering som kan kÀnna igen och isolera objekt i en bild utan anvÀndarintervention, och det har faktiskt funnits flera nya initiativ pÄ sistone i den hÀr riktningen.
Annan Möjligheten för att lĂ„sa ner röriga och intrasslade neurala bildredigeringsoperationer Ă€r att utnyttja OpenAI:s inflytelserika förtrĂ€ning av kontrastivt sprĂ„k och bild (KLĂMMA)-modulen, som Ă€r kĂ€rnan i latenta diffusionsmodeller som DALL-E 2 och Stable Diffusion, för att fungera som ett filter vid den punkt dĂ€r en text-till-bild-modell Ă€r redo att skicka en tolkad rendering tillbaka till anvĂ€ndaren . I detta sammanhang bör CLIP fungera som en övervaknings- och kvalitetskontrollmodul, som avvisar felaktiga eller pĂ„ annat sĂ€tt olĂ€mpliga renderingar. Detta Ă€r pĂ„ vĂ€g att inrĂ€ttas (Discord-lĂ€nk) pĂ„ Stability.ais DreamStudio API-drivna portal.
Men eftersom CLIP utan tvekan Àr bÄde boven i dramat och lösningen i ett sÄdant scenario (eftersom det i huvudsak ocksÄ pÄverkade hur bilden utvecklades), och eftersom hÄrdvarukraven kan överstiga vad som sannolikt Àr tillgÀngligt lokalt för en slutanvÀndare, kanske denna metod inte Àr idealisk.
Komprimerat sprÄk
Den föreslagna UniTune "finjusterar" istĂ€llet en befintlig diffusionsmodell â i det hĂ€r fallet Googles egen Imagen, Ă€ven om forskarna uppger att metoden Ă€r kompatibel med andra latenta diffusionsarkitekturer â sĂ„ att en unik token injiceras i den som kan framkallas genom att inkludera den i en textprompt.
Till nominellt vÀrde lÄter detta som Google drömbÄs, för nÀrvarande en besatthet bland Stable Diffusion-fans och utvecklare, som kan injicera nya karaktÀrer eller föremÄl i en befintlig checkpoint, ofta pÄ mindre Àn en timme, baserat pÄ bara en handfull kÀllbilder; eller annat som Textinversion, vilket skapar "sidovagnsfiler" för en kontrollpunkt, vilka sedan behandlas som om de ursprungligen trÀnades in i modellen, och kan dra nytta av modellens egna stora resurser genom att modifiera dess textklassificerare, vilket resulterar i en liten fil (jÀmfört med DreamBooths minst 2 GB beskurna kontrollpunkter).
I sjÀlva verket, hÀvdar forskarna, avvisade UniTune bÄda dessa tillvÀgagÄngssÀtt. De fann att Textual Inversion utelÀmnade för mÄnga viktiga detaljer, medan DreamBooth "presterade sÀmre och tog lÀngre tid" Àn den lösning som de slutligen slog sig pÄ.
UniTune anvÀnder dock samma inkapslade semantiska "metaprompt"-metod som DreamBooth, med trÀnade Àndringar som framkallas av unika ord valda av trÀnaren, och som inte kommer att kollidera med nÄgra termer som för nÀrvarande finns i en mödosamt trÀnad modell för offentlig utgivning.
För att utföra redigeringen samplar vi de finjusterade modellerna med prompten â[rare_tokens] edit_promptâ (t.ex. âbeikkpic tvĂ„ hundar pĂ„ en restaurangâ eller âbeikkpic en minionâ).
Processen
Ăven om det Ă€r förbryllande varför tvĂ„ nĂ€stan identiska dokument, vad gĂ€ller deras slutfunktionalitet, skulle komma frĂ„n Google samma vecka, finns det, trots ett stort antal likheter mellan de tvĂ„ initiativen, Ă„tminstone en tydlig skillnad mellan UniTune och Imagic â den senare anvĂ€nder "okomprimerade" naturliga sprĂ„kprompter för att vĂ€gleda bildredigeringsoperationer, medan UniTune trĂ€nar i unika DreamBooth-stiltokens.
DÀrför, om du redigerade med Imagic och ville Ästadkomma en transformation av denna karaktÀr...

FrĂ„n UniTune-artikeln â UniTune jĂ€mför sig med Googles favoritrivaliserande ramverk för neural redigering, SDEdit. UniTunes resultat visas lĂ€ngst till höger, medan den uppskattade masken ses i den andra bilden frĂ„n vĂ€nster.
.. i Imagic skulle du skriva in "den tredje personen, sittande i bakgrunden, som ett sött lurvigt monster".
Motsvarande UniTune-kommando skulle vara 'Killen lÀngst bak som [x]'DÀr x Àr vilket konstigt och unikt ord som Àn var bundet till det fintrÀnade konceptet som förknippas med den lurviga monsterkaraktÀren.
Medan ett antal bilder matas in i antingen DreamBooth eller Textual Inversion med avsikten att skapa en abstraktion i djupfalsk stil som kan styras in i mĂ„nga poser, matar bĂ„de UniTune och Imagic istĂ€llet in en enda bild i systemet â den ursprungliga, orörda bilden.
Detta liknar hur mĂ„nga av de GAN-baserade redigeringsverktygen under de senaste Ă„ren har fungerat â genom att konvertera en ingĂ„ngsbild till latenta koder i GAN:s latenta utrymme och sedan adressera dessa koder och skicka dem till andra delar av det latenta utrymmet för modifiering (dvs. mata in en bild av en ung mörkhĂ„rig person och projicera den genom latenta koder associerade med "gammal" eller "blond", etc.).
Men resultaten, i en diffusionsmodell, och med denna metod, Àr ganska hÀpnadsvÀckande exakta i jÀmförelse, och mycket mindre tvetydiga:
Finjusteringsprocessen
UniTune-metoden skickar i huvudsak originalbilden genom en diffusionsmodell med en uppsĂ€ttning instruktioner om hur den ska modifieras, med hjĂ€lp av de stora databaser av tillgĂ€nglig data som trĂ€nats in i modellen. I praktiken kan du göra detta just nu med Stable Diffusions img2img funktionalitet â men inte utan förvrĂ€ngning eller pĂ„ nĂ„got sĂ€tt Ă€ndra de delar av bilden som du föredrar att behĂ„lla.
Under UniTune-processen Àr systemet finjusterad, vilket vill sÀga att UniTune tvingar modellen att Äteruppta trÀningen, med de flesta av dess lager ofrusta (se nedan). I de flesta fall kommer finjustering att tanka overallen allmÀnna förlustvÀrden för en svÄrvunnen högpresterande modell till förmÄn för att injicera eller förfina nÄgon annan aspekt som man önskar skapa eller förbÀttra.
Med UniTune verkar det dock som att den modellkopia som ÄtgÀrdas, Àven om den kan vÀga flera gigabyte eller mer, kommer att behandlas som ett engÄngsmaterial och kasseras i slutet av processen, eftersom den bara tjÀnar ett enda syfte. Denna typ av tillfÀlligt datamÀngd hÄller pÄ att bli en vardaglig lagringskris för DreamBooth-fans, vars egna modeller, Àven nÀr de beskÀrs, Àr minst 2 GB stora per subjekt.
Precis som med Imagic sker huvudinstÀllningen i UniTune vid de tvÄ nedre av de tre lagren i Imagen (bas 64px, 64px>256px och 256px>1024px). Till skillnad frÄn Imagic ser forskarna ett visst potentiellt vÀrde i att optimera justeringen Àven för detta sista och största superupplösningslager (Àven om de inte har försökt det Ànnu).
För det lĂ€gsta 64px-lagret Ă€r modellen förspĂ€nd mot basbilden under trĂ€ning, med flera dubbletter av bild/text matas in i systemet för 128 iterationer vid en batchstorlek pĂ„ 4, och med Adafaktor som förlustfunktion, som arbetar med en inlĂ€rningshastighet pĂ„ 0.0001. Ăven om T5-kodare enbart fryses under denna finjustering, den fryses Ă€ven under primĂ€r trĂ€ning av Imagen
OvanstÄende operation upprepas sedan för 64>256px-skiktet, med samma brusförstÀrkningsprocedur som anvÀndes i den ursprungliga utbildningen av Imagen.
provtagning
Det finns mĂ„nga möjliga provtagningsmetoder genom vilka Ă€ndringarna som gjorts kan framkallas frĂ„n den finjusterade modellen, inklusive Classifier Free Guidance (CFG), en grundpelare ocksĂ„ inom stabil diffusion. CFG definierar i grunden i vilken utstrĂ€ckning modellen Ă€r fri att "följa sin fantasi" och utforska renderingsmöjligheterna â eller, vid lĂ€gre instĂ€llningar, i vilken utstrĂ€ckning den ska följa indatakĂ€llan och göra mindre omfattande eller dramatiska förĂ€ndringar.

Liksom Textual Inversion (lite mindre med DreamBooth), Àr UniTune mottaglig för att tillÀmpa distinkta grafiska stilar pÄ originalbilder, sÄvÀl som mer fotorealistiska redigeringar.
Forskarna experimenterade ocksĂ„ med SDEdits teknik för "sen start", dĂ€r systemet uppmuntras att bevara ursprungliga detaljer genom att bara delvis vara "brusfritt" frĂ„n början, men snarare bibehĂ„lla sina vĂ€sentliga egenskaper. Ăven om forskarna bara anvĂ€nde detta pĂ„ det lĂ€gsta lagret (64px), tror de att det kan vara en anvĂ€ndbar kompletterande samplingsteknik i framtiden.
Forskarna utnyttjade ocksÄ prompt-to-prompt som en ytterligare textbaserad teknik för att konditionera modellen:
"I instÀllningen "prompt to prompt" fann vi att en teknik som vi kallar prompt guidning Àr sÀrskilt anvÀndbar för att stÀmma trohet och uttrycksfullhet.
"PromptvÀgledning liknar klassificeringsfri vÀgledning förutom att baslinjen Àr en annan prompt istÀllet för den ovillkorade modellen. Detta styr modellen mot deltat mellan de tvÄ prompterna."
Men snabb vÀgledning, uppger författarna, behövdes endast ibland i de fall dÀr CFG inte lyckades uppnÄ det önskade resultatet.
En annan ny samplingsmetod som man stötte pÄ under utvecklingen av UniTune var interpole, dÀr omrÄden i bilden Àr tillrÀckligt distinkta för att bÄde den ursprungliga och den Àndrade bilden ska ha mycket lika komposition, vilket möjliggör en mer "naiv" interpolering.

Interpolering kan göra de mer anstrÀngda processerna i UniTune överflödiga i fall dÀr omrÄden som ska transformeras Àr diskreta och vÀlavgrÀnsade.
Författarna föreslÄr att interpolering potentiellt skulle kunna fungera sÄ bra, för ett stort antal mÄlkÀllbilder, att det skulle kunna anvÀndas som standardinstÀllning, och observerar ocksÄ att det har kraften att Ästadkomma extraordinÀra transformationer i fall dÀr komplexa ocklusioner inte behöver hanteras med mer intensiva metoder.
UniTune kan utföra lokala redigeringar med eller utan redigeringsmasker, men kan ocksÄ ensidigt bestÀmma var redigeringar ska placeras, med en ovanlig kombination av tolkningskraft och robust essentialisering av kÀlldata:

I den översta bilden i den andra kolumnen har UniTune, som har till uppgift att infoga ett "rött tÄg i bakgrunden", placerat det pÄ en lÀmplig och autentisk plats. LÀgg mÀrke till i de andra exemplen hur semantisk integritet till kÀllbilden bibehÄlls Àven mitt i extraordinÀra förÀndringar i pixelinnehÄllet och bildernas kÀrnstilar.
Latens
Ăven om den första iterationen av ett nytt system kommer att vara lĂ„ngsam, och Ă€ven om det Ă€r möjligt att antingen samhĂ€llsengagemang eller företagsengagemang (det Ă€r vanligtvis inte bĂ„da) sĂ„ smĂ„ningom kommer att snabba upp och optimera en resurskrĂ€vande rutin, utför bĂ„de UniTune och Imagic nĂ„gra ganska stora maskininlĂ€rningsmanövrar för att skapa dessa fantastiska redigeringar, och det Ă€r tveksamt i vilken utstrĂ€ckning en sĂ„dan resurskrĂ€vande process nĂ„gonsin skulle kunna skalas ner till hushĂ„llsbruk, snarare Ă€n API-driven Ă„tkomst (Ă€ven om det senare kan vara mer önskvĂ€rt för Google).
För nÀrvarande Àr resan frÄn inmatning till resultat cirka 3 minuter pÄ en T4 GPU, med cirka 30 sekunder extra för inferens (enligt vilken inferensrutin som helst). Författarna medger att detta Àr hög latens och knappast kvalificerar som "interaktiv", men de noterar ocksÄ att modellen förblir tillgÀnglig för ytterligare redigeringar nÀr den initialt har finjusterats, tills anvÀndaren Àr klar med processen, vilket minskar tiden per redigering.
Första gÄngen publicerad 21 oktober 2022.