Kunstig intelligens

AI-assisteret objektredigering med Googles Imagic og Runway's 'Erase and Replace'

Opdateret on 9. December, 2022

I denne uge tilbyder to nye, men kontrasterende AI-drevne grafikalgoritmer nye måder for slutbrugere til at foretage meget detaljerede og effektive ændringer af objekter i fotos.

Den første er Magisk, fra Google Research, i samarbejde med Israels Institute of Technology og Weizmann Institute of Science. Imagic tilbyder tekstbetinget, finkornet redigering af objekter via finjustering af diffusionsmodeller.

Skift, hvad du kan lide, og lad resten stå – Imagic lover detaljeret redigering af kun de dele, du ønsker skal ændres. Kilde: https://arxiv.org/pdf/2210.09276.pdf

Enhver, der nogensinde har prøvet at ændre kun ét element i en stabil diffusionsgengivelse, ved kun alt for godt, at for hver vellykket redigering vil systemet ændre fem ting, som du kunne lide, lige som de var. Det er en mangel, som i øjeblikket har mange af de mest talentfulde SD-entusiaster, der konstant blander sig mellem Stable Diffusion og Photoshop, for at rette op på denne form for 'collateral damage'. Alene fra dette synspunkt virker Imagics præstationer bemærkelsesværdige.

I skrivende stund mangler Imagic endnu en reklamevideo, og givet Googles forsigtig holdning for at frigive uindskrænkede billedsynteseværktøjer, er det usikkert, i hvilket omfang, om nogen, vi får en chance for at teste systemet.

Det andet tilbud er Runway ML's mere tilgængelige Slet og erstat anlæg, en ny funktion i sektionen 'AI Magic Tools' i dets udelukkende online-pakke af maskinlæringsbaserede visuelle effektværktøjer.

Runway ML's Erase and Replace-funktion, som allerede er set i en forhåndsvisning af et tekst-til-video-redigeringssystem. Kilde: https://www.youtube.com/watch?v=41Qb58ZPO60

Lad os tage et kig på Runways udflugt først.

Slet og erstat

Ligesom Imagic omhandler Erase and Replace udelukkende stillbilleder, selvom Runway har fremvist den samme funktionalitet i en tekst-til-video-redigeringsløsning, der endnu ikke er udgivet:

Selvom alle kan teste den nye Erase and Replace på billeder, er videoversionen endnu ikke offentligt tilgængelig. Kilde: https://twitter.com/runwayml/status/1568220303808991232

Selvom Runway ML ikke har frigivet detaljer om teknologierne bag Erase and Replace, tyder den hastighed, hvormed du kan erstatte en stueplante med en rimeligt overbevisende buste af Ronald Reagan, på, at en diffusionsmodel såsom Stable Diffusion (eller, langt mindre sandsynligt, en licenseret DALL-E 2) er motoren, der genopfinder objektet efter dit valg i Erase and Replace.

At erstatte en stueplante med en buste af The Gipper er ikke helt så hurtigt som dette, men det er ret hurtigt. Kilde: https://app.runwayml.com/

Systemet har nogle begrænsninger af DALL-E 2-typen – billeder eller tekst, der markerer Slet- og Erstat-filtrene vil udløse en advarsel om mulig kontosuspendering i tilfælde af yderligere overtrædelser – praktisk talt en kedel-klon af OpenAI's igangværende politikker til DALL-E 2 .

Mange af resultaterne mangler de typiske ru kanter af stabil diffusion. Runway ML er investorer og forskningspartnere i SD, og det er muligt, at de har trænet en proprietær model, der er overlegen i forhold til open source 1.4 checkpoint-vægtene, som resten af os i øjeblikket kæmper med (da mange andre udviklingsgrupper, både hobbyfolk og professionelle, i øjeblikket træner eller finjusterer Stabile diffusionsmodeller).

Erstatning af et husligt bord med et 'bord lavet af is' i Runway ML's Erase and Replace.

Som med Imagic (se nedenfor), er Erase and Replace så at sige 'objekt-orienteret' – du kan ikke bare slette en 'tom' del af billedet og indmale den med resultatet af din tekstprompt; i det scenarie vil systemet blot spore det nærmeste synlige objekt langs maskens sigtelinje (såsom en væg eller et fjernsyn) og anvende transformationen der.

Som navnet indikerer, kan du ikke injicere objekter i et tomt rum i Slet og erstat. Her resulterer et forsøg på at tilkalde de mest berømte af Sith-herrerne i et mærkeligt Vader-relateret vægmaleri på tv'et, omtrent hvor 'erstat'-området blev tegnet.

Det er svært at sige, om Erase and Replace er undvigende med hensyn til brugen af copyright-beskyttede billeder (som stadig stort set er blokeret, omend med varierende succes, i DALL-E 2), eller om modellen, der bruges i backend-gengivelsesmotoren er bare ikke optimeret til den slags.

Den lidt NSFW 'Mural of Nicole Kidman' indikerer, at den (formodentlig) diffusionsbaserede model mangler DALL-E 2's tidligere systematiske afvisning af gengivelse af realistiske ansigter eller rasende indhold, mens resultaterne for forsøg på at bevise ophavsretligt beskyttede værker spænder fra det tvetydige ('xenomorph') til det absurde ('jerntronen'). Indsat nederst til højre, kildebilledet.

Det ville være interessant at vide, hvilke metoder Erase and Replace bruger til at isolere de objekter, som den er i stand til at erstatte. Formentlig bliver billedet kørt igennem en eller anden afledning af CLIP, med de diskrete elementer individuelt ved objektgenkendelse og efterfølgende semantisk segmentering. Ingen af disse operationer fungerer nær så godt i en fælles-eller-have installation af Stable Diffusion.

Men intet er perfekt – nogle gange ser systemet ud til at slette og ikke erstatte, selv når (som vi har set på billedet ovenfor), den underliggende gengivelsesmekanisme helt sikkert ved, hvad en tekstprompt betyder. I dette tilfælde viser det sig umuligt at gøre et sofabord til en xenomorf - snarere forsvinder bordet bare.

En mere skræmmende gentagelse af 'Where's Waldo', da Erase and Replace ikke formår at producere et rumvæsen.

Erase and Replace ser ud til at være et effektivt objektsubstitutionssystem med fremragende indpainting. Den kan dog ikke redigere eksisterende opfattede objekter, men kun erstatte dem. At faktisk ændre eksisterende billedindhold uden at gå på kompromis med det omgivende materiale er uden tvivl en langt sværere opgave, forbundet med computervisionsforskningssektorens lange kamp mod adskillelse i de forskellige latente rum i de populære rammer.

Magisk

Det er en opgave, som Imagic løser. Det nyt papir byder på adskillige eksempler på redigeringer, der med succes ændrer individuelle facetter af et billede, mens resten af billedet ikke er rørt.

I Imagic lider de ændrede billeder ikke af den karakteristiske strækning, forvrængning og 'okklusionsgætning', der er karakteristisk for deepfake dukketeater, som bruger begrænsede forudsætninger afledt af et enkelt billede.

Systemet anvender en proces i tre trin – optimering af tekstindlejring; model finjustering; og endelig genereringen af det ændrede billede.

Imagic koder måltekstprompten for at hente den indledende tekstindlejring og optimerer derefter resultatet for at opnå inputbilledet. Derefter finjusteres den generative model til kildebilledet og tilføjer en række parametre, før den udsættes for den ønskede interpolation.

Ikke overraskende er rammerne baseret på Googles Billede tekst-til-video-arkitektur, selvom forskerne siger, at systemets principper er bredt anvendelige til latente diffusionsmodeller.

Imagen bruger en tre-lags arkitektur i stedet for den syv-lags array, der bruges til virksomhedens nyere tekst-til-video iteration af softwaren. De tre adskilte moduler omfatter en generativ diffusionsmodel, der opererer ved 64x64px opløsning; en superopløsningsmodel, der opskalerer dette output til 256x256px; og en ekstra superopløsningsmodel til at tage output helt op til 1024×1024 opløsning.

Imagic griber ind på det tidligste stadie af denne proces og optimerer den ønskede tekstindlejring på 64px-stadiet på en Adam optimizer ved en statisk indlæringshastighed på 0.0001.

En mesterklasse i disentanglement: de slutbrugere, der har forsøgt at ændre noget så simpelt som farven på et gengivet objekt i en diffusions-, GAN- eller NeRF-model, vil vide, hvor vigtigt det er, at Imagic kan udføre sådanne transformationer uden at 'rive fra hinanden' ' konsistensen af resten af billedet.

Finjustering finder derefter sted på Imagens basismodel, for 1500 trin pr. inputbillede, betinget af den reviderede indlejring. Samtidig optimeres det sekundære 64px>256px lag parallelt på det konditionerede billede. Forskerne bemærker, at en lignende optimering for det endelige 256px>1024px lag har 'liden eller ingen effekt' på de endelige resultater, og har derfor ikke implementeret dette.

I papiret står der, at optimeringsprocessen tager cirka otte minutter for hvert billede på tvilling TPUV4 chips. Den endelige gengivelse finder sted i kerne Imagen under DDIM prøveudtagningsskema.

Til fælles med lignende finjusteringsprocesser for Googles drømmekabine, kan de resulterende indlejringer desuden bruges til at styrke stilisering, såvel som fotorealistiske redigeringer, der indeholder information hentet fra den bredere underliggende database, der driver Imagen (da, som den første kolonne nedenfor viser, kildebillederne ikke har noget af det nødvendige indhold til at påvirke disse transformationer).

Fleksible fotorealistiske bevægelser og redigeringer kan fremkaldes via Imagic, mens de afledte og adskilte koder opnået i processen lige så nemt kan bruges til stiliseret output.

Forskerne sammenlignede Imagic med tidligere værker SDEdit, en GAN-baseret tilgang fra 2021, et samarbejde mellem Stanford University og Carnegie Mellon University; og Text2Live, et samarbejde, fra april 2022, mellem Weizmann Institute of Science og NVIDIA.

En visuel sammenligning mellem Imagic, SDEdit og Text2Live.

Det er tydeligt, at de tidligere tilgange kæmper, men i den nederste række, som involverer at indskyde en massiv ændring af positur, mislykkes de etablerede helt med at omforme kildematerialet, sammenlignet med en bemærkelsesværdig succes fra Imagic.

Imagics ressourcekrav og træningstid pr. billede, selv om de er korte i forhold til standarderne for sådanne bestræbelser, gør det til en usandsynlig inklusion i et lokalt billedredigeringsprogram på personlige computere – og det er ikke klart, i hvilket omfang processen med finjustering kan være nedskaleret til forbrugerniveau.

Som det ser ud, er Imagic et imponerende tilbud, der er mere velegnet til API'er – et miljø, som Google Research, der er meget kritisabelt med hensyn til at lette deepfaking, under alle omstændigheder kan være mest fortrolig med.

Først offentliggjort 18. oktober 2022.