Kunstig intelligens
AI-assisteret objektredigering med Googles Imagic og Runway's 'Erase and Replace'
I denne uge tilbyder to nye, men kontrasterende AI-drevne grafikalgoritmer nye måder for slutbrugere til at foretage meget detaljerede og effektive ændringer af objekter i fotos.
Den første er Magisk, fra Google Research, i samarbejde med Israels Institute of Technology og Weizmann Institute of Science. Imagic tilbyder tekstbetinget, finkornet redigering af objekter via finjustering af diffusionsmodeller.
Enhver, der nogensinde har prøvet at ændre kun ét element i en stabil diffusionsgengivelse, ved kun alt for godt, at for hver vellykket redigering vil systemet ændre fem ting, som du kunne lide, lige som de var. Det er en mangel, som i øjeblikket har mange af de mest talentfulde SD-entusiaster, der konstant blander sig mellem Stable Diffusion og Photoshop, for at rette op på denne form for 'collateral damage'. Alene fra dette synspunkt virker Imagics præstationer bemærkelsesværdige.
I skrivende stund mangler Imagic endnu en reklamevideo, og givet Googles forsigtig holdning for at frigive uindskrænkede billedsynteseværktøjer, er det usikkert, i hvilket omfang, om nogen, vi får en chance for at teste systemet.
Det andet tilbud er Runway ML's mere tilgængelige Slet og erstat anlæg, en ny funktion i sektionen 'AI Magic Tools' i dets udelukkende online-pakke af maskinlæringsbaserede visuelle effektværktøjer.
Lad os tage et kig på Runways udflugt først.
Slet og erstat
Ligesom Imagic omhandler Erase and Replace udelukkende stillbilleder, selvom Runway har fremvist den samme funktionalitet i en tekst-til-video-redigeringsløsning, der endnu ikke er udgivet:
Selvom Runway ML ikke har frigivet detaljer om teknologierne bag Erase and Replace, tyder den hastighed, hvormed du kan erstatte en stueplante med en rimeligt overbevisende buste af Ronald Reagan, på, at en diffusionsmodel såsom Stable Diffusion (eller, langt mindre sandsynligt, en licenseret DALL-E 2) er motoren, der genopfinder objektet efter dit valg i Erase and Replace.
Systemet har nogle begrænsninger af DALL-E 2-typen – billeder eller tekst, der markerer Slet- og Erstat-filtrene vil udløse en advarsel om mulig kontosuspendering i tilfælde af yderligere overtrædelser – praktisk talt en kedel-klon af OpenAI's igangværende politikker til DALL-E 2 .
Mange af resultaterne mangler de typiske ru kanter af stabil diffusion. Runway ML er investorer og forskningspartnere i SD, og det er muligt, at de har trænet en proprietær model, der er overlegen i forhold til open source 1.4 checkpoint-vægtene, som resten af os i øjeblikket kæmper med (da mange andre udviklingsgrupper, både hobbyfolk og professionelle, i øjeblikket træner eller finjusterer Stabile diffusionsmodeller).
Som med Imagic (se nedenfor), er Erase and Replace så at sige 'objekt-orienteret' – du kan ikke bare slette en 'tom' del af billedet og indmale den med resultatet af din tekstprompt; i det scenarie vil systemet blot spore det nærmeste synlige objekt langs maskens sigtelinje (såsom en væg eller et fjernsyn) og anvende transformationen der.
Det er svært at sige, om Erase and Replace er undvigende med hensyn til brugen af copyright-beskyttede billeder (som stadig stort set er blokeret, omend med varierende succes, i DALL-E 2), eller om modellen, der bruges i backend-gengivelsesmotoren er bare ikke optimeret til den slags.
Det ville være interessant at vide, hvilke metoder Erase and Replace bruger til at isolere de objekter, som den er i stand til at erstatte. Formentlig bliver billedet kørt igennem en eller anden afledning af CLIP, med de diskrete elementer individuelt ved objektgenkendelse og efterfølgende semantisk segmentering. Ingen af disse operationer fungerer nær så godt i en fælles-eller-have installation af Stable Diffusion.
Men intet er perfekt – nogle gange ser systemet ud til at slette og ikke erstatte, selv når (som vi har set på billedet ovenfor), den underliggende gengivelsesmekanisme helt sikkert ved, hvad en tekstprompt betyder. I dette tilfælde viser det sig umuligt at gøre et sofabord til en xenomorf - snarere forsvinder bordet bare.
Erase and Replace ser ud til at være et effektivt objektsubstitutionssystem med fremragende indpainting. Den kan dog ikke redigere eksisterende opfattede objekter, men kun erstatte dem. At faktisk ændre eksisterende billedindhold uden at gå på kompromis med det omgivende materiale er uden tvivl en langt sværere opgave, forbundet med computervisionsforskningssektorens lange kamp mod adskillelse i de forskellige latente rum i de populære rammer.
Magisk
Det er en opgave, som Imagic løser. Det nyt papir byder på adskillige eksempler på redigeringer, der med succes ændrer individuelle facetter af et billede, mens resten af billedet ikke er rørt.
Systemet anvender en proces i tre trin – optimering af tekstindlejring; model finjustering; og endelig genereringen af det ændrede billede.
Ikke overraskende er rammerne baseret på Googles Billede tekst-til-video-arkitektur, selvom forskerne siger, at systemets principper er bredt anvendelige til latente diffusionsmodeller.
Imagen bruger en tre-lags arkitektur i stedet for den syv-lags array, der bruges til virksomhedens nyere tekst-til-video iteration af softwaren. De tre adskilte moduler omfatter en generativ diffusionsmodel, der opererer ved 64x64px opløsning; en superopløsningsmodel, der opskalerer dette output til 256x256px; og en ekstra superopløsningsmodel til at tage output helt op til 1024×1024 opløsning.
Imagic griber ind på det tidligste stadie af denne proces og optimerer den ønskede tekstindlejring på 64px-stadiet på en Adam optimizer ved en statisk indlæringshastighed på 0.0001.
Finjustering finder derefter sted på Imagens basismodel, for 1500 trin pr. inputbillede, betinget af den reviderede indlejring. Samtidig optimeres det sekundære 64px>256px lag parallelt på det konditionerede billede. Forskerne bemærker, at en lignende optimering for det endelige 256px>1024px lag har 'liden eller ingen effekt' på de endelige resultater, og har derfor ikke implementeret dette.
I papiret står der, at optimeringsprocessen tager cirka otte minutter for hvert billede på tvilling TPUV4 chips. Den endelige gengivelse finder sted i kerne Imagen under DDIM prøveudtagningsskema.
Til fælles med lignende finjusteringsprocesser for Googles drømmekabine, kan de resulterende indlejringer desuden bruges til at styrke stilisering, såvel som fotorealistiske redigeringer, der indeholder information hentet fra den bredere underliggende database, der driver Imagen (da, som den første kolonne nedenfor viser, kildebillederne ikke har noget af det nødvendige indhold til at påvirke disse transformationer).
Forskerne sammenlignede Imagic med tidligere værker SDEdit, en GAN-baseret tilgang fra 2021, et samarbejde mellem Stanford University og Carnegie Mellon University; og Text2Live, et samarbejde, fra april 2022, mellem Weizmann Institute of Science og NVIDIA.
Det er tydeligt, at de tidligere tilgange kæmper, men i den nederste række, som involverer at indskyde en massiv ændring af positur, mislykkes de etablerede helt med at omforme kildematerialet, sammenlignet med en bemærkelsesværdig succes fra Imagic.
Imagics ressourcekrav og træningstid pr. billede, selv om de er korte i forhold til standarderne for sådanne bestræbelser, gør det til en usandsynlig inklusion i et lokalt billedredigeringsprogram på personlige computere – og det er ikke klart, i hvilket omfang processen med finjustering kan være nedskaleret til forbrugerniveau.
Som det ser ud, er Imagic et imponerende tilbud, der er mere velegnet til API'er – et miljø, som Google Research, der er meget kritisabelt med hensyn til at lette deepfaking, under alle omstændigheder kan være mest fortrolig med.
Først offentliggjort 18. oktober 2022.