Kunstig intelligens

AI-assistert objektredigering med Googles Imagic og Runways "Erase and Replace"

oppdatert on Desember 9, 2022

Denne uken tilbyr to nye, men kontrasterende AI-drevne grafikkalgoritmer nye måter sluttbrukere kan gjøre svært detaljerte og effektive endringer på objekter i bilder.

Den første er Magisk, fra Google Research, i samarbeid med Israels Institute of Technology og Weizmann Institute of Science. Imagic tilbyr tekstbetinget, finkornet redigering av objekter via finjustering av diffusjonsmodeller.

Endre det du liker, og la resten stå – Imagic lover detaljert redigering av bare de delene du ønsker skal endres. Kilde: https://arxiv.org/pdf/2210.09276.pdf

Alle som noen gang har prøvd å endre bare ett element i en stabil diffusjonsgjengivelse, vil bare vite altfor godt at for hver vellykket redigering vil systemet endre fem ting du likte akkurat slik de var. Det er en mangel som for tiden har mange av de mest talentfulle SD-entusiastene som stadig stokker mellom Stable Diffusion og Photoshop, for å fikse denne typen "collateral damage". Bare fra dette synspunktet virker Imagics prestasjoner bemerkelsesverdige.

I skrivende stund mangler Imagic enda en reklamevideo, og gitt Googles forsiktig holdning for å slippe uhindrede bildesynteseverktøy, er det usikkert i hvilken grad, om noen, vi får en sjanse til å teste systemet.

Det andre tilbudet er Runway MLs noe mer tilgjengelig Slett og erstatt anlegg, en ny funksjon i 'AI Magic Tools'-delen av dens eksklusivt nettbaserte pakke med maskinlæringsbaserte visuelle effektverktøy.

Runway MLs Erase and Replace-funksjon, allerede sett i en forhåndsvisning for et tekst-til-video-redigeringssystem. Kilde: https://www.youtube.com/watch?v=41Qb58ZPO60

La oss ta en titt på Runways utflukt først.

Slett og erstatt

Som Imagic omhandler Erase and Replace utelukkende stillbilder, selv om Runway har forhånds samme funksjonalitet i en tekst-til-video-redigeringsløsning som ennå ikke er utgitt:

Selv om hvem som helst kan teste ut den nye Erase and Replace på bilder, er videoversjonen ennå ikke offentlig tilgjengelig. Kilde: https://twitter.com/runwayml/status/1568220303808991232

Selv om Runway ML ikke har gitt ut detaljer om teknologiene bak Erase and Replace, tyder hastigheten du kan erstatte en stueplante med en rimelig overbevisende byst av Ronald Reagan med at en diffusjonsmodell som Stable Diffusion (eller, langt mindre sannsynlig, en lisensiert DALL-E 2) er motoren som gjenoppfinner objektet du ønsker i Erase and Replace.

Å erstatte en stueplante med en byste av The Gipper er ikke fullt så raskt som dette, men det er ganske raskt. Kilde: https://app.runwayml.com/

Systemet har noen restriksjoner av DALL-E 2-typen – bilder eller tekst som flagger Slett og Erstatt-filtrene vil utløse en advarsel om mulig kontosuspensjon i tilfelle ytterligere overtredelser – praktisk talt en standardklone av OpenAIs pågående Politikk for DALL-E 2 .

Mange av resultatene mangler de typiske grove kantene til stabil diffusjon. Runway ML er investorer og forskningspartnere i SD, og det er mulig de har trent opp en proprietær modell som er overlegen åpen kildekode 1.4-sjekkpunktvektene som resten av oss for tiden kjemper med (ettersom mange andre utviklingsgrupper, både hobbyfolk og profesjonelle, trener eller finjusterer for tiden Stabile diffusjonsmodeller).

Erstatter et hjemlig bord med et "bord laget av is" i Runway MLs Erase and Replace.

Som med Imagic (se nedenfor), er Erase and Replace så å si "objektorientert" – du kan ikke bare slette en "tom" del av bildet og male den med resultatet av tekstmeldingen din; i det scenariet vil systemet ganske enkelt spore det nærmeste synlige objektet langs maskens siktlinje (som en vegg eller en TV), og bruke transformasjonen der.

Som navnet indikerer, kan du ikke injisere objekter i tomrom i Slett og erstatt. Her resulterer et forsøk på å tilkalle de mest kjente av Sith-herrene i et merkelig Vader-relatert veggmaleri på TV-en, omtrent der "erstatt"-området ble tegnet.

Det er vanskelig å si om Erase and Replace er unnvikende når det gjelder bruk av opphavsrettsbeskyttede bilder (som fortsatt i stor grad er hindret, om enn med varierende suksess, i DALL-E 2), eller om modellen som brukes i backend-gjengivelsesmotoren er bare ikke optimalisert for den slags ting.

Den litt NSFW 'Mural of Nicole Kidman' indikerer at den (antagelig) diffusjonsbaserte modellen for hånden mangler DALL-E 2s tidligere systematiske avvisning av å gjengi realistiske ansikter eller rasende innhold, mens resultatene for forsøk på å bevise opphavsrettsbeskyttede verk varierer fra det tvetydige. ('xenomorph') til det absurde ('jerntronen'). Innsatt nederst til høyre, kildebildet.

Det ville være interessant å vite hvilke metoder Erase and Replace bruker for å isolere objektene som den er i stand til å erstatte. Antagelig kjøres bildet gjennom noen avledning av CLIP, med de diskrete elementene individuelt av objektgjenkjenning og påfølgende semantisk segmentering. Ingen av disse operasjonene fungerer i nærheten av like godt i en felles- eller hageinstallasjon av Stable Diffusion.

Men ingenting er perfekt – noen ganger ser det ut til at systemet sletter og ikke erstatter, selv når (som vi har sett på bildet ovenfor), den underliggende gjengivelsesmekanismen definitivt vet hva en tekstmelding betyr. I dette tilfellet viser det seg umulig å gjøre et salongbord til en xenomorf – snarere forsvinner bordet bare.

En skumlere iterasjon av "Where's Waldo", ettersom Erase and Replace ikke klarer å produsere en romvesen.

Erase and Replace ser ut til å være et effektivt objekterstatningssystem, med utmerket maling. Den kan imidlertid ikke redigere eksisterende oppfattede objekter, men bare erstatte dem. Å faktisk endre eksisterende bildeinnhold uten å kompromittere omgivelsesmateriale er uten tvil en langt vanskeligere oppgave, knyttet til datasynsforskningssektorens lange kamp mot løsrivelse i de ulike latente rom i de populære rammeverkene.

Magisk

Det er en oppgave som Imagic tar opp. De nytt papir tilbyr en rekke eksempler på redigeringer som vellykket endrer individuelle fasetter av et bilde mens resten av bildet forblir urørt.

I Imagic lider ikke de endrede bildene av den karakteristiske strekkingen, forvrengningen og "okklusjonsgjettingen" som er karakteristisk for deepfake dukketeater, som bruker begrensede forutsetninger avledet fra et enkelt bilde.

Systemet bruker en tre-trinns prosess – tekstinnbyggingsoptimering; modell finjustering; og til slutt genereringen av det endrede bildet.

Imagic koder måltekstmeldingen for å hente den første tekstinnbyggingen, og optimerer deretter resultatet for å få inndatabildet. Deretter finjusteres den generative modellen til kildebildet, og legger til en rekke parametere, før den blir utsatt for den forespurte interpoleringen.

Imagic koder måltekstmeldingen for å hente den første tekstinnbyggingen, og optimaliserer deretter resultatet for å få inndatabildet. Deretter finjusteres den generative modellen til kildebildet, og legger til en rekke parametere, før den blir utsatt for den forespurte interpoleringen.

Ikke overraskende er rammeverket basert på Googles Bilde tekst-til-video-arkitektur, selv om forskerne uttaler at systemets prinsipper er bredt anvendelige for latente diffusjonsmodeller.

Imagen bruker en tre-lags arkitektur, i stedet for den syv-lags matrisen som brukes for selskapets nyere tekst-til-video iterasjon av programvaren. De tre distinkte modulene omfatter en generativ diffusjonsmodell som opererer med 64x64px oppløsning; en superoppløsningsmodell som oppskalerer denne utgangen til 256x256px; og en ekstra superoppløsningsmodell for å ta utdata helt opp til 1024×1024 oppløsning.

Imagic griper inn på det tidligste stadiet av denne prosessen, og optimaliserer den forespurte tekstinnbyggingen på 64px-stadiet på en Adam-optimalisator med en statisk læringshastighet på 0.0001.

En mesterklasse i disentanglement: de sluttbrukerne som har forsøkt å endre noe så enkelt som fargen på et gjengitt objekt i en diffusjons-, GAN- eller NeRF-modell vil vite hvor viktig det er at Imagic kan utføre slike transformasjoner uten å rive i stykker ' konsistensen til resten av bildet.

Finjustering finner sted på Imagens basismodell, for 1500 trinn per inndatabilde, betinget av den reviderte innebyggingen. Samtidig optimaliseres det sekundære 64px>256px-laget parallelt på det betingede bildet. Forskerne bemerker at en lignende optimalisering for det endelige 256px>1024px-laget har "liten eller ingen effekt" på de endelige resultatene, og har derfor ikke implementert dette.

Papiret sier at optimaliseringsprosessen tar omtrent åtte minutter for hvert bilde på tvilling TPUV4 sjetonger. Den endelige gjengivelsen finner sted i kjernen Imagen under DDIM prøvetakingsskjema.

Til felles med lignende finjusteringsprosesser for Googles drømmebod, kan de resulterende innebyggingene i tillegg brukes til å drive stilisering, så vel som fotorealistiske redigeringer som inneholder informasjon hentet fra den bredere underliggende databasen som driver Imagen (siden, som den første kolonnen nedenfor viser, har ikke kildebildene noe av nødvendig innhold for å påvirke disse transformasjonene).

Fleksible fotorealistiske bevegelser og redigeringer kan fremkalles via Imagic, mens de avledede og usammenfiltrede kodene som oppnås i prosessen like enkelt kan brukes til stilisert utgang.

Forskerne sammenlignet Imagic med tidligere arbeider SDEditt, en GAN-basert tilnærming fra 2021, et samarbeid mellom Stanford University og Carnegie Mellon University; og Text2Live, et samarbeid, fra april 2022, mellom Weizmann Institute of Science og NVIDIA.

En visuell sammenligning mellom Imagic, SDEdit og Text2Live.

Det er tydelig at de tidligere tilnærmingene sliter, men på den nederste raden, som involverer en massiv endring av positur, mislykkes de sittende i å refigurere kildematerialet, sammenlignet med en bemerkelsesverdig suksess fra Imagic.

Imagics ressurskrav og treningstid per bilde, selv om det er kort i forhold til standardene for slike sysler, gjør det til en usannsynlig inkludering i et lokalt bilderedigeringsprogram på personlige datamaskiner – og det er ikke klart i hvilken grad prosessen med finjustering kan være nedskalert til forbrukernivå.

Som det er nå, er Imagic et imponerende tilbud som er mer egnet for APIer – et miljø Google Research, som har mye kritikk i forhold til å tilrettelegge for deepfaking, i alle fall kan være mest komfortabel med.

Først publisert 18. oktober 2022.