Kunstig intelligens
AI-assistert objektredigering med Googles Imagic og Runways "Erase and Replace"
Denne uken tilbyr to nye, men kontrasterende AI-drevne grafikkalgoritmer nye måter sluttbrukere kan gjøre svært detaljerte og effektive endringer på objekter i bilder.
Den første er Magisk, fra Google Research, i samarbeid med Israels Institute of Technology og Weizmann Institute of Science. Imagic tilbyr tekstbetinget, finkornet redigering av objekter via finjustering av diffusjonsmodeller.
Alle som noen gang har prøvd å endre bare ett element i en stabil diffusjonsgjengivelse, vil bare vite altfor godt at for hver vellykket redigering vil systemet endre fem ting du likte akkurat slik de var. Det er en mangel som for tiden har mange av de mest talentfulle SD-entusiastene som stadig stokker mellom Stable Diffusion og Photoshop, for å fikse denne typen "collateral damage". Bare fra dette synspunktet virker Imagics prestasjoner bemerkelsesverdige.
I skrivende stund mangler Imagic enda en reklamevideo, og gitt Googles forsiktig holdning for å slippe uhindrede bildesynteseverktøy, er det usikkert i hvilken grad, om noen, vi får en sjanse til å teste systemet.
Det andre tilbudet er Runway MLs noe mer tilgjengelig Slett og erstatt anlegg, en ny funksjon i 'AI Magic Tools'-delen av dens eksklusivt nettbaserte pakke med maskinlæringsbaserte visuelle effektverktøy.
La oss ta en titt på Runways utflukt først.
Slett og erstatt
Som Imagic omhandler Erase and Replace utelukkende stillbilder, selv om Runway har forhånds samme funksjonalitet i en tekst-til-video-redigeringsløsning som ennå ikke er utgitt:
Selv om Runway ML ikke har gitt ut detaljer om teknologiene bak Erase and Replace, tyder hastigheten du kan erstatte en stueplante med en rimelig overbevisende byst av Ronald Reagan med at en diffusjonsmodell som Stable Diffusion (eller, langt mindre sannsynlig, en lisensiert DALL-E 2) er motoren som gjenoppfinner objektet du ønsker i Erase and Replace.
Systemet har noen restriksjoner av DALL-E 2-typen – bilder eller tekst som flagger Slett og Erstatt-filtrene vil utløse en advarsel om mulig kontosuspensjon i tilfelle ytterligere overtredelser – praktisk talt en standardklone av OpenAIs pågående Politikk for DALL-E 2 .
Mange av resultatene mangler de typiske grove kantene til stabil diffusjon. Runway ML er investorer og forskningspartnere i SD, og det er mulig de har trent opp en proprietær modell som er overlegen åpen kildekode 1.4-sjekkpunktvektene som resten av oss for tiden kjemper med (ettersom mange andre utviklingsgrupper, både hobbyfolk og profesjonelle, trener eller finjusterer for tiden Stabile diffusjonsmodeller).
Som med Imagic (se nedenfor), er Erase and Replace så å si "objektorientert" – du kan ikke bare slette en "tom" del av bildet og male den med resultatet av tekstmeldingen din; i det scenariet vil systemet ganske enkelt spore det nærmeste synlige objektet langs maskens siktlinje (som en vegg eller en TV), og bruke transformasjonen der.
Det er vanskelig å si om Erase and Replace er unnvikende når det gjelder bruk av opphavsrettsbeskyttede bilder (som fortsatt i stor grad er hindret, om enn med varierende suksess, i DALL-E 2), eller om modellen som brukes i backend-gjengivelsesmotoren er bare ikke optimalisert for den slags ting.
Det ville være interessant å vite hvilke metoder Erase and Replace bruker for å isolere objektene som den er i stand til å erstatte. Antagelig kjøres bildet gjennom noen avledning av CLIP, med de diskrete elementene individuelt av objektgjenkjenning og påfølgende semantisk segmentering. Ingen av disse operasjonene fungerer i nærheten av like godt i en felles- eller hageinstallasjon av Stable Diffusion.
Men ingenting er perfekt – noen ganger ser det ut til at systemet sletter og ikke erstatter, selv når (som vi har sett på bildet ovenfor), den underliggende gjengivelsesmekanismen definitivt vet hva en tekstmelding betyr. I dette tilfellet viser det seg umulig å gjøre et salongbord til en xenomorf – snarere forsvinner bordet bare.
Erase and Replace ser ut til å være et effektivt objekterstatningssystem, med utmerket maling. Den kan imidlertid ikke redigere eksisterende oppfattede objekter, men bare erstatte dem. Å faktisk endre eksisterende bildeinnhold uten å kompromittere omgivelsesmateriale er uten tvil en langt vanskeligere oppgave, knyttet til datasynsforskningssektorens lange kamp mot løsrivelse i de ulike latente rom i de populære rammeverkene.
Magisk
Det er en oppgave som Imagic tar opp. De nytt papir tilbyr en rekke eksempler på redigeringer som vellykket endrer individuelle fasetter av et bilde mens resten av bildet forblir urørt.
Systemet bruker en tre-trinns prosess – tekstinnbyggingsoptimering; modell finjustering; og til slutt genereringen av det endrede bildet.
Ikke overraskende er rammeverket basert på Googles Bilde tekst-til-video-arkitektur, selv om forskerne uttaler at systemets prinsipper er bredt anvendelige for latente diffusjonsmodeller.
Imagen bruker en tre-lags arkitektur, i stedet for den syv-lags matrisen som brukes for selskapets nyere tekst-til-video iterasjon av programvaren. De tre distinkte modulene omfatter en generativ diffusjonsmodell som opererer med 64x64px oppløsning; en superoppløsningsmodell som oppskalerer denne utgangen til 256x256px; og en ekstra superoppløsningsmodell for å ta utdata helt opp til 1024×1024 oppløsning.
Imagic griper inn på det tidligste stadiet av denne prosessen, og optimaliserer den forespurte tekstinnbyggingen på 64px-stadiet på en Adam-optimalisator med en statisk læringshastighet på 0.0001.
Finjustering finner sted på Imagens basismodell, for 1500 trinn per inndatabilde, betinget av den reviderte innebyggingen. Samtidig optimaliseres det sekundære 64px>256px-laget parallelt på det betingede bildet. Forskerne bemerker at en lignende optimalisering for det endelige 256px>1024px-laget har "liten eller ingen effekt" på de endelige resultatene, og har derfor ikke implementert dette.
Papiret sier at optimaliseringsprosessen tar omtrent åtte minutter for hvert bilde på tvilling TPUV4 sjetonger. Den endelige gjengivelsen finner sted i kjernen Imagen under DDIM prøvetakingsskjema.
Til felles med lignende finjusteringsprosesser for Googles drømmebod, kan de resulterende innebyggingene i tillegg brukes til å drive stilisering, så vel som fotorealistiske redigeringer som inneholder informasjon hentet fra den bredere underliggende databasen som driver Imagen (siden, som den første kolonnen nedenfor viser, har ikke kildebildene noe av nødvendig innhold for å påvirke disse transformasjonene).
Forskerne sammenlignet Imagic med tidligere arbeider SDEditt, en GAN-basert tilnærming fra 2021, et samarbeid mellom Stanford University og Carnegie Mellon University; og Text2Live, et samarbeid, fra april 2022, mellom Weizmann Institute of Science og NVIDIA.
Det er tydelig at de tidligere tilnærmingene sliter, men på den nederste raden, som involverer en massiv endring av positur, mislykkes de sittende i å refigurere kildematerialet, sammenlignet med en bemerkelsesverdig suksess fra Imagic.
Imagics ressurskrav og treningstid per bilde, selv om det er kort i forhold til standardene for slike sysler, gjør det til en usannsynlig inkludering i et lokalt bilderedigeringsprogram på personlige datamaskiner – og det er ikke klart i hvilken grad prosessen med finjustering kan være nedskalert til forbrukernivå.
Som det er nå, er Imagic et imponerende tilbud som er mer egnet for APIer – et miljø Google Research, som har mye kritikk i forhold til å tilrettelegge for deepfaking, i alle fall kan være mest komfortabel med.
Først publisert 18. oktober 2022.