Povežite se s nama

Umjetna inteligencija

Poboljšanje stvaranja zelenog zaslona za stabilnu difuziju

mm
Različite upute temeljene na zelenom ekranu Stable Diffusion, https://stablediffusionweb.com/

Unatoč entuzijazmu zajednice i investitora oko vizualne generativne umjetne inteligencije, izlaz iz takvih sustava nije uvijek spreman za korištenje u stvarnom svijetu; jedan primjer je da gen AI sustavi imaju tendenciju da izlaze cijele slike (ili niz slika, u slučaju videa), a ne pojedinačni, izolirani elementi koji su obično potrebni za različite primjene u multimediji i za praktičare vizualnih efekata.

Jednostavan primjer ovoga je clip-art dizajniran da 'lebdi' iznad bilo koje ciljne pozadine koju je korisnik odabrao:

Svijetlo siva kockasta pozadina, možda najpoznatija korisnicima Photoshopa, postala je alfa kanal ili kanal prozirnosti, čak iu jednostavnim potrošačkim artiklima kao što su stock slike.

Svijetlo siva kockasta pozadina, možda najpoznatija korisnicima Photoshopa, postala je alfa kanal ili kanal prozirnosti, čak iu jednostavnim potrošačkim artiklima kao što su stock slike.

Transparentnost ove vrste općenito je dostupna više od trideset godina; od digitalne revolucije ranih 1990-ih, korisnici su bili u mogućnosti izdvojiti elemente iz videa i slika kroz sve sofisticiraniji niz skupova alata i tehnika.

Na primjer, izazov 'izostavljanja' plavih i zelenih pozadina u video snimkama, nekada u domenu skupih kemijski procesi i optički pisači (kao i ručno izrađene matice), postao bi posao od nekoliko minuta u sustavima kao što su Adobeovi After Effects i Photoshop aplikacije (između mnogih drugih besplatnih i vlasničkih programa i sustava).

Nakon što je element izoliran, an alfa kanal (stvarno maska ​​koja prikriva svaki nerelevantan sadržaj) omogućuje da se bilo koji element u videu bez napora preklapa preko nove pozadine ili da se kombinira s drugim izoliranim elementima.

Primjeri alfa kanala, s njihovim učincima prikazanim u donjem redu. Izvor: https://helpx.adobe.com/photoshop/using/saving-selections-alpha-channel-masks.html

Primjeri alfa kanala, s njihovim učincima prikazanim u donjem redu. Izvor: https://helpx.adobe.com/photoshop/using/saving-selections-alpha-channel-masks.html

Ispadanje

U računalnom vidu, stvaranje alfa kanala spada u okrilje semantička segmentacija, s projektima otvorenog koda kao što je Meta Segmentirajte bilo što pružanje tekstualne metode izolacije/izdvajanja ciljnih objekata, kroz semantički poboljšano prepoznavanje objekata.

Okvir Segment Anything korišten je u širokom rasponu radnih procesa ekstrakcije vizualnih efekata i izolacije, kao što je Projekt Alpha-CLIP.

Primjeri izdvajanja pomoću Segment Anything, u okviru Alpha-CLIP: Izvor: https://arxiv.org/pdf/2312.03818

Primjer izdvajanja pomoću Segment Anything, u okviru Alpha-CLIP: Izvor: https://arxiv.org/pdf/2312.03818

Postoje mnoge alternative metode semantičke segmentacije koje se mogu prilagoditi zadatku dodjele alfa kanala.

Međutim, semantička segmentacija oslanja se na obučene podatke koji možda ne sadrže sve kategorije objekta koje je potrebno izdvojiti. Iako modeli obučeni na vrlo velikim količinama podataka mogu omogućiti prepoznavanje šireg raspona objekata (učinkovito postajući temeljni modeli, ili svjetski modeli), ipak su ograničeni klasama za koje su obučeni da ih najučinkovitije prepoznaju.

Sustavi semantičke segmentacije kao što je Segment Anything mogu imati problema s identificiranjem određenih objekata ili dijelova objekata, kao što je prikazano ovdje u izlazu iz dvosmislenih upita. Izvor: https://maucher.pages.mi.hdm-stuttgart.de/orbook/deeplearning/SAM.html

Sustavi semantičke segmentacije kao što je Segment Anything mogu imati problema s identificiranjem određenih objekata ili dijelova objekata, kao što je prikazano ovdje u izlazu iz dvosmislenih upita. Izvor: https://maucher.pages.mi.hdm-stuttgart.de/orbook/deeplearning/SAM.html

U svakom slučaju, semantička segmentacija jednako je a post fact proces kao postupak zelenog ekrana i mora izolirati elemente bez prednosti jednog sloja pozadinske boje koji se može učinkovito prepoznati i ukloniti.

Zbog toga se zajednici korisnika povremeno dogodilo da bi se mogle generirati slike i videozapisi koji zapravo sadrže zelene pozadine ekrana koji se mogu odmah ukloniti konvencionalnim metodama.

Nažalost, popularan modeli latentne difuzije kao što Stabilna difuzija često imaju poteškoća s prikazom zaista živopisnog zelenog ekrana. To je zato što podaci za obuku modela obično ne sadrže mnogo primjera ovog prilično specijaliziranog scenarija. Čak i kada sustav uspije, ideja 'zelenog' se na neželjeni način širi na subjekt u prvom planu, zbog koncepta zapletenost:

Gore vidimo da je Stable Diffusion dao prioritet autentičnosti slike u odnosu na potrebu za stvaranjem jednog intenziteta zelene boje, učinkovito replicirajući probleme iz stvarnog svijeta koji se javljaju u tradicionalnim scenarijima zelenog ekrana. Dolje vidimo da je 'zeleni' koncept zagadio sliku u prvom planu. Što se upit više fokusira na 'zeleni' koncept, to će se problem pogoršati. Izvor: https://stablediffusionweb.com/

Gore vidimo da je Stabilna difuzija dala prioritet autentičnosti slike nad potrebom stvaranja jednog intenziteta zelene, učinkovito replicirajući probleme iz stvarnog svijeta koji se javljaju u tradicionalnim scenarijima zelenog ekrana. Dolje vidimo da je koncept 'zelene' zagadio sliku u prvom planu. Što se više uputa fokusira na koncept 'zelene', to će se ovaj problem vjerojatno pogoršati. Izvor: https://stablediffusionweb.com/

Unatoč naprednim metodama koje se koriste, i ženska haljina i muška kravata (na donjim slikama gore) obično bi 'ispadale' zajedno sa zelenom pozadinom – problem koji datira* još iz vremena fotokemijskog uklanjanja emulzijskih boja u 1970-ima i 1980-ima.

Kao i uvijek, nedostaci modela mogu se prevladati primjenom specifičnih podataka na problem i posvećivanjem značajnih resursa za obuku. Sustavi poput Stanfordove ponude iz 2024. LayerDiffuse stvoriti fino podešen model koji može generirati slike s alfa kanalima:

Projekt Stanford LayerDiffuse treniran je na milijunu odgovarajućih slika koje mogu prožeti model mogućnostima transparentnosti. Izvor: https://arxiv.org/pdf/2402.17113

Projekt Stanford LayerDiffuse treniran je na milijunu odgovarajućih slika koje mogu prožeti model mogućnostima transparentnosti. Izvor: https://arxiv.org/pdf/2402.17113

Nažalost, pored značajnih resursa za kustosiranje i obuku koji su potrebni za ovaj pristup, skup podataka koji se koristi za LayerDiffuse nije javno dostupan, što ograničava upotrebu modela obučenih na njemu. Čak i da ova prepreka ne postoji, ovaj pristup je teško prilagoditi ili razviti za specifične slučajeve upotrebe.

Nešto kasnije, 2024., Adobe Research je surađivao sa Sveučilištem Stonybrook u proizvodnji MAGIJA, pristup ekstrakcije pomoću umjetne inteligencije uvježban na prilagođenim difuzijskim slikama.

Iz dokumenta iz 2024., primjer ekstrakcije finog alfa kanala u MAGICK-u. Izvor: https://openaccess.thecvf.com/content/CVPR2024/papers/Burgert_MAGICK_A_Large-scale_Captioned_Dataset_from_Matting_Generated_Images_using_CVPR_2024_paper.pdf

Iz dokumenta iz 2024., primjer ekstrakcije finog alfa kanala u MAGICK-u. Izvor: https://openaccess.thecvf.com/content/CVPR2024/papers/Burgert_MAGICK_A_Large-scale_Captioned_Dataset_from_Matting_Generated_Images_using_CVPR_2024_paper.pdf

150,000 XNUMX ekstrahiranih, AI-generiranih objekata korišteno je za treniranje MAGICK-a, kako bi sustav razvio intuitivno razumijevanje ekstrakcije:

Uzorci iz MAGICK skupa podataka za obuku.

Uzorci iz MAGICK skupa podataka za obuku.

Ovaj skup podataka, kao što izvorni dokument navodi, bilo je vrlo teško generirati iz gore navedenog razloga – jer metode difuzije imaju poteškoća u stvaranju čvrstih dijelova boje koji se mogu ključati. Stoga je bio potreban ručni odabir generiranih matica.

Ovo logističko usko grlo još jednom dovodi do sustava koji se ne može lako razviti ili prilagoditi, već se mora koristiti unutar inicijalno obučenog raspona mogućnosti.

TKG-DM – 'Nativna' ekstrakcija kroma za model latentne difuzije

Nova suradnja između njemačkih i japanskih istraživača predložila je alternativu takvim uvježbanim metodama, sposobne – navodi se u radu – za dobivanje boljih rezultata od gore spomenutih metoda, bez potrebe za uvježbavanjem na posebno odabranim skupovima podataka.

TKG-DM mijenja nasumični šum koji stvara generativnu sliku tako da je bolje sposoban proizvesti čvrstu pozadinu koja se može ključati – u bilo kojoj boji. Izvor: https://arxiv.org/pdf/2411.15580

TKG-DM mijenja nasumični šum koji stvara generativnu sliku tako da je bolje sposoban proizvesti čvrstu pozadinu koja se može ključati – u bilo kojoj boji. Izvor: https://arxiv.org/pdf/2411.15580

Nova metoda pristupa problemu na razini generacije, optimizacijom slučajni šum iz koje se generira slika u a model latentne difuzije (LDM) kao što je Stabilna difuzija.

Pristup se temelji na a prethodna istraga u shemu boja distribucije stabilne difuzije i sposoban je proizvesti boju pozadine bilo koje vrste, s manjim (ili nikakvim) uplitanja ključne boje pozadine u sadržaj prednjeg plana, u usporedbi s drugim metodama.

Početni šum uvjetovan je srednjim pomakom kanala koji može utjecati na aspekte procesa uklanjanja šuma, bez uplitanja signala boje u sadržaj u prvom planu.

Početni šum uvjetovan je srednjim pomakom kanala koji može utjecati na aspekte procesa uklanjanja šuma, bez uplitanja signala boje u sadržaj u prvom planu.

U radu se navodi:

'Naši opsežni eksperimenti pokazuju da TKG-DM poboljšava rezultate FID-a i FID-a maske za 33.7% odnosno 35.9%.

'Dakle, naš model bez treninga konkurira fino podešenim modelima, nudeći učinkovito i svestrano rješenje za različite zadatke stvaranja vizualnog sadržaja koji zahtijevaju preciznu kontrolu prednjeg plana i pozadine. '

The novom papiru naslovljen je TKG-DM: Model difuzije generiranja Chroma Key sadržaja bez obuke, a dolazi od sedam istraživača sa Sveučilišta Hosei u Tokiju i RPTU Kaiserslautern-Landau & DFKI GmbH, u Kaiserslauternu.

način

Novi pristup proširuje arhitekturu stabilne difuzije uvjetovanjem početnog Gaussovog šuma kroz kanal srednji pomak (CMS), koji proizvodi uzorke šuma dizajnirane da potaknu željeno odvajanje pozadine/prednjeg plana u generiranom rezultatu.

Shema tijeka rada predloženog sustava.

Shema za predloženi sustav.

CMS prilagođava srednju vrijednost svakog kanala boje dok održava opći razvoj procesa uklanjanja šuma.

Autori objašnjavaju:

'Da bismo generirali objekt u prvom planu na pozadini chroma key-a, primjenjujemo strategiju odabira početnog šuma koja selektivno kombinira početni [šum] i početnu boju [šum] pomoću 2D Gaussove [maske].

'Ova maska ​​stvara postupni prijelaz očuvanjem izvornog šuma u prednjem planu i primjenom šuma s promjenom boje na pozadinsko područje.'

Željeni kanal boja za boju pozadinske kromatike instancira se upitom za nulti tekst, dok se stvarni sadržaj prednjeg plana stvara semantički, iz tekstualnih uputa korisnika.

Željeni kanal boje za kromatsku boju pozadine instancira se pomoću null tekstualnog upita, dok se stvarni sadržaj prednjeg plana stvara semantički, iz tekstualne instrukcije korisnika.

Pažnja na sebe i unakrsna pažnja koriste se za odvajanje dva aspekta slike (kromatske pozadine i sadržaja u prvom planu). Pažnja na sebe pomaže unutarnjoj konzistentnosti objekta u prvom planu, dok pažnja na drugu stranu održava vjernost tekstualnom upitu. U radu se ističe da je, budući da su pozadinske slike obično manje detaljne i naglašene generacijama, njihov slabiji utjecaj relativno lako prevladati i zamijeniti uzorkom čiste boje.

Vizualizacija utjecaja samopažnje i unakrsne pozornosti u procesu generiranja kroma stila.

Vizualizacija utjecaja samopažnje i unakrsne pozornosti u procesu generiranja kroma stila.

Podaci i testovi

TKG-DM je testiran korištenjem Stable Diffusion V1.5 i Stable Diffusion SDXL. Slike su generirane u 512x512px odnosno 1024x1024px.

Slike su stvorene pomoću DDIM planer porijeklom iz stabilne difuzije, na a ljestvica navođenja od 7.5, s 50 koraka za uklanjanje šuma. Ciljana boja pozadine bila je zelena, sada je dominantna metoda ispadanja.

Novi pristup je uspoređen s DeepFloyd, pod postavkama koje se koriste za MAGICK; do fino podešenog difuzija niskog ranga model GreenBack LoRA; a također i na spomenuti LayerDiffuse.

Za podatke je korišteno 3000 slika iz skupa podataka MAGICK.

Primjeri iz skupa podataka MAGICK, iz kojeg je odabrano 3000 slika u testovima za novi sustav. Izvor: https://ryanndagreat.github.io/MAGICK/Explorer/magick_rgba_explorer.html

Primjeri iz skupa podataka MAGICK, iz kojeg je odabrano 3000 slika u testovima za novi sustav. Izvor: https://ryanndagreat.github.io/MAGICK/Explorer/magick_rgba_explorer.html

Za metriku, autori su koristili Fréchet početna udaljenost (FID) za procjenu kvalitete prednjeg plana. Također su razvili metriku specifičnu za projekt nazvanu m-FID, koja koristi BiRefNet sustav za procjenu kvalitete dobivene maske.

Vizualne usporedbe BiRefNet sustava s prethodnim metodama. Izvor: https://arxiv.org/pdf/2401.03407

Vizualne usporedbe BiRefNet sustava s prethodnim metodama. Izvor: https://arxiv.org/pdf/2401.03407

Za testiranje semantičkog usklađivanja s upitima za unos, CLIP-rečenica (CLIP-S) i CLIP-slika (CLIP-I) korištene su metode. CLIP-S ocjenjuje brzu vjernost, a CLIP-I vizualnu sličnost s istinitošću na zemlji.

Prvi set kvalitativnih rezultata za novu metodu, ovaj put za stabilnu difuziju V1.5. Za bolju rezoluciju pogledajte izvorni PDF.

Prvi set kvalitativnih rezultata za novu metodu, ovaj put za stabilnu difuziju V1.5. Za bolju rezoluciju pogledajte izvorni PDF.

Autori tvrde da rezultati (vizualizirani gore i dolje, SD1.5 odnosno SDXL) pokazuju da TKG-DM postiže vrhunske rezultate bez brzog inženjeringa ili potrebe za treniranjem ili finim podešavanjem modela.

SDXL kvalitativni rezultati. Za bolju rezoluciju pogledajte izvorni PDF.

SDXL kvalitativni rezultati. Za bolju rezoluciju pogledajte izvorni PDF.

Primjećuju da uz upit za poticanje zelene pozadine u generiranim rezultatima, Stable Diffusion 1.5 ima poteškoća s generiranjem čiste pozadine, dok SDXL (iako ima malo bolju izvedbu) proizvodi nestabilne svijetlozelene nijanse koje mogu ometati odvajanje u kromatskom procesu.

Nadalje napominju da iako LayerDiffuse generira dobro odvojene pozadine, povremeno gubi detalje, poput preciznih brojeva ili slova, a autori to pripisuju ograničenjima u skupu podataka. Dodaju da generiranje maski također povremeno ne uspijeva, što dovodi do 'neizrezanih' slika.

Za kvantitativne testove, iako LayerDiffuse očito ima prednost u SDXL-u za FID, autori naglašavaju da je to rezultat specijaliziranog skupa podataka koji učinkovito predstavlja 'pečeni' i nefleksibilan proizvod. Kao što je ranije spomenuto, bilo koji objekti ili klase koji nisu obuhvaćeni tim skupom podataka ili su nedovoljno obuhvaćeni, možda neće raditi jednako dobro, dok daljnje fino podešavanje kako bi se prilagodili novim klasama predstavlja korisniku teret kuriranja i obuke.

Kvantitativni rezultati za usporedbe. Očita prednost LayerDiffusea, navodi se u radu, dolazi nauštrb fleksibilnosti i tereta čuvanja podataka i obuke.

Kvantitativni rezultati za usporedbe. Rad implicira da očita prednost LayerDiffusea dolazi na štetu fleksibilnosti i tereta kuriranja podataka i obuke.

U radu se navodi:

'DeepFloydovi visoki FID, m-FID i CLIP-I rezultati odražavaju njegovu sličnost s stvarnom istinom temeljenom na DeepFloydovim rezultatima. Međutim, ovo mu poravnanje daje inherentnu prednost, što ga čini neprikladnim kao pošteno mjerilo za kvalitetu slike. Njegov niži CLIP-S rezultat dodatno ukazuje na slabije poravnanje teksta u usporedbi s drugim modelima.

Sveukupno, ovi rezultati naglašavaju sposobnost našeg modela da generira visokokvalitetne, tekstualno poravnane prednje planove bez finog podešavanja, nudeći učinkovito rješenje za generiranje sadržaja chroma keyom.

Konačno, istraživači su proveli studiju korisnika kako bi procijenili brzo pridržavanje različitim metodama. Stotinu sudionika zamoljeno je da procijene 30 parova slika iz svake metode, s ispitanicima koji su izdvojeni pomoću BiRefNet-a i ručnim poboljšanjima u svim primjerima. U ovoj studiji preferiran je autorov pristup bez obuke.

Rezultati korisničke studije.

Rezultati korisničke studije.

TKG-DM je kompatibilan s popularnim ControlNet sustav treće strane za stabilnu difuziju, a autori tvrde da on daje superiorne rezultate u odnosu na izvornu sposobnost ControlNeta za postizanje ove vrste odvajanja.

Zaključak

Možda je najznačajniji zaključak iz ovog novog rada stupanj do kojeg su modeli latentne difuzije isprepleteni, za razliku od popularne percepcije javnosti da mogu bez napora razdvojiti aspekte slika i videa prilikom generiranja novog sadržaja.

Studija dodatno naglašava do koje su se zajednice istraživači i hobisti okrenuli finom podešavanju kao post fact ispravak nedostataka modela – rješenje koje će uvijek adresirati specifične klase i tipove objekata. U takvom scenariju, fino podešeni model će ili vrlo dobro raditi na ograničenom broju klasa ili će raditi podnošljivo dobro na mnogo većoj količini mogućih klasa i objekata, prema većim količinama podataka u skupovima za obuku.

Stoga je osvježenje vidjeti barem jedno rješenje koje se ne oslanja na tako naporna i nedvojbeno neiskrena rješenja.

 

* Snimanje filma iz 1978 nadčovjek, glumac Christopher Reeve morao je nositi a tirkiz Supermanov kostim za procesne snimke na plavom ekranu, kako bi se izbjeglo brisanje kultnog plavog kostima. Plava boja kostima kasnije je vraćena gradacijom boja.

Pisac o strojnom učenju, stručnjak za područje sinteze ljudske slike. Bivši voditelj istraživačkog sadržaja na Metaphysic.ai.
Osobna stranica: martinanderson.ai
Kontaktirajte nas na: [e-pošta zaštićena]
Twitter: @manders_ai