Tekoäly
Vihreän näytön luomisen parantaminen vakaan diffuusion takaamiseksi

Huolimatta yhteisön ja sijoittajien innostuksesta visuaalista generatiivista tekoälyä kohtaan, tällaisten järjestelmien tuotos ei ole aina valmis todelliseen käyttöön; yksi esimerkki on, että gen AI -järjestelmillä on taipumus tuottaa tulosta kokonaisia kuvia (tai kuvasarja, jos kyseessä on video), ei yksittäisiä, eristettyjä elementtejä joita tyypillisesti tarvitaan erilaisissa multimediasovelluksissa ja visuaalisten tehosteiden käyttäjille.
Yksinkertainen esimerkki tästä on leikekuva, joka on suunniteltu "kellumaan" minkä tahansa käyttäjän valitseman kohdetaustan päällä:

Photoshop-käyttäjille ehkä tutuin vaaleanharmaa ruudullinen tausta on alkanut edustaa alfakanavaa eli läpinäkyvyyskanavaa jopa yksinkertaisissa kulutustavaroissa, kuten arkistokuvissa.
Tällainen läpinäkyvyys on ollut yleisesti saatavilla yli kolmekymmentä vuotta; 1990-luvun alun digitaalisen vallankumouksen jälkeen käyttäjät ovat voineet poimia elementtejä videosta ja kuvista yhä kehittyneempien työkalusarjojen ja tekniikoiden avulla.
Esimerkiksi haaste "pudottaa pois" sinisen ja vihreän näytön taustat videomateriaalissa, kun se oli aikoinaan kalliita. kemialliset prosessit ja optiset tulostimet (yhtä hyvin kuin käsintehdyt mattoja), siitä tulisi hetken työ järjestelmissä, kuten Adoben After Effects- ja Photoshop-sovelluksissa (monien muiden ilmaisten ja omistamien ohjelmien ja järjestelmien joukossa).
Kun elementti on eristetty, an alfa kanava (todellisuudessa maski, joka peittää kaiken ei-olennaisen sisällön) mahdollistaa minkä tahansa videon elementin vaivattomasti päällekkäisen uuden taustan tai yhdistämisen muiden eristettyjen elementtien kanssa.

Esimerkkejä alfa-kanavista, joiden tehosteet on kuvattu alemmalla rivillä. Lähde: https://helpx.adobe.com/photoshop/using/saving-selections-alpha-channel-masks.html
Pudottaminen
Tietokonenäössä alfa-kanavien luominen kuuluu piiriin semanttinen segmentointi, avoimen lähdekoodin projekteissa, kuten Meta's Segmentoi kaikki tarjoaa tekstikehotettavan menetelmän kohdeobjektien eristämiseen/purkaamiseen semanttisesti parannetun objektintunnistuksen avulla.
Segment Anything -kehystä on käytetty useissa visuaalisten tehosteiden poiminta- ja eristystyönkuluissa, kuten Alpha-CLIP-projekti.

Esimerkkejä poiminnoista käyttämällä Segment Anythingia Alpha-CLIP-kehyksessä: Lähde: https://arxiv.org/pdf/2312.03818
On monia vaihtoehtoja semanttiset segmentointimenetelmät, jotka voidaan mukauttaa alfa-kanavien osoittamiseen.
Semanttinen segmentointi perustuu kuitenkin koulutettuun dataan, joka ei välttämättä sisällä kaikkea esineluokat jotka on poistettava. Vaikka mallit, jotka on koulutettu erittäin suurille tietomäärille, voivat mahdollistaa laajemman määrän objektien tunnistamisen (joista tulee käytännössä perustavia malleja, tai maailman malleja), heitä rajoittavat kuitenkin luokat, jotka heidät on koulutettu tunnistamaan tehokkaimmin.

Semanttiset segmentointijärjestelmät, kuten Segment Anything, voivat vaikeuksia tunnistaa tiettyjä objekteja tai objektien osia, kuten tässä on esimerkkinä moniselitteisten kehotteiden tulos. Lähde: https://maucher.pages.mi.hdm-stuttgart.de/orbook/deeplearning/SAM.html
Joka tapauksessa semanttinen segmentointi on yhtä paljon a postaa faktaa prosessi vihreän ruudun menetelmänä, ja sen on eristettävä elementtejä ilman, että se hyötyy yksittäisestä taustaväristä, joka voidaan tunnistaa ja poistaa tehokkaasti.
Tästä syystä käyttäjäyhteisölle on joskus tullut mieleen, että kuvia ja videoita voitaisiin luoda jotka todella sisältävät vihreän näytön taustat jotka voidaan poistaa välittömästi perinteisillä menetelmillä.
Valitettavasti suosittu latentti diffuusiomallit kuten Vakaa diffuusio niillä on usein vaikeuksia tehdä todella elävästi vihreää näyttöä. Tämä johtuu siitä, että mallien harjoitusdata ei tyypillisesti sisällä kovin montaa esimerkkiä tästä melko erikoistuneesta skenaariosta. Silloinkin kun järjestelmä onnistuu, ajatus "vihreästä" pyrkii leviämään ei-toivotulla tavalla etualalla konseptista johtuen. kietoutuminen:

Yllä näemme, että Stable Diffusion on priorisoinut kuvan aitouden verrattuna tarpeeseen luoda yksi intensiteetti vihreää, mikä toistaa tehokkaasti todellisia ongelmia, joita esiintyy perinteisissä vihreän näytön skenaarioissa. Alla näemme, että "vihreä" käsite on saastuttanut etualalla olevan kuvan. Mitä enemmän kehote keskittyy "vihreään" käsitteeseen, sitä pahemmaksi tämä ongelma todennäköisesti tulee. Lähde: https://stablediffusionweb.com/
Käytössä olevista edistyneistä menetelmistä huolimatta sekä naisen mekko että miehen solmio (yllä näkyvissä alemmissa kuvissa) taipumus "pudota pois" vihreän taustan mukana – ongelma, joka juontaa juurensa* fotokemiallisen emulsiovärien poiston aikoihin. 1970- ja 1980-luvuilla.
Kuten aina, mallin puutteet voidaan voittaa heittämällä tiettyä dataa ongelmaan ja osoittamalla huomattavia koulutusresursseja. Järjestelmät, kuten Stanfordin vuoden 2024 tarjonta LayerDiffuse luo hienosäätää malli, joka pystyy luomaan kuvia alfa-kanavilla:

Stanford LayerDiffuse -projektia opetettiin miljoonalla sopivalla kuvalla, jotka pystyivät täyttämään mallin läpinäkyvyysominaisuuksilla. Lähde: https://arxiv.org/pdf/2402.17113
Valitettavasti tämän lähestymistavan edellyttämien huomattavien kuratointi- ja koulutusresurssien lisäksi LayerDiffusessa käytetty tietojoukko ei ole julkisesti saatavilla, mikä rajoittaa siihen koulutettujen mallien käyttöä. Vaikka tätä estettä ei olisikaan, tätä lähestymistapaa on vaikea mukauttaa tai kehittää tiettyihin käyttötapauksiin.
Hieman myöhemmin vuonna 2024 Adobe Research teki yhteistyötä Stonybrook Universityn kanssa tuottaakseen MAGICK, tekoälyn erotusmenetelmä, joka on koulutettu räätälöityihin diffuusiokuviin.

Vuoden 2024 paperista esimerkki hienorakeisesta alfakanavan uutosta MAGICKissa. Lähde: https://openaccess.thecvf.com/content/CVPR2024/papers/Burgert_MAGICK_A_Large-scale_Captioned_Dataset_from_Matting_Generated_Images_using_CVPR_2024_paper.pdf
150,000 XNUMX poimittua tekoälyn luomaa objektia käytettiin MAGICKin kouluttamiseen, jotta järjestelmä voisi kehittää intuitiivisen käsityksen purkamisesta:

Näytteitä MAGICK-harjoitustietojoukosta.
Tämä tietojoukko, kuten lähdepaperissa todetaan, oli erittäin vaikea luoda edellä mainitusta syystä - että diffuusiomenetelmillä on vaikeuksia luoda kiinteitä avaimia värialueita. Siksi syntyneiden kivien manuaalinen valinta oli välttämätöntä.
Tämä logistinen pullonkaula johtaa jälleen kerran järjestelmään, jota ei voida helposti kehittää tai räätälöidä, vaan sitä on käytettävä sen alun perin koulutettujen kykyjen puitteissa.
TKG-DM – "alkuperäinen" kromauutto piilevää diffuusiomallia varten
Uusi saksalaisten ja japanilaisten tutkijoiden yhteistyö on ehdottanut tällaisille koulutetuille menetelmille vaihtoehtoa, joka pystyy – paperin mukaan – saavuttamaan parempia tuloksia kuin edellä mainituilla menetelmillä ilman, että tarvitsee harjoitella erityisesti kuratoiduilla aineistoilla.

TKG-DM muuttaa satunnaista kohinaa, joka synnyttää generatiivisen kuvan niin, että se pystyy paremmin tuottamaan kiinteän, avaimia sisältävän taustan – missä tahansa värissä. Lähde: https://arxiv.org/pdf/2411.15580
Uusi menetelmä lähestyy ongelmaa sukupolvitasolla optimoimalla satunnainen melu josta kuva luodaan a piilevä diffuusiomalli (LDM), kuten Vakaa diffuusio.
Lähestymistapa perustuu a edellinen tutkimus Stable Diffusion -jakauman väriskeemaan, ja se pystyy tuottamaan minkä tahansa taustavärin niin, että avaintaustaväri sotkeutuu vähemmän (tai ei ollenkaan) etualan sisältöön verrattuna muihin menetelmiin.

Alkukohina on sidottu kanavan keskiarvon muutokseen, joka pystyy vaikuttamaan vaimennusprosessin osa-alueisiin sotkematta värisignaalia etualan sisältöön.
Paperissa todetaan:
"Laajat kokeemme osoittavat, että TKG-DM parantaa FID- ja maski-FID-pisteitä 33.7% ja 35.9%.
”Siksi harjoittelematon mallimme kilpailee hienosäädetyillä malleilla tarjoten tehokkaan ja monipuolisen ratkaisun erilaisiin visuaalisen sisällön luomistehtäviin, jotka vaativat tarkkaa etu- ja taustaohjausta. '
- uusi paperi on otsikko TKG-DM: Chroma Key Content Generation Diffusion -malli ilman koulutusta, ja se tulee seitsemältä tutkijalta Hosei-yliopistosta Tokiossa ja RPTU Kaiserslautern-Landau & DFKI GmbH:sta Kaiserslauternissa.
Menetelmä
Uusi lähestymistapa laajentaa vakaan diffuusion arkkitehtuuria muokkaamalla alkuperäistä Gaussin kohinaa läpi a kanava keskimääräinen muutos (CMS), joka tuottaa kohinakuvioita, jotka on suunniteltu edistämään haluttua taustan/etualan erottelua luodussa tuloksessa.

Kaavio ehdotetulle järjestelmälle.
CMS säätää kunkin värikanavan keskiarvoa säilyttäen samalla kohinanvaimennusprosessin yleisen kehityksen.
Kirjoittajat selittävät:
"Etualan objektin luomiseksi värinäppäintaustalle käytämme aloituskohinan valintastrategiaa, joka yhdistää selektiivisesti alkuperäisen [kohina] ja aloitusvärin [kohina] käyttämällä 2D Gaussin [maskia].
"Tämä maski luo asteittaisen siirtymän säilyttämällä alkuperäisen kohinan etualalla ja soveltamalla värisiirtymää tausta-alueelle."

Taustavärivärille haluttu värikanava instantoituu nollatekstikehotteella, kun taas varsinainen etualan sisältö luodaan semanttisesti käyttäjän tekstikäskystä.
Itsensä huomioiminen ja ristiin huomiota käytetään erottamaan kuvan kaksi puolta (väritausta ja etualan sisältö). Itsehuomio auttaa lisäämään etualan objektin sisäistä johdonmukaisuutta, kun taas ristiin huomioiminen säilyttää uskollisuuden tekstikehotteeseen. Paperi huomauttaa, että koska taustakuvat ovat yleensä vähemmän yksityiskohtaisia ja korostettuja sukupolvessa, sen heikompi vaikutus on suhteellisen helppo voittaa ja korvata puhtaalla värillä.

Visualisointi itsehuomion ja ristiin huomioimisen vaikutuksesta kromatyylisen sukupolven prosessissa.
Tiedot ja testit
TKG-DM testattiin käyttämällä Stable Diffusion V1.5:tä ja Stable Diffusion SDXL:ää. Kuvat luotiin kokoisina 512x512px ja 1024x1024px.
Kuvat on luotu käyttämällä DDIM-aikataulu kotoisin Stable Diffusionista, osoitteessa a ohjausasteikko 7.5, 50 vaimennusaskelta. Kohdistettu taustaväri oli vihreä, nyt hallitseva pudotusmenetelmä.
Uutta lähestymistapaa verrattiin DeepFloyd, MAGICK:lle käytettyjen asetusten alla; hienosäädettyyn matalaluokkainen diffuusio malli GreenBack LoRA; ja myös edellä mainittuun LayerDiffuseen.
Dataa varten käytettiin 3000 kuvaa MAGICK-tietojoukosta.

Esimerkkejä MAGICK-tietojoukosta, josta 3000 kuvaa kuratoitiin uuden järjestelmän testeissä. Lähde: https://ryanndagreat.github.io/MAGICK/Explorer/magick_rgba_explorer.html
Mittareihin kirjoittajat käyttivät Fréchet aloitusetäisyys (FID) tulosalan laadun arvioimiseksi. He kehittivät myös projektikohtaisen mittarin nimeltä m-FID, joka käyttää BiRefNet järjestelmä tuloksena olevan maskin laadun arvioimiseksi.

BiRefNet-järjestelmän visuaaliset vertailut aikaisempiin menetelmiin. Lähde: https://arxiv.org/pdf/2401.03407
Voit testata semanttista kohdistusta syöttökehotteiden kanssa CLIP-lause (CLIP-S) ja CLIP-kuva (CLIP-I) menetelmiä käytettiin. CLIP-S arvioi nopean tarkkuuden ja CLIP-I visuaalisen samankaltaisuuden pohjatotuuden kanssa.

Ensimmäiset laadulliset tulokset uudelle menetelmälle, tällä kertaa Stable Diffusion V1.5:lle. Katso lähde-PDF saadaksesi paremman resoluution.
Kirjoittajat väittävät, että tulokset (visualisoitu edellä ja alla, SD1.5 ja SDXL, vastaavasti) osoittavat, että TKG-DM saa ylivoimaisia tuloksia ilman nopeaa suunnittelua tai tarvetta kouluttaa tai hienosäätää mallia.

SDXL-laadulliset tulokset. Katso lähde-PDF saadaksesi paremman resoluution.
He havaitsevat, että kun kehote herättää vihreä tausta luoduissa tuloksissa, Stable Diffusion 1.5:llä on vaikeuksia luoda puhdasta taustaa, kun taas SDXL (joskin suorituskyky on hieman parempi) tuottaa epävakaita vaaleanvihreitä sävyjä, jotka saattavat häiritä erotusta kromaprosessissa.
He huomauttavat lisäksi, että vaikka LayerDiffuse luo hyvin erotetut taustat, se ajoittain menettää yksityiskohtia, kuten tarkat numerot tai kirjaimet, ja kirjoittajat katsovat tämän johtuvan tietojoukon rajoituksista. He lisäävät, että myös maskin luominen epäonnistuu toisinaan, mikä johtaa "leikkaamattomiin" kuviin.
Kvantitatiivisissa testeissä, vaikka LayerDiffusella on ilmeisesti etu SDXL:ssä FID:lle, kirjoittajat korostavat, että tämä on tulosta erikoistuneesta tietojoukosta, joka muodostaa tehokkaasti "paistetun" ja joustamattoman tuotteen. Kuten aiemmin mainittiin, kaikki objektit tai luokat, joita tämä tietojoukko ei kata tai jotka eivät ole riittävän katettuja, eivät välttämättä toimi yhtä hyvin, kun taas uusien luokkien mukauttaminen lisää hienosäätöä, joka aiheuttaa käyttäjälle kurointi- ja koulutustaakan.

Kvantitatiiviset tulokset vertailuille. Paperin mukaan LayerDiffusen näennäinen etu tulee joustavuuden kustannuksella sekä tietojen kuroinnin ja koulutuksen taakan kustannuksella.
Paperissa todetaan:
"DeepFloydin korkeat FID-, m-FID- ja CLIP-I-pisteet heijastavat sen samankaltaisuutta DeepFloydin tulosten pohjalta totuuden kanssa. Tämä kohdistus antaa sille kuitenkin luontaisen edun, mikä tekee siitä sopimattoman kuvanlaadun reiluksi vertailuarvoksi. Sen alhaisempi CLIP-S-pistemäärä osoittaa edelleen heikompaa tekstin tasausta muihin malleihin verrattuna.
Kaiken kaikkiaan nämä tulokset korostavat mallimme kykyä luoda korkealaatuisia, tekstiin kohdistettuja etualoja ilman hienosäätöä, mikä tarjoaa tehokkaan chroma key -sisällön luomisratkaisun.
Lopuksi tutkijat suorittivat käyttäjätutkimuksen arvioidakseen eri menetelmien nopeaa noudattamista. Sataa osallistujaa pyydettiin arvioimaan 30 kuvaparia kustakin menetelmästä, ja kohteet poimittiin BiRefNetillä ja manuaalisilla tarkennuksilla kaikissa esimerkeissä. Tässä tutkimuksessa suositeltiin tekijöiden koulutusvapaata lähestymistapaa.

Käyttäjätutkimuksen tulokset.
TKG-DM on yhteensopiva suositun kanssa ControlNet kolmannen osapuolen järjestelmä Stable Diffusionille, ja kirjoittajat väittävät, että se tuottaa ylivoimaisia tuloksia ControlNetin alkuperäiseen kykyyn saavuttaa tällainen erottelu.
Yhteenveto
Ehkä merkittävin poiminta tästä uudesta artikkelista on piilevien diffuusiomallien sotkeutuminen, toisin kuin yleinen käsitys, jonka mukaan ne voivat vaivattomasti erottaa kuvista ja videoista uutta sisältöä luodessaan.
Tutkimus korostaa edelleen sitä, missä määrin tutkija- ja harrastajayhteisö on kääntynyt hienosäätöön a postaa faktaa mallien puutteiden korjaus – ratkaisu, joka koskee aina tiettyjä luokkia ja objektityyppejä. Tällaisessa skenaariossa hienosäädetty malli joko toimii erittäin hyvin rajoitetulla määrällä luokkia tai muuten toimii siedettävästi hyvin paljon suuremmalla määrällä mahdollisia luokkia ja objekteja, koulutussarjojen suurempien tietomäärien mukaan.
Siksi on virkistävää nähdä ainakin yksi ratkaisu, joka ei perustu niin työläisiin ja kiistatta epäreiluihin ratkaisuihin.
* Vuoden 1978 elokuvan kuvaaminen supermies, näyttelijä Christopher Reeven oli käytettävä a turkoosi Superman-asu sinisen näytön prosessikuviin, jotta ikoninen sininen asu ei poistu. Puvun sininen väri palautettiin myöhemmin väriluokituksella.