škrbina Kako bi se lahko stabilna difuzija razvila kot glavni potrošniški izdelek - Unite.AI
Povežite se z nami

Umetna inteligenca

Kako bi se lahko stabilna difuzija razvila kot glavni potrošniški izdelek

mm
Posodobljeno on

Ironično, Stabilna difuzijan, novo ogrodje za sintezo slik z umetno inteligenco, ki je prevzelo svet, ni niti stabilno niti zares tako 'razpršeno' – vsaj še ne.

Celoten nabor zmogljivosti sistema je razpršen po raznolikem šopku nenehno spreminjajočih se ponudb peščice razvijalcev, ki mrzlično izmenjujejo najnovejše informacije in teorije v različnih pogovorih o Discordu – in velika večina namestitvenih postopkov za pakete, ki jih ustvarjajo oz. spreminjanje so zelo daleč od "plug and play".

Namesto tega običajno zahtevajo ukazno vrstico ali Poganja BAT namestitev prek GIT, Conda, Python, Miniconda in drugih najsodobnejših razvojnih ogrodij – programski paketi so tako redki med splošnim uporabnikom, da je njihova namestitev pogosto označeni prodajalci protivirusne programske opreme in zaščite pred zlonamerno programsko opremo kot dokaz o ogroženem gostiteljskem sistemu.

Samo majhen izbor stopenj v rokavici, ki jih trenutno zahteva standardna namestitev stabilne difuzije. Številne distribucije zahtevajo tudi posebne različice Pythona, ki so lahko v nasprotju z obstoječimi različicami, nameščenimi na uporabnikovem računalniku – čeprav se je temu mogoče izogniti z namestitvami, ki temeljijo na Dockerju, in do določene mere z uporabo okolij Conda.

Samo majhen izbor stopenj v rokavici, ki jih trenutno zahteva standardna namestitev stabilne difuzije. Številne distribucije zahtevajo tudi posebne različice Pythona, ki so lahko v nasprotju z obstoječimi različicami, nameščenimi na uporabnikovem računalniku – čeprav se je temu mogoče izogniti z namestitvami, ki temeljijo na Dockerju, in do določene mere z uporabo okolij Conda.

Niti sporočil v skupnostih SFW in NSFW Stable Diffusion so preplavljene z nasveti in triki, povezanimi z vdiranjem v skripte Python in standardnimi namestitvami, da bi omogočili izboljšano funkcionalnost ali razrešili pogoste napake odvisnosti in vrsto drugih težav.

Zaradi tega se povprečni potrošnik zanima ustvarjanje neverjetnih slik od besedilnih pozivov, precej prepuščen na milost in nemilost naraščajočemu številu monetiziranih spletnih vmesnikov API, ki večinoma ponujajo minimalno število brezplačnih generacij slik, preden zahtevajo nakup žetonov.

Poleg tega skoraj vse te spletne ponudbe zavračajo izpis vsebine NSFW (od katere se večina lahko nanaša na nepornografske teme splošnega pomena, kot je "vojna"), kar razlikuje Stable Diffusion od storitev DALL-E OpenAI's DALL-E. 2.

»Photoshop za stabilno difuzijo«

Navdušen nad čudovitimi, živahnimi ali nenavadnimi podobami, ki vsak dan zapolnijo Twitterjev hashtag #stablediffusion, kar širni svet verjetno čaka je »Photoshop za stabilno difuzijo« – namestitvena aplikacija za več platform, ki združuje najboljšo in najzmogljivejšo funkcionalnost arhitekture Stability.ai ter različne genialne inovacije nastajajoče razvojne skupnosti SD, brez plavajočih oken CLI, nejasne in nenehno spreminjajoče se namestitve in posodobitve rutine ali manjkajoče funkcije.

Kar trenutno imamo v večini zmogljivejših namestitev, je različno elegantna spletna stran, ki jo razteza okno ukazne vrstice brez telesa in katere URL je vrata lokalnega gostitelja:

Podobno kot aplikacije za sintezo, ki jih poganja CLI, kot sta FaceSwap in DeepFaceLab, osredotočen na BAT, "predpakirana" namestitev Stable Diffusion prikazuje svoje korenine v ukazni vrstici, z vmesnikom, dostopnim prek vrat lokalnega gostitelja (glejte zgornji del slike), ki komunicira s funkcijo Stable Diffusion, ki temelji na CLI.

Podobno kot aplikacije za sintezo, ki jih poganja CLI, kot sta FaceSwap in DeepFaceLab, osredotočen na BAT, "predpakirana" namestitev Stable Diffusion prikazuje svoje korenine v ukazni vrstici, z vmesnikom, dostopnim prek vrat lokalnega gostitelja (glejte zgornji del slike), ki komunicira s funkcijo Stable Diffusion, ki temelji na CLI.

Brez dvoma prihaja bolj poenostavljena aplikacija. Na Patreonu je že na voljo več integralnih aplikacij, ki jih je mogoče prenesti, kot npr GRisk in NMKD (glejte spodnjo sliko) – vendar še nobena, ki bi vključevala celotno paleto funkcij, ki jih lahko ponudijo nekatere naprednejše in manj dostopne izvedbe Stable Diffusion.

Zgodnji paketi Stable Diffusion, ki temeljijo na Patreonu, rahlo "prilagojeni aplikacijam". NMKD je prvi, ki je izhod CLI integriral neposredno v GUI.

Zgodnji paketi Stable Diffusion, ki temeljijo na Patreonu, rahlo "prilagojeni aplikacijam". NMKD je prvi, ki je izhod CLI integriral neposredno v GUI.

Oglejmo si, kako bi lahko sčasoma izgledala bolj uglajena in celostna izvedba tega osupljivega odprtokodnega čudesa – in s kakšnimi izzivi se lahko sooča.

Pravni vidiki za v celoti financirano komercialno stabilno difuzijsko aplikacijo

Faktor NSFW

Izvorna koda Stable Diffusion je bila izdana pod an izjemno permisivna licenca ki ne prepoveduje komercialnih ponovnih implementacij in izpeljanih del, ki v veliki meri gradijo iz izvorne kode.

Poleg zgoraj omenjenega in naraščajočega števila gradenj Stable Diffusion, ki temeljijo na Patreonu, ter obsežnega števila aplikacijskih vtičnikov, ki se razvijajo za figma, Krita, photoshop, GIMPin Blender (med drugim), ni praktični razlog, zakaj dobro financirana hiša za razvoj programske opreme ne bi mogla razviti veliko bolj sofisticirane in zmogljive aplikacije Stable Diffusion. S tržnega vidika obstajajo vsi razlogi za domnevo, da je več takih pobud že v polnem teku.

Tu se takšna prizadevanja takoj soočijo z dilemo, ali bo aplikacija, tako kot večina spletnih API-jev za Stable Diffusion, omogočila izvorni filter NSFW Stable Diffusion (a fragment kode), da se izklopi.

'Pokopavanje' stikala NSFW

Čeprav odprtokodna licenca Stability.ai za Stable Diffusion vključuje široko razlagalen seznam aplikacij, za katere lahko ne uporabiti (verjetno vključno z pornografska vsebina in deepfakes), edini način, da bi prodajalec lahko učinkovito prepovedal takšno uporabo, bi bil prevajanje filtra NSFW v neprozorno izvršljivo datoteko namesto v parameter v datoteki Python ali pa uveljavitev primerjave kontrolne vsote v datoteki Python ali DLL, ki vsebuje direktivo NSFW, tako da do upodobitev ne more priti, če uporabniki spremenijo to nastavitev.

To bi pustilo domnevno vlogo "kastrirano" na približno enak način kot DALL-E 2 je trenutno, kar zmanjšuje njegovo komercialno privlačnost. Prav tako bi se neizogibno pojavile dekompilirane 'doktorirane' različice teh komponent (bodisi izvirni izvajalni elementi Python ali prevedene datoteke DLL, kot se zdaj uporabljajo v liniji Topaz orodij za izboljšanje slike AI) verjetno pojavile v hudourniški/hekerski skupnosti za odklepanje takšnih omejitev. , preprosto z zamenjavo elementov, ki ovirajo, in zanikanjem kakršnih koli zahtev po kontrolni vsoti.

Na koncu se lahko prodajalec odloči, da preprosto ponovi opozorilo Stability.ai pred zlorabo, ki je značilno za prvo izvedbo številnih trenutnih distribucij Stable Diffusion.

Vendar pa majhni odprtokodni razvijalci, ki trenutno na ta način uporabljajo občasne izjave o zavrnitvi odgovornosti, nimajo kaj izgubiti v primerjavi s podjetjem za programsko opremo, ki je vložilo veliko časa in denarja v to, da je Stable Diffusion postal poln in dostopen – kar vabi k globljemu razmisleku.

Odgovornost Deepfake

Tako kot imamo nedavno opozoriti, baza podatkov LAION-aesthetics, ki je del 4.2 milijarde slik, na katerih so se usposabljali tekoči modeli Stable Diffusion, vsebuje veliko število slik slavnih, kar uporabnikom omogoča učinkovito ustvarjanje globokih ponaredkov, vključno z globoko ponarejeno pornografijo slavnih.

Iz našega nedavnega članka so štiri faze Jennifer Connelly v štirih desetletjih njene kariere, povzete po Stable Diffusion.

Iz našega nedavnega članka so štiri faze Jennifer Connelly v štirih desetletjih njene kariere, povzete po Stable Diffusion.

To je ločeno in bolj sporno vprašanje kot ustvarjanje (običajno) zakonite 'abstraktne' pornografije, ki ne prikazuje 'resničnih' ljudi (čeprav so takšne slike povzete iz več resničnih fotografij v gradivu za usposabljanje).

Ker vedno več ameriških zveznih držav in držav razvija ali je uvedlo zakone proti ponarejeni pornografiji, lahko zmožnost Stable Diffusion za ustvarjanje pornografije slavnih pomeni, da komercialna aplikacija, ki ni povsem cenzurirana (tj. ki lahko ustvarja pornografsko gradivo), morda še vedno potrebuje nekaj sposobnost filtriranja zaznanih obrazov slavnih.

Ena od metod bi bila zagotoviti vgrajeni 'črni seznam' izrazov, ki ne bodo sprejeti v pozivu uporabnika, v zvezi z imeni slavnih in izmišljenimi liki, s katerimi so morda povezani. Verjetno bi bilo treba takšne nastavitve uvesti v več jezikih kot le v angleščini, saj izvorni podatki vsebujejo druge jezike. Drug pristop bi lahko bil vključitev sistemov za prepoznavanje slavnih, kot so tisti, ki jih je razvil Clarifai.

Proizvajalci programske opreme bodo morda morali vključiti takšne metode, morda sprva izklopljene, saj lahko pomagajo pri preprečevanju, da bi polnopravna samostojna aplikacija Stable Diffusion ustvarila obraze slavnih, v pričakovanju nove zakonodaje, ki bi lahko takšno funkcionalnost naredila nezakonito.

Še enkrat, pa bi zainteresirane strani takšno funkcionalnost neizogibno dekompilirale in obrnile; vendar pa bi lahko proizvajalec programske opreme v tem primeru trdil, da gre dejansko za nesankcioniran vandalizem – dokler tovrstno obratno inženirstvo ni pretirano enostavno.

Funkcije, ki bi lahko bile vključene

Osnovno funkcionalnost v kateri koli distribuciji Stable Diffusion bi pričakovali od katere koli dobro financirane komercialne aplikacije. Ti vključujejo možnost uporabe besedilnih pozivov za ustvarjanje ustreznih slik (besedilo v sliko); sposobnost uporabe skic ali drugih slik kot smernic za nove ustvarjene slike (od slike do slike); sredstva za prilagoditev tega, kako "domiselen" naj bo sistem; način za kompromis med časom upodabljanja in kakovostjo; in druge 'osnove', kot je izbirno samodejno arhiviranje slik/pozivov in rutinsko izbirno povečanje velikosti prek RealESRGAN, ter vsaj osnovno 'popravo obraza' z GFPGAN or CodeFormer.

To je precej "vanilija namestitev". Oglejmo si nekaj naprednejših funkcij, ki se trenutno razvijajo ali razširjajo in bi jih lahko vključili v polnopravno 'tradicionalno' aplikacijo Stable Diffusion.

Stohastično zamrzovanje

Tudi če si ponovno uporabite seme iz prejšnjega uspešnega upodabljanja je strašno težko pripraviti Stable Diffusion, da natančno ponovi transformacijo, če kateri koli del poziva ali se izvorna slika (ali oboje) spremeni za nadaljnjo upodobitev.

To je težava, če želite uporabiti EbSynth za nalaganje transformacij Stable Diffusion na pravi videoposnetek na časovno skladen način – čeprav je tehnika lahko zelo učinkovita za preproste posnetke z glavo in rameni:

Zaradi omejenega gibanja lahko EbSynth postane učinkovit medij za spreminjanje transformacij stabilne difuzije v realističen video. Vir: https://streamable.com/u0pgzd

Zaradi omejenega gibanja lahko EbSynth postane učinkovit medij za spreminjanje transformacij stabilne difuzije v realističen video. Vir: https://streamable.com/u0pgzd

EbSynth deluje tako, da ekstrapolira majhen izbor 'spremenjenih' ključnih sličic v videoposnetek, ki je bil upodobljen v niz slikovnih datotek (in ki jih je mogoče pozneje znova sestaviti nazaj v video).

V tem primeru s spletnega mesta EbSynth je bila majhna peščica okvirjev iz videoposnetka naslikanih na umetniški način. EbSynth uporablja te okvirje kot slogovne vodnike za podobno spreminjanje celotnega videa, tako da se ujema z naslikanim slogom. Vir: https://www.youtube.com/embed/eghGQtQhY38

V tem primeru s spletnega mesta EbSynth je bila majhna peščica okvirjev iz videoposnetka naslikanih na umetniški način. EbSynth uporablja te okvirje kot slogovne vodnike za podobno spreminjanje celotnega videa, tako da se ujema z naslikanim slogom. Vir: https://www.youtube.com/embed/eghGQtQhY38

V spodnjem primeru, v katerem skoraj ni nobenega gibanja (prave) plavolase inštruktorice joge na levi, ima Stable Diffusion še vedno težave pri ohranjanju doslednega obraza, ker tri slike, ki se preoblikujejo kot 'ključni okvirji', niso povsem enake, čeprav si vsi delijo isto številčno seme.

Tukaj, tudi z enakim pozivom in semenom v vseh treh preobrazbah ter zelo malo spremembami med izvornimi okvirji, se telesne mišice razlikujejo po velikosti in obliki, a kar je še pomembneje, je obraz nedosleden, kar ovira časovno doslednost v morebitni upodobitvi EbSynth.

Tukaj, tudi z enakim pozivom in semenom v vseh treh preobrazbah ter zelo malo spremembami med izvornimi okvirji, se telesne mišice razlikujejo po velikosti in obliki, a kar je še pomembneje, je obraz nedosleden, kar ovira časovno doslednost v morebitni upodobitvi EbSynth.

Čeprav je spodnji videoposnetek SD/EbSynth zelo iznajdljiv, kjer so bili uporabnikovi prsti spremenjeni v (oziroma) hodeči par hlačnih nog in raco, je nedoslednost hlač značilna za težavo, ki jo ima Stable Diffusion pri ohranjanju skladnosti med različnimi ključnimi slikami. , tudi če so si izvorni okvirji podobni in je seme dosledno.

Moški prsti postanejo hodeči človek in raca prek Stable Diffusion in EbSynth. Vir: https://old.reddit.com/r/StableDiffusion/comments/x92itm/proof_of_concept_using_img2img_ebsynth_to_animate/

Moški prsti postanejo hodeči človek in raca prek Stable Diffusion in EbSynth. Vir: https://old.reddit.com/r/StableDiffusion/comments/x92itm/proof_of_concept_using_img2img_ebsynth_to_animate/

Uporabnik, ki je ustvaril ta video komentiral da je preoblikovanje race, verjetno učinkovitejše od obeh, četudi manj osupljivo in izvirno, zahtevalo le en preoblikovan ključni okvir, medtem ko je bilo treba upodobiti 50 slik s stabilno difuzijo, da bi ustvarili pohodne hlače, ki kažejo več časovnega nedoslednost. Uporabnik je tudi opazil, da je bilo potrebnih pet poskusov, da se doseže skladnost za vsakega od 50 ključnih okvirjev.

Zato bi bilo zelo koristno, če bi resnično celovita aplikacija Stable Diffusion zagotovila funkcionalnost, ki v največji možni meri ohranja značilnosti med ključnimi sličicami.

Ena od možnosti je, da aplikacija uporabniku omogoči 'zamrznitev' stohastičnega kodiranja za transformacijo na vsakem okvirju, kar je trenutno mogoče doseči le z ročnim spreminjanjem izvorne kode. Kot kaže spodnji primer, to pomaga pri časovni doslednosti, čeprav je zagotovo ne reši:

En uporabnik Reddita je svoje posnetke spletne kamere preoblikoval v različne slavne osebe tako, da ni samo ohranil semena (kar lahko stori katera koli izvedba Stable Diffusion), temveč je zagotovil, da je bil parameter stochastic_encode() enak pri vsaki transformaciji. To je bilo doseženo s spreminjanjem kode, vendar bi zlahka postalo uporabniku dostopno stikalo. Jasno pa je, da ne reši vseh časovnih vprašanj. Vir: https://old.reddit.com/r/StableDiffusion/comments/wyeoqq/turning_img2img_into_vid2vid/

En uporabnik Reddita je svoje posnetke spletne kamere preoblikoval v različne slavne osebe tako, da ni samo ohranil semena (kar lahko stori katera koli izvedba Stable Diffusion), temveč je zagotovil, da je bil parameter stochastic_encode() enak pri vsaki transformaciji. To je bilo doseženo s spreminjanjem kode, vendar bi zlahka postalo uporabniku dostopno stikalo. Jasno pa je, da ne reši vseh časovnih vprašanj. Vir: https://old.reddit.com/r/StableDiffusion/comments/wyeoqq/turning_img2img_into_vid2vid/

Besedilna inverzija v oblaku

Boljša rešitev za izvabljanje časovno skladnih znakov in predmetov je, da jih 'zapečemo' v a Besedilna inverzija – 5 KB velika datoteka, ki jo je mogoče usposobiti v nekaj urah na podlagi samo petih označenih slik, ki jih je nato mogoče pridobiti s posebnim '*' hitro, kar omogoča, na primer, vztrajno pojavljanje novih likov za vključitev v pripoved.

Slike, povezane z ustreznimi oznakami, je mogoče pretvoriti v diskretne entitete prek besedilne inverzije in priklicati brez dvoumnosti ter v pravilnem kontekstu in slogu s posebnimi besedami. Vir: https://huggingface.co/docs/diffusers/training/text_inversion

Slike, povezane z ustreznimi oznakami, je mogoče pretvoriti v diskretne entitete prek besedilne inverzije in priklicati brez dvoumnosti ter v pravilnem kontekstu in slogu s posebnimi besedami. Vir: https://huggingface.co/docs/diffusers/training/text_inversion

Besedilne inverzije so pomožne datoteke k zelo velikemu in v celoti usposobljenemu modelu, ki ga uporablja Stable Diffusion, in so učinkovito "vključene" v postopek pridobivanja/poziva, tako da lahko sodelovanje v prizorih, ki izhajajo iz modela, in izkoristite ogromno zbirko podatkov modela o predmetih, slogih, okoljih in interakcijah.

Vendar pa čeprav besedilna inverzija ne traja dolgo, da se usposobi, zahteva veliko količino VRAM-a; po raznih trenutnih sprehodih nekje med 12, 20 in celo 40GB.

Ker večina priložnostnih uporabnikov verjetno ne bo imela na voljo takšne obremenitve GPU, se že pojavljajo storitve v oblaku, ki bodo poskrbele za to operacijo, vključno z različico Hugging Face. Čeprav obstajajo Implementacije Google Colab ki lahko ustvari besedilne inverzije za stabilno razširjanje, zahtevani VRAM in časovne zahteve lahko naredijo te izzive za brezplačne uporabnike Colaba.

Za morebitno polno razvito in dobro vloženo aplikacijo Stable Diffusion (nameščeno) se zdi prenos te težke naloge na strežnike v oblaku podjetja očitna strategija monetizacije (ob predpostavki, da je nizkocenovna ali brezplačna aplikacija Stable Diffusion prežeta s takšnimi ne- brezplačna funkcionalnost, kar se zdi verjetno v številnih možnih aplikacijah, ki bodo nastale iz te tehnologije v naslednjih 6-9 mesecih).

Poleg tega bi lahko precej zapletenemu postopku označevanja in oblikovanja predloženih slik in besedila koristila avtomatizacija v integriranem okolju. Potencialni 'dejavnik odvisnosti' ustvarjanja edinstvenih elementov, ki lahko raziskujejo in komunicirajo z ogromnimi svetovi Stable Diffusion, se zdi potencialno kompulziven, tako za splošne navdušence kot za mlajše uporabnike.

Vsestransko hitro tehtanje

Obstaja veliko trenutnih izvedb, ki uporabniku omogočajo, da dodeli večji poudarek delu dolgega besedilnega poziva, vendar se instrumenti med njimi zelo razlikujejo in so pogosto okorni ali neintuitivni.

Zelo priljubljene Stable Diffusion vilice od AUTOMATIC1111, na primer, lahko zniža ali poveča vrednost pozivne besede tako, da jo zapre v enojne ali večkratne oklepaje (za zmanjšanje poudarka) ali oglate oklepaje za dodaten poudarek.

Oglati oklepaji in/ali oklepaji lahko preoblikujejo vaš zajtrk v tej različici uteži pozivov Stable Diffusion, vendar je v vsakem primeru nočna mora za holesterol.

Oglati oklepaji in/ali oklepaji lahko preoblikujejo vaš zajtrk v tej različici uteži pozivov Stable Diffusion, vendar je v vsakem primeru nočna mora za holesterol.

Druge ponovitve Stable Diffusion uporabljajo klicaj za poudarjanje, medtem ko najbolj vsestranske omogočajo uporabnikom, da prek grafičnega uporabniškega vmesnika dodelijo uteži vsaki besedi v pozivu.

Sistem mora omogočati tudi negativne promptne uteži – ne samo za ljubitelji grozljivk, ampak zato, ker je v latentnem prostoru Stabilne difuzije morda manj zaskrbljujočih in bolj poučnih skrivnosti, kot jih lahko prikliče naša omejena uporaba jezika.

Preslikava

Kmalu po senzacionalni odprtokodnosti Stable Diffusion je OpenAI poskušal – večinoma zaman – ponovno ujeti del svojega DALL-E 2 groma z napoveduje 'outpainting', ki uporabniku omogoča razširitev slike preko njenih meja s pomensko logiko in vizualno koherenco.

Seveda je to od takrat izvajali v različnih oblikah za stabilno difuzijo, kot tudi v Kriti, in bi ga vsekakor morali vključiti v celovito različico Stable Diffusion v slogu Photoshopa.

Povečanje na podlagi ploščic lahko razširi standardni upodabljanje 512x512 skoraj neskončno, dokler to dopuščajo pozivi, obstoječa slika in semantična logika. Vir: https://github.com/lkwq007/stablediffusion-infinity

Povečanje na podlagi ploščic lahko razširi standardni upodabljanje 512 × 512 skoraj neskončno, če to dopuščajo pozivi, obstoječa slika in semantična logika. Vir: https://github.com/lkwq007/stablediffusion-infinity

Ker se Stable Diffusion usposablja na slikah velikosti 512 x 512 slikovnih pik (in iz številnih drugih razlogov), pogosto odreže glave (ali druge pomembne dele telesa) človeških subjektov, tudi če je poziv jasno nakazal "poudarek glave" itd.

Tipični primeri stabilne difuzijske 'razglavitve'; toda prebarvanje bi lahko Georgea vrnilo na sliko.

Tipični primeri stabilne difuzijske 'razglavitve'; toda prebarvanje bi lahko Georgea vrnilo na sliko.

Kakršna koli izvedba preslikave tipa, prikazanega na zgornji animirani sliki (ki temelji izključno na knjižnicah Unix, vendar mora biti zmožna repliciranja v sistemu Windows), bi morala biti prav tako pripravljena kot rešitev za to z enim klikom/poziv.

Trenutno številni uporabniki razširijo platno upodobitev 'obglavljenih' navzgor, približno zapolnijo področje glave in uporabijo img2img za dokončanje neuspešne upodobitve.

Učinkovito maskiranje, ki razume kontekst

maskiranje je lahko v Stable Diffusion strašno zadeti in zgrešiti, odvisno od zadevne vilice ali različice. Pogosto, kjer je sploh mogoče narisati kohezivno masko, je določeno območje na koncu pobarvano z vsebino, ki ne upošteva celotnega konteksta slike.

Ob neki priložnosti sem zamaskiral roženice slike obraza in dal poziv 'modre oči' kot maska ​​v barvi – samo da bi ugotovil, da se zdi, kot da skozi dve izrezani človeški očesi gledam oddaljeno sliko nezemeljskega volka. Mislim, da imam srečo, da ni bil Frank Sinatra.

Semantično urejanje je možno tudi z prepoznavanje hrupa ki je prvotno sestavil sliko, kar uporabniku omogoča, da obravnava določene strukturne elemente v upodabljanju, ne da bi posegal v preostalo sliko:

Spreminjanje enega elementa na sliki brez tradicionalnega maskiranja in brez spreminjanja sosednje vsebine z identifikacijo šuma, ki je prvi povzročil sliko, in obravnavanjem njenih delov, ki so prispevali k ciljnemu območju. Vir: https://old.reddit.com/r/StableDiffusion/comments/xboy90/a_better_way_of_doing_img2img_by_finding_the/

Spreminjanje enega elementa na sliki brez tradicionalnega maskiranja in brez spreminjanja sosednje vsebine z identifikacijo šuma, ki je prvi povzročil sliko, in obravnavanjem njenih delov, ki so prispevali k ciljnemu območju. Vir: https://old.reddit.com/r/StableDiffusion/comments/xboy90/a_better_way_of_doing_img2img_by_finding_the/

Ta metoda temelji na K-difuzijski vzorčevalnik.

Semantični filtri za fiziološke neumnosti

Kot smo že omenili, lahko Stable Diffusion pogosto dodaja ali odvzema okončine, predvsem zaradi težav s podatki in pomanjkljivosti v opombah, ki spremljajo slike, ki so ga usposabljale.

Tako kot tisti zablodelni otrok, ki je stegnil jezik na šolski skupinski fotografiji, biološka grozodejstva Stable Diffusion niso vedno takoj očitna in morda ste svojo najnovejšo mojstrovino umetne inteligence objavili na Instagramu, preden ste opazili dodatne roke ali stopljene okončine.

Tako kot tisti zablodelni otrok, ki je stegnil jezik na šolski skupinski fotografiji, biološka grozodejstva Stable Diffusion niso vedno takoj očitna in morda ste svojo najnovejšo mojstrovino umetne inteligence objavili na Instagramu, preden ste opazili dodatne roke ali stopljene okončine.

Tovrstne napake je tako težko odpraviti, da bi bilo koristno, če bi aplikacija Stable Diffusion v polni velikosti vsebovala nekakšen sistem za anatomsko prepoznavanje, ki bi uporabljal semantično segmentacijo za izračun, ali ima dohodna slika resne anatomske pomanjkljivosti (kot na zgornji sliki ) in ga zavrže v korist novega upodabljanja, preden ga predstavi uporabniku.

Seveda boste morda želeli upodobiti boginjo Kali ali doktorja hobotnico ali celo rešiti nepoškodovan del slike s prizadetim udom, zato bi morala biti ta funkcija izbirni preklop.

Če bi uporabniki lahko tolerirali vidik telemetrije, bi se lahko takšni izpadi vžiga celo anonimno prenašali v skupnem prizadevanju zveznega učenja, ki bi lahko prihodnjim modelom pomagalo izboljšati razumevanje anatomske logike.

Samodejna izboljšava obraza na osnovi LAION

Kot sem zapisal v svojem prejšnji videz pri treh stvareh, ki bi jih Stable Diffusion lahko obravnaval v prihodnosti, ne bi smeli prepustiti samo nobeni različici GFPGAN, da poskuša 'izboljšati' upodobljene obraze v upodobitvah prve stopnje.

'Izboljšave' GFPGAN so strašno splošne, pogosto spodkopavajo identiteto upodobljenega posameznika in delujejo izključno na obrazu, ki je bil običajno slabo upodobljen, saj ni bil deležen nič več časa ali pozornosti kot kateri koli drug del slike.

Zato bi moral biti program profesionalnega standarda za stabilno difuzijo sposoben prepoznati obraz (s standardno in razmeroma lahko knjižnico, kot je YOLO), uporabiti celotno težo razpoložljive moči GPU za njegovo ponovno upodabljanje in bodisi zliti izboljšan obraz v originalni upodobitev s polnim kontekstom ali pa ga shranite ločeno za ročno ponovno sestavljanje. Trenutno je to dokaj "praktična" operacija.

V primerih, ko je bila stabilna difuzija naučena na ustreznem številu slik slavne osebe, je mogoče celotno zmogljivost GPE osredotočiti na naknadno upodobitev samo obraza upodobljene slike, kar je običajno opazna izboljšava – in za razliko od GFPGAN , črpa informacije iz podatkov, ki jih je izučil LAION, namesto da preprosto prilagaja upodobljene slikovne pike.

V primerih, ko je bila stabilna difuzija naučena na ustreznem številu slik slavne osebe, je mogoče celotno zmogljivost GPE osredotočiti na naknadno upodobitev samo obraza upodobljene slike, kar je običajno opazna izboljšava – in za razliko od GFPGAN , črpa informacije iz podatkov, ki jih je izučil LAION, namesto da preprosto prilagaja upodobljene slikovne pike.

Iskanja LAION v aplikaciji

Odkar so se uporabniki začeli zavedati, da bi iskanje konceptov, ljudi in tem v bazi podatkov LAION lahko pomagalo pri boljši uporabi Stable Diffusion, je bilo ustvarjenih več spletnih raziskovalcev LAION, vključno s haveibeentrained.com.

Funkcija iskanja na haveibeentrained.com omogoča uporabnikom, da raziščejo slike, ki poganjajo stabilno razširjanje, in odkrijejo, ali so bili predmeti, ljudje ali ideje, ki bi jih radi izvabili iz sistema, verjetno naučeni vanj. Takšni sistemi so uporabni tudi za odkrivanje sosednjih entitet, kot je način, kako so znane osebnosti združene v skupine, ali "naslednja ideja", ki vodi naprej od trenutne. Vir: https://haveibeentrained.com/?search_text=bowl%20of%20fruit

Funkcija iskanja na haveibeentrained.com omogoča uporabnikom, da raziščejo slike, ki poganjajo stabilno razširjanje, in odkrijejo, ali so bili predmeti, ljudje ali ideje, ki bi jih radi izvabili iz sistema, verjetno naučeni vanj. Takšni sistemi so uporabni tudi za odkrivanje sosednjih entitet, kot je način, kako so znane osebnosti združene v skupine, ali "naslednja ideja", ki vodi naprej od trenutne. Vir: https://haveibeentrained.com/?search_text=bowl%20of%20fruit

Čeprav takšne spletne baze podatkov pogosto razkrijejo nekatere oznake, ki spremljajo slike, postopek posploševanje ki se zgodi med usposabljanjem modela, pomeni, da je malo verjetno, da bi bilo mogoče priklicati katero koli določeno sliko z uporabo njene oznake kot poziva.

Poleg tega odstranitev 'stop words' in praksa oblikovanja korena in lematizacije v obdelavi naravnega jezika pomeni, da je bilo veliko prikazanih stavkov razdeljenih ali izpuščenih, preden so bili usposobljeni za stabilno razširjanje.

Kljub temu lahko način, na katerega se estetske skupine povezujejo v teh vmesnikih, končnega uporabnika veliko nauči o logiki (ali verjetno o 'osebnosti') Stabilne difuzije in se izkaže za pomočnika pri boljši produkciji slike.

zaključek

Obstaja veliko drugih funkcij, ki bi jih rad videl v popolni izvorni namizni izvedbi Stable Diffusion, kot je izvorna analiza slike na podlagi CLIP, ki obrne standardni postopek Stable Diffusion in uporabniku omogoča, da izzove fraze in besede, ki jih sistem bi se naravno povezal z izvorno sliko ali upodabljanjem.

Poleg tega bi bilo pravo skaliranje na podlagi ploščic dobrodošel dodatek, saj je ESRGAN skoraj tako top instrument kot GFPGAN. Na srečo načrtuje integracijo txt2imghd implementacija GOBIG to hitro uresničuje v vseh distribucijah in zdi se očitna izbira za iteracijo namizja.

Nekatere druge priljubljene zahteve iz skupnosti Discord me zanimajo manj, kot so integrirani hitri slovarji in ustrezni seznami umetnikov in stilov, čeprav bi se zdel beležnica v aplikaciji ali prilagodljiv leksikon besednih zvez logičen dodatek.

Podobno trenutne omejitve animacije, osredotočene na človeka, v Stable Diffusion, čeprav so jih sprožili CogVideo in različni drugi projekti, ostajajo neverjetno v povojih in na milost in nemilost prepuščene raziskavam časovnih predhodnikov, povezanih s pristnim človeškim gibanjem.

Zaenkrat je Stable Diffusion video strogo Psychedelic, čeprav ima morda veliko svetlejšo bližnjo prihodnost v lutkovnem ustvarjanju deepfake prek EbSyntha in drugih relativno nastajajočih pobud za pretvorbo besedila v video (omeniti velja tudi pomanjkanje sintetiziranih ali 'spremenjenih' ljudi v Runway's najnovejši promocijski video).

Druga dragocena funkcionalnost bi bil pregleden prehod Photoshopa, ki je med drugimi podobnimi izvedbami že dolgo uveljavljen v urejevalniku tekstur Cinema4D. S tem lahko preprosto premikate slike med aplikacijami in uporabite vsako aplikacijo za izvedbo transformacij, v katerih je odlična.

Nazadnje in morda najpomembnejše, popoln namizni program Stable Diffusion bi moral imeti možnost ne samo enostavnega preklapljanja med kontrolnimi točkami (tj. različicami osnovnega modela, ki poganja sistem), ampak bi moral imeti tudi možnost posodabljanja besedilnih inverzij, ki so delovale po meri. s prejšnjimi uradnimi izdajami modela, sicer pa ga lahko pokvarijo poznejše različice modela (kot so navedli razvijalci na uradnem Discordu, da bi lahko bilo tako).

Ironično je, da se je organizacija Adobe, ki je v najboljšem položaju za ustvarjanje tako močne in integrirane matrike orodij za stabilno razširjanje, tako močno povezala z Pobuda za pristnost vsebine da bi se to morda zdelo kot retrogradni PR napačen korak za podjetje – razen če bi tako temeljito omejevalo generativne moči Stable Diffusion, kot je to storil OpenAI z DALL-E 2, in ga namesto tega pozicioniralo kot naravni razvoj svojih znatnih imetij v stock fotografiji.

 

Prvič objavljeno 15. septembra 2022.