Umjetna inteligencija
Kako bi se stabilna difuzija mogla razviti kao glavni potrošački proizvod

Ironično, Stabilna difuzijan, novi AI okvir za sintezu slika koji je osvojio svijet, nije ni stabilan ni stvarno toliko 'difuzan' – barem ne još.
Čitav raspon mogućnosti sustava raširen je kroz različitu ponudu stalno mijenjajućih ponuda od šačice programera koji bjesomučno izmjenjuju najnovije informacije i teorije u različitim razgovorima o Discordu – i velika većina instalacijskih procedura za pakete koje stvaraju ili modificiranje je vrlo daleko od 'plug and play'.
Umjesto toga, obično zahtijevaju naredbeni redak ili Pokretan BAT-om instalacija putem GIT-a, Conde, Pythona, Miniconde i drugih najnovijih razvojnih okvira – softverski paketi toliko su rijetki među općom skupinom korisnika da je njihova instalacija često označeni dobavljači antivirusnih i antimalware programa kao dokaz kompromitiranog glavnog sustava.

Samo mali izbor stupnjeva u špaliru koji trenutno zahtijeva standardna instalacija stabilne difuzije. Mnoge distribucije također zahtijevaju određene verzije Pythona, koje se mogu sukobiti s postojećim verzijama instaliranim na korisničkom računalu – iako se to može izbjeći instalacijom temeljenom na Dockeru i, u određenoj mjeri, upotrebom Conda okruženja.
Niti poruka u zajednicama SFW i NSFW Stable Diffusion preplavljene su savjetima i trikovima koji se odnose na hakiranje Python skripti i standardnih instalacija, kako bi se omogućila poboljšana funkcionalnost ili riješile česte pogreške ovisnosti i niz drugih problema.
Ovo ostavlja prosječnog potrošača zainteresiranim za stvaranje nevjerojatnih slika iz tekstualnih upita, uglavnom na milost i nemilost sve većeg broja unovčenih API web sučelja, od kojih većina nudi minimalan broj besplatnih generacija slika prije nego što se zahtijeva kupnja tokena.
Dodatno, gotovo sve ove ponude temeljene na webu odbijaju emitirati NSFW sadržaj (od kojih se velik dio može odnositi na nepornografske teme od općeg interesa, kao što je 'rat') što razlikuje Stable Diffusion od usluga OpenAI-ja DALL-E 2.
"Photoshop za stabilnu difuziju"
Uznemiren bajkovitim, raskošnim ili neobičnim slikama koje svakodnevno ispunjavaju #stablediffusion hashtag na Twitteru, ono što cijeli svijet vjerojatno čeka je "Photoshop za stabilnu difuziju" – aplikacija koja se može instalirati na više platformi koja spaja najbolju i najmoćniju funkcionalnost Stability.ai arhitekture, kao i razne genijalne inovacije SD razvojne zajednice u nastajanju, bez ikakvih plutajućih CLI prozora, opskurne i stalno promjenjive instalacije i ažuriranja rutine ili značajke koje nedostaju.
Ono što trenutno imamo, u većini sposobnijih instalacija, je različito elegantna web-stranica okružena prozorom naredbenog retka bez tijela, a čiji je URL lokalni host port:

Slično CLI-jevim aplikacijama za sintezu kao što su FaceSwap i DeepFaceLab usmjeren na BAT, 'prepakirana' instalacija Stable Diffusion pokazuje svoje korijene iz naredbenog retka, sa sučeljem kojem se pristupa preko porta lokalnog hosta (pogledajte gornji dio slike) koji komunicira s funkcijom stabilne difuzije koja se temelji na CLI-ju.
Bez sumnje, dolazi pojednostavljenija aplikacija. Već postoji nekoliko integralnih aplikacija temeljenih na Patreonu koje se mogu preuzeti, kao što su GRizik međutim NMKD (pogledajte sliku u nastavku) – ali nijedan koji još uvijek ne integrira cijeli niz značajki koje mogu ponuditi neke od naprednijih i manje pristupačnih implementacija Stable Diffusion.

Rani paketi Stable Diffusion koji se temelje na Patreonu, lagano 'prilagođeni'. NMKD je prvi koji integrira CLI izlaz izravno u GUI.
Pogledajmo kako bi uglađenija i cjelovitija implementacija ovog zapanjujućeg čuda otvorenog koda na kraju mogla izgledati – i s kakvim se izazovima može suočiti.
Pravna razmatranja za potpuno financiranu komercijalnu stabilnu difuzijsku aplikaciju
NSFW faktor
Izvorni kod Stable Diffusion objavljen je pod licencom krajnje popustljiva licenca koji ne zabranjuje komercijalne ponovne implementacije i izvedene radove koji se opsežno grade od izvornog koda.
Osim gore spomenutog i sve većeg broja verzija Stable Diffusion temeljenih na Patreonu, kao i velikog broja aplikacijskih dodataka koji se razvijaju za figma, Krita, Photoshop, GIMPi Miješalica (između ostalog), nema praktičan razlog zašto dobro financirana kuća za razvoj softvera ne bi mogla razviti daleko sofisticiraniju i sposobniju aplikaciju Stable Diffusion. Iz tržišne perspektive, postoji svaki razlog za vjerovanje da je nekoliko takvih inicijativa već uveliko u tijeku.
Ovdje se takvi napori odmah suočavaju s dilemom hoće li ili ne, poput većine web API-ja za Stable Diffusion, aplikacija omogućiti izvorni NSFW filtar Stable Diffusion (a fragment koda), isključiti.
'Pokopavanje' NSFW prekidača
Iako Stability.ai licenca otvorenog koda za Stable Diffusion uključuje popis aplikacija za koje se može široko tumačiti ne koristiti (vjerojatno uključujući pornografski sadržaj međutim deepfakes), jedini način na koji bi dobavljač mogao učinkovito zabraniti takvu upotrebu bio bi kompajliranje NSFW filtra u neprozirnu izvršnu datoteku umjesto parametra u Python datoteci ili nametanje usporedbe kontrolnog zbroja na Python datoteci ili DLL-u koji sadrži NSFW direktivu, tako da do renderiranja ne može doći ako korisnici promijene ovu postavku.
To bi navodnu prijavu ostavilo 'kastriranom' na gotovo isti način kao DALL-E 2 trenutno jest, smanjujući njegovu komercijalnu privlačnost. Također, neizbježno, dekompilirane 'doktorirane' verzije ovih komponenti (bilo izvorni Python runtime elementi ili kompajlirane DLL datoteke, kao što se sada koriste u liniji Topaz alata za poboljšanje slike AI) vjerojatno bi se pojavile u torrent/hakerskoj zajednici kako bi otključale takva ograničenja , jednostavnom zamjenom elemenata koji ometaju i negiranjem zahtjeva za kontrolnim zbrojem.
Na kraju, dobavljač može odlučiti jednostavno ponoviti Stability.ai upozorenje protiv zlouporabe koje karakterizira prvo pokretanje mnogih trenutnih Stable Diffusion distribucija.
Međutim, mali programeri otvorenog koda koji trenutno koriste povremena odricanja od odgovornosti na ovaj način nemaju mnogo za izgubiti u usporedbi sa softverskom tvrtkom koja je uložila značajne količine vremena i novca u izradu Stable Diffusion pune značajke i dostupnosti – što poziva na dublje razmatranje.
Deepfake odgovornost
Kao što imamo nedavno zabilježeno, LAION-aesthetics baza podataka, dio 4.2 milijarde slika na kojima su obučavani tekući modeli Stable Diffusion, sadrži velik broj slika slavnih, što korisnicima omogućuje učinkovito stvaranje deepfakeova, uključujući deepfake pornografiju slavnih.

Iz našeg nedavnog članka, četiri faze Jennifer Connelly tijekom četiri desetljeća njezine karijere, izvedene iz Stable Diffusion.
Ovo je zasebno i spornije pitanje od stvaranja (obično) legalne 'apstraktne' pornografije koja ne prikazuje 'stvarne' ljude (iako su takve slike izvedene iz više stvarnih fotografija u materijalu za obuku).
Budući da sve veći broj saveznih država i zemalja SAD-a razvija ili je uveo zakone protiv lažne pornografije, sposobnost Stable Diffusion-a da stvara pornografiju slavnih mogla bi značiti da bi komercijalna aplikacija koja nije u potpunosti cenzurirana (tj. koja može stvarati pornografski materijal) ipak trebala malo sposobnost filtriranja uočenih lica slavnih.
Jedna bi metoda bila osigurati ugrađenu 'crnu listu' pojmova koji se neće prihvatiti u korisničkom upitu, a koji se odnose na imena slavnih i fiktivne likove s kojima se mogu povezati. Vjerojatno bi takve postavke trebale biti uspostavljene na više jezika osim samo na engleskom, budući da izvorni podaci sadrže druge jezike. Drugi pristup mogao bi biti uključivanje sustava za prepoznavanje slavnih osoba poput onih koje je razvio Clarifai.
Može biti potrebno da proizvođači softvera ugrade takve metode, možda u početku isključene, jer mogu pomoći u sprječavanju da potpuna samostalna aplikacija Stable Diffusion generira lica slavnih, u iščekivanju novih zakona koji bi takvu funkcionalnost mogli učiniti nezakonitom.
Još jednom, međutim, zainteresirane strane neizbježno mogu dekompilirati i poništiti takvu funkcionalnost; međutim, proizvođač softvera mogao bi, u tom slučaju, tvrditi da je to zapravo nesankcionirani vandalizam – sve dok se ova vrsta obrnutog inženjeringa ne učini pretjerano lakim.
Značajke koje bi mogle biti uključene
Temeljna funkcionalnost u bilo kojoj distribuciji Stable Diffusion očekivala bi se od svake dobro financirane komercijalne aplikacije. To uključuje mogućnost korištenja tekstualnih upita za generiranje odgovarajućih slika (tekst-u-sliku); mogućnost korištenja skica ili drugih slika kao smjernica za nove generirane slike (od slike do slike); sredstva za prilagodbu koliko 'maštovit' sustav treba biti; način kompromisa između vremena renderiranja i kvalitete; i druge 'osnove', kao što je neobavezno automatsko arhiviranje slika/brzog arhiviranja i rutinsko izborno povećavanje veličine putem PraviESRGAN, i barem osnovno 'popravljanje lica' sa GFPGAN or CodeFormer.
To je poprilična 'instalacija van boje'. Pogledajmo neke od naprednijih značajki koje se trenutno razvijaju ili proširuju, a koje bi se mogle uključiti u potpunu 'tradicionalnu' aplikaciju Stable Diffusion.
Stohastičko zamrzavanje
Čak i ako ti ponovno koristiti sjeme iz prethodnog uspješnog renderiranja, užasno je teško natjerati Stable Diffusion da točno ponovi transformaciju ako bilo koji dio upita ili se izvorna slika (ili oboje) mijenja za naknadno iscrtavanje.
Ovo je problem ako želite koristiti EbSynth nametnuti transformacije Stable Diffusion-a stvarnom videu na vremenski koherentan način – iako tehnika može biti vrlo učinkovita za jednostavne snimke glave i ramena:

Ograničeno kretanje može učiniti EbSynth učinkovitim medijem za pretvaranje transformacija Stable Diffusion u realističan video. Izvor: https://streamable.com/u0pgzd
EbSynth radi tako da ekstrapolira mali izbor 'izmijenjenih' ključnih kadrova u video koji je renderiran u niz slikovnih datoteka (i koje se kasnije mogu ponovo sastaviti u video).

U ovom primjeru sa stranice EbSynth, mala šačica okvira iz videa oslikana je na umjetnički način. EbSynth koristi te okvire kao stilske vodiče kako bi na sličan način izmijenio cijeli video kako bi odgovarao oslikanom stilu. Izvor: https://www.youtube.com/embed/eghGQtQhY38
U donjem primjeru, u kojem se gotovo uopće ne pomiče (prava) plavokosa instruktorica joge s lijeve strane, Stable Diffusion još uvijek ima poteškoća s održavanjem dosljednog lica, jer tri slike koje se transformiraju kao 'ključni okviri' nisu potpuno identične, iako svi dijele isto numeričko sjeme.

Ovdje, čak i s istim odzivom i sjemenom u sve tri transformacije, i vrlo malo promjena između izvornih okvira, tjelesni mišići variraju u veličini i obliku, ali što je još važnije, lice je nedosljedno, ometajući vremensku dosljednost u potencijalnom EbSynth renderu.
Iako je SD/EbSynth video u nastavku vrlo inventivan, gdje su korisnikovi prsti pretvoreni u (odnosno) hodajući par nogu u hlačama i patku, nekonzistentnost hlača tipičan je problem koji ima Stable Diffusion u održavanju dosljednosti u različitim ključnim okvirima , čak i kada su izvorni okviri slični jedan drugome, a sjeme je dosljedno.

Čovjekovi prsti postaju hodajući čovjek i patka, putem Stable Diffusion i EbSynth. Izvor: https://old.reddit.com/r/StableDiffusion/comments/x92itm/proof_of_concept_using_img2img_ebsynth_to_animate/
Korisnik koji je stvorio ovaj video komentirao da je transformacija patke, vjerojatno učinkovitija od njih dvije, iako manje upečatljiva i originalna, zahtijevala samo jedan transformirani ključni kadar, dok je bilo potrebno prikazati 50 slika stabilne difuzije kako bi se stvorile hlače za hodanje, koje pokazuju više temporalnog nedosljednost. Korisnik je također primijetio da je bilo potrebno pet pokušaja da se postigne dosljednost za svaki od 50 ključnih kadrova.
Stoga bi bila velika prednost za istinski sveobuhvatnu aplikaciju Stable Diffusion da pruži funkcionalnost koja čuva karakteristike u najvećoj mjeri kroz ključne okvire.
Jedna od mogućnosti je da aplikacija korisniku omogući 'zamrzavanje' stohastičkog kodiranja za transformaciju na svakom okviru, što se trenutno može postići samo ručnom izmjenom izvornog koda. Kao što primjer u nastavku pokazuje, ovo pomaže vremenskoj dosljednosti, iako je sigurno ne rješava:

Jedan korisnik Reddita transformirao je snimke web kamere sebe u različite poznate osobe ne samo ustrajavanjem sjemena (što svaka implementacija Stable Diffusion može učiniti), već osiguravanjem da parametar stochastic_encode() bude identičan u svakoj transformaciji. To je postignuto modificiranjem koda, ali bi lako mogao postati prekidač dostupan korisniku. Međutim, jasno je da to ne rješava sva vremenska pitanja. Izvor: https://old.reddit.com/r/StableDiffusion/comments/wyeoqq/turning_img2img_into_vid2vid/
Tekstualna inverzija temeljena na oblaku
Bolje rješenje za izazivanje vremenski dosljednih likova i objekata je njihovo 'pečenje' u a Tekstualna inverzija – datoteka od 5 KB koja se može uvježbati u nekoliko sati na temelju samo pet slika s komentarima, koje se zatim mogu izvući posebnim '*' brzo, omogućujući, na primjer, stalno pojavljivanje novih likova za uključivanje u pripovijest.

Slike povezane s odgovarajućim oznakama mogu se pretvoriti u diskretne entitete putem tekstualne inverzije i prizvati bez dvosmislenosti, u ispravnom kontekstu i stilu, pomoću posebnih token riječi. Izvor: https://huggingface.co/docs/diffusers/training/text_inversion
Tekstualne inverzije su pomoćne datoteke vrlo velikom i potpuno obučenom modelu koji koristi Stable Diffusion, te su učinkovito 'umetnute' u proces izazivanja/poticanja, tako da mogu sudjelovati u scenama izvedenim iz modela i iskoristite ogromnu bazu podataka modela o objektima, stilovima, okruženjima i interakcijama.
Međutim, iako tekstualna inverzija ne traje dugo za treniranje, zahtijeva veliku količinu VRAM-a; prema raznim trenutnim prohodima, negdje između 12, 20 pa čak i 40GB.
Budući da većina povremenih korisnika vjerojatno neće imati na raspolaganju takvu vrstu GPU-a, već se pojavljuju usluge u oblaku koje će se nositi s tom operacijom, uključujući verziju Hugging Face. Iako ih ima Implementacije Google Colaba koji mogu stvarati tekstualne inverzije za stabilnu difuziju, potrebni VRAM i vremenski zahtjevi mogu ih učiniti izazovnim za korisnike besplatnog sloja Colaba.
Za potencijalno razvijenu i dobro uloženu Stable Diffusion (instaliranu) aplikaciju, prenošenje ovog teškog zadatka na poslužitelje u oblaku tvrtke čini se očitom strategijom unovčavanja (pod pretpostavkom da je jeftina ili besplatna Stable Diffusion aplikacija prožeta takvim ne- besplatna funkcionalnost, što se čini vjerojatnim u mnogim mogućim aplikacijama koje će proizaći iz ove tehnologije u sljedećih 6-9 mjeseci).
Dodatno, prilično kompliciran proces označavanja i oblikovanja dostavljenih slika i teksta mogao bi imati koristi od automatizacije u integriranom okruženju. Potencijalni 'faktor ovisnosti' stvaranja jedinstvenih elemenata koji mogu istraživati i komunicirati s ogromnim svjetovima Stable Diffusion činio bi se potencijalno kompulzivnim, kako za opće entuzijaste tako i za mlađe korisnike.
Svestrano brzo ponderiranje
Postoje mnoge trenutne implementacije koje omogućuju korisniku da dodijeli veći naglasak dijelu dugog tekstualnog odzivnika, ali instrumentalnost se dosta razlikuje među njima i često je nespretna ili neintuitivna.
Vrlo popularna Stable Diffusion vilica od AUTOMATIC1111, na primjer, može smanjiti ili povisiti vrijednost brze riječi stavljajući je u jednostruke ili višestruke zagrade (za uklanjanje naglaska) ili uglate zagrade za dodatno naglašavanje.

Uglate zagrade i/ili zagrade mogu transformirati vaš doručak u ovu verziju brzih utega Stable Diffusion, ali u svakom slučaju to je noćna mora za kolesterol.
Druge iteracije Stable Diffusion koriste uskličnike za isticanje, dok najsvestranije omogućuju korisnicima dodjeljivanje težine svakoj riječi u upitu putem GUI-ja.
Sustav bi također trebao omogućiti negativne promptne težine – ne samo za ljubitelji horora, ali zato što u latentnom prostoru Stabilne difuzije možda ima manje alarmantnih i više poučnih misterija nego što ih naša ograničena upotreba jezika može prizvati.
Nadslikavanje
Ubrzo nakon senzacionalnog otvaranja izvornog koda Stable Diffusion, OpenAI je pokušao – uglavnom uzalud – ponovno uhvatiti neke od svojih DALL-E 2 gromova najavljujući 'outpainting', koji omogućuje korisniku da proširi sliku izvan njezinih granica semantičkom logikom i vizualnom koherentnošću.
Naravno, od tada je tako provodi u raznim oblicima za stabilnu difuziju, kao i u Kriti, i svakako bi trebao biti uključen u sveobuhvatnu verziju Stable Diffusion u stilu Photoshopa.

Povećanje temeljeno na pločicama može gotovo beskonačno proširiti standardni prikaz veličine 512 × 512, sve dok to dopuštaju upute, postojeća slika i semantička logika. Izvor: https://github.com/lkwq007/stablediffusion-infinity
Budući da se Stable Diffusion trenira na slikama veličine 512 x 512 px (i iz niza drugih razloga), često se odsijecaju glave (ili drugi bitni dijelovi tijela) s ljudskih subjekata, čak i kada je upit jasno ukazao na 'naglašavanje glave' itd.

Tipični primjeri 'dekapitacije' stabilne difuzije; ali nadslikavanje bi moglo vratiti Georgea u sliku.
Svaka implementacija outpaintinga tipa prikazanog na gornjoj animiranoj slici (koja se temelji isključivo na Unix bibliotekama, ali bi trebala biti sposobna za repliciranje na Windows) također bi se trebala koristiti kao lijek jednim klikom/brzim za ovo.
Trenutačno, brojni korisnici produžuju platno prikaza 'odsječenih glava' prema gore, grubo ispunjavaju područje glave i koriste img2img za dovršavanje neuspješnog renderiranja.
Učinkovito maskiranje koje razumije kontekst
Maskiranje može biti užasno hit-and-miss afera u Stable Diffusion, ovisno o forku ili verziji u pitanju. Često, tamo gdje je uopće moguće nacrtati kohezivnu masku, navedeno područje na kraju bude oslikano sadržajem koji ne uzima u obzir cijeli kontekst slike.
Jednom sam prilikom zamaskirao rožnice slike lica i dao upit 'plave oči' kao naslikana maska – samo da bih otkrio da izgleda kao da gledam kroz dva izrezana ljudska oka udaljenu sliku vuka nezemaljskog izgleda. Valjda imam sreće što to nije bio Frank Sinatra.
Semantičko uređivanje također je moguće pomoću identificiranje buke koji je konstruirao sliku na prvom mjestu, što korisniku omogućuje da se pozabavi određenim strukturnim elementima u prikazu bez ometanja ostatka slike:

Mijenjanje jednog elementa na slici bez tradicionalnog maskiranja i bez mijenjanja susjednog sadržaja, identificiranjem buke koja je prvi stvorila sliku i rješavanjem njezinih dijelova koji su pridonijeli ciljnom području. Izvor: https://old.reddit.com/r/StableDiffusion/comments/xboy90/a_better_way_of_doing_img2img_by_finding_the/
Ova metoda se temelji na K-difuzijski uzorkivač.
Semantički filtri za fiziološke greške
Kao što smo već spomenuli, Stable Diffusion može često dodavati ili oduzimati udove, uglavnom zbog problema s podacima i nedostataka u komentarima koji prate slike koje su ga trenirale.

Baš poput onog zalutalog klinca koji je isplazio jezik na školskoj grupnoj fotografiji, biološka zlodjela Stable Diffusiona nisu uvijek očigledna i možda ste svoje najnovije AI remek-djelo postavili na Instagram prije nego što primijetite dodatne ruke ili otopljene udove.
Toliko je teško ispraviti ove vrste pogrešaka da bi bilo korisno kada bi aplikacija Stable Diffusion u punoj veličini sadržavala neku vrstu sustava za anatomsko prepoznavanje koji koristi semantičku segmentaciju kako bi izračunao ima li dolazna slika ozbiljne anatomske nedostatke (kao na slici iznad ), i odbacuje ga u korist novog prikaza prije nego što ga predstavi korisniku.
Naravno, možda biste željeli renderirati božicu Kali ili Doctor Octopus, ili čak spasiti nepromijenjeni dio slike s oštećenim udovima, tako da bi ova značajka trebala biti izborni prekidač.
Kad bi korisnici mogli tolerirati telemetrijski aspekt, takva zatajenja paljenja mogla bi se čak i anonimno prenositi u kolektivnom naporu federalnog učenja koje bi moglo pomoći budućim modelima da poboljšaju svoje razumijevanje anatomske logike.
Automatsko poboljšanje lica temeljeno na LAION-u
Kao što sam primijetio u svom prethodni izgled na tri stvari koje bi Stable Diffusion mogao riješiti u budućnosti, ne bi trebalo biti prepušteno samo bilo kojoj verziji GFPGAN-a da pokuša 'poboljšati' prikazana lica u prvim prikazima.
GFPGAN-ova 'poboljšanja' su užasno generička, često potkopavaju identitet prikazane osobe i djeluju isključivo na licu koje je obično loše prikazano, budući da mu nije obrađeno više vremena ili pažnje nego bilo kojem drugom dijelu slike.
Stoga bi program profesionalnog standarda za stabilnu difuziju trebao moći prepoznati lice (sa standardnom i relativno laganom bibliotekom kao što je YOLO), primijeniti svu težinu dostupne snage GPU-a na njegovo ponovno iscrtavanje i ili uklopiti poboljšano lice u izvorni prikaz punog konteksta ili ga spremite zasebno za ručno ponovno sastavljanje. Trenutačno je ovo prilično 'praktična' operacija.

U slučajevima kada je Stable Diffusion obučen na odgovarajućem broju slika slavne osobe, moguće je fokusirati cijeli kapacitet GPU-a na naknadno renderiranje samo lica renderirane slike, što je obično značajno poboljšanje – i, za razliku od GFPGAN-a , oslanja se na informacije iz podataka obučenih u LAION-u, umjesto da jednostavno prilagođava prikazane piksele.
LAION pretraživanja unutar aplikacije
Budući da su korisnici počeli shvaćati da bi pretraživanje LAION-ove baze podataka za koncepte, ljude i teme moglo pomoći u boljem korištenju Stable Diffusion, stvoreno je nekoliko online LAION istraživača, uključujući haveibeentrained.com.

Funkcija pretraživanja na haveibeentrained.com omogućuje korisnicima istraživanje slika koje pokreću stabilnu difuziju i otkrivaju jesu li objekti, ljudi ili ideje koje bi željeli izvući iz sustava vjerojatno uvježbani u njega. Takvi sustavi također su korisni za otkrivanje susjednih entiteta, kao što je način na koji su slavne osobe grupirane ili 'sljedeća ideja' koja vodi dalje od trenutne. Izvor: https://haveibeentrained.com/?search_text=bowl%20of%20fruit
Iako takve baze podataka temeljene na webu često otkrivaju neke od oznaka koje prate slike, proces generalizacija koji se odvija tijekom obuke modela znači da je malo vjerojatno da bi se neka određena slika mogla prizvati korištenjem njezine oznake kao upita.
Osim toga, uklanjanje 'stop riječi' a praksa stvaranja korijena i lematizacije u obradi prirodnog jezika znači da su mnoge fraze na zaslonu bile rastavljene ili izostavljene prije nego što su uvježbane u stabilnu difuziju.
Unatoč tome, način na koji se estetske grupe povezuju u ova sučelja može naučiti krajnjeg korisnika puno o logici (ili, vjerojatno, 'osobnosti') Stable Diffusion, i pokazati se kao pomoćnik za bolju proizvodnju slike.
Zaključak
Postoje mnoge druge značajke koje bih volio vidjeti u potpunoj nativnoj implementaciji Stable Diffusion za stolna računala, kao što je nativna analiza slike temeljena na CLIP-u, koja preokreće standardni proces Stable Diffusion i omogućuje korisniku da izvuče fraze i riječi koje sustav bi se prirodno povezalo s izvornom slikom ili prikazom.
Dodatno, pravo skaliranje temeljeno na pločicama bilo bi dobrodošao dodatak, budući da je ESRGAN gotovo jednako tup instrument kao GFPGAN. Srećom, planira se integrirati txt2imghd implementacija GOBIG-a brzo to čini stvarnošću u svim distribucijama i čini se očitim izborom za iteraciju stolnog računala.
Neki drugi popularni zahtjevi iz Discord zajednica manje me zanimaju, kao što su integrirani brzi rječnici i primjenjivi popisi umjetnika i stilova, iako bi se bilježnica unutar aplikacije ili prilagodljiv leksikon fraza činio logičnim dodatkom.
Isto tako, trenutna ograničenja animacije usmjerene na čovjeka u Stable Diffusion, iako su pokrenuta CogVideoom i raznim drugim projektima, i dalje su nevjerojatno tek rađajuća i prepuštena na milost i nemilost uzvodnom istraživanju vremenskih prijelaza koji se odnose na autentično ljudsko kretanje.
Za sada je Stable Diffusion video striktno psihodeličan, iako bi mogla imati puno svjetliju blisku budućnost u lutkarstvu deepfake, putem EbSyntha i drugih relativno novonastalih inicijativa za pretvaranje teksta u video (i vrijedi napomenuti nedostatak sintetiziranih ili 'promijenjenih' ljudi u Runwayu najnoviji promotivni video).
Još jedna vrijedna funkcionalnost bio bi transparentni prolaz kroz Photoshop, koji je odavno uspostavljen u uređivaču teksture Cinema4D, među ostalim sličnim implementacijama. S tim se slike mogu lako prebacivati između aplikacija i koristiti svaku aplikaciju za izvođenje transformacija u kojima se ističe.
Na kraju, i možda najvažnije, program Stable Diffusion za potpunu radnu površinu trebao bi moći ne samo lako mijenjati kontrolne točke (tj. verzije temeljnog modela koji pokreće sustav), već bi također trebao moći ažurirati prilagođene tekstualne inverzije koje su radile s prethodnim službenim izdanjima modela, ali bi inače mogao biti pokvaren kasnijim verzijama modela (kako su programeri na službenom Discordu naznačili da bi mogao biti slučaj).
Ironično, organizacija u najboljoj poziciji za stvaranje tako moćne i integrirane matrice alata za Stable Diffusion, Adobe, tako se snažno udružila s Inicijativa za autentičnost sadržaja da bi se to moglo činiti retrogradnim PR pogrešnim korakom za tvrtku – osim ako ne bi ograničio generativne moći Stable Diffusiona tako temeljito kao što je to OpenAI učinio s DALL-E 2, i pozicionirao ga umjesto toga kao prirodnu evoluciju svog značajnog udjela u stock fotografiji.
Prvi put objavljeno 15. rujna 2022.