Artificiell intelligens
Tre utmaningar framför stabil spridning

Ocuco-landskapet frigöra av stability.ai:s stabila diffusion latent diffusion bildsyntesmodell för ett par veckor sedan kan vara en av de viktigaste tekniska avslöjandena sedan DeCSS 1999; det Àr definitivt den största hÀndelsen inom AI-genererade bilder sedan 2017 deepfakes kod kopierades över till GitHub och klaffade in i vad som skulle bli DeepFaceLab och Ansikts byte, sÄvÀl som deepfake-programvaran för strömning i realtid DeepFaceLive.
I ett slag, anvÀndarens frustration över innehÄllsbegrÀnsningar i DALL-E 2:s bildsyntes-API sopades Ät sidan, eftersom det visade sig att Stable Diffusions NSFW-filter kunde inaktiveras genom att Àndra en enda kodraden. Porrcentrerade Stable Diffusion Reddits dök upp nÀstan omedelbart och klipptes lika snabbt ner, medan utvecklar- och anvÀndarlÀgret delade sig pÄ Discord i de officiella och NSFW-gemenskaperna, och Twitter började fyllas pÄ med fantastiska Stable Diffusion-skapelser.
För nÀrvarande tycks varje dag ge en fantastisk innovation frÄn utvecklarna som har antagit systemet, med plugins och tredjepartshjÀlpmedel som hastigt skrivs för krita, Photoshop, Cinema4D, Blandare, och mÄnga andra applikationsplattformar.
Under tiden, promptcraft â den numera professionella konsten att viska AI, som kan bli det kortaste karriĂ€ralternativet sedan âFilofax binderâ â hĂ„ller redan pĂ„ att bli kommersialiseras, medan tidig monetarisering av Stable Diffusion Ă€ger rum pĂ„ Patreon nivĂ„, med sĂ€kerhet om mer sofistikerade erbjudanden som kommer, för dem som inte vill navigera Conda-baserad installationer av kĂ€llkoden eller de proskriptiva NSFW-filtren för webbaserade implementeringar.
Utvecklingstakten och den fria kÀnslan av utforskning frÄn anvÀndarna gÄr i en sÄ svindlande hastighet att det Àr svÄrt att se lÄngt fram. I huvudsak vet vi inte exakt vad vi har att göra med Ànnu, eller vad alla begrÀnsningar eller möjligheter kan vara.
Icke desto mindre, lÄt oss ta en titt pÄ tre av vad som kan vara de mest intressanta och utmanande hindren för den snabbt bildade och snabbt vÀxande stabila diffusionsgemenskapen att möta och, förhoppningsvis, övervinna.
1: Optimera kakelbaserade rörledningar
Presenterat med begrĂ€nsade hĂ„rdvaruresurser och hĂ„rda grĂ€nser för upplösningen av trĂ€ningsbilder, verkar det troligt att utvecklare kommer att hitta lösningar för att förbĂ€ttra bĂ„de kvaliteten och upplösningen för stabil diffusion. MĂ„nga av dessa projekt Ă€r instĂ€llda pĂ„ att utnyttja systemets begrĂ€nsningar, sĂ„som dess ursprungliga upplösning pĂ„ bara 512Ă512 pixlar.
Som alltid Ă€r fallet med datorseende och bildsyntesinitiativ trĂ€nades Stable Diffusion pĂ„ bilder i kvadratförhĂ„llande, i detta fall omsamplade till 512Ă512, sĂ„ att kĂ€llbilderna kunde regleras och passa in i begrĂ€nsningarna för GPU:erna som trĂ€nade modellen.
DĂ€rför "tĂ€nker" stabil diffusion (om den alls tĂ€nker) i 512Ă512 termer, och sĂ€kert i kvadratiska termer. MĂ„nga anvĂ€ndare som för nĂ€rvarande undersöker systemets grĂ€nser rapporterar att stabil diffusion ger de mest tillförlitliga och minst glitchy resultaten vid detta ganska begrĂ€nsade bildförhĂ„llande (se "att adressera extremiteter" nedan).
Ăven om olika implementeringar har uppskalning via RealESRGAN (och kan fixa dĂ„ligt renderade ansikten via GFPGAN) flera anvĂ€ndare utvecklar för nĂ€rvarande metoder för att dela upp bilder i 512x512px sektioner och sy ihop bilderna för att bilda större sammansatta verk.

Denna 1024Ă576-rendering, en upplösning som vanligtvis Ă€r omöjlig i en enda stabil diffusionsrendering, skapades genom att kopiera och klistra in filen attention.py Python frĂ„n filen DoggettX fork of Stable Diffusion (en version som implementerar kakelbaserad uppskalning) till en annan gaffel. KĂ€lla: https://old.reddit.com/r/StableDiffusion/comments/x6yeam/1024x576_with_6gb_nice/
Ăven om vissa initiativ av detta slag anvĂ€nder originalkod eller andra bibliotek, txt2imghd port av GOBIG (ett lĂ€ge i den VRAM-hungriga ProgRockDiffusion) Ă€r instĂ€lld pĂ„ att tillhandahĂ„lla denna funktion till huvudgrenen snart. Medan txt2imghd Ă€r en dedikerad port för GOBIG, involverar andra anstrĂ€ngningar frĂ„n communityutvecklare olika implementeringar av GOBIG.

En bekvÀmt abstrakt bild i den ursprungliga renderingen pÄ 512x512px (vÀnster och andra frÄn vÀnster); uppskalad av ESGRAN, som nu Àr mer eller mindre inbyggt i alla stabila diffusionsdistributioner; och ges "sÀrskild uppmÀrksamhet" via en implementering av GOBIG, som producerar detaljer som, Ätminstone inom grÀnserna för bildsektionen, verkar bÀttre uppskalade. Source: https://old.reddit.com/r/StableDiffusion/comments/x72460/stable_diffusion_gobig_txt2imghd_easy_mode_colab/
Den typ av abstrakta exempel som presenteras ovan har mÄnga "smÄ riken" av detaljer som passar denna solipsistiska instÀllning till uppskalning, men som kan krÀva mer utmanande koddrivna lösningar för att producera icke-repetitiv, sammanhÀngande uppskalning som inte se som om den var sammansatt av mÄnga delar. Inte minst nÀr det gÀller mÀnskliga ansikten, dÀr vi Àr ovanligt instÀllda pÄ aberrationer eller "skakande" artefakter. DÀrför kan ansikten sÄ smÄningom behöva en dedikerad lösning.
Stabil Diffusion har för nĂ€rvarande ingen mekanism för att fokusera uppmĂ€rksamheten pĂ„ ansiktet under en rendering pĂ„ samma sĂ€tt som mĂ€nniskor prioriterar ansiktsinformation. Ăven om vissa utvecklare i Discord-gemenskaperna övervĂ€ger metoder för att implementera den hĂ€r typen av "förbĂ€ttrad uppmĂ€rksamhet", Ă€r det för nĂ€rvarande mycket lĂ€ttare att manuellt (och sĂ„ smĂ„ningom automatiskt) förbĂ€ttra ansiktet efter att den första renderingen har Ă€gt rum.
Ett mÀnskligt ansikte har en inre och fullstÀndig semantisk logik som inte finns i en "bricka" i det nedre hörnet av (till exempel) en byggnad, och dÀrför Àr det för nÀrvarande möjligt att mycket effektivt "zooma in" och Äterrendera en "skissartad" yta i stabil diffusionsutgÄng.

VĂ€nster, Stable Diffusions första insats med det snabba 'FĂ€rgfoto i full lĂ€ngd av Christina Hendricks pĂ„ vĂ€g in pĂ„ en trĂ„ng plats, iklĂ€dd regnrock; Canon50, ögonkontakt, hög detalj, hög ansiktsdetaljâ. Till höger, ett förbĂ€ttrat ansikte som erhĂ„lls genom att mata tillbaka det suddiga och skissartade ansiktet frĂ„n den första renderingen till Stable Diffusions fulla uppmĂ€rksamhet med Img2Img (se animerade bilder nedan).
I avsaknad av en dedikerad Textual Inversion-lösning (se nedan), kommer detta endast att fungera för kÀndisbilder dÀr personen i frÄga redan Àr vÀl representerad i LAION-dataunderuppsÀttningarna som trÀnade Stabil Diffusion. DÀrför kommer det att fungera pÄ sÄdana som Tom Cruise, Brad Pitt, Jennifer Lawrence och ett begrÀnsat utbud av Àkta medialjus som finns i ett stort antal bilder i kÀlldata.

Genererar en trovĂ€rdig pressbild med prompten 'FĂ€rgfoto i fullĂ€ngd av Christina Hendricks som gĂ„r in pĂ„ en trĂ„ng plats, iklĂ€dd regnrock; Canon50, ögonkontakt, hög detalj, hög ansiktsdetaljâ.
För kÀndisar med lÄnga och lÄngvariga karriÀrer kommer Stable Diffusion vanligtvis att generera en bild av personen vid en nyligen (dvs. Àldre) Älder, och det kommer att vara nödvÀndigt att lÀgga till snabba tillÀgg som t.ex. 'ung' or 'under Äret [YEAR]' för att producera bilder som ser yngre ut.

Med en framstÄende, mycket fotograferad och konsekvent karriÀr som strÀcker sig över nÀstan 40 Är, Àr skÄdespelerskan Jennifer Connelly en av en handfull kÀndisar i LAION som lÄter Stable Diffusion representera en rad Äldrar. KÀlla: förpackning stabil diffusion, lokal, v1.4 kontrollpunkt; Äldersrelaterade uppmaningar.
Detta beror till stor del pÄ spridningen av digitala (snarare Àn dyra, emulsionsbaserade) pressfotografier frÄn mitten av 2000-talet och framÄt, och den senare ökningen i volym av bildutdata pÄ grund av ökade bredbandshastigheter.

Den renderade bilden skickas vidare till Img2Img i Stable Diffusion, dÀr ett "fokusomrÄde" vÀljs, och en ny rendering i maximal storlek görs endast av det omrÄdet, vilket gör att Stable Diffusion kan koncentrera alla tillgÀngliga resurser pÄ att Äterskapa ansiktet.

SammansĂ€ttning av ansiktet med "hög uppmĂ€rksamhet" till den ursprungliga renderingen. Förutom ansikten kommer denna process bara att fungera med enheter som har ett potentiellt kĂ€nt, sammanhĂ€ngande och integrerat utseende, till exempel en del av originalfotot som har ett distinkt föremĂ„l, som en klocka eller en bil. Att skala upp en del av â till exempel â en vĂ€gg kommer att leda till en mycket konstigt utseende Ă„termonterad vĂ€gg, eftersom kakelputserna inte hade nĂ„got vidare sammanhang för denna "sticksĂ„gsbit" som de gjorde.
Vissa kÀndisar i databasen kommer "förfrysta" i tid, antingen för att de dog tidigt (som Marilyn Monroe), eller för att de bara blev flyktiga mainstream-framtrÀdande platser och producerade en stor mÀngd bilder under en begrÀnsad tidsperiod. Polling Stable Diffusion ger utan tvekan ett slags "aktuellt" popularitetsindex för moderna och Àldre stjÀrnor. För vissa Àldre och nuvarande kÀndisar finns det inte tillrÀckligt med bilder i kÀlldata för att fÄ en mycket bra likhet, medan den bestÄende populariteten för sÀrskilda sedan lÀnge döda eller pÄ annat sÀtt bleknade stjÀrnor sÀkerstÀller att deras rimliga likhet kan erhÄllas frÄn systemet.

Stabila diffusionsrenderingar avslöjar snabbt vilka kÀnda ansikten som Àr vÀl representerade i trÀningsdatan. Trots sin enorma popularitet som Àldre tonÄring i skrivande stund var Millie Bobby Brown yngre och mindre kÀnd nÀr LAIONs kÀlldata skrapades frÄn webben, vilket gjorde en högkvalitativ likhet med Stable Diffusion problematisk för tillfÀllet.
DĂ€r data finns tillgĂ€nglig kan kakelbaserade upplösningslösningar i Stable Diffusion gĂ„ lĂ€ngre Ă€n att vĂ€nda sig till ansiktet: de skulle potentiellt kunna möjliggöra Ă€nnu mer exakta och detaljerade ansikten genom att bryta ner ansiktsdragen och vĂ€nda pĂ„ hela kraften hos den lokala GPU:n resurser pĂ„ framtrĂ€dande egenskaper individuellt, före Ă„termontering â en process som för nĂ€rvarande Ă„terigen Ă€r manuell.
Detta Àr inte begrÀnsat till ansikten, utan det Àr begrÀnsat till delar av objekt som Àr minst lika förutsÀgbart placerade i vÀrdobjektets bredare sammanhang, och som överensstÀmmer med inbÀddningar pÄ hög nivÄ som man rimligen kan förvÀnta sig att hitta i en hyperskala dataset.
Den verkliga grÀnsen Àr mÀngden tillgÀngliga referensdata i datamÀngden, eftersom djupt itererade detaljer sÄ smÄningom kommer att bli totalt "hallucinerade" (dvs. fiktiva) och mindre autentiska.
SÄdana granulÀra förstoringar pÄ hög nivÄ fungerar i fallet med Jennifer Connelly, eftersom hon Àr vÀlrepresenterad över en rad Äldrar i LAION-estetik (den primÀra delmÀngden av LAION 5B som Stable Diffusion anvÀnder), och i allmÀnhet över LAION; i mÄnga andra fall skulle noggrannheten lida av brist pÄ data, vilket krÀver antingen finjustering (ytterligare utbildning, se 'Anpassning' nedan) eller textinversion (se nedan).
Kakel Àr ett kraftfullt och relativt billigt sÀtt för stabil spridning att kunna producera högupplöst utdata, men algoritmisk platta uppskalning av detta slag, om den saknar nÄgon form av bredare uppmÀrksamhetsmekanism pÄ högre nivÄ, kan misslyckas med det förvÀntade. för standarder för en rad innehÄllstyper.
2: Ta itu med problem med mÀnskliga lemmar
Stabil diffusion lever inte upp till sitt namn nÀr den skildrar komplexiteten hos mÀnskliga extremiteter. HÀnder kan föröka sig slumpmÀssigt, fingrar smÀlter samman, tredje ben verkar objudna och befintliga lemmar försvinner spÄrlöst. Till sitt försvar delar Stable Diffusion problemet med sina stallkamrater, och absolut med DALL-E 2.

Ej redigerade resultat frÄn DALL-E 2 och Stable Diffusion (1.4) i slutet av augusti 2022, bÄda visar problem med lemmar. Uppmaningen Àr "En kvinna som omfamnar en man"
Stable Diffusion-fans som hoppas att den kommande 1.5-kontrollpunkten (en mer intensivt trÀnad version av modellen, med förbÀttrade parametrar) skulle lösa lemförvirringen kommer sannolikt att bli besvikna. Den nya modellen, som kommer att slÀppas i ungefÀr tvÄ veckor, premiÀrvisas för nÀrvarande pÄ den kommersiella stability.ai-portalen drömstudio, som anvÀnder 1.5 som standard, och dÀr anvÀndare kan jÀmföra den nya utdatan med renderingar frÄn sina lokala eller andra 1.4-system:

KĂ€lla: Local 1.4 prepack och https://beta.dreamstudio.ai/

KĂ€lla: Local 1.4 prepack och https://beta.dreamstudio.ai/

KĂ€lla: Local 1.4 prepack och https://beta.dreamstudio.ai/
Som ofta Àr fallet kan datakvalitet mycket vÀl vara den frÀmsta bidragande orsaken.
De öppna kÀllkodsdatabaserna som driver bildsyntessystem som Stable Diffusion och DALL-E 2 kan tillhandahÄlla mÄnga etiketter för bÄde enskilda mÀnniskor och inter-mÀnsklig handling. Dessa etiketter trÀnas in symbiotiskt med deras associerade bilder, eller segment av bilder.

Stabil Diffusion-anvÀndare kan utforska koncepten som trÀnats in i modellen genom att frÄga LAION-estetikdataset, en delmÀngd av den större LAION 5B-datauppsÀttningen, som driver systemet. Bilderna ordnas inte efter deras alfabetiska etiketter, utan efter deras "estetiska partitur". KÀlla: https://rom1504.github.io/clip-retrieval/
A bra hierarki av individuella etiketter och klasser som bidrar till skildringen av en mÀnsklig arm skulle vara nÄgot liknande kropp>arm>hand>fingrar>[undersiffror + tumme]> [siffersegment]>Fingernaglar.

GranulĂ€r semantisk segmentering av delarna av en hand. Ăven denna ovanligt detaljerade dekonstruktion lĂ€mnar varje "finger" som en enda enhet, utan att ta hĂ€nsyn till de tre sektionerna av ett finger och de tvĂ„ sektionerna av en tumme. KĂ€lla: https://athitsos.utasites.cloud/publications/rezaei_petra2021.pdf
I verkligheten Ă€r det osannolikt att kĂ€llbilderna kommer att vara sĂ„ konsekvent kommenterade över hela datasetet, och oövervakade mĂ€rkningsalgoritmer kommer förmodligen att stanna vid högre nivĂ„ av â till exempel â 'hand', och lĂ€mna de inre pixlarna (som tekniskt sett innehĂ„ller 'finger'-information) som en omĂ€rkt massa pixlar frĂ„n vilka egenskaper kommer att hĂ€rledas godtyckligt, och som kan manifesteras i senare renderingar som ett skakande element.

Hur det ska vara (uppe till höger, om inte upper-cut), och hur det tenderar att vara (nedre höger), pÄ grund av begrÀnsade resurser för mÀrkning eller arkitektoniskt utnyttjande av sÄdana etiketter om de finns i datasetet.
SÄledes, om en latent diffusionsmodell nÄr sÄ lÄngt som att Äterge en arm, kommer den nÀstan sÀkert att Ätminstone försöka Äterge en hand i slutet av den armen, eftersom arm>hand Àr den minimala erforderliga hierarkin, ganska högt upp i vad arkitekturen vet om "mÀnsklig anatomi".
DÀrefter kan "fingrar" vara den minsta grupperingen, Àven om det finns ytterligare 14 underdelar av finger/tumme att tÀnka pÄ nÀr man avbildar mÀnniskohÀnder.
Om denna teori hÄller, finns det inget verkligt botemedel, pÄ grund av den sektorsomfattande bristen pÄ budget för manuell anteckning och bristen pÄ tillrÀckligt effektiva algoritmer som kan automatisera mÀrkning samtidigt som de ger lÄga felfrekvenser. I sjÀlva verket kan modellen för nÀrvarande förlita sig pÄ mÀnsklig anatomisk konsistens till papper över bristerna i datamÀngden den trÀnades pÄ.
En möjlig anledning till det kan inte lita pÄ detta, nyligen föreslagen vid Stable Diffusion Discord, Àr att modellen kan bli förvirrad över det korrekta antalet fingrar en (realistisk) mÀnsklig hand ska ha eftersom den LAION-hÀrledda databasen som driver den innehÄller seriefigurer som kan ha fÀrre fingrar (vilket Àr i sig sjÀlvt) en arbetsbesparande genvÀg).

TvÄ av de potentiella bovarna i "saknat finger"-syndrom i stabil diffusion och liknande modeller. Nedan, exempel pÄ tecknade hÀnder frÄn LAION-estetikdataset som driver Stable Diffusion. KÀlla: https://www.youtube.com/watch?v=0QZFQ3gbd6I
Om detta Àr sant Àr den enda uppenbara lösningen att omskola modellen, exklusive icke-realistiskt mÀnskligt baserat innehÄll, och se till att Àkta fall av utelÀmnande (dvs. amputerade) pÄ lÀmpligt sÀtt betecknas som undantag. Enbart frÄn en datakuratorpunkt skulle detta vara en stor utmaning, sÀrskilt för resurssnÄla samhÀllsinsatser.
Det andra tillvÀgagÄngssÀttet skulle vara att tillÀmpa filter som utesluter sÄdant innehÄll (dvs. 'hand med tre/fem fingrar') frÄn att manifesteras vid renderingstid, ungefÀr pÄ samma sÀtt som OpenAI i viss utstrÀckning har, filtrerades GPT-3 och DALL-E2, sÄ att deras produktion kunde regleras utan att behöva omskola kÀllmodellerna.

För Stable Diffusion kan den semantiska distinktionen mellan siffror och till och med lemmar bli fruktansvÀrt suddig, vilket för tankarna till 1980-talets "kroppsskrÀck"-strÀng av skrÀckfilmer frÄn sÄdana som David Cronenberg. KÀlla: https://old.reddit.com/r/StableDiffusion/comments/x6htf6/a_study_of_stable_diffusions_strange_relationship/
Men Äterigen skulle detta krÀva etiketter som kanske inte finns pÄ alla berörda bilder, vilket lÀmnar oss med samma logistiska och budgetmÀssiga utmaning.
Det kan hÀvdas att det finns tvÄ ÄterstÄende vÀgar framÄt: att kasta mer data pÄ problemet och att tillÀmpa tolkningssystem frÄn tredje part som kan ingripa nÀr fysiska goofs av den typ som beskrivs hÀr presenteras för slutanvÀndaren (Ätminstone, det senare skulle ge OpenAI en metod att ge Äterbetalningar för "kroppsskrÀck"-renderingar, om företaget var motiverat att göra det).
3: Anpassning
En av de mest spĂ€nnande möjligheterna för Stable Diffusions framtid Ă€r möjligheten att anvĂ€ndare eller organisationer utvecklar reviderade system; modifieringar som gör att innehĂ„ll utanför den förtrĂ€nade LAION-sfĂ€ren kan integreras i systemet â helst utan den oöverskĂ„dliga kostnaden för att trĂ€na hela modellen om igen, eller risken medföra nĂ€r man trĂ€nar i en stor volym nya bilder till en befintlig, mogen och kapabel modell.
Analogt: om tvÄ mindre begÄvade elever gÄr med i en avancerad klass pÄ trettio elever, kommer de antingen att assimilera och komma ikapp, eller misslyckas som extrema; i bÄda fallen kommer klassens genomsnittliga prestanda förmodligen inte att pÄverkas. Om 15 mindre begÄvade elever gÄr med kommer dock betygskurvan för hela klassen att bli lidande.
LikasÄ kan det synergistiska och ganska kÀnsliga nÀtverket av relationer som byggs upp under lÄngvarig och dyr modelltrÀning Àventyras, i vissa fall effektivt förstöras, av alltför mycket ny data, vilket sÀnker utdatakvaliteten för modellen över hela linjen.
Grunden för att göra detta Àr i första hand dÀr ditt intresse ligger i att fullstÀndigt kapa modellens konceptuella förstÄelse av relationer och saker, och tillÀgna sig den för exklusiv produktion av innehÄll som liknar det tillÀggsmaterial som du lagt till.
AlltsĂ„ trĂ€ning 500,000 XNUMX Simpsons ramar in i en befintlig stabil diffusionskontrollpunkt kommer sannolikt, sĂ„ smĂ„ningom, att göra dig bĂ€ttre Simpsons simulator Ă€n den ursprungliga konstruktionen kunde ha erbjudit, förutsatt att tillrĂ€ckligt med breda semantiska relationer överlever processen (dvs. Homer Simpson Ă€ter en korv, som kan krĂ€va material om korv som inte fanns i ditt tillĂ€ggsmaterial, men som redan fanns i checkpointen), och förutsatt att du inte plötsligt vill byta frĂ„n Simpsons innehĂ„ll att skapa fantastiskt landskap av Greg Rutkowski â eftersom din eftertrĂ€nade modell har fĂ„tt sin uppmĂ€rksamhet massivt avledd, och kommer inte att vara lika bra pĂ„ att göra sĂ„nt som den brukade vara.
Ett anmÀrkningsvÀrt exempel pÄ detta Àr waifu-diffusion, vilket har lyckats eftertrÀnade 56,000 XNUMX animebilder till en fÀrdig och trÀnad kontrollpunkt för stabil diffusion. Det Àr dock en tuff utsikt för en hobbyist, eftersom modellen krÀver ett iögonfallande minimum pÄ 30 GB VRAM, lÄngt utöver vad som sannolikt kommer att finnas tillgÀngligt pÄ konsumentnivÄn i NVIDIAs kommande 40XX-serieslÀpp.

Utbildning av anpassat innehÄll till stabil spridning via waifu-diffusion: modellen tog tvÄ veckors eftertrÀning för att producera denna nivÄ av illustration. De sex bilderna till vÀnster visar modellens framsteg, allteftersom utbildningen fortskred, för att göra ÀmnessammanhÀngande utdata baserat pÄ den nya trÀningsdatan. KÀlla: https://gigazine.net/gsc_news/en/20220121-how-waifu-labs-create/
En hel del anstrÀngning skulle kunna lÀggas pÄ sÄdana "gafflar" av stabila diffusionskontrollpunkter, bara för att hindras av tekniska skulder. Utvecklare pÄ den officiella Discord har redan indikerat att senare versioner av checkpoint inte nödvÀndigtvis kommer att vara bakÄtkompatibla, Àven med prompt logik som kan ha fungerat med en tidigare version, eftersom deras primÀra intresse Àr att fÄ den bÀsta möjliga modellen, snarare Àn att stödja Àldre applikationer och processer.
DĂ€rför har ett företag eller en individ som bestĂ€mmer sig för att förgrena sig en checkpoint till en kommersiell produkt i praktiken ingen vĂ€g tillbaka; deras version av modellen Ă€r vid den tidpunkten en "hĂ„rd gaffel" och kommer inte att kunna dra in uppströmsfördelar frĂ„n senare utgĂ„vor frĂ„n stability.ai â vilket Ă€r ett stort engagemang.
Det nuvarande och större hoppet om anpassning av stabil diffusion Ă€r Textinversion, dĂ€r anvĂ€ndaren trĂ€nar in en liten handfull KLĂMMA-justerade bilder.

Ett samarbete mellan Tel Aviv University och NVIDIA, textinversion möjliggör trÀning av diskreta och nya enheter utan att förstöra kÀllmodellens möjligheter. KÀlla: https://textual-inversion.github.io/
Den primĂ€ra uppenbara begrĂ€nsningen av textinversion Ă€r att ett mycket litet antal bilder rekommenderas â sĂ„ fĂ„ som fem. Detta producerar effektivt en begrĂ€nsad enhet som kan vara mer anvĂ€ndbar för stilöverföringsuppgifter snarare Ă€n infogning av fotorealistiska objekt.
ĂndĂ„ pĂ„gĂ„r för nĂ€rvarande experiment inom de olika stabila diffusionsdiscorderna som anvĂ€nder mycket högre antal trĂ€ningsbilder, och det Ă„terstĂ„r att se hur produktiv metoden kan visa sig. Ă terigen krĂ€ver tekniken en hel del VRAM, tid och tĂ„lamod.
PĂ„ grund av dessa begrĂ€nsande faktorer kan vi behöva vĂ€nta ett tag för att se nĂ„gra av de mer sofistikerade textinversionsexperimenten frĂ„n Stable Diffusion-entusiaster â och om detta tillvĂ€gagĂ„ngssĂ€tt kan "sĂ€tta dig i bilden" pĂ„ ett sĂ€tt som ser bĂ€ttre ut Ă€n en Klipp-och-klistra i Photoshop, samtidigt som den hĂ€pnadsvĂ€ckande funktionaliteten hos de officiella kontrollpunkterna behĂ„lls.
Första gÄngen publicerad 6 september 2022.