stub Tliet Sfidi Ġejjin għal Diffużjoni Stabbli - Unite.AI
Kuntatt magħna

Intelliġenza Artifiċjali

Tliet Sfidi Ġejjin għal Diffużjoni Stabbli

mm
Aġġornata on

il rilaxx ta 'stabbiltà.ai's Stable Diffusion diffużjoni moħbija mudell ta 'sinteżi ta' immaġni ftit ġimgħat ilu jista 'jkun wieħed mill-iżvelar teknoloġiku l-aktar sinifikanti mid-DeCSS fl-1999; huwa ċertament l-akbar avveniment fl-immaġini ġġenerati mill-AI mill-2017 kodiċi deepfakes ġiet ikkupjata fuq GitHub u mdaħħla f'dak li se jsir DeepFaceLab u, tpartit tal-wiċċ, kif ukoll is-software deepfake streaming f'ħin reali DeepFaceLive.

B'daqqa, frustrazzjoni tal-utent fuq l- restrizzjonijiet tal-kontenut fl-API ta' sintesi ta' l-immaġini ta' DALL-E 2 ġew imwarrba, peress li rriżulta li l-filtru NSFW ta' Stable Diffusion seta' jiġi diżattivat billi jinbidel linja unika tal-kodiċi. Reddits tad-Diffużjoni Stabbli iċċentrati fuq il-porn ħarġu kważi immedjatament, u kienu malajr maqtugħin, filwaqt li l-kamp tal-iżviluppatur u l-utent qasmu fuq Discord fil-komunitajiet uffiċjali u NSFW, u Twitter bdew jimlew bi kreazzjonijiet meraviljużi ta 'Diffużjoni Stabbli.

Bħalissa, kull jum jidher li jġib xi innovazzjoni tal-għaġeb mill-iżviluppaturi li adottaw is-sistema, bil-plugins u l-adjuncts ta 'partijiet terzi jinkitbu bil-għaġla għal ġibs, Photoshop, Cinema4D, blender, u ħafna pjattaformi ta' applikazzjoni oħra.

Diffużjoni Stabbli Krita Addon

Fil-frattemp, promptcraft – l-arti issa professjonali ta' 'AI whispering', li tista' tispiċċa tkun l-iqsar għażla ta' karriera minn meta 'Filofax binder' – diġà qed issir kummerċjalizzat, filwaqt li l-monetizzazzjoni bikrija ta 'Stable Diffusion qed isseħħ fil- Livell Patreon, biċ-ċertezza ta' offerti aktar sofistikati li ġejjin, għal dawk li ma jridux jinnavigaw Ibbażat fuq Conda installazzjonijiet tal-kodiċi tas-sors, jew il-filtri NSFW proskrittivi ta' implimentazzjonijiet ibbażati fuq il-web.

Il-pass ta 'żvilupp u s-sens liberu ta' esplorazzjoni mill-utenti qed jipproċedi b'veloċità tant sturduta li diffiċli tara ħafna 'l quddiem. Essenzjalment, għadna ma nafux eżattament ma' xiex qed nittrattaw, jew x'jistgħu jkunu l-limitazzjoni jew il-possibbiltajiet kollha.

Madankollu, ejja nagħtu ħarsa lejn tlieta minn dawk li jistgħu jkunu l-aktar ostakli interessanti u ta 'sfida għall-komunità ta' Diffużjoni Stabbli ffurmata malajr u li qed tikber malajr biex tiffaċċja u, nisperaw, tegħleb.

1: L-ottimizzazzjoni tal-Pipelines Ibbażati fuq il-Madum

Ippreżentat b'riżorsi limitati ta 'hardware u limiti iebsin fuq ir-riżoluzzjoni ta' immaġini ta 'taħriġ, jidher probabbli li l-iżviluppaturi jsibu soluzzjonijiet biex itejbu kemm il-kwalità kif ukoll ir-riżoluzzjoni tal-output ta' Diffużjoni Stabbli. Ħafna minn dawn il-proġetti huma stabbiliti biex jinvolvu l-isfruttament tal-limitazzjonijiet tas-sistema, bħar-riżoluzzjoni nattiva tagħha ta 'sempliċi 512 × 512 pixels.

Kif dejjem ikun il-każ b’inizjattivi ta’ viżjoni bil-kompjuter u ta’ sinteżi ta’ immaġni, Stable Diffusion ġiet imħarrġa fuq immaġini ta’ proporzjon kwadru, f’dan il-każ kampjun mill-ġdid għal 512 × 512, sabiex l-immaġini tas-sors ikunu jistgħu jiġu regolarizzati u jkunu jistgħu jidħlu fil-limitazzjonijiet tal-GPUs li ħarreġ il-mudell.

Għalhekk Stabbli Diffusion 'taħseb' (jekk taħseb xejn) f'termini 512×512, u ċertament f'termini kwadri. Ħafna utenti li bħalissa qed jipprovaw il-limiti tas-sistema jirrappurtaw li Diffużjoni Stabbli tipproduċi l-aktar riżultati affidabbli u l-inqas glitchy f'dan il-proporzjon tal-aspett pjuttost ristrett (ara 'l-indirizzar tal-estremitajiet' hawn taħt).

Għalkemm diversi implimentazzjonijiet karatteristika upscaling permezz RealESRGAN (u jistgħu jiffissaw uċuħ mogħtija ħażin permezz GFPGAN) bosta utenti bħalissa qed jiżviluppaw metodi biex jaqsmu l-immaġini f’sezzjonijiet ta’ 512x512px u jgħaqqdu l-immaġini flimkien biex jiffurmaw xogħlijiet komposti akbar.

Dan ir-rendi ta' 1024x576, riżoluzzjoni normalment impossibbli f'rendi ta' Diffużjoni Stabbli waħda, inħoloq billi kkuppjat u twaħħal il-fajl attention.py Python mill-furketta DoggettX ta' Diffużjoni Stabbli (verżjoni li timplimenta upscaling ibbażat fuq il-madum) f'furketta oħra. Sors: https://old.reddit.com/r/StableDiffusion/comments/x6yeam/1024x576_with_6gb_nice/

Dan ir-rendi 1024×576, riżoluzzjoni normalment impossibbli f'rendi ta' Diffużjoni Stabbli waħda, inħoloq billi kkopja u twaħħal il-fajl attention.py Python mill- DoggettX furketta ta 'Stable Diffusion (verżjoni li timplimenta upscaling ibbażat fuq il-madum) f'furketta oħra. Sors: https://old.reddit.com/r/StableDiffusion/comments/x6yeam/1024x576_with_6gb_nice/

Għalkemm xi inizjattivi ta' dan it-tip qed jużaw kodiċi oriġinali jew libreriji oħra, il- txt2imghd port ta 'GOBIG (modalità fil-ProgRockDiffusion bil-ġuħ ta' VRAM) hija stabbilita biex tipprovdi din il-funzjonalità lill-fergħa ewlenija dalwaqt. Filwaqt li txt2imghd huwa port iddedikat ta' GOBIG, sforzi oħra minn żviluppaturi tal-komunità jinvolvu implimentazzjonijiet differenti ta' GOBIG.

Immaġini astratta b'mod konvenjenti fir-rendi oriġinali ta' 512x512px (xellug u t-tieni mix-xellug); upscaled minn ESGRAN, li issa huwa xi ftit jew wisq indiġenu fid-distribuzzjonijiet kollha tad-Diffużjoni Stabbli; u ngħatat 'attenzjoni speċjali' permezz ta' implimentazzjoni ta' GOBIG, li jipproduċi dettall li, għall-inqas fil-konfini tas-sezzjoni tal-immaġni, jidher li huwa aħjar. Sors: https://old.reddit.com/r/StableDiffusion/comments/x72460/stable_diffusion_gobig_txt2imghd_easy_mode_colab/

Immaġini astratta b'mod konvenjenti fir-rendi oriġinali ta' 512x512px (xellug u t-tieni mix-xellug); upscaled minn ESGRAN, li issa huwa xi ftit jew wisq indiġenu fid-distribuzzjonijiet kollha tad-Diffużjoni Stabbli; u ngħatat 'attenzjoni speċjali' permezz ta' implimentazzjoni ta' GOBIG, li jipproduċi dettall li, għall-inqas fil-konfini tas-sezzjoni tal-immaġni, jidher li huwa aħjar. Source: https://old.reddit.com/r/StableDiffusion/comments/x72460/stable_diffusion_gobig_txt2imghd_easy_mode_colab/

It-tip ta' eżempju astratt li jidher hawn fuq għandu ħafna 'saltniet żgħar' ta' dettall li jixirqu dan l-approċċ solipsistic għall-upscaling, iżda li jista' jirrikjedi soluzzjonijiet immexxija mill-kodiċi aktar ta' sfida sabiex jipproduċi upscaling mhux ripetittiv u koeżiv li ma jagħmilx. tfittex qisu ġie mmuntat minn ħafna partijiet. Mhux l-inqas, fil-każ ta 'uċuħ umani, fejn aħna mhux tas-soltu sintonizzati ma' aberrazzjonijiet jew artifacts 'jarring'. Għalhekk l-uċuħ jistgħu eventwalment jeħtieġu soluzzjoni dedikata.

Diffużjoni Stabbli bħalissa m'għandha l-ebda mekkaniżmu biex tiffoka l-attenzjoni fuq il-wiċċ waqt render bl-istess mod li l-bnedmin jagħtu prijorità lill-informazzjoni tal-wiċċ. Għalkemm xi żviluppaturi fil-komunitajiet Discord qed jikkunsidraw metodi biex jimplimentaw dan it-tip ta ''attenzjoni msaħħa', bħalissa huwa ħafna aktar faċli li manwalment (u, eventwalment, awtomatikament) ittejjeb il-wiċċ wara li tkun saret ir-rendi inizjali.

Wiċċ uman għandu loġika semantika interna u kompluta li mhux se tinstab f''maduma' tar-rokna t'isfel ta' (pereżempju) bini, u għalhekk bħalissa huwa possibbli li 'jiżum' u jerġa' jirrendi wiċċ b'mod effettiv ħafna. Wiċċ 'sketchy' fl-output ta' Diffużjoni Stabbli.

Ix-xellug, l-isforz inizjali ta' Stable Diffusion bir-ritratt fil-pront 'Full-length bil-kulur ta' Christina Hendricks dieħel f'post iffullat, liebes xita; Canon50, kuntatt mal-għajnejn, dettall għoli, dettall għoli tal-wiċċ'. Dritt, wiċċ imtejjeb miksub billi tmigħ il-wiċċ imċajpra u abbozzat mill-ewwel render lura fl-attenzjoni sħiħa ta 'Stable Diffusion bl-użu ta' Img2Img (ara immaġini animati hawn taħt).

Ix-xellug, l-isforz inizjali ta' Stable Diffusion bir-ritratt fil-pront 'Full-length bil-kulur ta' Christina Hendricks dieħel f'post iffullat, liebes xita; Canon50, kuntatt mal-għajnejn, dettall għoli, dettall għoli tal-wiċċ'. Dritt, wiċċ imtejjeb miksub billi tmigħ il-wiċċ imċajpra u abbozzat mill-ewwel render lura fl-attenzjoni sħiħa ta 'Stable Diffusion bl-użu ta' Img2Img (ara immaġini animati hawn taħt).

Fin-nuqqas ta' soluzzjoni ddedikata għall-Inverżjoni tat-Testwali (ara hawn taħt), din taħdem biss għal immaġini ta' ċelebritajiet fejn il-persuna inkwistjoni tkun diġà rappreżentata tajjeb fis-sottosettijiet tad-dejta LAION li ħarrġu Diffużjoni Stabbli. Għalhekk se taħdem fuq bħal Tom Cruise, Brad Pitt, Jennifer Lawrence, u firxa limitata ta 'luminarji tal-midja ġenwini li huma preżenti f'numru kbir ta' immaġini fid-dejta tas-sors.

Tiġġenera stampa plawżibbli għall-istampa bil-pront 'Ritratt bil-kulur ta' tul sħiħ ta' Christina Hendricks tidħol f'post iffullat, liebes xita; Canon50, kuntatt mal-għajnejn, dettall għoli, dettall għoli tal-wiċċ'.

Tiġġenera stampa plawżibbli għall-istampa bil-pront 'Ritratt bil-kulur ta' tul sħiħ ta' Christina Hendricks tidħol f'post iffullat, liebes xita; Canon50, kuntatt mal-għajnejn, dettall għoli, dettall għoli tal-wiċċ'.

Għal ċelebritajiet b'karrieri twal u dejjiema, Stable Diffusion normalment tiġġenera immaġni tal-persuna f'età riċenti (jiġifieri akbar), u jkun meħtieġ li jiżdiedu fil-pront aġġunti bħal 'żagħżugħ' or 'fis-sena [SENA]' sabiex jipproduċu stampi li jidhru iżgħar.

B'karriera prominenti, fotografata ħafna u konsistenti fuq kważi 40 sena, l-attriċi Jennifer Connelly hija waħda minn numru żgħir ta' ċelebritajiet f'LAION li jippermettu lil Stable Diffusion tirrappreżenta firxa ta' etajiet. Sors: Diffużjoni Stabbli imballata minn qabel, lokali, punt ta 'kontroll v1.4; prompts relatati mal-età.

B'karriera prominenti, fotografata ħafna u konsistenti fuq kważi 40 sena, l-attriċi Jennifer Connelly hija waħda minn numru żgħir ta' ċelebritajiet f'LAION li jippermettu lil Stable Diffusion tirrappreżenta firxa ta' etajiet. Sors: Diffużjoni Stabbli imballata minn qabel, lokali, punt ta 'kontroll v1.4; prompts relatati mal-età.

Dan huwa l-aktar minħabba l-proliferazzjoni tal-fotografija tal-istampa diġitali (aktar milli għalja, ibbażata fuq l-emulsjoni) minn nofs is-snin 2000 'l quddiem, u t-tkabbir aktar tard fil-volum tal-output tal-immaġni minħabba żieda fil-veloċitajiet tal-broadband.

L-immaġni mogħtija hija mgħoddija lil Img2Img f'Diffużjoni Stabbli, fejn tintgħażel 'żona ta' fokus', u render ġdid ta' daqs massimu jsir biss minn dik iż-żona, li jippermetti lil Diffużjoni Stabbli tikkonċentra r-riżorsi kollha disponibbli biex tirrikrea l-wiċċ.

L-immaġni mogħtija hija mgħoddija lil Img2Img f'Diffużjoni Stabbli, fejn tintgħażel 'żona ta' fokus', u render ġdid ta' daqs massimu jsir biss minn dik iż-żona, li jippermetti lil Diffużjoni Stabbli tikkonċentra r-riżorsi kollha disponibbli biex tirrikrea l-wiċċ.

Il-kompożizzjoni tal-wiċċ ta ''attenzjoni għolja' lura fir-rendi oriġinali. Minbarra l-uċuħ, dan il-proċess jaħdem biss ma’ entitajiet li għandhom dehra potenzjali magħrufa, koeżiva u integrali, bħal porzjon tar-ritratt oriġinali li għandu oġġett distint, bħal arloġġ jew karozza. L-upscaling ta’ sezzjoni ta’, pereżempju, ħajt se jwassal għal ħajt immuntat mill-ġdid li jidher stramb ħafna, minħabba li r-rendi tal-madum ma kellhomx kuntest usa’ għal din il-‘biċċa jigsaw’ kif kienu qed jirrendu.

Il-kompożizzjoni tal-wiċċ ta ''attenzjoni għolja' lura fir-rendi oriġinali. Minbarra l-uċuħ, dan il-proċess jaħdem biss ma’ entitajiet li għandhom dehra potenzjali magħrufa, koeżiva u integrali, bħal porzjon tar-ritratt oriġinali li għandu oġġett distint, bħal arloġġ jew karozza. It-titjib ta' sezzjoni ta' – pereżempju – ħajt se jwassal għal ħajt immuntat mill-ġdid ta' dehra stramba ħafna, għaliex ir-rendi tal-madum ma kellhomx kuntest usa' għal din il-'biċċa jigsaw' kif kienu qed jirrendu.

Xi ċelebritajiet fid-database jiġu 'ffriżati minn qabel' fil-ħin, jew minħabba li mietu kmieni (bħal Marilyn Monroe), jew żdiedu biss għal prominenza mainstream passata, li jipproduċu volum għoli ta 'immaġini f'perjodu ta' żmien limitat. Polling Stable Diffusion forsi jipprovdi tip ta' indiċi ta' popolarità 'kurrenti' għal stilel moderni u anzjani. Għal xi ċelebritajiet anzjani u attwali, m'hemmx biżżejjed immaġini fid-dejta tas-sors biex tinkiseb xebh tajjeb ħafna, filwaqt li l-popolarità dejjiema ta 'stilel partikolari mejta fit-tul jew inkella faded tiżgura li x-xebh raġonevoli tagħhom jista' jinkiseb mis-sistema.

Ir-rendi tad-Diffużjoni Stabbli jiżvelaw malajr liema uċuħ famużi huma rappreżentati tajjeb fid-dejta tat-taħriġ. Minkejja l-popolarità enormi tagħha bħala żagħżugħa anzjana fiż-żmien tal-kitba, Millie Bobby Brown kienet iżgħar u inqas magħrufa meta s-settijiet tad-dejta tas-sors LAION ġew mibruxa mill-web, u b'hekk ix-xebh ta 'kwalità għolja ma' Diffużjoni Stabbli problematika fil-mument.

Ir-rendi tad-Diffużjoni Stabbli jiżvelaw malajr liema uċuħ famużi huma rappreżentati tajjeb fid-dejta tat-taħriġ. Minkejja l-popolarità enormi tagħha bħala żagħżugħa anzjana fiż-żmien tal-kitba, Millie Bobby Brown kienet iżgħar u inqas magħrufa meta s-settijiet tad-dejta tas-sors LAION ġew mibruxa mill-web, u b'hekk ix-xebh ta 'kwalità għolja ma' Diffużjoni Stabbli problematika fil-mument.

Fejn id-dejta hija disponibbli, soluzzjonijiet up-res ibbażati fuq il-madum f'Stable Diffusion jistgħu jmorru lil hinn minn homing fil-wiċċ: jistgħu potenzjalment jippermettu uċuħ saħansitra aktar preċiżi u dettaljati billi jkissru l-karatteristiċi tal-wiċċ u jdawwar il-forza kollha tal-GPU lokali. riżorsi fuq karatteristiċi ewlenin individwalment, qabel l-assemblaġġ mill-ġdid - proċess li bħalissa, għal darb'oħra, huwa manwali.

Dan mhuwiex limitat għall-uċuħ, iżda huwa limitat għal partijiet ta 'oġġetti li huma mill-inqas imqiegħda b'mod prevedibbli fil-kuntest usa' tal-oġġett ospitanti, u li jikkonformaw ma 'inkorporazzjonijiet ta' livell għoli li wieħed jista 'raġonevolment jistenna li jsib f'iperskala. sett tad-dejta.

Il-limitu reali huwa l-ammont ta' dejta ta' referenza disponibbli fis-sett ta' dejta, għaliex, eventwalment, id-dettall imtenni fil-fond se jsir totalment 'alluċinat' (jiġifieri fittizju) u inqas awtentiku.

Tkabbir granulari ta’ livell għoli bħal dan jaħdem fil-każ ta’ Jennifer Connelly, minħabba li hija rappreżentata tajjeb fuq firxa ta’ etajiet f’ LAION-estetika (is-subsett primarju ta' LAION 5B li tuża d-Diffużjoni Stabbli), u ġeneralment madwar LAION; f'ħafna każijiet oħra, l-eżattezza tbati minn nuqqas ta' dejta, li teħtieġ jew irfinar (taħriġ addizzjonali, ara 'Personalizzazzjoni' hawn taħt) jew Inverżjoni tat-test (ara hawn taħt).

Il-madum huma mod b'saħħtu u relattivament irħis biex id-Diffużjoni Stabbli tkun tista' tipproduċi output hi-res, iżda l-upscaling algoritmiku tal-madum ta 'dan it-tip, jekk ikun nieqes minn xi tip ta' mekkaniżmu ta 'attenzjoni usa' u ta 'livell ogħla, jista' ma jilħaqx dak ittamat- għal standards fuq firxa ta’ tipi ta’ kontenut.

2: Nindirizzaw Kwistjonijiet b'Riġlejn Umani

Stable Diffusion ma toqgħodx f'isem isimha meta turi l-kumplessità tal-estremitajiet umani. L-idejn jistgħu jimmultiplikaw bl-addoċċ, is-swaba’ jingħaqdu, it-tielet saqajn jidhru mhux mitluba, u r-riġlejn eżistenti jgħibu mingħajr traċċa. Fid-difiża tagħha, Stable Diffusion taqsam il-problema ma 'stablemates tagħha, u ċertament ma' DALL-E 2.

Riżultati mhux editjati minn DALL-E 2 u Stable Diffusion (1.4) fl-aħħar ta' Awwissu 2022, it-tnejn li huma juru problemi bir-riġlejn. Il-pront huwa 'Mara tħaddan raġel'

Riżultati mhux editjati minn DALL-E 2 u Stable Diffusion (1.4) fl-aħħar ta' Awwissu 2022, it-tnejn li huma juru problemi bir-riġlejn. Il-pront huwa 'Mara tħaddan raġel'

Fannijiet tad-Diffużjoni Stabbli li jittamaw li l-punt ta 'kontroll 1.5 li jmiss (verżjoni mħarrġa b'mod aktar intens tal-mudell, b'parametri mtejba) issolvi l-konfużjoni tar-riġlejn x'aktarx ikunu diżappuntati. Il-mudell il-ġdid, li se jiġi rilaxxat fi madwar ġimagħtejn, bħalissa qed jiġi premiered fil-portal kummerċjali stability.ai studio tal-ħolm, li juża 1.5 b'mod awtomatiku, u fejn l-utenti jistgħu jqabblu l-output il-ġdid ma' renders mis-sistemi 1.4 lokali jew oħrajn tagħhom:

Sors: Local 1.4 prepack u https://beta.dreamstudio.ai/

Sors: Local 1.4 prepack u https://beta.dreamstudio.ai/

Sors: Local 1.4 prepack u https://beta.dreamstudio.ai/

Sors: Local 1.4 prepack u https://beta.dreamstudio.ai/

Sors: Local 1.4 prepack u https://beta.dreamstudio.ai/

Sors: Local 1.4 prepack u https://beta.dreamstudio.ai/

Kif spiss ikun il-każ, il-kwalità tad-dejta tista' tkun il-kawża ewlenija li tikkontribwixxi.

Il-bażijiet tad-data ta 'sors miftuħ li jalimentaw is-sistemi ta' sintesi ta 'l-immaġini bħal Stable Diffusion u DALL-E 2 huma kapaċi jipprovdu ħafna tikketti kemm għall-bnedmin individwali kif ukoll għall-azzjoni inter-umana. Dawn it-tikketti jitħarrġu b'mod simbjotiku mal-immaġini assoċjati tagħhom, jew segmenti ta 'immaġini.

L-utenti tad-Diffużjoni Stabbli jistgħu jesploraw il-kunċetti mħarrġa fil-mudell billi jfittxu s-sett tad-dejta tal-estetika LAION, subsett tas-sett tad-dejta LAION 5B akbar, li jħaddem is-sistema. L-immaġini huma ordnati mhux skond it-tikketti alfabetiċi tagħhom, iżda bil-'punteġġ estetiku' tagħhom. Sors: https://rom1504.github.io/clip-retrieval/

L-utenti tad-Diffużjoni Stabbli jistgħu jesploraw il-kunċetti mħarrġa fil-mudell billi jfittxu s-sett tad-dejta tal-estetika LAION, subsett tas-sett tad-dejta LAION 5B akbar, li jħaddem is-sistema. L-immaġini huma ordnati mhux skond it-tikketti alfabetiċi tagħhom, iżda bil-'punteġġ estetiku' tagħhom. Sors: https://rom1504.github.io/clip-retrieval/

A ġerarkija tajba ta 'tikketti u klassijiet individwali li jikkontribwixxu għall-rappreżentazzjoni ta' driegħ uman tkun xi ħaġa simili ġisem>driegħ>id>swaba>[sub ċifri + thumb]> [segmenti ċifri]> dwiefer.

Segmentazzjoni semantika granulari tal-partijiet ta 'id. Anke din id-dekostruzzjoni dettaljata mhux tas-soltu tħalli kull 'saba' bħala entità unika, li ma tqisx it-tliet sezzjonijiet ta 'saba' u ż-żewġ taqsimiet ta 'saba 'Sors: https://athitsos.utasites.cloud/publications/rezaei_petra2021.pdf

Segmentazzjoni semantika granulari tal-partijiet ta 'id. Anke din id-dekostruzzjoni dettaljata mhux tas-soltu tħalli kull 'saba' bħala entità unika, li ma tqisx it-tliet sezzjonijiet ta 'saba' u ż-żewġ sezzjonijiet ta 'saba'. Sors: https://athitsos.utasites.cloud/publications/rezaei_petra2021.pdf

Fir-realtà, l-immaġini tas-sors x'aktarx li ma jkunux annotati daqshekk konsistenti fis-sett tad-dejta kollu, u algoritmi ta' tikkettar mhux sorveljati probabbilment jieqfu fil- ogħla livell ta’ – pereżempju – ‘id’, u ħalli l-pixels ta’ ġewwa (li teknikament fihom informazzjoni ta’ ‘saba’) bħala massa mhux tikkettata ta’ pixels li minnhom il-karatteristiċi se jkunu derivati ​​b’mod arbitrarju, u li jistgħu jimmanifestaw f’rendizzjonijiet aktar tard bħala element li jqanqal.

Kif għandha tkun (ta' fuq tal-lemin, jekk mhux ta' fuq), u kif għandha tendenza li tkun (ta' isfel fuq il-lemin), minħabba riżorsi limitati għat-tikkettar, jew sfruttament arkitettoniku ta' tali tikketti jekk jeżistu fis-sett tad-dejta.

Kif għandha tkun (ta' fuq tal-lemin, jekk mhux ta' fuq), u kif għandha tendenza li tkun (ta' isfel fuq il-lemin), minħabba riżorsi limitati għat-tikkettar, jew sfruttament arkitettoniku ta' tali tikketti jekk jeżistu fis-sett tad-dejta.

Għalhekk, jekk mudell ta 'diffużjoni moħbija jasal sa fejn jirrendi driegħ, huwa kważi ċertament li għall-inqas ikollu ċans biex jirrendi idejn fit-tarf ta' dak id-driegħ, għaliex driegħ> id hija l-ġerarkija minima meħtieġa, pjuttost għoli f'dak li taf l-arkitettura dwar 'l-anatomija tal-bniedem'.

Wara dan, 'swaba' jista 'jkun l-iżgħar grupp, anki jekk hemm 14-il subparti oħra tas-saba'/il-kbir biex tikkunsidra meta turi l-idejn tal-bniedem.

Jekk din it-teorija tgħodd, m'hemm l-ebda rimedju reali, minħabba n-nuqqas ta' baġit fis-settur kollu għall-annotazzjoni manwali, u n-nuqqas ta' algoritmi effettivi b'mod adegwat li jistgħu awtomatizzati t-tikkettar filwaqt li jipproduċu rati baxxi ta' żball. Fil-fatt, il-mudell jista' bħalissa qed jiddependi fuq il-konsistenza anatomika umana għall-karta fuq in-nuqqasijiet tas-sett tad-dejta li kien imħarreġ fuqu.

Raġuni waħda possibbli għaliex dan ma tistax tistrieħ fuq dan, reċentement propost fis-Stable Diffusion Discord, huwa li l-mudell jista’ jsir konfuż dwar in-numru korrett ta’ swaba’ li għandu jkollha naħa tal-bniedem (realistika) minħabba li d-database derivata minn LAION li tħaddem fiha karatteristiċi karattri tal-kartuns li jista’ jkollhom inqas swaba’ (li fiha nnifisha hija shortcut li tiffranka l-ħaddiema).

Tnejn mill-ħatja potenzjali fis-sindromu ta ''missing finger' fi Stabbli Diffużjoni u mudelli simili. Hawn taħt, eżempji ta' idejn tal-kartuns mis-sett tad-dejta tal-estetika LAION li jħaddmu Stable Diffusion. Sors: https://www.youtube.com/watch?v=0QZFQ3gbd6I

Tnejn mill-ħatja potenzjali fis-sindromu ta ''missing finger' fi Stabbli Diffużjoni u mudelli simili. Hawn taħt, eżempji ta' idejn tal-kartuns mis-sett tad-dejta tal-estetika LAION li jħaddmu Stable Diffusion. Sors: https://www.youtube.com/watch?v=0QZFQ3gbd6I

Jekk dan huwa minnu, allura l-unika soluzzjoni ovvja hija li jitħarreġ mill-ġdid il-mudell, eskluż kontenut mhux realistiku bbażat fuq il-bniedem, filwaqt li jiġi żgurat li każijiet ġenwini ta' ommissjoni (jiġifieri persuni amputati) ikunu ttikkettjati b'mod xieraq bħala eċċezzjonijiet. Minn punt tal-kura tad-dejta waħdu, din tkun sfida pjuttost, b'mod partikolari għall-isforzi tal-komunità bla riżorsi.

It-tieni approċċ ikun li jiġu applikati filtri li jeskludu kontenut bħal dan (jiġifieri 'id bi tliet/ħames swaba') milli jimmanifesta fil-ħin tar-rendi, bl-istess mod li għandu OpenAI, sa ċertu punt, iffiltrat GPT-3 u DALL-E2, sabiex il-produzzjoni tagħhom tkun tista' tiġi rregolata mingħajr il-ħtieġa li jitħarrġu mill-ġdid il-mudelli tas-sors.

Għal Stable Diffusion, id-distinzjoni semantika bejn iċ-ċifri u anke r-riġlejn tista' ssir imċajpra b'mod orribbli, u ġġib f'moħħok il-fergħa tal-'body horror' tas-snin 1980 ta' films tal-orrur minn bħal David Cronenberg. Sors: https://old.reddit.com/r/StableDiffusion/comments/x6htf6/a_study_of_stable_diffusions_strange_relationship/

Għal Stable Diffusion, id-distinzjoni semantika bejn iċ-ċifri u anke r-riġlejn tista' ssir imċajpra b'mod orribbli, u ġġib f'moħħok il-fergħa tal-'body horror' tas-snin 1980 ta' films tal-orrur minn bħal David Cronenberg. Sors: https://old.reddit.com/r/StableDiffusion/comments/x6htf6/a_study_of_stable_diffusions_strange_relationship/

Madankollu, għal darb'oħra, dan ikun jeħtieġ tikketti li jistgħu ma jeżistux fl-immaġini kollha affettwati, u jħallina bl-istess sfida loġistika u baġitarja.

Jista' jiġi argumentat li fadal żewġ toroq 'il quddiem: li titfa' aktar dejta lejn il-problema, u li jiġu applikati sistemi ta' interpretazzjoni ta' partijiet terzi li jistgħu jintervjenu meta l-goofs fiżiċi tat-tip deskritt hawn qed jiġu ppreżentati lill-utent aħħari (mill-inqas, dan tal-aħħar jagħti lill-OpenAI metodu biex jipprovdi rifużjonijiet għal renders ta' 'body horror', jekk il-kumpanija tkun motivata biex tagħmel dan).

3: Personalizzazzjoni

Waħda mill-aktar possibbiltajiet eċċitanti għall-ġejjieni ta 'Diffużjoni Stabbli hija l-prospett ta' utenti jew organizzazzjonijiet li jiżviluppaw sistemi riveduti; modifiki li jippermettu li kontenut barra mill-isfera LAION imħarrġa minn qabel jiġi integrat fis-sistema – idealment mingħajr l-ispiża ingovernattiva ta’ taħriġ mill-ġdid tal-mudell kollu, jew ir-riskju involut meta jitħarreġ f’volum kbir ta’ immaġini ġodda għal immaġni eżistenti, matur u kapaċi. mudell.

B'analoġija: jekk żewġ studenti inqas talent jissieħbu fi klassi avvanzata ta 'tletin student, huma ser jew jassimilaw u jlaħħqu, jew ifallu bħala outliers; fi kwalunkwe każ, il-prestazzjoni medja tal-klassi probabbilment ma tiġix affettwata. Jekk jingħaqdu 15-il student inqas talent, madankollu, il-kurva tal-grad għall-klassi kollha x'aktarx li tbati.

Bl-istess mod, in-netwerk sinerġistiku u pjuttost delikat ta' relazzjonijiet li jinbnew fuq taħriġ ta' mudell sostnut u għali jista' jiġi kompromess, f'xi każijiet effettivament meqrud, b'dejta ġdida eċċessiva, li titbaxxa l-kwalità tal-produzzjoni għall-mudell b'mod ġenerali.

Il-każ biex tagħmel dan huwa primarjament fejn l-interess tiegħek jinsab fil-hi-jacking kompletament tal-fehim kunċettwali tal-mudell tar-relazzjonijiet u l-affarijiet, u l-approprijazzjoni tiegħu għall-produzzjoni esklussiva ta 'kontenut li huwa simili għall-materjal addizzjonali li żidt.

Għalhekk, it-taħriġ 500,000 Simpsons frejms f'punt ta 'kontroll ta' Diffużjoni Stabbli eżistenti x'aktarx, eventwalment, li jġibek aħjar Simpsons simulatur milli l-bini oriġinali setgħet toffri, jekk wieħed jassumi li biżżejjed relazzjonijiet semantiċi wesgħin jibqgħu ħajjin fil-proċess (jiġifieri Homer Simpson jiekol hotdog, li jista’ jeħtieġ materjal dwar hot-dogs li ma kienx fil-materjal addizzjonali tiegħek, iżda li kien diġà jeżisti fil-punt ta’ kontroll), u billi jassumi li ma tridx taqleb f’daqqa minn Simpsons kontenut għall-ħolqien pajsaġġ fabulous minn Greg Rutkowski – għax il-mudell tiegħek wara t-taħriġ kellu l-attenzjoni tiegħu devjata bil-kbir, u mhux se jkun tajjeb biex jagħmel dak it-tip ta’ ħaġa kif kien.

Eżempju wieħed notevoli ta 'dan huwa waifu-diffużjoni, li b'suċċess 56,000 immaġini tal-Anime mħarrġa wara f’punt ta’ kontroll ta’ Diffużjoni Stabbli komplut u mħarreġ. Huwa prospett iebsa għal dilettanti, madankollu, peress li l-mudell jeħtieġ minimu ta '30GB ta' VRAM, ferm lil hinn minn dak li x'aktarx ikun disponibbli fil-livell tal-konsumatur fir-rilaxxi li jmiss tas-serje 40XX ta 'NVIDIA.

It-taħriġ tal-kontenut tad-dwana f'Diffużjoni Stabbli: il-mudell ħa ġimgħatejn ta 'wara taħriġ sabiex joħroġ dan il-livell ta' illustrazzjoni. Is-sitt immaġini fuq ix-xellug juru l-progress tal-mudell biex jagħmel output koerenti għas-suġġett ibbażat fuq id-dejta tat-taħriġ il-ġdida. Sors: https://gigazine.net/gsc_news/en/20220121-how-waifu-labs-create/

It-taħriġ tal-kontenut tad-dwana f'Diffużjoni Stabbli permezz ta 'waifu-diffusion: il-mudell ħa ġimgħatejn ta' wara t-taħriġ sabiex joħroġ dan il-livell ta 'illustrazzjoni. Is-sitt immaġini fuq ix-xellug juru l-progress tal-mudell, hekk kif it-taħriġ ipproċeda, biex isir output koerenti għas-suġġett ibbażat fuq id-dejta tat-taħriġ il-ġdida. Sors: https://gigazine.net/gsc_news/en/20220121-how-waifu-labs-create/

Jista' jsir sforz kbir fuq dawn il-'frieket' ta' punti ta' kontroll ta' Diffużjoni Stabbli, biss biex jiġu mfixkla minn dejn tekniku. L-iżviluppaturi fid-Discord uffiċjali diġà indikaw li r-rilaxxi ta' punti ta' kontroll aktar tard mhux bilfors se jkunu kompatibbli b'lura, anke b'loġika fil-pront li setgħet ħadmet ma' verżjoni preċedenti, peress li l-interess primarju tagħhom huwa li jiksbu l-aħjar mudell possibbli, aktar milli jappoġġaw. applikazzjonijiet u proċessi legacy.

Għalhekk kumpanija jew individwu li jiddeċiedi li jneħħi punt ta' kontroll fi prodott kummerċjali effettivament m'għandux triq lura; il-verżjoni tagħhom tal-mudell hija, f'dak il-punt, "furketta iebsa", u mhux se jkunu jistgħu jġibu benefiċċji upstream minn rilaxxi aktar tard minn stability.ai - li huwa pjuttost impenn.

It-tama attwali, u akbar għall-adattament tad-Diffużjoni Stabbli hija Inverżjoni Testwali, fejn l-utent jitħarreġ f'numru żgħir ta ' CLIP-immaġini allinjati.

Kollaborazzjoni bejn l-Università ta 'Tel Aviv u NVIDIA, inverżjoni testwali tippermetti t-taħriġ ta' entitajiet diskreti u ġodda, mingħajr ma jinqerdu l-kapaċitajiet tal-mudell tas-sors. Sors: https://textual-inversion.github.io/

Kollaborazzjoni bejn l-Università ta 'Tel Aviv u NVIDIA, inverżjoni testwali tippermetti t-taħriġ ta' entitajiet diskreti u ġodda, mingħajr ma jinqerdu l-kapaċitajiet tal-mudell tas-sors. Sors: https://textual-inversion.github.io/

Il-limitazzjoni apparenti primarja ta 'inverżjoni testwali hija li numru baxx ħafna ta' immaġini huma rakkomandati - mill-inqas ħamsa. Dan effettivament jipproduċi entità limitata li tista 'tkun aktar utli għall-kompiti ta' trasferiment ta 'stil aktar milli l-inserzjoni ta' oġġetti fotorealistiċi.

Madankollu, bħalissa qed iseħħu esperimenti fi ħdan id-diversi Discords ta 'Diffużjoni Stabbli li jużaw numri ħafna ogħla ta' immaġini ta 'taħriġ, u għad irid jara kemm il-metodu jista' jkun produttiv. Għal darb'oħra, it-teknika teħtieġ ħafna VRAM, ħin u paċenzja.

Minħabba dawn il-fatturi li jillimitaw, jista' jkun li jkollna nistennew ftit biex naraw uħud mill-esperimenti ta' inverżjoni testwali aktar sofistikati minn dilettanti ta' Stable Diffusion – u jekk dan l-approċċ jistax ‘ipoġġik fl-istampa’ b’mod li jidher aħjar minn Photoshop cut-and-paste, filwaqt li żżomm il-funzjonalità tal-għaġeb tal-punti ta 'kontroll uffiċjali.

 

Ippublikat għall-ewwel darba fis-6 ta' Settembru 2022.