stub Kuidas stabiilne difusioon võiks areneda peavoolu tarbekaubana – Unite.AI
Ühenda meile

Tehisintellekt

Kuidas stabiilne difusioon võiks areneda peavoolu tarbekaubaks

mm
Ajakohastatud on

Irooniliselt Stabiilne Diffusion, uus tehisintellekti kujutise sünteesi raamistik, mis on maailma vallutanud, ei ole stabiilne ega tegelikult nii "hajutatud" – vähemalt mitte veel.

Süsteemi võimalused on kõikvõimalikud jaotuvad pidevalt muteeruvate pakkumiste vahel käputäielt arendajatelt, kes vahetavad meeletult uusimat teavet ja teooriaid Discordi erinevates kollokviides – ja valdav enamus nende loodud pakettide installiprotseduuridest või muutmine on 'plug and play'st väga kaugel.

Pigem nõuavad nad käsurida või BAT juhitud installimine GIT, Conda, Pythoni, Miniconda ja muude arendusraamistike kaudu – tarkvarapaketid on tavatarbijate seas nii haruldased, et nende installimine on sageli märgistatud viirusetõrje- ja pahavaratõrje müüjad kui tõend ohustatud hostsüsteemist.

Vaid väike valik etappe, mida standardne Stable Diffusion paigaldus praegu nõuab. Paljud distributsioonid nõuavad ka Pythoni konkreetseid versioone, mis võivad kokku puutuda kasutaja masinasse installitud olemasolevate versioonidega – kuigi seda saab vältida Dockeri-põhiste installide ja teatud määral Conda keskkondade kasutamisega.

Vaid väike valik etappe, mida standardne Stable Diffusion paigaldus praegu nõuab. Paljud distributsioonid nõuavad ka Pythoni konkreetseid versioone, mis võivad olla vastuolus kasutaja masinasse installitud olemasolevate versioonidega – kuigi seda saab vältida Dockeri-põhiste installide ja teatud määral Conda keskkondade kasutamisega.

Nii SFW kui ka NSFW stabiilse leviku kommuunide sõnumilõimed on üle ujutatud Pythoni skriptide ja standardsete installimiste häkkimisega seotud näpunäidete ja näpunäidetega, et võimaldada täiustatud funktsioone või lahendada sagedasi sõltuvusvigu ja mitmeid muid probleeme.

See jätab tavatarbijale huvi hämmastavate piltide loomine tekstiviipadest, mis on suures osas kasvava arvu rahaks muudetavate API veebiliideste meelevallas, millest enamik pakub enne žetoonide ostmist minimaalset arvu tasuta piltide genereerimist.

Lisaks keelduvad peaaegu kõik need veebipõhised pakkumised väljastamast NSFW sisu (millest suur osa võib olla seotud üldist huvi pakkuvate mittepornoteemadega, nagu "sõda"), mis eristab stabiilset levikut OpenAI DALL-E teenustest. 2.

"Photoshop stabiilseks difusiooniks"

Ahvatletuna vapustavatest, tormakast või muust maailmast pärit piltidest, mis lisavad iga päev Twitteri #stablediffusion hashtagile, ootab lai maailm vaieldamatult. "Photoshop stabiilseks difusiooniks" – platvormideülene installitav rakendus, mis koondab endasse Stability.ai arhitektuuri parima ja võimsaima funktsionaalsuse, aga ka areneva SD-arenduskogukonna erinevaid geniaalseid uuendusi ilma hõljuvate CLI-akende, ebaselgete ja pidevalt muutuvate installimiste ja värskendusteta rutiinid või puuduvad funktsioonid.

Praegu on meil enamiku võimekamate installide puhul erinevalt elegantne veebileht, mida ümbritseb kehatu käsurea aken ja mille URL on kohaliku hosti port:

Sarnaselt CLI-põhistele sünteesirakendustele, nagu FaceSwap ja BAT-keskne DeepFaceLab, näitab Stable Diffusioni eelpakendatud installimine selle käsurea juure, kusjuures liidesele pääseb juurde kohaliku hosti pordi kaudu (vt ülaltoodud pildi ülaosa), mis suhtleb CLI-põhise stabiilse difusiooni funktsiooniga.

Sarnaselt CLI-põhistele sünteesirakendustele, nagu FaceSwap ja BAT-keskne DeepFaceLab, näitab Stable Diffusioni eelpakendatud installimine selle käsurea juure, kusjuures liidesele pääseb juurde kohaliku hosti pordi kaudu (vt ülaltoodud pildi ülaosa), mis suhtleb CLI-põhise stabiilse difusiooni funktsiooniga.

Kahtlemata on tulemas sujuvam rakendus. Juba praegu on mitmeid Patreonipõhiseid integraalrakendusi, mida saab alla laadida, nt GRisk ja NMKD (vt pilti allpool) – kuid mitte ühtegi, mis veel integreerib kõiki funktsioone, mida mõned stabiilse difusiooni arenenumad ja vähem juurdepääsetavad teostused pakuvad.

Varased, Patreonil põhinevad stabiilse difusiooni paketid, kergelt rakendusepõhised. NMKD on esimene, kes integreerib CLI väljundi otse GUIsse.

Varased, Patreonil põhinevad stabiilse difusiooni paketid, kergelt rakendusepõhised. NMKD on esimene, kes integreerib CLI väljundi otse GUIsse.

Heitkem pilk sellele, milline võib lõpuks välja näha selle hämmastava avatud lähtekoodiga ime lihvitud ja terviklikum teostus – ja milliste väljakutsetega see võib silmitsi seista.

Juriidilised kaalutlused täielikult rahastatud kaubandusliku stabiilse leviku rakenduse jaoks

NSFW tegur

Stabiilse difusiooni lähtekood on välja antud all äärmiselt lubav litsents mis ei keela kommertslikke taasrakendusi ega tuletatud teoseid, mis ehitavad ulatuslikult lähtekoodist.

Lisaks eelnimetatud ja kasvavale arvule Patreonipõhistele stabiilse difusiooni järgedele, samuti suurele hulgale rakenduste pluginatele, mida arendatakse Joonis fig, Krita, Photoshop, GIMPja segisti (muu hulgas) puudub praktiline põhjus, miks hästi rahastatud tarkvaraarenduskoda ei saaks välja töötada palju keerukamat ja võimekamat Stable Diffusion rakendust. Turu vaatenurgast on põhjust arvata, et mitmed sellised algatused on juba käimas.

Siin seisavad sellised jõupingutused kohe silmitsi dilemmaga, kas, nagu enamik stabiilse hajutamise veebi API-sid, lubab rakendus Stable Diffusioni loomulikku NSFW-filtrit (a koodi fragment), tuleb välja lülitada.

NSFW Switchi "matmine".

Kuigi Stability.ai avatud lähtekoodiga litsents Stable Diffusionile sisaldab laialt tõlgendatavat loendit rakendustest, mille jaoks see võib mitte kasutada (väidetavalt sealhulgas pornograafiline sisu ja deepfakes), ainus viis, kuidas müüja saaks sellise kasutamise tõhusalt keelata, on kompileerida NSFW-filter Pythoni faili parameetri asemel läbipaistmatuks käivitatavaks failiks või muul juhul jõustada NSFW-direktiivi sisaldava Pythoni faili või DLL-i kontrollsummade võrdlus. nii et kasutajad seda sätet muutes ei saaks renderdada.

See jätaks oletatava rakenduse "kastreeritud" samamoodi nagu DALL-E 2 praegu on, mis vähendab selle kaubanduslikku atraktiivsust. Samuti tekivad selliste piirangute avamiseks torrenti-/häkkimiskogukonnas paratamatult nende komponentide dekompileeritud "arstitud" versioonid (kas algsed Pythoni käituselemendid või kompileeritud DLL-failid, mida praegu kasutatakse AI pildiparandustööriistade sarjas Topaz). , lihtsalt asendades takistavad elemendid ja tühistades kõik kontrollsumma nõuded.

Lõpuks võib müüja otsustada lihtsalt korrata Stability.ai hoiatust väärkasutuse eest, mis iseloomustab paljude praeguste Stable Diffusion distributsioonide esimest korda.

Väikestel avatud lähtekoodiga arendajatel, kes praegu sel viisil juhuslikke lahtiütlemisi kasutavad, on aga vähe kaotada, võrreldes tarkvaraettevõttega, kes on investeerinud märkimisväärsel hulgal aega ja raha, et muuta Stable Diffusion täisfunktsionaalseks ja juurdepääsetavaks – see nõuab sügavamat kaalumist.

Sügav võltsvastutus

Nagu meil hiljuti märgitud, LAION-esteetika andmebaas, mis on osa 4.2 miljardist pildist, mille kallal Stable Diffusioni käimasolevaid mudeleid koolitati, sisaldab suurt hulka kuulsuste pilte, mis võimaldavad kasutajatel tõhusalt luua sügavaid võltsinguid, sealhulgas sügavvõltsitud kuulsuste pornot.

Meie hiljutisest artiklist tuleneb Jennifer Connelly neli etappi tema karjääri nelja aastakümne jooksul, mis on tuletatud stabiilsest difusioonist.

Meie hiljutisest artiklist tuleneb Jennifer Connelly neli etappi tema karjääri nelja aastakümne jooksul, mis on tuletatud stabiilsest difusioonist.

See on eraldiseisev ja vaidlusi tekitavam teema kui (tavaliselt) legaalse "abstraktse" porno genereerimine, mis ei kujuta "päris" inimesi (kuigi sellised pildid on tuletatud mitmest koolitusmaterjalis olevast reaalsest fotost).

Kuna üha rohkem USA osariike ja riike töötab välja või on kehtestanud süvavõltspornograafia vastaseid seadusi, võib Stable Diffusioni võime luua kuulsuste pornot tähendada, et kommertsrakendus, mis pole täielikult tsenseeritud (st mis võib luua pornograafilist materjali), võib siiski vajada mõningaid võime filtreerida tajutavaid kuulsuste nägusid.

Üks meetod oleks luua sisseehitatud "must nimekiri" terminitest, mida kasutajaviibaga ei aktsepteerita ja mis on seotud kuulsuste nimede ja fiktiivsete tegelastega, millega neid seostada võidakse. Arvatavasti tuleks sellised sätted kasutusele võtta rohkemates keeltes kui ainult inglise keeles, kuna algandmed sisaldavad muid keeli. Teine lähenemisviis võiks olla kuulsuste äratundmise süsteemide, näiteks Clarifai välja töötatud süsteemide kaasamine.

Tarkvaratootjatel võib olla vaja selliseid meetodeid kasutusele võtta, võib-olla algselt välja lülitatud, kuna see võib aidata takistada täieõiguslikul iseseisval Stable Diffusion rakendusel kuulsuste nägusid tekitamast, kuni uued õigusaktid võivad muuta selle funktsiooni ebaseaduslikuks.

Taas kord võivad huvitatud osapooled sellise funktsionaalsuse paratamatult dekompileerida ja ümber pöörata; tarkvaratootja võib aga sel juhul väita, et tegemist on tegelikult sanktsioneerimata vandalismiga – seni, kuni sedalaadi pöördprojekteerimist ülemäära lihtsaks ei tehta.

Funktsioonid, mis võiksid kaasas olla

Stabiilse difusiooni mis tahes levitamise põhifunktsioone eeldatakse igal hästi rahastatud kommertsrakendusel. Nende hulka kuulub võimalus kasutada tekstiviipasid sobivate piltide loomiseks (tekst-pildiks); võimalus kasutada visandeid või muid pilte uute loodud piltide jaoks (pilt-pildiks); vahendid selle kohandamiseks, kui palju kujutlusvõimet süsteem peab olema; viis, kuidas muuta aeg kvaliteedi vastu; ja muud põhitõed, nagu valikuline automaatne piltide/viipade arhiveerimine ja rutiinne valikuline ülesskaleerimine RealESRGAN, ja vähemalt elementaarne näo kinnitamine GFPGAN or CodeFormer.

See on päris "vanilje install". Vaatame mõningaid täiustatud funktsioone, mida praegu arendatakse või laiendatakse, mida saaks integreerida täieõiguslikku "traditsioonilisse" stabiilse difusiooni rakendusse.

Stohhastiline külmutamine

Isegi kui sina kasutage seemet uuesti eelmisest edukast renderdamisest on kohutavalt raske panna stabiilset difusiooni teisendust täpselt kordama, kui mis tahes osa viipa või lähtepilti (või mõlemat) muudetakse järgmise renderduse jaoks.

See on probleem, kui soovite kasutada EbSynth Stabiilse difusiooni teisendused reaalseks videoks ajaliselt ühtsel viisil peale suruda – kuigi see tehnika võib olla väga tõhus lihtsate pea ja õlgade võtete puhul:

Piiratud liikumine võib muuta EbSynthi tõhusaks meediumiks, et muuta stabiilse difusiooni teisendused realistlikuks videoks. Allikas: https://streamable.com/u0pgzd

Piiratud liikumine võib muuta EbSynthi tõhusaks meediumiks, et muuta stabiilse difusiooni teisendused realistlikuks videoks. Allikas: https://streamable.com/u0pgzd

EbSynth ekstrapoleerib väikese valiku "muudetud" võtmekaadreid videosse, mis on renderdatud pildifailideks (ja mida saab hiljem uuesti videoks kokku panna).

Selles EbSynthi saidi näites on väike peotäis videokaadreid kunstilisel viisil maalitud. EbSynth kasutab neid kaadreid stiilijuhistena, et samamoodi muuta kogu videot nii, et see sobiks maalitud stiiliga. Allikas: https://www.youtube.com/embed/eghGQtQhY38

Selles EbSynthi saidi näites on väike peotäis videokaadreid kunstilisel viisil maalitud. EbSynth kasutab neid kaadreid stiilijuhistena, et samamoodi muuta kogu videot nii, et see sobiks maalitud stiiliga. Allikas: https://www.youtube.com/embed/eghGQtQhY38

Allolevas näites, kus vasakpoolne (tõeline) blond joogaõpetaja ei liiguta peaaegu üldse, on Stable Diffusionil endiselt raskusi ühtse näo säilitamisega, kuna kolm pilti, mida muudetakse võtmekaadriteks, ei ole täiesti identsed, kuigi neil kõigil on sama numbriseeme.

Siin, isegi kui kõigis kolmes teisenduses on sama viip ja seeme ning väga vähe muutusi lähtekaadrite vahel, on keha lihased erineva suuruse ja kujuga, kuid veelgi olulisem on nägu ebaühtlane, mis takistab potentsiaalse EbSynthi renderduse ajalist järjepidevust.

Siin, isegi kui kõigis kolmes teisenduses on sama viip ja seeme ning väga vähe muutusi lähtekaadrite vahel, on keha lihased erineva suuruse ja kujuga, kuid veelgi olulisem on nägu ebaühtlane, mis takistab potentsiaalse EbSynthi renderduse ajalist järjepidevust.

Kuigi allolev SD/EbSynthi video on väga leidlik, kus kasutaja sõrmed on muudetud (vastavalt) kõndivateks püksisäärteks ja pardiks, on pükste ebaühtlus tüüpiline probleem, mis Stable Diffusionil on erinevate võtmekaadrite järjepidevuse säilitamisel. , isegi kui lähtekaadrid on üksteisega sarnased ja seeme on järjepidev.

Mehe sõrmedest saab Stable Diffusion ja EbSynth kaudu kõndiv mees ja part. Allikas: https://old.reddit.com/r/StableDiffusion/comments/x92itm/proof_of_concept_using_img2img_ebsynth_to_animate/

Mehe sõrmedest saab Stable Diffusion ja EbSynth kaudu kõndiv mees ja part. Allikas: https://old.reddit.com/r/StableDiffusion/comments/x92itm/proof_of_concept_using_img2img_ebsynth_to_animate/

Selle video loonud kasutaja kommenteeris et pardi teisendus, vaieldamatult tõhusam neist kahest, kui see oli vähem silmatorkav ja originaalne, nõudis ainult ühte teisendatud võtmekaadrit, samas kui ajalisemate jalutuspükste loomiseks oli vaja renderdada 50 stabiilse hajutusega pilti. ebakõla. Kasutaja märkis ka, et iga 50 võtmekaadri järjepidevuse saavutamiseks kulus viis katset.

Seetõttu oleks tõeliselt kõikehõlmaval stabiilse hajutamise rakendusel suur kasu, kui see pakuks funktsioone, mis säilitavad võtmekaadrite omadused maksimaalsel määral.

Üks võimalus on, et rakendus lubab kasutajal iga kaadri teisenduse jaoks stohhastilise kodeeringu "külmutada", mida on praegu võimalik saavutada ainult lähtekoodi käsitsi muutmisega. Nagu alltoodud näide näitab, aitab see kaasa ajalisele järjepidevusele, kuigi see kindlasti ei lahenda seda:

Üks Redditi kasutaja muutis veebikaamera kaadreid endast erinevateks kuulsateks inimesteks, mitte ainult ei säilitanud seemet (mida saab teha iga stabiilse difusiooni rakendus), vaid tagades, et parameeter stochastic_encode() oli igas teisenduses identne. See saavutati koodi muutmisega, kuid sellest võib kergesti saada kasutajale juurdepääsetav lüliti. Siiski on selge, et see ei lahenda kõiki ajalisi probleeme. Allikas: https://old.reddit.com/r/StableDiffusion/comments/wyeoqq/turning_img2img_into_vid2vid/

Üks Redditi kasutaja muutis veebikaamera kaadreid endast erinevateks kuulsateks inimesteks, mitte ainult ei säilitanud seemet (mida saab teha iga stabiilse difusiooni rakendus), vaid tagades, et parameeter stochastic_encode() oli igas teisenduses identne. See saavutati koodi muutmisega, kuid sellest võib kergesti saada kasutajale juurdepääsetav lüliti. Siiski on selge, et see ei lahenda kõiki ajalisi probleeme. Allikas: https://old.reddit.com/r/StableDiffusion/comments/wyeoqq/turning_img2img_into_vid2vid/

Pilvepõhine teksti ümberpööramine

Parem lahendus ajaliselt järjekindlate tegelaste ja objektide esilekutsumiseks on need a Teksti ümberpööramine – 5 KB fail, mida saab mõne tunniga treenida vaid viie annoteeritud pildi põhjal, mille saab seejärel esile kutsuda spetsiaalse '*' viivitada, võimaldades näiteks uudsete tegelaste püsivat ilmumist narratiivi kaasamiseks.

Sobivate siltidega seotud pilte saab tekstilise inversiooni abil teisendada diskreetseteks üksusteks ja kutsuda üles ilma kahemõttelisuseta ning õiges kontekstis ja stiilis spetsiaalsete sümboolsete sõnade abil. Allikas: https://huggingface.co/docs/diffusers/training/text_inversion

Sobivate siltidega seotud pilte saab tekstilise inversiooni abil teisendada diskreetseteks üksusteks ja kutsuda üles ilma kahemõttelisuseta ning õiges kontekstis ja stiilis spetsiaalsete sümboolsete sõnade abil. Allikas: https://huggingface.co/docs/diffusers/training/text_inversion

Teksti inversioonid on lisafailid väga suurele ja täielikult väljaõpetatud mudelile, mida Stable Diffusion kasutab, ning need „libisevad” tõhusalt esilekutsumis-/viipamisprotsessi, et nad saaksid osalema mudelist tuletatud stseenides ja saavad kasu mudeli tohutust teadmiste andmebaasist objektide, stiilide, keskkondade ja interaktsioonide kohta.

Kuigi teksti inversiooni treenimine ei võta kaua aega, nõuab see siiski palju VRAM-i; erinevate praeguste läbikäikude järgi kuskil 12, 20 ja isegi 40GB vahel.

Kuna enamiku tavakasutajate käsutuses pole tõenäoliselt sellist GPU-võimsust, on juba tekkimas pilveteenused, mis toiminguga hakkama saavad, sealhulgas Hugging Face versioon. Kuigi neid on Google Colabi juurutused mis võivad luua stabiilse hajutuse jaoks tekstilisi inversioone, võivad nõutavad VRAM-i ja ajanõuded muuta need Colabi vabataseme kasutajatele keeruliseks.

Potentsiaalse täieliku ja hästi investeeritud Stable Diffusion (installitud) rakenduse puhul tundub selle raske ülesande üleandmine ettevõtte pilveserveritele ilmselge monetiseerimisstrateegia (eeldusel, et odav või tasuta Stable Diffusion rakendus on läbi imbunud sellistest mitte- tasuta funktsionaalsus, mis näib tõenäoline paljudes võimalikes rakendustes, mis selle tehnoloogiaga järgmise 6–9 kuu jooksul esile kerkivad).

Lisaks võib integreeritud keskkonnas automatiseerimine kasuks tulla esitatud piltide ja tekstide annoteerimise ja vormindamise üsna keerulisele protsessile. Potentsiaalne sõltuvustegur luua ainulaadseid elemente, mis suudavad uurida ja suhelda stabiilse difusiooni tohutute maailmadega, tunduvad potentsiaalselt sunnitud nii tavalistele entusiastidele kui ka noorematele kasutajatele.

Mitmekülgne kiire kaalumine

Praegu on palju rakendusi, mis võimaldavad kasutajal pika tekstiviipa lõigule suuremat rõhku panna, kuid nende tööriist on üsna erinev ning on sageli kohmakas või ebaintuitiivne.

Väga populaarne Stable Diffusion kahvel autor AUTOMATIC1111, võib näiteks viipasõna väärtust alandada või tõsta, lisades selle ühe- või mitmekordsetesse sulgudesse (rõhu vähendamiseks) või nurksulgudesse, et rõhutada.

Ruudusulud ja/või sulud võivad muuta teie hommikusööki selles Stable Diffusion viipade kaalude versioonis, kuid mõlemal juhul on see kolesterooli õudusunenägu.

Ruudusulud ja/või sulud võivad muuta teie hommikusööki selles Stable Diffusion viipade kaalude versioonis, kuid mõlemal juhul on see kolesterooli õudusunenägu.

Stabiilse hajutuse muud iteratsioonid kasutavad rõhutamiseks hüüumärke, samas kui kõige mitmekülgsem võimaldab kasutajatel GUI kaudu määrata igale sõnale kaalu.

Süsteem peaks ka võimaldama negatiivsed viipekaalud - mitte ainult selleks õudusfännid, vaid sellepärast, et Stable Diffusioni varjatud ruumis võib olla vähem murettekitavaid ja arendavamaid saladusi, kui meie piiratud keelekasutus suudab kokku kutsuda.

Väljamaaling

Vahetult pärast Stable Diffusioni sensatsioonilist avatud lähtekoodiga hankimist üritas OpenAI – enamasti tulutult – osa oma DALL-E 2 äikesest tagasi püüda. kuulutades 'outpainting', mis võimaldab kasutajal laiendada pilti väljaspool selle piire semantilise loogika ja visuaalse sidususe abil.

Loomulikult on see sellest ajast peale olnud rakendatud erinevates vormides stabiilseks difusiooniks, samuti aastal Krita, ja see peaks kindlasti olema kaasatud Stable Diffusioni kõikehõlmavasse Photoshopi stiilis versiooni.

Paanipõhine suurendamine võib standardset 512x512 renderdust peaaegu lõputult laiendada, kui viipad, olemasolev pilt ja semantiline loogika seda võimaldavad. Allikas: https://github.com/lkwq007/stablediffusion-infinity

Paanipõhine suurendamine võib standardset 512 × 512 renderdust pikendada peaaegu lõputult, kui viipad, olemasolev pilt ja semantiline loogika seda võimaldavad. Allikas: https://github.com/lkwq007/stablediffusion-infinity

Kuna stabiilset hajutamist treenitakse 512 x 512 piksli kujutiste jaoks (ja mitmel muul põhjusel), lõikab see sageli inimeste pea (või muud olulised kehaosad) ära isegi siis, kui viipale on selgelt märgitud „pea rõhutamine” jne.

Tüüpilised näited stabiilse difusiooni 'dekapitatsiooni' kohta; aga väljamaalimine võib George’i pildile tagasi tuua.

Tüüpilised näited stabiilse difusiooni 'dekapitatsiooni' kohta; aga väljamaalimine võib George’i pildile tagasi tuua.

Kõik ülaltoodud animeeritud pildil kujutatud tüüpi väljamaalimisrakendused (mis põhinevad eranditult Unixi teekidel, kuid peaksid olema Windowsis replitseeritavad) tuleks samuti kasutada ühe klõpsuga/viipase abinõuna.

Praegu laiendavad paljud kasutajad nn peaga eemaldatud kujutiste lõuendit ülespoole, täidavad jämedalt pea ala ja kasutavad vigase renderduse lõpuleviimiseks funktsiooni img2img.

Tõhus maskeerimine, mis mõistab konteksti

Maskimine võib Stable Diffusionis olla kohutavalt tabamatu ja puudulik afäär, olenevalt kahvlist või kõnealusest versioonist. Sageli, kui ühtset maski on üldse võimalik joonistada, värvitakse määratud ala sisuga, mis ei võta arvesse kogu pildi konteksti.

Ühel korral maskeerisin näokujutise sarvkestad ja andsin viipe 'sinised silmad' maskivärvina – ainult selleks, et avastasin, et vaatan läbi kahe väljalõigatud inimsilma eemal asuvat ebamaise välimusega hundi pilti. Mul on vist vedanud, et see polnud Frank Sinatra.

Semantiline redigeerimine on samuti võimalik müra tuvastamine mis koostas pildi, mis võimaldab kasutajal käsitleda renderduse konkreetseid struktuurielemente ilma ülejäänud kujutist segamata:

Kujutise ühe elemendi muutmine ilma traditsioonilise maskeerimiseta ja külgnevat sisu muutmata, tuvastades pildi esimesena tekitanud müra ja käsitledes selle osi, mis mõjutasid sihtala. Allikas: https://old.reddit.com/r/StableDiffusion/comments/xboy90/a_better_way_of_doing_img2img_by_finding_the/

Kujutise ühe elemendi muutmine ilma traditsioonilise maskeerimiseta ja külgnevat sisu muutmata, tuvastades pildi esimesena tekitanud müra ja käsitledes selle osi, mis mõjutasid sihtala. Allikas: https://old.reddit.com/r/StableDiffusion/comments/xboy90/a_better_way_of_doing_img2img_by_finding_the/

See meetod põhineb K-difusiooni proovivõtja.

Semantilised filtrid füsioloogiliste jaburuste jaoks

Nagu me varem mainisime, võib stabiilne difusioon jäsemeid sageli liita või lahutada, peamiselt andmete probleemide ja seda treeninud piltidega kaasnevate märkuste puuduste tõttu.

Nii nagu see eksinud poiss, kes kooli grupifotol keele välja pistis, ei paista Stable Diffusioni bioloogilised julmused alati kohe silma ja oleksite võib-olla Instagramminud oma uusima tehisintellekti meistriteose enne, kui märkate lisakäsi või sulanud jäsemeid.

Nii nagu see eksinud poiss, kes kooli grupifotol keele välja pistis, ei paista Stable Diffusioni bioloogilised julmused alati kohe silma ja oleksite võib-olla Instagramminud oma uusima tehisintellekti meistriteose enne, kui märkate lisakäsi või sulanud jäsemeid.

Seda tüüpi vigu on nii raske parandada, et oleks kasulik, kui täissuuruses Stable Diffusion rakendus sisaldaks mingit anatoomilist tuvastamissüsteemi, mis kasutas semantilist segmenteerimist, et arvutada, kas sissetuleval pildil on tõsiseid anatoomilisi puudusi (nagu ülaltoodud pildil). ) ja loobub sellest enne kasutajale esitamist uue renderduse kasuks.

Muidugi võite soovida renderdada jumalanna Kali või doktor kaheksajala või isegi päästa jäsemetest kahjustatud pildi mõjutamata osa, nii et see funktsioon peaks olema valikuline lüliti.

Kui kasutajad suudaksid telemeetria aspekti taluda, saaks selliseid tõrkeid isegi anonüümselt edastada ühisel föderatiivsel õppel, mis võib aidata tulevastel mudelitel parandada nende arusaamist anatoomilisest loogikast.

LAIONil põhinev automaatne näoparandus

Nagu ma märkisin oma eelmine välimus Kolme asja puhul, mida Stable Diffusion võiks tulevikus käsitleda, ei tohiks jätta ainult ühegi GFPGAN-i versiooni ülesandeks püüda esimese astme renderdustes renderdatud nägusid "parandada".

GFPGANi "täiustused" on kohutavalt üldised, õõnestavad sageli kujutatud isiku identiteeti ja toimivad ainult näo puhul, mis on tavaliselt halvasti renderdatud, kuna see ei ole saanud rohkem töötlemisaega ega tähelepanu kui ükski teine ​​pildi osa.

Seetõttu peaks stabiilse hajutamise professionaalsel tasemel programm suutma tuvastada näo (standardse ja suhteliselt kerge teegiga, nagu YOLO), kasutama selle uuesti renderdamiseks kogu olemasoleva GPU võimsuse raskust ja kas täiustatud nägu segama. algne täiskonteksti renderdus või salvestage see käsitsi uuesti koostamiseks eraldi. Praegu on see üsna "käteline" operatsioon.

Juhtudel, kui stabiilset difusiooni on koolitatud piisava arvu kuulsuste piltide jaoks, on võimalik kogu GPU võimsus fokuseerida ainult renderdatud pildi esikülje järgmisele renderdamisele, mis on tavaliselt märkimisväärne edasiminek – ja erinevalt GFPGAN-ist. , lähtub LAIONi koolitatud andmetest, mitte ei muuda lihtsalt renderdatud piksleid.

Juhtudel, kui stabiilset difusiooni on koolitatud piisava arvu kuulsuste piltide jaoks, on võimalik kogu GPU võimsus fokuseerida ainult renderdatud pildi esikülje järgmisele renderdamisele, mis on tavaliselt märkimisväärne edasiminek – ja erinevalt GFPGAN-ist. , lähtub LAIONi koolitatud andmetest, mitte ei muuda lihtsalt renderdatud piksleid.

Rakendusesisesed LAIONi otsingud

Alates sellest, kui kasutajad hakkasid mõistma, et LAIONi andmebaasist kontseptsioonide, inimeste ja teemade otsimine võib osutuda stabiilse difusiooni paremaks kasutamiseks abiks, on loodud mitu LAIONi veebiavastajat, sealhulgas haveibeentrained.com.

Otsingufunktsioon saidil haveibeentrained.com võimaldab kasutajatel uurida pilte, millel on stabiilne hajutamine, ja avastada, kas objektid, inimesed või ideed, mida nad võiksid süsteemist esile kutsuda, on tõenäoliselt sellesse koolitatud. Sellised süsteemid on kasulikud ka kõrvuti asetsevate üksuste avastamiseks, näiteks kuidas kuulsused on rühmitatud või "järgmine idee", mis lähtub praegusest. Allikas: https://haveibeentrained.com/?search_text=bowl%20of%20fruit

Otsingufunktsioon saidil haveibeentrained.com võimaldab kasutajatel uurida pilte, millel on stabiilne hajutamine, ja avastada, kas objektid, inimesed või ideed, mida nad võiksid süsteemist esile kutsuda, on tõenäoliselt sellesse koolitatud. Sellised süsteemid on kasulikud ka kõrvuti asetsevate üksuste avastamiseks, näiteks kuidas kuulsused on rühmitatud või "järgmine idee", mis lähtub praegusest. Allikas: https://haveibeentrained.com/?search_text=bowl%20of%20fruit

Kuigi sellised veebipõhised andmebaasid paljastavad sageli mõned piltidega kaasnevad sildid, üldistus See, mis toimub mudelikoolituse ajal, tähendab, et on ebatõenäoline, et mõnda konkreetset pilti saaks esile kutsuda, kasutades selle silti.

Lisaks eemaldatakse "lõpetage sõnad" ning tüvede ja lemmatiseerimise praktika loomuliku keele töötlemises tähendab, et paljud ekraanil olevad fraasid olid enne stabiilse leviku õpetamist poolitatud või välja jäetud.

Sellegipoolest võib viis, kuidas esteetilised rühmitused nendes liidestes omavahel seovad, õpetada lõppkasutajale palju stabiilse difusiooni loogika (või väidetavalt "isiksuse") kohta ja osutuda paremaks pildiloomeks.

Järeldus

Stabiilse hajutuse täielikus töölauarakenduses sooviksin näha palju muid funktsioone, nagu natiivne CLIP-põhine pildianalüüs, mis muudab standardse stabiilse hajutamise protsessi vastupidiseks ja võimaldab kasutajal esile kutsuda fraase ja sõnu, mida süsteem seostuks loomulikult lähtekujutise või renderdusega.

Lisaks oleks tõeline plaadipõhine skaleerimine teretulnud, kuna ESRGAN on peaaegu sama nüri instrument kui GFPGAN. Õnneks plaanib integreerida txt2imghd GOBIGi juurutamine muudab selle kiiresti kõigis distributsioonides reaalsuseks ja see tundub töölaua iteratsiooni jaoks ilmselge valik.

Mõned teised Discordi kogukondade populaarsed taotlused pakuvad mulle vähem huvi, näiteks integreeritud viipesõnastikud ning kohaldatavad kunstnike ja stiilide loendid, kuigi rakendusesisene märkmik või kohandatav fraaside leksikon tundub loogiline lisa.

Samamoodi on praegused inimkeskse animatsiooni piirangud Stable Diffusionis, kuigi need on alguse saanud CogVideo ja mitmete teiste projektide poolt, endiselt uskumatult tekkimas ning inimeste autentse liikumisega seotud ajalise prioriteedi uurimise meelevallas.

Praegu on Stable Diffusion video rangelt psühhedeelne, kuigi sellel võib EbSynthi ja muude suhteliselt tekkivate tekstist videoks muutmise algatuste kaudu olla palju helgem lähitulevik sügavas võltsnukukunstis (ja tasub märkida sünteesitud või muudetud inimeste puudumist Runway's uusim reklaamvideo).

Veel üks väärtuslik funktsioon oleks läbipaistev Photoshopi läbilaskevõime, mis on Cinema4D tekstuuriredaktoris teiste sarnaste rakenduste hulgas juba ammu loodud. Selle abil saate hõlpsalt pilte rakenduste vahel šuntida ja kasutada iga rakendust selle suurepäraseks muutmiseks.

Lõpuks ja võib-olla kõige tähtsam on see, et täistöölaua stabiilse hajutamise programm ei peaks suutma mitte ainult hõlpsasti vahetada kontrollpunktide (st süsteemi toitava aluseks oleva mudeli versioonide) vahel, vaid peaks olema suuteline värskendama ka kohandatud tekstiinversioone, mis töötasid. varasemate ametlike mudeliväljaannetega, kuid muidu võivad mudeli hilisemad versioonid selle puruneda (nagu ametliku Discordi arendajad on näidanud, et see võib juhtuda).

Irooniline on see, et organisatsioon, kes on parimal positsioonil stabiilse difusiooni jaoks nii võimsa ja integreeritud tööriistade maatriksi loomiseks, Adobe, on nii tugevalt liitunud Sisu autentsuse algatus et see võib tunduda ettevõtte jaoks retrograadne PR-viga – välja arvatud juhul, kui ta peaks Stable Diffusioni generatiivseid võimeid nii põhjalikult kõigutama, nagu OpenAI on teinud DALL-E 2-ga, ja positsioneerida selle asemel oma märkimisväärse osaluse loomuliku arenguna stock fotograafias.

 

Esmakordselt avaldatud 15. septembril 2022.