Umelá inteligencia
Pred nami sú tri výzvy pre stabilnú difúziu
uvoľnite stability.ai's Stable Diffusion latentná difúzia model syntézy obrazu spred niekoľkých týždňov môže byť jedným z najvýznamnejších technologických odhalení od DeCSS v roku 1999; je to určite najväčšia udalosť v snímkach generovaných AI od roku 2017 deepfakes kód bol skopírovaný na GitHub a rozvetvený do toho, čo sa stane DeepFaceLab a Výmena tváre, ako aj deepfake softvér na streamovanie v reálnom čase DeepFaceLive.
naraz, frustrácia používateľov cez obmedzenia obsahu v DALL-E 2 API syntézy obrazu boli zmietnuté bokom, pretože sa ukázalo, že filter NSFW Stable Diffusion možno deaktivovať zmenou jediný riadok kódu. Porno-centrické Stable Diffusion Reddits vznikli takmer okamžite a boli rovnako rýchlo znížené, zatiaľ čo tábor vývojárov a používateľov sa na Discorde rozdelil na oficiálnu komunitu a komunitu NSFW a Twitter sa začal zapĺňať fantastickými výtvormi Stable Diffusion.
V súčasnosti sa zdá, že každý deň prináša nejakú úžasnú inováciu od vývojárov, ktorí si systém osvojili, s pluginmi a doplnkami tretích strán, ktoré sú narýchlo napísané pre Kriti, photoshop, Cinema4D, Mixéra mnoho ďalších aplikačných platforiem.
Do tej doby, promptcraft – v súčasnosti profesionálne umenie „AI whispering“, ktoré môže skončiť ako najkratšia kariérna možnosť od „Filofax binder“ – sa už stáva komerčne, zatiaľ čo skoré speňaženie Stable Diffusion prebieha v Úroveň Patreon, s istotou, že prídu sofistikovanejšie ponuky pre tých, ktorí nie sú ochotní navigovať Na báze Conda inštalácie zdrojového kódu alebo proskriptívne filtre NSFW webových implementácií.
Tempo vývoja a slobodný zmysel pre skúmanie zo strany používateľov postupuje takou závratnou rýchlosťou, že je ťažké vidieť veľmi ďaleko dopredu. V podstate ešte presne nevieme, s čím máme do činenia, ani aké sú všetky obmedzenia či možnosti.
Poďme sa však pozrieť na tri z najzaujímavejších a najnáročnejších prekážok, ktorým musí rýchlo vytvorená a rýchlo rastúca komunita Stable Diffusion čeliť a dúfajme, že ich prekonať.
1: Optimalizácia potrubí založených na dlaždiciach
Vzhľadom na obmedzené hardvérové zdroje a prísne obmedzenia rozlíšenia tréningových obrázkov sa zdá pravdepodobné, že vývojári nájdu riešenia na zlepšenie kvality aj rozlíšenia výstupu Stable Diffusion. Mnohé z týchto projektov sú nastavené tak, aby zahŕňali využívanie obmedzení systému, ako je jeho prirodzené rozlíšenie iba 512 × 512 pixelov.
Ako je to vždy v prípade iniciatív počítačového videnia a syntézy obrazu, stabilná difúzia bola trénovaná na obrázkoch so štvorcovým pomerom, v tomto prípade prevzorkovaných na 512 × 512, takže zdrojové obrázky mohli byť regulované a schopné prispôsobiť sa obmedzeniam GPU, ktoré trénoval model.
Stabilná difúzia preto „myslí“ (ak vôbec myslí) v pomeroch 512 × 512 a určite v štvorcových hodnotách. Mnohí používatelia, ktorí v súčasnosti skúmajú limity systému, hlásia, že stabilná difúzia poskytuje najspoľahlivejšie a najmenej chybné výsledky pri tomto pomerne obmedzenom pomere strán (pozri „riešenie končatín“ nižšie).
Aj keď rôzne implementácie obsahujú upscaling cez RealESRGAN (a dokáže opraviť zle vykreslené tváre cez GFPGAN) niekoľko používateľov v súčasnosti vyvíja metódy na rozdelenie obrázkov do sekcií s rozmermi 512 x 512 pixelov a ich spojenie do väčších zložených diel.
Aj keď niektoré iniciatívy tohto druhu používajú pôvodný kód alebo iné knižnice, port txt2imghd GOBIG (režim v režime ProgRockDiffusion, ktorý je hladný po VRAM) je nastavený tak, aby túto funkciu čoskoro poskytol hlavnej vetve. Zatiaľ čo txt2imghd je vyhradený port GOBIG, ďalšie úsilie vývojárov komunity zahŕňa rôzne implementácie GOBIG.
Vyššie uvedený druh abstraktného príkladu má veľa „malých kráľovstiev“ detailov, ktoré vyhovujú tomuto solipsistickému prístupu k upscalingu, ale ktoré si môžu vyžadovať náročnejšie kódom riadené riešenia, aby sa vytvorilo neopakujúce sa, súdržné upscaling, ktoré vyzerať ako keby bol zostavený z mnohých častí. V neposlednom rade v prípade ľudských tvárí, kde sme nezvyčajne naladení na aberácie alebo „trhavé“ artefakty. Preto môžu tváre nakoniec potrebovať špeciálne riešenie.
Stabilná difúzia v súčasnosti nemá žiadny mechanizmus na zameranie pozornosti na tvár počas vykresľovania rovnakým spôsobom, akým ľudia uprednostňujú informácie o tvári. Hoci niektorí vývojári v komunitách Discord zvažujú metódy na implementáciu tohto druhu „vylepšenej pozornosti“, v súčasnosti je oveľa jednoduchšie manuálne (a prípadne automaticky) vylepšiť tvár po vykonaní počiatočného vykreslenia.
Ľudská tvár má vnútornú a úplnú sémantickú logiku, ktorá sa nenachádza v „dlaždici“ v dolnom rohu (napríklad) budovy, a preto je v súčasnosti možné veľmi efektívne „priblížiť“ a znova vykresliť „útržkovitá“ tvár vo výstupe stabilnej difúzie.
V prípade absencie špeciálneho riešenia pre textovú inverziu (pozri nižšie) to bude fungovať len pre obrázky celebrít, kde je príslušná osoba už dobre zastúpená v podmnožinách údajov LAION, ktoré trénovali stabilnú difúziu. Preto bude fungovať na takých ako Tom Cruise, Brad Pitt, Jennifer Lawrence a obmedzenú škálu skutočných mediálnych svetiel, ktoré sú prítomné vo veľkom počte obrázkov v zdrojových údajoch.
U celebrít s dlhou a trvalou kariérou Stable Diffusion zvyčajne vygeneruje obraz osoby v nedávnom (teda staršom) veku a bude potrebné pridať promptné doplnky ako napr. 'mladý' or „v roku [YEAR]“ s cieľom vytvoriť mladšie vyzerajúce obrázky.
Je to z veľkej časti kvôli rozšíreniu digitálnej tlače (namiesto drahej, emulznej) tlačenej fotografie od polovice 2000. storočia a neskoršiemu nárastu objemu obrazového výstupu v dôsledku zvýšených širokopásmových rýchlostí.
Niektoré celebrity v databáze sú „pred zmrazené“ v čase, buď preto, že zomreli predčasne (ako napríklad Marilyn Monroe), alebo sa dostali do popredia len prchavého hlavného prúdu a vytvorili veľké množstvo obrázkov v obmedzenom časovom období. Polling Stable Diffusion pravdepodobne poskytuje akýsi „aktuálny“ index popularity pre moderné a staršie hviezdy. Pre niektoré staršie a súčasné celebrity nie je v zdrojových údajoch dostatok obrázkov na získanie veľmi dobrej podobizne, zatiaľ čo pretrvávajúca popularita konkrétnych dávno mŕtvych alebo inak vyblednutých hviezd zaisťuje, že ich primeranú podobizeň je možné získať zo systému.
Tam, kde sú údaje k dispozícii, riešenia s rozlíšením up-res založené na dlaždiciach v Stable Diffusion by mohli ísť ďalej, než len namieriť na tvár: mohli by potenciálne umožniť ešte presnejšie a detailnejšie tváre rozbitím čŕt tváre a otočením celej sily lokálneho GPU. zdroje na významných prvkoch individuálne, pred opätovným zložením – proces, ktorý je v súčasnosti opäť manuálny.
Neobmedzuje sa to na tváre, ale obmedzuje sa na časti objektov, ktoré sú prinajmenšom rovnako predvídateľne umiestnené v širšom kontexte hostiteľského objektu a ktoré sú v súlade s vysokoúrovňovými vloženiami, ktoré možno rozumne očakávať v hyperškále. súbor údajov.
Skutočným limitom je množstvo dostupných referenčných údajov v súbore údajov, pretože v konečnom dôsledku sa hlboko iterované detaily stanú úplne „halucinovanými“ (tj fiktívnymi) a menej autentickými.
Takéto granulárne zväčšenia na vysokej úrovni fungujú v prípade Jennifer Connelly, pretože je dobre zastúpená v rôznych vekových kategóriách LAION-estetika (primárna podskupina LAION 5B ktorý používa Stable Diffusion) a vo všeobecnosti naprieč LAION; v mnohých iných prípadoch by presnosť trpela nedostatkom údajov, čo by si vyžadovalo buď jemné doladenie (dodatočné školenie, pozri „Prispôsobenie“ nižšie) alebo textovú inverziu (pozri nižšie).
Dlaždice predstavujú výkonný a relatívne lacný spôsob, ako umožniť stabilnú difúziu produkovať výstup vo vysokom rozlíšení, ale algoritmické dlaždicové upscaling tohto druhu, ak mu chýba nejaký širší mechanizmus pozornosti na vyššej úrovni, môže zaostať za očakávaným pre štandardy pre celý rad typov obsahu.
2: Riešenie problémov s ľudskými končatinami
Stable Diffusion nezodpovedá svojmu názvu, keď zobrazuje zložitosť ľudských končatín. Ruky sa môžu náhodne množiť, prsty sa spájajú, tretie nohy sa zdajú byť nepozvané a existujúce končatiny zmiznú bez stopy. Na svoju obranu Stable Diffusion zdieľa problém so svojimi stajňovými kolegami a určite s DALL-E 2.
Fanúšikovia Stable Diffusion, ktorí dúfajú, že nadchádzajúci kontrolný bod 1.5 (intenzívnejšie trénovaná verzia modelu s vylepšenými parametrami) vyrieši zmätok končatín, budú pravdepodobne sklamaní. Nový model, ktorý bude uvedený na trh v r asi dva týždne, má práve premiéru na komerčnom portáli stability.ai štúdio snov, ktorý štandardne používa 1.5 a kde používatelia môžu porovnať nový výstup s vykreslením z ich lokálnych alebo iných systémov 1.4:
Ako sa často stáva, kvalita údajov môže byť hlavnou príčinou.
Databázy s otvoreným zdrojovým kódom, ktoré poháňajú systémy syntézy obrazu, ako sú Stable Diffusion a DALL-E 2, sú schopné poskytnúť mnoho označení pre individuálnych ľudí aj medziľudské akcie. Tieto štítky sa trénujú symbioticky so súvisiacimi obrázkami alebo segmentmi obrázkov.
A dobrá hierarchia jednotlivých štítkov a tried prispievajúcich k zobrazeniu ľudskej ruky by bolo niečo podobné telo>paže>ruka>prsty>[číslice + palec]> [segmenty číslic]>nechty.
V skutočnosti je nepravdepodobné, že by zdrojové obrázky boli tak konzistentne anotované v celom súbore údajov a algoritmy označovania bez dozoru sa pravdepodobne zastavia na vyššia úroveň – napríklad – „ruky“ a vnútorné pixely (ktoré technicky obsahujú informácie o „prste“) ponechajú ako neoznačenú masu pixelov, z ktorých sa budú ľubovoľne odvodzovať vlastnosti a ktoré sa môžu prejaviť v neskorších vykresleniach ako rušivý prvok.
Ak sa teda model latentnej difúzie dostane až k vykresleniu ramena, takmer určite sa aspoň pokúsi vykresliť ruku na konci ramena, pretože paže>ruka je minimálna požadovaná hierarchia, pomerne vysoko v tom, čo architektúra vie o „ľudskej anatómii“.
Potom môžu byť „prsty“ najmenším zoskupením, aj keď pri zobrazovaní ľudských rúk je potrebné zvážiť ďalších 14 podčastí prstov/palcov.
Ak táto teória platí, neexistuje žiadna skutočná náprava v dôsledku nedostatku rozpočtu v celom sektore na ručnú anotáciu a nedostatku adekvátne účinných algoritmov, ktoré by mohli automatizovať označovanie a zároveň produkovať nízku chybovosť. V skutočnosti sa model môže v súčasnosti spoliehať na ľudskú anatomickú konzistenciu, aby prekryl nedostatky súboru údajov, na ktorom bol trénovaný.
Jeden z možných dôvodov prečo áno nemôže spoliehaj sa na to, nedávno navrhovanej na Stable Diffusion Discord je, že model by mohol byť zmätený ohľadom správneho počtu prstov, ktoré by (realistická) ľudská ruka mala mať, pretože databáza odvodená od LAION, ktorá ju poháňa, obsahuje kreslené postavičky, ktoré môžu mať menej prstov (čo je samo o sebe skratka šetriaca prácu).
Ak je to pravda, potom jediným zjavným riešením je preškoliť model s vylúčením nerealistického obsahu založeného na ľuďoch, čím sa zabezpečí, že skutočné prípady vynechania (tj amputácie) budú vhodne označené ako výnimky. Už len z hľadiska spracovania údajov by to bola veľká výzva, najmä v prípade úsilia komunity s nedostatkom zdrojov.
Druhým prístupom by bolo použiť filtre, ktoré vylúčia takýto obsah (tj „ruka s tromi/piatimi prstami“) z prejavu v čase vykresľovania, podobne ako OpenAI do určitej miery, filtrovaný GPT-3 a DALL-E2, takže ich výkon bolo možné regulovať bez potreby preškoľovania zdrojových modelov.
Opäť by si to však vyžadovalo štítky, ktoré nemusia existovať na všetkých dotknutých obrázkoch, čo nám dáva rovnakú logistickú a rozpočtovú výzvu.
Dalo by sa tvrdiť, že vpred sú ešte dve cesty: vrhnúť na problém viac údajov a použiť interpretačné systémy tretích strán, ktoré môžu zasiahnuť, keď sa koncovému používateľovi prezentujú fyzické chyby tu opísaného typu (prinajmenšom, ten by dal OpenAI metódu na poskytovanie náhrad za vykreslenie „body horror“, ak by bola spoločnosť motivovaná tak urobiť).
3: Prispôsobenie
Jednou z najzaujímavejších možností pre budúcnosť Stable Diffusion je perspektíva používateľov alebo organizácií vyvíjajúcich revidované systémy; modifikácie, ktoré umožňujú integráciu obsahu mimo predtrénovanej sféry LAION do systému – ideálne bez nekontrolovateľných nákladov na opätovné trénovanie celého modelu alebo bez rizika spojeného s trénovaním veľkého množstva nových obrázkov na existujúce, zrelé a schopné Model.
Analogicky: ak dvaja menej nadaní študenti vstúpia do triedy pokročilých tridsiatich študentov, buď sa asimilujú a dobehnú, alebo zlyhajú ako odľahlí; v oboch prípadoch to pravdepodobne neovplyvní priemerný výkon triedy. Ak sa však zapojí 15 menej nadaných študentov, krivka známok pre celú triedu pravdepodobne utrpí.
Podobne, synergická a pomerne jemná sieť vzťahov, ktoré sa vytvárajú počas trvalého a drahého školenia modelov, môže byť narušená, v niektorých prípadoch účinne zničená, nadmerným množstvom nových údajov, čím sa celkovo zníži kvalita výstupu pre model.
Dôvod, prečo to urobiť, je v prvom rade tam, kde váš záujem spočíva v úplnom ovládnutí koncepčného chápania vzťahov a vecí modelu a privlastnení si ho na exkluzívnu produkciu obsahu, ktorý je podobný dodatočnému materiálu, ktorý ste pridali.
Teda tréning 500,000 XNUMX Simpsons snímky do existujúceho kontrolného bodu stabilnej difúzie pravdepodobne nakoniec vylepšíte Simpsons simulátor, než aký mohla ponúknuť pôvodná zostava, za predpokladu, že tento proces prežije dostatočne široké sémantické vzťahy (tj Homer Simpson jedol hotdog, ktorá môže vyžadovať materiál o hot-dogoch, ktorý nebol vo vašom dodatočnom materiáli, ale už existoval v kontrolnom bode) a za predpokladu, že nechcete náhle prejsť z Simpsons obsahu na tvorbu báječná krajina od Grega Rutkowského – pretože váš model po vytrénovaní má masívne odvrátenú pozornosť a nebude taký dobrý robiť takéto veci ako predtým.
Jedným z pozoruhodných príkladov je waifu-difúzia, ktorá úspešne prebehla dodatočne vyškolených 56,000 XNUMX anime obrázkov do dokončeného a vyškoleného kontrolného bodu stabilnej difúzie. Pre nadšencov je to však ťažká perspektíva, pretože tento model vyžaduje oku lahodiacich minimálne 30 GB VRAM, čo je ďaleko za hranicou toho, čo bude pravdepodobne dostupné na úrovni spotrebiteľov v pripravovaných vydaniach série 40XX od NVIDIA.
Na takéto „rozvetvenia“ kontrolných bodov stabilnej difúzie by sa dalo vynaložiť veľké úsilie, ktoré by však zmaril technický dlh. Vývojári z oficiálneho Discordu už naznačili, že neskoršie vydania kontrolných bodov nemusia byť nevyhnutne spätne kompatibilné, dokonca ani s promptnou logikou, ktorá mohla fungovať s predchádzajúcou verziou, pretože ich primárnym záujmom je získať čo najlepší model, a nie podporovať staršie aplikácie a procesy.
Preto spoločnosť alebo jednotlivec, ktorý sa rozhodne efektívne rozvetviť kontrolný bod na komerčný produkt, nemá cestu späť; ich verzia modelu je v tomto bode „hard fork“ a nebude môcť čerpať výhody z neskorších vydaní zo stránky stability.ai – čo je dosť veľký záväzok.
Súčasná a väčšia nádej na prispôsobenie Stable Diffusion je Textová inverzia, kde používateľ trénuje v malej hŕstke CLIP- zarovnané obrázky.
Primárnym zjavným obmedzením textovej inverzie je, že sa odporúča veľmi nízky počet obrázkov – len päť. To efektívne vytvára obmedzenú entitu, ktorá môže byť užitočnejšia pre úlohy prenosu štýlu ako vkladanie fotorealistických objektov.
Napriek tomu v súčasnosti prebiehajú experimenty v rámci rôznych Stable Diffusion Discords, ktoré využívajú oveľa vyšší počet tréningových obrázkov, a ešte len uvidíme, ako produktívna sa táto metóda môže ukázať. Táto technika opäť vyžaduje veľa VRAM, času a trpezlivosti.
Kvôli týmto obmedzujúcim faktorom si možno budeme musieť chvíľu počkať, kým uvidíme niektoré zo sofistikovanejších experimentov s textovou inverziou od nadšencov Stable Diffusion – a či vás tento prístup dokáže „uviesť do obrazu“ spôsobom, ktorý vyzerá lepšie ako Photoshop vystrihne a prilepí, pričom si zachová ohromujúcu funkčnosť oficiálnych kontrolných bodov.
Prvýkrát uverejnené 6. septembra 2022.