Արհեստական բանականություն
Առջևում երեք մարտահրավեր կայուն տարածման համար
The ազատ արձակել կայունության.ai's Stable Diffusion թաքնված դիֆուզիոն Պատկերի սինթեզի մոդելը մի քանի շաբաթ առաջ կարող է լինել ամենակարևոր տեխնոլոգիական բացահայտումներից մեկը DeCSS-ից սկսած 1999թ; դա, անշուշտ, 2017 թվականից ի վեր AI-ի կողմից ստեղծված պատկերների ամենամեծ իրադարձությունն է deepfakes կոդը պատճենվել է GitHub-ում և պատառաքաղվել այն, ինչ կդառնա Deepfacelab և դեմքի փոխանակում, ինչպես նաև իրական ժամանակի հոսքային deepfake ծրագրակազմը Deepfaceleive.
ինսուլտի ժամանակ, օգտագործողի հիասթափություն նկատմամբ բովանդակության սահմանափակումներ DALL-E 2-ի պատկերների սինթեզում API-ն մի կողմ է հանվել, քանի որ պարզվել է, որ Stable Diffusion-ի NSFW ֆիլտրը կարող է անջատվել՝ փոխելով կոդերի միակ տողը. Պոռնոկենտրոն Stable Diffusion Reddit-ները գրեթե անմիջապես առաջացան և նույնքան արագ կրճատվեցին, մինչդեռ մշակողների և օգտատերերի ճամբարը Discord-ում բաժանվեց պաշտոնական և NSFW համայնքների, և Twitter-ը սկսեց լցվել Stable Diffusion ֆանտաստիկ ստեղծագործություններով:
Այս պահին, թվում է, թե ամեն օր մի զարմանալի նորամուծություն է բերում այն մշակողների կողմից, ովքեր որդեգրել են համակարգը, փլագինների և երրորդ կողմի հավելվածների համար, որոնք հապճեպ գրվում են: կավիճ, Photoshop, Cinema4D, Blenderև շատ այլ հավելվածների հարթակներ:
Ընդ որում, արագագործություն – «AI շշուկի» այժմ պրոֆեսիոնալ արվեստը, որը կարող է դառնալ կարիերայի ամենակարճ տարբերակը «Filofax binder»-ից հետո. առևտրայնացված, մինչդեռ Stable Diffusion-ի վաղ դրամայնացումը տեղի է ունենում Ա Պատրեոնի մակարդակը, վստահ լինելով, որ ավելի բարդ առաջարկներ են սպասվում նրանց համար, ովքեր չեն ցանկանում նավարկել Կոնդայի վրա հիմնված սկզբնաղբյուրի տեղադրում կամ վեբ վրա հիմնված ներդրման NSFW զտիչներ:
Զարգացման տեմպերը և օգտատերերի կողմից հետազոտության ազատ զգացողությունն ընթանում են այնպիսի գլխապտույտ արագությամբ, որ դժվար է շատ հեռու տեսնել: Ըստ էության, մենք դեռ հստակ չգիտենք, թե ինչի հետ գործ ունենք, կամ որոնք կարող են լինել բոլոր սահմանափակումները կամ հնարավորությունները:
Այնուամենայնիվ, եկեք նայենք երեքին, որոնք կարող են լինել ամենահետաքրքիր և դժվարին խոչընդոտները արագ ձևավորվող և արագ զարգացող Stable Diffusion համայնքի համար, որոնք կարող են դիմակայել և, հուսանք, հաղթահարել:
1. Սալիկի վրա հիմնված խողովակաշարերի օպտիմալացում
Ներկայացված ապարատային սահմանափակ ռեսուրսներով և ուսուցման պատկերների լուծման կոշտ սահմանափակումներով, հավանական է թվում, որ մշակողները կգտնեն լուծումներ՝ բարելավելու կայուն դիֆուզիոն արտադրանքի որակը և լուծումը: Այս նախագծերից շատերը պետք է ներառեն համակարգի սահմանափակումների օգտագործումը, ինչպես օրինակ՝ 512×512 պիքսելների հիմնական լուծումը:
Ինչպես միշտ պատահում է համակարգչային տեսլականի և պատկերների սինթեզի նախաձեռնությունների դեպքում, Stable Diffusion-ը վերապատրաստվել է քառակուսի հարաբերակցությամբ պատկերների վրա, այս դեպքում նմուշառվել է մինչև 512×512, որպեսզի սկզբնաղբյուրի պատկերները կարողանան կանոնավորվել և տեղավորվել GPU-ների սահմանափակումների մեջ: վարժեցրել է մոդելին։
Հետևաբար, Stable Diffusion-ը «մտածում է» (եթե ընդհանրապես մտածում է) 512×512 տերմիններով և, իհարկե, քառակուսի տերմիններով: Շատ օգտատերեր, որոնք ներկայումս ուսումնասիրում են համակարգի սահմանները, հայտնում են, որ Stable Diffusion-ը տալիս է ամենահուսալի և ամենաքիչ շողոքորթ արդյունքները այս բավականին սահմանափակ չափերի հարաբերակցությամբ (տես ստորև «վերջույթների հասցեավորումը»:
Թեև տարբեր իրականացումներն առանձնանում են ընդլայնման միջոցով RealESRGAN (և կարող է շտկել վատ մատուցված դեմքերը միջոցով GFPGAN) Մի քանի օգտատերեր ներկայումս մշակում են նկարները 512x512px հատվածների բաժանելու և պատկերները միմյանց կարելու մեթոդներ՝ ավելի մեծ կոմպոզիտային աշխատանքներ ստեղծելու համար:
Թեև այս տեսակի որոշ նախաձեռնություններ օգտագործում են բնօրինակ կոդ կամ այլ գրադարաններ, txt2imghd նավահանգիստ GOBIG-ը (մի ռեժիմ VRAM-ի համար քաղցած ProgRockDiffusion-ում) շուտով կապահովի այս գործառույթը հիմնական մասնաճյուղին: Թեև txt2imghd-ը GOBIG-ի հատուկ նավահանգիստ է, համայնքի մշակողների այլ ջանքերը ներառում են GOBIG-ի տարբեր իրականացումներ:
Վերևում ներկայացված վերացական օրինակն ունի բազմաթիվ «փոքր թագավորություններ» դետալների, որոնք համապատասխանում են ընդլայնման այս սոլիպսիստական մոտեցմանը, բայց որը կարող է պահանջել ավելի դժվար կոդային լուծումներ՝ չկրկնվող, համահունչ ընդլայնում ստեղծելու համար, որը չի համապատասխանում: նայել կարծես այն հավաքված է շատ մասերից: Համենայն դեպս, մարդկային դեմքերի դեպքում, որտեղ մենք անսովոր կերպով ներդաշնակված ենք շեղումների կամ «կեղտոտ» արտեֆակտների հետ: Հետևաբար դեմքերը կարող են ի վերջո հատուկ լուծման կարիք ունենալ:
Stable Diffusion-ը ներկայումս չունի մեխանիզմ՝ ռենդերի ժամանակ դեմքի վրա ուշադրությունը կենտրոնացնելու այնպես, ինչպես մարդիկ առաջնահերթություն են տալիս դեմքի տեղեկատվությանը: Թեև Discord համայնքների որոշ ծրագրավորողներ դիտարկում են այս տեսակի «ուժեղացված ուշադրությունը» իրականացնելու մեթոդներ, ներկայումս շատ ավելի հեշտ է ձեռքով (և, ի վերջո, ինքնաբերաբար) կատարելագործել դեմքը սկզբնական ցուցադրումից հետո:
Մարդու դեմքն ունի ներքին և ամբողջական իմաստային տրամաբանություն, որը չի գտնվի (օրինակ) շենքի ստորին անկյունի «սալիկի» մեջ, և, հետևաբար, ներկայումս հնարավոր է շատ արդյունավետ «մեծացնել» և վերարտադրել «էսքիզային» դեմք կայուն դիֆուզիոն ելքում:
Տեքստային ինվերսիայի հատուկ լուծման բացակայության դեպքում (տես ստորև), սա կաշխատի միայն հայտնի մարդկանց պատկերների համար, որտեղ տվյալ անձը արդեն լավ ներկայացված է LAION տվյալների ենթաբազմություններում, որոնք վարժեցրել են Stable Diffusion-ը: Հետևաբար, այն կաշխատի այնպիսի մարդկանց վրա, ինչպիսիք են Թոմ Քրուզը, Բրեդ Փիթը, Ջենիֆեր Լոուրենսը և իրական մեդիա լուսատուների սահմանափակ շրջանակը, որոնք առկա են բազմաթիվ պատկերների մեջ աղբյուրի տվյալների մեջ:
Երկար և երկարատև կարիերա ունեցող հայտնի մարդկանց համար Stable Diffusion-ը սովորաբար ստեղծում է մարդու պատկերը վերջին (այսինքն ավելի մեծ) տարիքում, և անհրաժեշտ կլինի ավելացնել արագ հավելումներ, ինչպիսիք են. «երիտասարդ» or «[ՏԱՐԻ] տարում» ավելի երիտասարդ տեսք ունեցող պատկերներ ստեղծելու համար:
Սա հիմնականում պայմանավորված է 2000-ականների կեսերից թվային (այլ ոչ թե թանկարժեք, էմուլսիաների վրա հիմնված) մամուլի լուսանկարչության տարածմամբ, և ավելի ուշ պատկերի թողարկման ծավալի աճով՝ լայնաշերտ արագության բարձրացման պատճառով:
Տվյալների բազայի որոշ հայտնի մարդիկ ժամանակի ընթացքում «նախապես սառեցված» են, կամ այն պատճառով, որ նրանք վաղ են մահացել (օրինակ՝ Մերիլին Մոնրոն), կամ հասել են միայն անցողիկ հանրաճանաչության՝ սահմանափակ ժամանակահատվածում ստեղծելով պատկերների մեծ ծավալ: Polling Stable Diffusion-ը, անկասկած, ապահովում է մի տեսակ «ընթացիկ» ժողովրդականության ինդեքս ժամանակակից և ավելի մեծ աստղերի համար: Որոշ հին և ներկայիս հայտնիների համար աղբյուրի տվյալների մեջ բավականաչափ պատկերներ չկան՝ շատ լավ նմանություն ստանալու համար, մինչդեռ որոշակի վաղուց մեռած կամ այլ կերպ խունացած աստղերի հարատև ժողովրդականությունը երաշխավորում է, որ նրանց ողջամիտ նմանությունը կարելի է ստանալ համակարգից:
Այնտեղ, որտեղ առկա են տվյալներ, սալիկների վրա հիմնված բարձրորակ լուծումները Stable Diffusion-ում կարող են ավելի հեռուն գնալ, քան երեսին ներս մտնելը. դրանք կարող են պոտենցիալ հնարավորություն տալ ավելի ճշգրիտ և մանրամասն դեմքեր ունենալ՝ կոտրելով դեմքի հատկությունները և շրջելով տեղական GPU-ի ողջ ուժը: Առանձին-առանձին ակնառու հատկանիշների վերաբերյալ ռեսուրսներ, նախքան վերահավաքումը. գործընթաց, որը ներկայումս, կրկին, ձեռքով է:
Սա չի սահմանափակվում միայն դեմքերով, այլ սահմանափակվում է օբյեկտների մասերով, որոնք առնվազն նույնքան կանխատեսելիորեն տեղադրված են հյուրընկալող օբյեկտի ավելի լայն համատեքստում և որոնք համապատասխանում են բարձր մակարդակի ներկառուցումներին, որոնք կարելի է ողջամտորեն ակնկալել գտնել հիպերսանդղակի մեջ: տվյալների հավաքածու։
Իրական սահմանը տվյալների բազայում առկա հղման տվյալների քանակն է, քանի որ, ի վերջո, խորը կրկնվող մանրամասները կդառնան ամբողջովին «հալյուցինացված» (այսինքն՝ ֆիկտիվ) և ավելի քիչ վավերական:
Նման բարձր մակարդակի հատիկավոր ընդլայնումները գործում են Ջենիֆեր Քոնելիի դեպքում, քանի որ նա լավ ներկայացված է տարբեր տարիքի LAION-գեղագիտություն (առաջնային ենթաբազմություն LAION 5B որ Stable Diffusion-ը օգտագործում է), և ընդհանրապես LAION-ի ողջ տարածքում; Շատ այլ դեպքերում ճշգրտությունը կարող է տուժել տվյալների պակասից, ինչը կպահանջի կա՛մ ճշգրտում (լրացուցիչ ուսուցում, տե՛ս «Անհատականացում» ստորև) կամ տեքստային հակադարձում (տես ստորև):
Սալիկները հզոր և համեմատաբար էժան միջոց են Stable Diffusion-ի համար, որպեսզի հնարավորություն տրվի արտադրել բարձր որակի արդյունք, սակայն նման ալգորիթմական սալիկապատման ընդլայնումը, եթե այն չունի ավելի լայն, ավելի բարձր մակարդակի ուշադրության մեխանիզմ, կարող է չհամապատասխանել ակնկալվողին: ստանդարտների համար բովանդակության մի շարք տեսակների համար:
2. Մարդու վերջույթների հետ կապված խնդիրների լուծում
Stable Diffusion-ը չի համապատասխանում իր անվանը, երբ պատկերում է մարդու վերջույթների բարդությունը: Ձեռքերը կարող են պատահականորեն բազմապատկվել, մատները միաձուլվում են, երրորդ ոտքերը հայտնվում են անհարկի, իսկ գոյություն ունեցող վերջույթները անհետանում են առանց հետքի: Իր պաշտպանությունում Stable Diffusion-ը կիսում է խնդիրը իր կայուն ընկերների հետ, և, իհարկե, DALL-E 2-ի հետ:
Stable Diffusion երկրպագուները, ովքեր հուսով են, որ առաջիկա 1.5 անցակետը (մոդելի ավելի ինտենսիվ վարժեցված տարբերակը, բարելավված պարամետրերով) կլուծի վերջույթների շփոթությունը, ամենայն հավանականությամբ, հիասթափված կլինեն: Նոր մոդելը, որը կթողարկվի ք մոտ երկու շաբաթ, այժմ պրեմիերան է կայանում առևտրային stability.ai պորտալում երազանքի ստուդիա, որն օգտագործում է 1.5 լռելյայն, և որտեղ օգտվողները կարող են համեմատել նոր ելքը իրենց տեղական կամ այլ 1.4 համակարգերի արտապատկերումների հետ.
Ինչպես հաճախ է պատահում, տվյալների որակը կարող է լինել հիմնական նպաստող պատճառը:
Բաց կոդով տվյալների բազաները, որոնք սնուցում են պատկերների սինթեզի համակարգերը, ինչպիսիք են Stable Diffusion-ը և DALL-E 2-ը, կարող են բազմաթիվ պիտակներ տրամադրել ինչպես առանձին մարդկանց, այնպես էլ միջմարդկային գործողությունների համար: Այս պիտակները սիմբիոտիկ կերպով վերապատրաստվում են իրենց առնչվող պատկերների կամ պատկերների հատվածների հետ:
A լավ հիերարխիա Անհատական պիտակները և դասերը, որոնք նպաստում են մարդու ձեռքի պատկերմանը, նման կլինեն մարմին > ձեռք > ձեռք > մատներ > [ենթանշաններ + բթամատ] > [նիշի հատվածներ]> մատների եղունգներ.
Իրականում, սկզբնաղբյուրի պատկերները դժվար թե այդքան հետևողականորեն նշվեն ամբողջ տվյալների շտեմարանում, և չվերահսկվող պիտակավորման ալգորիթմները, հավանաբար, կդադարեն ավելի բարձր օրինակ՝ «ձեռքի» մակարդակը և թողնել ներքին պիքսելները (որոնք տեխնիկապես պարունակում են «մատի» տեղեկատվություն) որպես պիքսելների չպիտակավորված զանգված, որից կամայականորեն կբխեն հատկանիշները, և որոնք հետագայում կարող են դրսևորվել որպես ջղաձգվող տարր:
Այսպիսով, եթե թաքնված դիֆուզիոն մոդելը հասնում է այնքան, որքան ձեռք է տալիս ձեռքը, ապա գրեթե անկասկած, գոնե ձեռք կբերի այդ թևի վերջում, քանի որ arm> ձեռք նվազագույն անհրաժեշտ հիերարխիա է, որը բավականին բարձր է այն ամենի մեջ, ինչ ճարտարապետությունը գիտի «մարդու անատոմիայի» մասին:
Դրանից հետո «մատները» կարող են լինել ամենափոքր խմբավորումը, թեև կան ևս 14 ենթամասեր, որոնք պետք է հաշվի առնել մարդու ձեռքերը պատկերելիս:
Եթե այս տեսությունը հաստատվի, ապա իրական լուծում չկա՝ պայմանավորված ձեռքով ծանոթագրությունների համար նախատեսված բյուջեի բացակայությամբ և համարժեք արդյունավետ ալգորիթմների բացակայությամբ, որոնք կարող են ավտոմատացնել պիտակավորումը՝ միաժամանակ ստեղծելով սխալի ցածր մակարդակ: Փաստորեն, մոդելը ներկայումս կարող է հիմնվել թղթի վրա մարդու անատոմիական հետևողականության վրա՝ հաշվի առնելով այն տվյալների բազայի թերությունները, որոնց վրա վերապատրաստվել է:
Դրա հնարավոր պատճառներից մեկը չի կարող հենվել սրա վրա, վերջերս առաջարկեց Stable Diffusion Discord-ում այն է, որ մոդելը կարող է շփոթվել մատների ճիշտ քանակի հարցում, որը պետք է ունենա (իրատեսական) մարդու ձեռքը, քանի որ LAION-ից ստացված տվյալների բազան, որը սնուցում է այն, պարունակում է մուլտհերոսներ, որոնք կարող են ունենալ ավելի քիչ մատներ (ինչն ինքնին աշխատուժ խնայող դյուրանցում).
Եթե դա ճիշտ է, ապա միակ ակնհայտ լուծումը մոդելի վերապատրաստումն է, բացառելով ոչ իրատեսական մարդու վրա հիմնված բովանդակությունը, ապահովելով, որ բացթողումների իրական դեպքերը (այսինքն անդամահատվածները) պատշաճ կերպով պիտակավորված լինեն որպես բացառություններ: Միայն տվյալների մշակման կետից սա բավականին մարտահրավեր կլինի, հատկապես ռեսուրսների կարիք ունեցող համայնքի ջանքերի համար:
Երկրորդ մոտեցումը կլինի ֆիլտրերի կիրառումը, որոնք բացառում են նման բովանդակության (այսինքն՝ «ձեռքը երեք/հինգ մատով») դրսևորումը ցուցադրման ժամանակ, մոտավորապես այնպես, ինչպես OpenAI-ն, որոշակի չափով, ֆիլտրացված GPT-3 և DALL-E2, որպեսզի դրանց արդյունքը կարգավորվի՝ առանց աղբյուրի մոդելների վերապատրաստման կարիքի:
Այնուամենայնիվ, կրկին, սա կպահանջի պիտակներ, որոնք կարող են գոյություն չունենալ բոլոր ազդակիր պատկերների վրա՝ թողնելով մեզ նույն նյութատեխնիկական և բյուջետային մարտահրավերի առաջ:
Կարելի է պնդել, որ դեռ երկու ճանապարհ կա՝ խնդրին ավելի շատ տվյալներ տրամադրելը և երրորդ կողմի մեկնաբանման համակարգերի կիրառումը, որոնք կարող են միջամտել, երբ վերջնական օգտագործողին ներկայացվում են այստեղ նկարագրված տիպի ֆիզիկական կեղծիքներ (առնվազն, վերջինս OpenAI-ին կտրամադրի «մարմնի սարսափով» ռենդերի համար փոխհատուցում տրամադրելու մեթոդ, եթե ընկերությունը դրդված լիներ դա անել):
3: Անհատականացում
Stable Diffusion-ի ապագայի համար ամենահուզիչ հնարավորություններից մեկը վերանայված համակարգեր մշակող օգտատերերի կամ կազմակերպությունների հեռանկարն է. փոփոխություններ, որոնք թույլ են տալիս նախապես պատրաստված LAION ոլորտից դուրս բովանդակությունը ինտեգրվել համակարգին, իդեալական՝ առանց ամբողջ մոդելի վերապատրաստման անկառավարելի ծախսերի, կամ ռիսկի, որը բխում է, երբ մեծ ծավալի նոր պատկերներ վերապատրաստվում են գոյություն ունեցող, հասուն և ունակ նկարների համար: մոդել.
Համեմատությամբ. եթե երկու պակաս օժտված ուսանողներ միանան երեսուն ուսանողներից բաղկացած առաջադեմ դասարանին, նրանք կամ կձուլվեն և կհասնեն, կամ կձախողվեն որպես արտասովոր: երկու դեպքում էլ, դասի միջին կատարողականը հավանաբար չի ազդի: Եթե միանան 15 պակաս շնորհալի ուսանողներ, այնուամենայնիվ, ամբողջ դասարանի գնահատականի կորը, ամենայն հավանականությամբ, կտուժի:
Նմանապես, փոխհարաբերությունների սիներգիկ և բավականին նուրբ ցանցը, որը ստեղծվել է մոդելի կայուն և թանկ ուսուցման վրա, կարող է վտանգվել, որոշ դեպքերում արդյունավետորեն ոչնչացվել չափազանց նոր տվյալների պատճառով՝ նվազեցնելով մոդելի արտադրանքի որակը ամբողջ պլանում:
Սա հիմնականում այն է, երբ ձեր հետաքրքրությունը կայանում է նրանում, որ մոդելի կողմից փոխհարաբերությունների և իրերի հայեցակարգային ըմբռնումն ամբողջությամբ թալանելն է և այն յուրացնելը բացառիկ բովանդակության արտադրության համար, որը նման է ձեր ավելացրած լրացուցիչ նյութին:
Այսպիսով, ուսուցում 500,000 Simpsons շրջանակները գոյություն ունեցող Stable Diffusion անցակետում, ամենայն հավանականությամբ, ի վերջո, ձեզ ավելի լավ կդարձնեն Simpsons սիմուլյատոր, քան կարող էր առաջարկել սկզբնական կառուցումը, ենթադրելով, որ բավականաչափ լայն իմաստային հարաբերություններ գոյատևում են գործընթացը (այսինքն. Հոմեր Սիմփսոնը հոթդոգ է ուտում, որը կարող է պահանջել հոթ-դոգի մասին նյութեր, որոնք չկար ձեր լրացուցիչ նյութում, բայց արդեն գոյություն ունեին անցակետում), և ենթադրելով, որ դուք չեք ցանկանում հանկարծակի անցնել։ Simpsons բովանդակություն ստեղծելու համար Գրեգ Ռուտկովսկու առասպելական բնապատկեր – որովհետև վերապատրաստված ձեր մոդելի ուշադրությունը զանգվածաբար շեղվել է, և նախկինի պես լավ չի լինի նման բան անելու մեջ:
Դրա ուշագրավ օրինակն է waifu-դիֆուզիոն, որը հաջողությամբ հետմարզված 56,000 անիմե պատկերներ ավարտված և պատրաստված կայուն դիֆուզիոն անցակետում: Հոբբիստի համար դա դժվար հեռանկար է, սակայն, քանի որ մոդելի համար պահանջվում է նվազագույնը 30 ԳԲ VRAM, ինչը շատ ավելին է, քան հնարավոր է հասանելի լինի սպառողների մակարդակում NVIDIA-ի առաջիկա 40XX սերիայի թողարկումներում:
Կարելի է մեծ ջանք ծախսել Stable Diffusion անցակետերի նման «պատառաքաղների» վրա՝ միայն տեխնիկական պարտքի պատճառով: Պաշտոնական Discord-ի մշակողները արդեն նշել են, որ անցակետերի հետագա թողարկումները պարտադիր չէ, որ լինեն հետամնաց, նույնիսկ արագ տրամաբանությամբ, որը կարող է աշխատել նախորդ տարբերակի հետ, քանի որ նրանց հիմնական շահը հնարավոր լավագույն մոդելը ձեռք բերելն է, այլ ոչ թե աջակցելը: ժառանգական դիմումներ և գործընթացներ:
Հետևաբար, ընկերությունը կամ անհատը, որը որոշում է անցակետը բաժանել առևտրային ապրանքի, գործնականում հետդարձի ճանապարհ չունի. մոդելի նրանց տարբերակն այդ պահին «կոշտ պատառաքաղ» է և չի կարողանա օգուտներ քաղել stability.ai-ի հետագա թողարկումներից, ինչը բավականին պարտավորություն է:
Stable Diffusion-ի հարմարեցման ընթացիկ և ավելի մեծ հույսն է Տեքստային ինվերսիա, որտեղ օգտատերը մարզվում է փոքր բուռում CLIP- հավասարեցված պատկերներ:
Տեքստային ինվերսիայի առաջնային ակնհայտ սահմանափակումն այն է, որ առաջարկվում է շատ քիչ թվով պատկերներ՝ ընդամենը հինգը: Սա արդյունավետորեն ստեղծում է սահմանափակ միավոր, որը կարող է ավելի օգտակար լինել ոճի փոխանցման առաջադրանքների համար, այլ ոչ թե ֆոտոռեալիստական օբյեկտների տեղադրման համար:
Այնուամենայնիվ, ներկայումս փորձեր են տեղի ունենում տարբեր Կայուն դիֆուզիոն տարաձայնությունների շրջանակներում, որոնք օգտագործում են շատ ավելի մեծ թվով ուսուցման պատկերներ, և դեռ պետք է պարզել, թե որքան արդյունավետ կարող է լինել մեթոդը: Կրկին, տեխնիկան պահանջում է մեծ VRAM, ժամանակ և համբերություն:
Այս սահմանափակող գործոնների պատճառով մենք կարող ենք որոշ ժամանակ սպասել՝ տեսնելու Stable Diffusion-ի սիրահարների տեքստային ինվերսիայի ավելի բարդ փորձերը, և արդյոք այս մոտեցումը կարող է ձեզ «ներկայացնել պատկերի մեջ» այնպես, որ ավելի լավ տեսք ունենա, քան Photoshop-ի կտրում և տեղադրում` պահպանելով պաշտոնական անցակետերի ապշեցուցիչ ֆունկցիոնալությունը:
Առաջին անգամ հրապարակվել է 6 թվականի սեպտեմբերի 2022-ին։