Tehisintellekt

Kontseptsiooniliugurid: täpne juhtimine LoRA-adapteritega difusioonimudelites

Ajakohastatud on Jaanuar 2, 2024

Tänu nende võimalustele tekst-pildiks difusioonimudelid on saanud kunstiringkondades tohutult populaarseks. Kuid praegustel mudelitel, sealhulgas tipptasemel raamistikel, on sageli raskusi genereeritud piltide visuaalsete kontseptsioonide ja atribuutide kontrolli säilitamisega, mis toob kaasa ebarahuldavaid väljundeid. Enamik mudeleid tugineb ainult tekstiviipadele, mis seab väljakutsed pidevate atribuutide, nagu ilmastiku intensiivsus, varjude teravus, näoilmed või inimese vanus, täpsel moduleerimisel. See muudab lõppkasutajate jaoks raskeks kohandada pilte vastavalt nende konkreetsetele vajadustele. Lisaks, kuigi need generatiivsed raamistikud toodavad kvaliteetseid ja realistlikke pilte, on need altid moonutustele, nagu kõverdatud näod või puuduvad sõrmed.

Nende piirangute ületamiseks on arendajad teinud ettepaneku kasutada tõlgendatavaid kontseptsiooni liugureid. Need liugurid lubavad lõppkasutajatele suuremat kontrolli visuaalsete atribuutide üle, täiustades kujutiste genereerimist ja redigeerimist hajutusmudelites. Difusioonimudelite kontseptsiooni liugurid töötavad, tuvastades parameetri suuna, mis vastab individuaalsele kontseptsioonile, minimeerides samal ajal häireid muude atribuutidega. Raamistik loob need liugurid näidispiltide või viipade komplekti abil, kehtestades nii tekstiliste kui ka visuaalsete kontseptsioonide jaoks juhised.

Lõppkokkuvõttes Concept Sliders kasutamine tekstist pildiks difusioonimudelid Selle tulemuseks võib olla kujutiste genereerimine minimaalse häiretasemega ja täiustatud kontroll lõppväljundi üle, suurendades samal ajal tajutavat realistlikkust, muutmata piltide sisu ja luues seeläbi realistlikke pilte. Selles artiklis käsitleme kontseptsiooni liugurite kasutamist teksti ja pildi raamistikes põhjalikumalt ja analüüsime, kuidas selle kasutamine võib anda parema kvaliteediga AI loodud pilte.

Sissejuhatus kontseptsiooni liuguritesse

Nagu varem mainitud, on praegustel teksti-pildiks levitamise raamistikel sageli raskusi genereeritud piltide visuaalsete kontseptsioonide ja atribuutide juhtimisega, mis viib ebarahuldavate tulemusteni. Veelgi enam, paljudel neist mudelitest on pidevate atribuutide moduleerimine keeruline, aidates veelgi kaasa ebarahuldavatele väljunditele. Concept Sliders võib aidata neid probleeme leevendada, andes sisuloojatele ja lõppkasutajatele parema kontrolli pildi loomise protsessi üle ja lahendada praeguste raamistike ees seisvaid väljakutseid.

Enamik praeguseid teksti-pildiks difusioonimudeleid tuginevad pildi atribuutide juhtimiseks otsesele tekstiviiba muutmisele. Kuigi see lähenemisviis võimaldab kujutise genereerimist, ei ole see optimaalne, kuna viipa muutmine võib pildi struktuuri drastiliselt muuta. Teine nende raamistike kasutatav lähenemisviis hõlmab post-hoc tehnikaid, mis pööravad difusiooniprotsessi ümber ja muudavad visuaalsete kontseptsioonide redigeerimiseks risttähelepanu. Post-hoc tehnikatel on aga piirangud, mis toetavad vaid piiratud arvu samaaegseid muudatusi ja nõuavad iga uue kontseptsiooni jaoks individuaalset sekkumisluba. Lisaks võivad need tekitada kontseptuaalset takerdumist, kui neid pole hoolikalt projekteeritud.

Seevastu Concept Sliders pakuvad tõhusamat lahendust piltide genereerimiseks. Neid kergeid ja hõlpsasti kasutatavaid adaptereid saab rakendada eelkoolitatud mudelitele, suurendades soovitud kontseptsioonide kontrolli ja täpsust ühe häirekäiguga minimaalse takerdumisega. Kontseptsiooniliugurid võimaldavad redigeerida ka visuaalseid kontseptsioone, mida tekstilised kirjeldused ei hõlma. See funktsioon eristab neid tekstiviipapõhistest redigeerimismeetoditest. Kuigi pildipõhised kohandamismeetodid võivad pildipõhiste kontseptsioonide jaoks tõhusalt märke lisada, on neid piltide redigeerimiseks keeruline rakendada. Seevastu kontseptsiooni liugurid võimaldavad lõppkasutajatel esitada väikese arvu paarispilte, mis määratlevad soovitud kontseptsiooni. Seejärel üldistavad liugurid seda kontseptsiooni ja rakendavad seda automaatselt teistele piltidele, eesmärgiga suurendada realistlikkust ja parandada moonutusi, näiteks kätes.

Kontseptsiooniliugurid püüavad õppida ja lahendada probleeme, mis on ühised nelja generatiivse AI ja difusiooniraamistiku kontseptsiooniga: pildi redigeerimine, juhispõhised meetodid, mudeli redigeerimine ja semantilised juhised.

Kujutiste redigeerimine

Praegused tehisintellekti raamistikud keskenduvad kas tingimusliku sisendi kasutamisele pildistruktuuri juhtimiseks või manipuleerivad lähtekujutise risttähelepanu sihtviibaga, et võimaldada ühe pildi redigeerimist teksti ja kujutise hajutamise raamistikes. Sellest tulenevalt saab neid lähenemisviise rakendada ainult üksikute piltide puhul ja need nõuavad ka iga pildi latentset optimeerimist, kuna geomeetriline struktuur muutub ajasammude kaupa viipade kaupa.

Juhendipõhised meetodid

Klassifikaatorivaba juhispõhiste meetodite kasutamine on näidanud nende võimet parandada loodud piltide kvaliteeti ja suurendada teksti-kujutise joondust. Lisades häirete ajal juhttermineid, parandab meetod difusiooniraamistike pärilikku piiratud koostist ja neid saab kasutada difusiooniraamistike ebaturvaliste kontseptsioonide juhtimiseks.

Mudeli redigeerimine

Concept Sliders kasutamist võib vaadelda ka kui mudeli redigeerimise tehnikat, mis kasutab madala taseme adapterit, et väljastada üks semantiline atribuut, mis teeb ruumi pidevaks juhtimiseks, mis joondub atribuudiga. Seejärel kasutatakse raamistiku isikupärastamiseks uute kontseptsioonide lisamiseks peenhäälestuspõhiseid kohandamismeetodeid. Lisaks pakub kohandatud hajutamise tehnika välja viisi risttähelepanu kihtide viimistlemiseks, et lisada uued visuaalsed kontseptsioonid eelkoolitatud difusioonimudelitesse. Vastupidi, tekstide hajutamise tehnika soovitab optimeerida manustamisvektorit, et aktiveerida mudeli võimalused ja viia raamistikku tekstilised kontseptsioonid.

Semantiline suund GAN-ides

Semantiliste atribuutidega manipuleerimine on generatiivsete võistlevate võrgustike üks peamisi atribuute, mille varjatud ruumitrajektoorid on enesejärelevalve viisil joondatud. Difusiooniraamistikes eksisteerivad need varjatud ruumitrajektoorid U-Neti arhitektuuri keskmistes kihtides ja difusiooniraamistike varjatud ruumide põhisuund hõlmab globaalset semantikat. Concept Sliders koolitavad otse spetsiaalsetele atribuutidele vastavaid madala asetusega alamruume ning saavad täpsed ja lokaliseeritud redigeerimisjuhised, kasutades globaalsete suundade optimeerimiseks teksti- või pildipaare.

Kontseptsiooniliugurid: arhitektuur ja töö

Difusioonimudelid ja LoRA või madala asetusega adapterid

Hajutusmudelid on sisuliselt generatiivsete tehisintellekti raamistike alamklass, mis toimib andmete sünteesimise põhimõttel difusiooniprotsessi ümberpööramise teel. Edasine difusiooniprotsess lisab andmetele algselt müra, seega toimub üleminek organiseeritud olekust täielikku Gaussi müra olekusse. Difusioonimudelite peamine eesmärk on muuta difusiooniprotsess ümber, vähendades kujutist järk-järgult ja proovides kujutise genereerimiseks juhuslikku Gaussi müra. Reaalmaailma rakendustes on difusiooniraamistike esmane eesmärk ennustada tegelikku müra, kui kogu Gaussi müra sisestatakse sisendina täiendavate sisenditega, nagu konditsioneerimine ja ajasamm.

LoRA ehk Low Rank Adapters tehnika dekomponeerib peenhäälestuse käigus kaaluvärskendused, et võimaldada suurte eelkoolitatud raamistike tõhusat kohandamist järgnevateks ülesanneteks. LoRA tehnika dekomponeerib eelkoolitatud mudelikihi kaaluvärskendused nii sisendi kui ka väljundi mõõtmete osas ning piirab värskenduse madala mõõtmega alamruumiga.

Kontseptsiooni liugurid

Concept Sliders'i esmane eesmärk on toimida lähenemisviisina LoRA-adapterite peenhäälestamiseks difusiooniraamistikus, et hõlbustada suuremat kontrolli kontseptsioonile suunatud piltide üle, ja sama on näidatud järgmisel pildil.

Sihtkontseptsioonidest lähtudes õpivad kontseptsiooni liugurid madala asetusega parameetrite juhiseid konkreetsete atribuutide väljenduse suurendamiseks või vähendamiseks. Mudeli ja selle sihtkontseptsiooni puhul on Concept Slidersi esmane eesmärk saada täiustatud mudel, mis muudab pildi atribuutide täiustamise ja mahasurumise tõenäosust, kui see sõltub sihtkontseptsioonist, et suurendada atribuutide täiustamise tõenäosust ja vähendada tõenäosust. atribuutide allasurumisest. Kasutades ümberparameetristamist ja Tweedie valemit, tutvustab raamistik ajas muutuvat müraprotsessi ja väljendab iga skoori müra vähendamise ennustusena. Veelgi enam, lahtiharutamise objektiiv peenhäälestab mooduleid Concept Slidersis, hoides samal ajal eelnevalt treenitud kaalud konstantsena, ja LoRA koostise käigus kasutusele võetud skaleerimistegurit muudetakse häirete ajal. Skaleerimistegur hõlbustab ka redigeerimise tugevuste reguleerimist ja muudab muudatused tugevamaks ilma raamistikku ümber õpetamata, nagu on näidatud järgmisel pildil.

Varem raamistike kasutatud redigeerimismeetodid hõlbustasid tugevamaid redigeerimisi, koolitades raamistikku suuremate juhistega ümber. Kuid skaleerimisteguri skaleerimine häirete ajal annab samad redigeerimistulemused, ilma et see suurendaks ümberõppe kulusid ja aega.

Visuaalsete kontseptsioonide õppimine

Kontseptsiooniliugurid on loodud viisil, mis võimaldab juhtida visuaalseid kontseptsioone, mida tekstiviibad ei suuda hästi määratleda, ja need liugurid kasutavad väikeseid andmekogumeid, mis on kas enne või pärast seotud, et neid kontseptsioone õpetada. Pildipaaride vaheline kontrast võimaldab liuguritel visuaalseid mõisteid õppida. Lisaks optimeerib Concept Slidersi treeningprotsess LoRA komponenti, mida rakendatakse nii edasi- kui ka tagasisuunas. Selle tulemusena joondub LoRA komponent suunaga, mis põhjustab visuaalseid efekte mõlemas suunas.

Kontseptsiooni liugurid: rakendamise tulemused

Toimivuse kasvu analüüsimiseks on arendajad hinnanud Concept Sliders kasutamist peamiselt Stabiilne difusioon XL, kõrge eraldusvõimega 1024-piksline raamistik koos täiendavate katsetega, mis viidi läbi raamistikus Stable Diffusion v1.4, kusjuures iga mudelit treenitakse 500 epohhi jaoks.

Tekstilise kontseptsiooni liugurid

Tekstipõhiste kontseptsiooni liugurite toimivuse hindamiseks valideeritakse see 30 tekstipõhise kontseptsiooni komplekti alusel ja meetodit võrreldakse kahe lähtetasemega, mis kasutavad kindla arvu ajasammude jaoks standardset tekstiviipa ja alustavad seejärel koostamist pildi juhtimiseks viipade lisamine. Nagu on näha järgmiselt jooniselt, saavutab Concept Sliders'i kasutamine pidevalt kõrgema CLIP-skoori ja LPIPS-i skoori pideva vähenemise võrreldes algse raamistikuga, kus pole Concept Slidersit.

Nagu ülaltoodud pildilt näha, hõlbustab Concept Sliders kasutamine soovitud atribuutide täpset redigeerimist pildi genereerimise protsessis, säilitades samal ajal pildi üldise struktuuri.

Visuaalse kontseptsiooni liugurid

Tekstist pildile hajutamise mudelitel, mis kasutavad ainult tekstiviipasid, on sageli raske säilitada suuremat kontrolli visuaalsete atribuutide, nagu näokarvad või silmade kuju, üle. Granuleeritud atribuutide parema kontrolli tagamiseks kasutavad kontseptsiooni liugurid valikulisi tekstijuhiseid, mis on seotud pildiandmete kogumitega. Nagu on näha alloleval joonisel, loovad Concept Sliders individuaalsed liugurid “silma suuruse” ja “kulmude kuju” jaoks, mis püüavad pildipaaride abil soovitud teisendusi.

Tulemusi saab veelgi täpsustada, lisades konkreetsed tekstid, nii et suund keskendub sellele näopiirkonnale ja loob sihitud atribuudi astmelise juhtimisega liugurid.

Liugurite koostamine

Concept Slidersi kasutamise üks peamisi eeliseid on selle komponeeritavus, mis võimaldab kasutajatel kombineerida mitut liugurit, et suurendada juhtimist, mitte keskenduda korraga ühele kontseptsioonile, mis võib olla tingitud kontseptsiooni liugurites kasutatavatest madala asetusega liugurite suundadest. . Lisaks, kuna Concept Sliders on kergekaalulised LoRA-adapterid, on neid lihtne jagada ja neid saab hõlpsasti katta. difusioonimudelid. Kasutajad saavad ka keerukate põlvkondade juhtimiseks korraga reguleerida mitut nuppu, laadides alla huvitavaid liugurikomplekte.

Järgmine pilt demonstreerib kontseptsiooni liugurite kompositsioonivõimalusi ja mitu liugurit koostatakse järk-järgult igas reas vasakult paremale, võimaldades seega läbida suuremõõtmelisi kontseptsiooniruume koos kontseptsioonide parema kontrolliga.

Pildikvaliteedi parandamine

Kuigi nüüdisaegsed teksti ja kujutise difusiooniraamistikud ja suuremahulised generatiivsed mudelid nagu Stabiilne difusioon XL mudelid on võimelised genereerima realistlikke ja kvaliteetseid pilte, nad kannatavad sageli kujutise moonutuste, näiteks uduste või mähitud objektide all, kuigi nende tipptasemel raamistike parameetrid on varustatud varjatud võimega genereerida kvaliteetset väljundit vähemate põlvkondadega. Kontseptsiooniliugurite kasutamise tulemuseks on vähemate moonutustega kujutiste genereerimine, avades nende mudelite tegelikud võimalused, tuvastades madala asetusega parameetrite suunad.

Käte kinnitamine

Piltide loomine realistliku välimusega kätega on difusiooniraamistike jaoks alati olnud takistuseks ja Concept Slidersi kasutamine võimaldab otseselt kontrollida käte moonutamist. Järgmisel pildil on näidatud käte fikseerimise kontseptsiooni liugurite kasutamise mõju, mis võimaldab raamistikul luua pilte realistlikuma välimusega kätega.

Liugurite parandamine

Concept Sliderite kasutamine ei saa mitte ainult anda realistlikuma välimusega käsi, vaid on näidanud ka oma potentsiaali raamistiku loodud piltide üldise realistlikkuse parandamisel. Concept Sliders tuvastab ka ühe madala asetusega parameetri suuna, mis võimaldab piltidel nihutada tavalisi moonutusprobleeme, ja tulemusi näidatakse järgmisel pildil.

Final Thoughts

Selles artiklis oleme rääkinud Concept Slidersist, lihtsast, kuid skaleeritavast uuest paradigmast, mis võimaldab tõlgendatavat kontrolli difusioonimudelites genereeritud väljundi üle. Kontseptsiooniliugurite kasutamise eesmärk on lahendada praeguse teksti ja kujutise hajutamise raamistike probleemid, millel on raske säilitada nõutavat kontrolli genereeritud kujutises sisalduvate visuaalsete kontseptsioonide ja atribuutide üle, mis sageli viib ebarahuldava väljundini. Peale selle on enamikul teksti ja kujutise difusioonimudelitest keeruline kujutise pidevaid atribuute moduleerida, mis lõppkokkuvõttes põhjustab sageli ebarahuldavaid väljundeid. Concept Sliders'i kasutamine võib võimaldada teksti ja kujutise hajutamise raamistikel neid probleeme leevendada ning anda sisuloojatele ja lõppkasutajatele paremad kontrollid piltide loomise protsessi üle ning lahendada praeguste raamistikega seotud probleeme.

Järgmisena

Miks Microsofti Orca-2 AI mudel on jätkusuutliku tehisintellekti jaoks oluline samm?

Ära jäta

Ride the Hype: AI sündmused lahe piirkonnas

Kunal Kejriwal

"Elukutselt insener, hingelt kirjanik". Kunal on tehniline kirjanik, kes armastab ja mõistab sügavalt AI-d ja ML-i ning on pühendunud nende valdkondade keerukate kontseptsioonide lihtsustamisele oma kaasahaarava ja informatiivse dokumentatsiooni kaudu.

Ühendage.AI

Kontseptsiooniliugurid: täpne juhtimine LoRA-adapteritega difusioonimudelites

Tehisintellekt

Kontseptsiooniliugurid: täpne juhtimine LoRA-adapteritega difusioonimudelites

Sisukord