Inteligjenca artificiale

UniTune: Teknika alternative e redaktimit nervor të imazhit të Google

Përditësuar on Dhjetor 9, 2022

Google Research, me sa duket, është duke sulmuar redaktimin e imazheve të bazuara në tekst nga një numër frontesh dhe, me sa duket, po pret të shohë se çfarë 'duhet'. Nxehtë në gjurmët e publikimit të kësaj jave të saj Letër magjike, gjigandi i kërkimit ka propozuar një metodë shtesë të bazuar në difuzionin latent për kryerjen e modifikimeve të pamundshme të bazuara në AI në imazhe nëpërmjet komandave të tekstit, këtë herë të quajtur UniTune.

Bazuar në shembujt e dhënë në projekt letër e re, UniTune ka arritur një shkallë të jashtëzakonshme të zbërthim i pozës dhe idesë semantike nga përmbajtja aktuale e imazhit të vështirë:

Komponimi i UniTune për përbërjen semantike është i jashtëzakonshëm. Vini re se si në rreshtin më të lartë të fotografive, fytyrat e dy njerëzve nuk janë shtrembëruar nga transformimi i jashtëzakonshëm në pjesën tjetër të imazhit burimor (djathtas). Burimi: https://arxiv.org/pdf/2210.09477.pdf

Siç do të kenë mësuar tashmë fansat e Stable Diffusion, aplikimi i modifikimeve në seksione të pjesshme të një fotografie pa ndryshuar negativisht pjesën tjetër të imazhit mund të jetë një operacion i ndërlikuar, ndonjëherë i pamundur. Ndonëse shpërndarjet e njohura si p.sh AUTOMATIKE1111 mund të krijojë maska për redaktime lokale dhe të kufizuara, procesi është i përdredhur dhe shpesh i paparashikueshëm.

Përgjigja e qartë, të paktën për një praktikues të vizionit kompjuterik, është të ndërthurni një shtresë të segmentimi semantik që është në gjendje të njohë dhe izolojë objektet në një imazh pa ndërhyrjen e përdoruesit dhe, në të vërtetë, ka pasur disa iniciativa të reja së fundmi përgjatë kësaj linje mendimi.

Një tjetër mundësi për mbylljen e operacioneve të rrëmujshme dhe të ngatërruara të redaktimit të imazheve nervore është të shfrytëzoni paratrajnimin me ndikim të gjuhëve kundërthënëse – imazhit të OpenAI (KLIP) moduli, i cili është në qendër të modeleve të difuzionit latent si DALL-E 2 dhe Stable Diffusion, për të vepruar si një filtër në pikën në të cilën një model tekst-në-imazh është gati për të dërguar një interpretim të interpretuar përsëri te përdoruesi . Në këtë kontekst, CLIP duhet të veprojë si një modul kujdestar dhe i kontrollit të cilësisë, duke refuzuar paraqitjet e keqformuara ose ndryshe të papërshtatshme. Kjo është gati për t'u krijuar (Lidhja e mosmarrëveshjes) në portalin e drejtuar nga API të DreamStudio të Stability.ai.

Megjithatë, meqenëse CLIP është padyshim fajtori dhe zgjidhja në një skenar të tillë (sepse në thelb informoi gjithashtu mënyrën se si u zhvillua imazhi), dhe meqenëse kërkesat e harduerit mund të tejkalojnë atë që ka të ngjarë të jetë e disponueshme në nivel lokal për një përdorues fundor, kjo qasje mund të mos jetë ideale.

Gjuha e ngjeshur

UniTune i propozuar në vend të kësaj 'akordon imët' një model ekzistues të difuzionit - në këtë rast, imazhin e vetë Google, megjithëse studiuesit deklarojnë se metoda është në përputhje me arkitekturat e tjera të difuzionit latent - në mënyrë që një shenjë unike të injektohet në të, e cila mund të thirret. duke e përfshirë atë në një mesazh teksti.

Në vlerë nominale, kjo tingëllon si Google kabinë e ëndrrave, aktualisht një obsesion mes fansave dhe zhvilluesve të Stable Diffusion, të cilët mund të injektojnë personazhe ose objekte të reja në një pikë kontrolli ekzistues, shpesh në më pak se një orë, bazuar në një pjesë të vogël të fotografive burimore; ose ndryshe si Përmbysja tekstuale, i cili krijon skedarë 'sidecar' për një pikë kontrolli, të cilat më pas trajtohen sikur të ishin trajnuar fillimisht për modelin dhe mund të përfitojnë nga burimet e mëdha të modelit duke modifikuar klasifikuesin e tij të tekstit, duke rezultuar në një skedar të vogël (krahasuar me minimumi 2 GB pika kontrolli të krasitura të DreamBooth).

Në fakt, pohojnë studiuesit, UniTune i hodhi poshtë të dyja këto qasje. Ata zbuluan se Teksti Inversioni hoqi shumë detaje të rëndësishme, ndërsa DreamBooth "Performoi më keq dhe zgjati më shumë" se zgjidhja mbi të cilën u vendosën më në fund.

Sidoqoftë, UniTune përdor të njëjtën qasje të përmbledhur semantike 'metaprompt' si DreamBooth, me ndryshime të trajnuara të thirrura nga fjalë unike të zgjedhura nga traineri, që nuk do të bien ndesh me asnjë term që ekziston aktualisht në një model publikimi të trajnuar me mundim.

'Për të kryer operacionin e redaktimit, ne mostojmë modelet e rregulluara mirë me kërkesën "[rare_tokens] edit_prompt" (p.sh. "beikkpic dy qen në një restorant" ose "beikkpic një minion").'

Procesi

Megjithëse është mistike pse dy letra pothuajse identike, për sa i përket funksionalitetit të tyre përfundimtar, duhet të mbërrijnë nga Google në të njëjtën javë, ekziston, pavarësisht nga një numër i madh ngjashmërish midis dy nismave, të paktën një ndryshim i qartë midis UniTune dhe Imagic - ky i fundit përdor udhëzime të gjuhës natyrore 'të pakompresuara' për të drejtuar operacionet e redaktimit të imazhit, ndërsa UniTune stërvitet me shenja unike të stilit DreamBooth.

Prandaj, nëse po redaktonit me Imagic dhe dëshironi të bëni një transformim të kësaj natyre…

Nga letra UniTune – UniTune vendos veten kundër kornizës së preferuar rivale të redaktimit nervor të Google, SDEdit. Rezultatet e UniTune janë në skajin e djathtë, ndërsa maska e vlerësuar shihet në imazhin e dytë nga e majta.

.. në Imagic, do të futeshit 'personi i tretë, i ulur në sfond, si një përbindësh i lezetshëm me gëzof'.

Komanda ekuivalente UniTune do të ishte 'Djalë në pjesën e pasme si [x]', Ku x është çdo fjalë e çuditshme dhe unike që lidhej me konceptin e stërvitur mirë të lidhur me karakterin e përbindëshit të mbuluar me qime.

Ndërsa një numër imazhesh futen ose në DreamBooth ose në Inversion Tekstual me qëllimin për të krijuar një abstraksion të stilit të rrejshëm që mund të komandohet në shumë poza, si UniTune ashtu edhe Imagic ushqejnë një imazh të vetëm në sistem - imazhin origjinal dhe të pacenuar.

Kjo është e ngjashme me mënyrën se si kanë funksionuar shumë nga mjetet e redaktimit të bazuara në GAN të viteve të fundit - duke konvertuar një imazh hyrës në kode latente në hapësirën latente të GAN dhe më pas duke adresuar ato kode dhe duke i dërguar ato në pjesë të tjera të latentit. hapësirë për modifikim (p.sh. futja e një fotografie të një personi të ri me flokë të errët dhe projektimi i saj përmes kodeve latente të lidhura me 'e vjetër' ose 'bjonde', etj.).

Megjithatë, rezultatet, në një model difuzioni, dhe me këtë metodë, janë mjaft befasuese të sakta në krahasim, dhe shumë më pak të paqarta:

Procesi i rregullimit të imët

Metoda UniTune në thelb dërgon imazhin origjinal përmes një modeli difuzioni me një sërë udhëzimesh se si duhet modifikuar, duke përdorur magazinat e mëdha të të dhënave të disponueshme të trajnuara në model. Në fakt, ju mund ta bëni këtë tani me Stable Diffusion's img2img funksionalitet – por jo pa shtrembërim ose në një farë mënyre ndryshimin e pjesëve të imazhit që do të preferonit të ruani.

Gjatë procesit UniTune, sistemi është bëj rregullim të imëtd, që do të thotë se UniTune e detyron modelin të rifillojë stërvitjen, me shumicën e shtresave të tij të pa ngrira (shih më poshtë). Në shumicën e rasteve, rregullimi i imët do të ndikojë në të gjithë i përgjithshëm vlerat e humbjes së një modeli me performancë të lartë të fituar me vështirësi në favor të injektimit ose rafinimit të një aspekti tjetër që dëshirohet të krijohet ose përmirësohet.

Megjithatë, me UniTune duket se kopja e modelit që është përdorur, megjithëse mund të peshojë disa gigabajt ose më shumë, do të trajtohet si një 'lëvore' e kolateralit të disponueshëm dhe do të hidhet poshtë në fund të procesit, pasi i ka shërbyer një qëllimi të vetëm. Ky lloj i tonazhit të rastësishëm të të dhënave po bëhet një krizë e përditshme e ruajtjes për fansat e DreamBooth, modelet e tyre, edhe kur krasiten, nuk janë më pak se 2 GB për subjekt.

Ashtu si me Imagic, akordimi kryesor në UniTune ndodh në dy nga tre shtresat e poshtme në Imagen (baza 64px, 64px>256px dhe 256px>1024px). Ndryshe nga Imagic, studiuesit shohin një vlerë të mundshme në optimizimin e akordimit edhe për këtë shtresë të fundit dhe më të madhe me super-rezolucion (megjithëse nuk e kanë provuar ende).

Për shtresën më të ulët 64 pikselë, modeli është i njëanshëm drejt imazhit bazë gjatë stërvitjes, me çifte të shumëfishta imazhi/teksti të futura në sistem për 128 përsëritje në një madhësi grupi prej 4, dhe me Adafaktor si funksioni i humbjes, që funksionon me një normë mësimi prej 0.0001. Edhe pse kodues T5 vetëm ngrihet gjatë këtij rregullimi të imët, ngrihet gjithashtu gjatë trajnimit parësor të Imagen

Operacioni i mësipërm përsëritet më pas për shtresën 64>256 px, duke përdorur të njëjtën procedurë të rritjes së zhurmës të përdorur në trajnimin origjinal të Imagen.

mostër

Ka shumë metoda të mundshme kampionimi me anë të të cilave ndryshimet e bëra mund të nxirren nga modeli i rregulluar mirë, duke përfshirë Udhëzimin pa Klasifikues (CFG), një shtyllë gjithashtu e Difuzionit të Qëndrueshëm. CFG në thelb përcakton masën në të cilën modeli është i lirë të 'ndjekojë imagjinatën e tij' dhe të eksplorojë mundësitë e interpretimit - ose përndryshe, në cilësime më të ulëta, masën në të cilën duhet t'i përmbahet të dhënave të burimit të hyrjes dhe të bëjë ndryshime më pak gjithëpërfshirëse ose dramatike. .

Ashtu si Inversioni Tekst (pak më pak me DreamBooth, UniTune është i përshtatshëm për të aplikuar stile grafike të dallueshme në imazhet origjinale, si dhe për modifikime më fotorealiste.

Ashtu si Inversioni Textual (pak më pak me DreamBooth), UniTune është i përshtatshëm për të aplikuar stile grafike të dallueshme në imazhet origjinale, si dhe për modifikime më fotorealiste.

Studiuesit gjithashtu eksperimentuan me SDEditTeknika e 'fillimit të vonë', ku sistemi inkurajohet të ruajë detajet origjinale duke qenë vetëm pjesërisht 'zhurmë' që në fillim, por më tepër duke ruajtur karakteristikat e tij thelbësore. Megjithëse studiuesit e përdorën këtë vetëm në shtresat më të ulëta (64 px), ata besojnë se mund të jetë një teknikë e dobishme shtesë e kampionimit në të ardhmen.

Studiuesit gjithashtu shfrytëzuan prompt-to-prompt si një teknikë shtesë e bazuar në tekst për të kushtëzuar modelin:

"Në cilësimin "prompt to prompt", ne zbuluam se një teknikë që ne e quajmë "Udhëzimi i shpejtë" është veçanërisht e dobishme për të akorduar besnikërinë dhe ekspresivitetin.

'Udhëzimi i shpejtë është i ngjashëm me udhëzimin pa klasifikues, përveç se vija bazë është një kërkesë e ndryshme në vend të modelit të pakushtëzuar. Kjo e drejton modelin drejt deltës ndërmjet dy prompteve.'

Prompt-to-prompt në UniTune, duke izoluar në mënyrë efektive zonat për të ndryshuar.

Megjithatë, udhëzimet e menjëhershme, thonë autorët, nevojiteshin vetëm herë pas here në rastet kur CFG nuk arrinte të merrte rezultatin e dëshiruar.

Një tjetër qasje e re e kampionimit që u ndesh gjatë zhvillimit të UniTune ishte interpolimi, ku zonat e imazhit janë mjaft të dallueshme sa që imazhi origjinal dhe ai i ndryshuar janë shumë të ngjashëm në përbërje, duke lejuar që të përdoret një interpolim më 'naiv'.

Interpolimi mund t'i bëjë të tepërta proceset me përpjekje më të larta të UniTune në rastet kur zonat që do të transformohen janë diskrete dhe të kufizuara mirë.

Autorët sugjerojnë se interpolimi potencialisht mund të funksionojë aq mirë, për një numër të madh imazhesh të burimit të synuar, saqë mund të përdoret si një cilësim i paracaktuar, dhe vëzhgojnë gjithashtu se ai ka fuqinë për të kryer transformime të jashtëzakonshme në rastet kur okluzionet komplekse nuk bëjnë duhet të negociohet me metoda më intensive.

UniTune mund të kryejë modifikime lokale me ose pa maska redaktimi, por gjithashtu mund të vendosë në mënyrë të njëanshme se ku të pozicionohen modifikimet, me një kombinim të pazakontë të fuqisë interpretuese dhe esencializimit të fuqishëm të të dhënave hyrëse të burimit:

Në imazhin më të lartë në kolonën e dytë, UniTune, i ngarkuar me futjen e një 'treni të kuq në sfond' e ka vendosur atë në një pozicion të përshtatshëm dhe autentik. Vini re në shembujt e tjerë se si ruhet integriteti semantik i imazhit burim edhe në mes të ndryshimeve të jashtëzakonshme në përmbajtjen e pikselit dhe stilet thelbësore të imazheve.

gjendje latente

Megjithëse përsëritja e parë e çdo sistemi të ri do të jetë e ngadaltë, dhe megjithëse është e mundur që përfshirja e komunitetit ose angazhimi i korporatës (zakonisht nuk janë të dyja) përfundimisht do të përshpejtojnë dhe optimizojnë një rutinë të rëndë me burime, si UniTune ashtu edhe Imagic po kryejnë disa manovra mjaft të mëdha të mësimit të makinerive për të krijuar këto modifikime të mahnitshme dhe është e diskutueshme deri në çfarë mase një proces i tillë i uritur për burime mund të zvogëlohet ndonjëherë në përdorimin e brendshëm, në vend të aksesit të drejtuar nga API (megjithëse kjo e fundit mund të jetë më e dëshirueshme për Google ).

Për momentin, udhëtimi vajtje-ardhje nga hyrja në rezultat është rreth 3 minuta në një GPU T4, me rreth 30 sekonda shtesë për përfundimin (sipas çdo rutine konkluzion). Autorët pranojnë se kjo është vonesë e lartë dhe vështirë se kualifikohet si 'interaktive', por ata gjithashtu vërejnë se modeli qëndron i disponueshëm për modifikime të mëtejshme pasi të akordohet fillimisht, derisa përdoruesi të përfundojë me procesin, i cili shkurton kohën për modifikim. .

Botuar për herë të parë më 21 tetor 2022.

Temat e ngjashme:Google sinteza e imazhit hulumtim

E rradhes

AI në bursë: A është më mirë se njerëzit?

Mos e humbas

Zgjidhja unike e DALL-E 2 për kuptimet e dyfishta

Martin Anderson

Shkrimtar për mësimin e makinerive, inteligjencën artificiale dhe të dhënat e mëdha.
Faqja personale: martinanderson.ai
Kontaktoni: [email mbrojtur]
Twitter: @manders_ai

Bashkohu.AI

UniTune: Teknika alternative e redaktimit nervor të imazhit të Google

Inteligjenca artificiale