stubbur InstantID: Núll-skot auðkenni-varðveita kynslóð á sekúndum - Unite.AI
Tengja við okkur

Artificial Intelligence

InstantID: Núll-skot auðkenni-varðveita kynslóð á sekúndum

mm

Útgefið

 on

AI-knún myndsköpunartækni hefur orðið vitni að ótrúlegri vexti á undanförnum árum allt frá því að stór texti í mynddreifingarlíkön eins og DALL-E, GLIDE, Stable Diffusion, Imagen, og fleira ruddist inn á sjónarsviðið. Þrátt fyrir þá staðreynd að gervigreind líkön sem mynda gervigreind hafa einstakan arkitektúr og þjálfunaraðferðir, þá deila þau öll sameiginlegan þungamiðju: sérsniðna og persónulega myndagerð sem miðar að því að búa til myndir með samkvæmri persónuauðkenni, myndefni og stíl á grundvelli tilvísunarmynda. Vegna ótrúlegrar sköpunargetu þeirra, hafa nútíma myndsköpun gervigreindarramma fundið forrit á sviðum þar á meðal myndfjör, sýndarveruleika, rafræn viðskipti, gervigreind andlitsmyndir og fleira. Hins vegar, þrátt fyrir ótrúlega skapandi getu sína, deila þessar rammar allir sameiginlega hindrun, meirihluti þeirra getur ekki búið til sérsniðnar myndir á meðan þær varðveita viðkvæmar auðkennisupplýsingar mannlegra hluta. 

Að búa til sérsniðnar myndir á sama tíma og flókin smáatriði eru varðveitt er afar mikilvægt, sérstaklega í andlitsverkefnum sem krefjast hágæða tryggðar og smáatriði, og blæbrigðaríkrar merkingarfræði í samanburði við almenn myndsköpunarverkefni sem einbeita sér fyrst og fremst að grófkornaðri áferð og litum. Ennfremur hefur persónulega myndgervingaramma á undanförnum árum eins og LoRA, DreamBooth, Textual Inversion og fleira fleygt verulega fram. Hins vegar eru persónuleg myndgerð gervigreind líkön enn ekki fullkomin til notkunar í raunheimum þar sem þau þurfa mikla geymsluþörf, þau þurfa margar tilvísunarmyndir og þau hafa oft langan fínstillingarferli. Á hinn bóginn, þó að núverandi aðferðir sem byggjast á auðkenningarinnfellingu krefjist aðeins einnar framvísunar, þá skortir þær annaðhvort samhæfni við opinberlega aðgengilegar forþjálfaðar gerðir, eða þær krefjast óhóflegs fínstillingarferlis yfir fjölmargar færibreytur, eða þær ná ekki að halda háu andlit trúmennsku. 

Til að takast á við þessar áskoranir og auka enn frekar getu myndsköpunar, í þessari grein munum við tala um InstantID, lausn sem byggir á dreifingarlíkönum fyrir myndagerð. InstantID er „plug and play“-eining sem sér um myndgerð og sérstillingu á viðeigandi hátt í ýmsum stílum með aðeins einni tilvísunarmynd og tryggir einnig mikla trú. Meginmarkmið þessarar greinar er að veita lesendum okkar ítarlegan skilning á tæknilegum undirstöðum og íhlutum InstantID rammans þar sem við munum hafa ítarlegt yfirlit yfir arkitektúr líkansins, þjálfunarferli og umsóknaraðstæður. Svo skulum við byrja.

InstantID: Núll-Shot Identity-Preserving Image Generation


Tilkoma texta í mynddreifingarlíkön hefur lagt verulega sitt af mörkum til framfara í myndsköpunartækni. Meginmarkmið þessara líkana er sérsniðin og persónuleg gerð og að búa til myndir með samræmdu efni, stíl og persónuauðkenni með því að nota eina eða fleiri tilvísunarmyndir. Hæfni þessara ramma til að búa til samræmdar myndir hefur skapað mögulega notkun í mismunandi atvinnugreinum, þar á meðal myndfjör, gervigreind andlitsmyndagerð, rafræn viðskipti, sýndarveruleika og aukinn veruleika og margt fleira. 

Hins vegar, þrátt fyrir ótrúlega hæfileika sína, standa þessar rammar frammi fyrir grundvallaráskorun: þeir eiga oft í erfiðleikum með að búa til sérsniðnar myndir sem varðveita flókin smáatriði mannlegs viðfangsefnis nákvæmlega. Það er athyglisvert að það er krefjandi verkefni að búa til sérsniðnar myndir með innri smáatriðum þar sem mannleg andlitssjálfsmynd krefst meiri tryggðar og smáatriðum ásamt háþróaðri merkingarfræði í samanburði við almenna hluti eða stíl sem einblína fyrst og fremst á liti eða grófkorna áferð. Núverandi texti í myndlíkön eru háð nákvæmum textalýsingum og þau eiga í erfiðleikum með að ná sterkri merkingarfræðilegri þýðingu fyrir sérsniðna myndgerð. Ennfremur bæta sumir stórir fyrirfram þjálfaðir textar í myndramma við staðbundnum ástandsstýringum til að auka stýranleikann, auðvelda fíngerða burðarstýringu með því að nota þætti eins og líkamsstellingar, dýptarkort, notendateiknaðar skissur, merkingarlega skiptingarkort og fleira. Hins vegar, þrátt fyrir þessar viðbætur og endurbætur, geta þessi ramma aðeins náð að hluta til tryggð myndarinnar sem myndast við viðmiðunarmyndina. 

Til að sigrast á þessum hindrunum einbeitir InstantID ramminn að samstundis varðveislu myndmyndunar og reynir að brúa bilið milli skilvirkni og nákvæmni með því að innleiða einfalda „plug and play“-einingu sem gerir rammanum kleift að sjá um sérsniðna mynd með því að nota aðeins eina andlitsmynd. en viðhalda mikilli trúmennsku. Ennfremur, til að varðveita andlitsauðkenni frá tilvísunarmynd, innleiðir InstantID ramma nýjan andlitskóðara sem heldur flóknum myndupplýsingum með því að bæta við veikum staðbundnum og sterkum merkingarskilyrðum sem leiðbeina myndsköpunarferlinu með því að innlima textaboð, tímamótamynd og andlitsmynd. . 

Það eru þrír eiginleikar sem aðgreina InstantID ramma frá núverandi texta til myndagerðar ramma. 

  • Samhæfni og stingahæfni: Í stað þess að þjálfa á fullum breytum UNet rammans, leggur InstantID ramma áherslu á að þjálfa léttan millistykki. Fyrir vikið er InstantID ramminn samhæfður og hægt að tengja við núverandi forþjálfaðar gerðir. 
  • Stillingarlaus: Aðferðafræði InstantID rammans útilokar kröfuna um fínstillingu þar sem það þarf aðeins eina áframhaldandi útbreiðslu til ályktunar, sem gerir líkanið mjög hagnýtt og hagkvæmt til að fínstilla. 
  • Superior árangur: InstantID ramminn sýnir mikinn sveigjanleika og tryggð þar sem hann er fær um að skila nýjustu frammistöðu með því að nota aðeins eina tilvísunarmynd, sambærilegt við þjálfunaraðferðir sem byggja á mörgum tilvísunarmyndum. 

Á heildina litið er hægt að flokka framlög InstantID ramma í eftirfarandi liðum. 

  1. InstantID ramminn er nýstárleg aðlögunaraðferð sem varðveitir auðkenni fyrir fyrirfram þjálfaða texta í mynddreifingarlíkön með það að markmiði að brúa bilið milli skilvirkni og tryggðar. 
  2. InstantID ramminn er samhæfður og hægt að tengja við sérsniðnar fínstilltar gerðir sem nota sama dreifingarlíkanið í arkitektúrnum sem gerir auðkennis varðveislu í fyrirfram þjálfuðum gerðum án aukakostnaðar. 

InstantID: Aðferðafræði og arkitektúr

Eins og áður hefur komið fram er InstantID ramma skilvirkur léttur millistykki sem gefur forþjálfuðum texta til mynddreifingarlíkönum auðkennisvörn áreynslulaust. 

Talandi um arkitektúrinn er InstantID ramminn byggður ofan á Stöðugt dreifingarlíkan, þekktur fyrir getu sína til að framkvæma dreifingarferlið með mikilli reikniskilvirkni í lágvíddu duldu rými í stað pixlarýmis með sjálfvirkum kóðara. Fyrir inntaksmynd kortleggur kóðarinn myndina fyrst í dulda framsetningu með niðursýnisstuðli og duldum víddum. Ennfremur, til að slíta eðlilega dreifðan hávaða með hávaðasömum duldum, ástandi og núverandi tímaþrepum, tekur dreifingarferlið upp UNet-einkennishluta. Skilyrðið er innfelling textaboða sem eru búnar til með því að nota fyrirfram þjálfaðan CLIP textakóðara. 

Ennfremur notar InstantID ramminn einnig ControlNet hluti sem er fær um að bæta svæðisstýringu við fyrirfram þjálfað dreifingarlíkan sem ástand sitt, sem nær langt út fyrir hefðbundna getu textaboða. ControlNet íhluturinn samþættir einnig UNet arkitektúrinn frá Stable Diffusion ramma með því að nota þjálfaða afritun UNet íhlutans. Eftirlíkingin af UNet íhlutnum er með núllsnúningslög innan miðjublokkanna og kóðarablokkanna. Þrátt fyrir líkindi þeirra, þá greinir ControlNet hluti sig frá Stable Diffusion líkaninu; þeir eru báðir ólíkir í síðari afgangsliðnum. ControlNet íhluturinn kóðar staðbundnar ástandsupplýsingar eins og stellingar, dýptarkort, skissur og fleira með því að bæta leifum við UNet blokkina og fellir síðan þessar leifar inn í upprunalega netið. 

InstantID ramminn sækir einnig innblástur frá IP-adapteri eða Image Prompt Adapter sem kynnir nýja nálgun til að ná fram myndskynjamöguleikum sem ganga samhliða textaboðum án þess að þurfa að breyta upprunalega textanum í myndlíkön. IP-adapter íhluturinn notar einnig einstaka aftengda krossathyglisstefnu sem notar viðbótar krossathyglislög til að fella inn myndeiginleikana á meðan aðrar færibreytur eru óbreyttar. 

Aðferðafræði

Til að gefa þér stutt yfirlit miðar InstantID ramminn að því að búa til sérsniðnar myndir með mismunandi stílum eða stellingum með því að nota aðeins eina tilvísunarauðkennismynd með mikilli tryggð. Eftirfarandi mynd gefur stutt yfirlit yfir InstantID ramma. 

Eins og sjá má hefur InstantID ramminn þrjá nauðsynlega þætti:

  1. Innfellingarhluti auðkennis sem fangar öflugar merkingarupplýsingar um andlitseinkenni á myndinni. 
  2. Létt innleidd eining með aftengdum krossathyglishluta til að auðvelda notkun myndar sem sjónræn hvetja. 
  3. IdentityNet hluti sem kóðar ítarlega eiginleika frá viðmiðunarmyndinni með því að nota viðbótar landstýringu. 

Innfelling auðkenni

Ólíkt núverandi aðferðum eins og FaceStudio, PhotoMaker, IP-Adapter og fleiru sem treysta á fyrirfram þjálfaðan CLIP myndkóðara til að draga út sjónrænar ábendingar, einbeitir InstantID ramminn að aukinni tryggð og sterkari merkingarfræðilegum smáatriðum í varðveislu auðkennisverkefnisins. Vert er að taka fram að eðlislægar takmarkanir CLIP íhlutans liggja fyrst og fremst í þjálfunarferli hans á veikt samræmdum gögnum sem þýðir að kóðuðu eiginleikar CLIP kóðara fanga fyrst og fremst víðtækar og óljósar merkingarupplýsingar eins og liti, stíl og samsetningu. Þrátt fyrir að þessir eiginleikar geti virkað sem almenn viðbót við innfellingu texta, henta þeir ekki fyrir nákvæm auðkennisvörsluverkefni sem leggja mikla áherslu á sterka merkingarfræði og mikla trúmennsku. Ennfremur hafa nýlegar rannsóknir á líkönum fyrir andlitsmynd, sérstaklega í kringum andlitsgreiningu, sýnt fram á skilvirkni andlitsmyndar í flóknum verkefnum, þar með talið endurgerð og greiningu á andliti. InstantID ramminn byggir á því sama og miðar að því að nýta fyrirfram þjálfað andlitslíkan til að greina og draga andlitsauðkenni innfellingar úr viðmiðunarmyndinni og leiðbeina líkaninu við myndmyndun. 

Myndabreytir

Geta til fyrirfram þjálfaðir texta í mynddreifingarlíkön í myndakvaðningarverkefnum eykur textaboðin verulega, sérstaklega fyrir aðstæður sem ekki er hægt að lýsa nægilega með textaboðunum. InstantID ramminn notar stefnu sem líkist þeirri sem IP-Adapter líkanið notar fyrir myndboð, sem kynnir létta aðlögunareiningu sem er parað með aftengdum krossathygli til að styðja myndir sem inntaksboð. Hins vegar, öfugt við grófstilltu CLIP-innfellingarnar, víkur InstantID-ramminn með því að nota auðkennisinnfellingar þar sem myndin hvetur til þess að reyna að ná merkingarfræðilega ríkri og blæbrigðaríkari skyndisamþættingu. 

IdentityNet

Þrátt fyrir að núverandi aðferðir séu færar um að samþætta myndkvaðninguna við textakvaðningu, heldur InstantID ramma því fram að þessar aðferðir bæti aðeins grófkorna eiginleika með samþættingarstigi sem er ófullnægjandi til að mynda auðkennisvarðveislu. Ennfremur, að bæta mynd- og textatáknum við í krossathyglislögum hefur beinlínis tilhneigingu til að veikja stjórn textatáknanna og tilraun til að auka styrk myndtáknanna gæti leitt til skerðingar á getu textatáknanna við klippingarverkefni. Til að bregðast við þessum áskorunum velur InstantID ramminn ControlNet, aðra eiginleika innfellingaraðferð sem notar landupplýsingar sem inntak fyrir stjórnanlegu eininguna, sem gerir henni kleift að viðhalda samræmi við UNet stillingarnar í dreifingarlíkönunum. 

InstantID ramminn gerir tvær breytingar á hefðbundnum ControlNet arkitektúr: fyrir skilyrt inntak velur InstantID ramminn 5 andlitslykilpunkta í stað fíngerðra OpenPose andlitslykilpunkta. Í öðru lagi notar InstantID ramminn auðkennisinnfellingar í stað textaboða sem skilyrði fyrir krossathyglislögin í ControlNet arkitektúrnum. 

Þjálfun og ályktun

Á þjálfunarstiginu fínstillir InstantID ramma færibreytur IdentityNet og myndbreytisins á meðan breytur fyrirfram þjálfaðs dreifingarlíkans frystir. Öll InstantID leiðslan er þjálfuð á mynd-textapörum sem innihalda mannleg viðfangsefni og notar þjálfunarmarkmið svipað því sem notað er í stöðugum dreifingarramma með verkefnasértækum myndskilyrðum. Hápunktur InstantID þjálfunaraðferðarinnar er aðskilnaður milli mynd- og texta-athyglislaga innan myndboðsmillistykkisins, val sem gerir InstantID ramma kleift að stilla þyngd þessara myndaðstæðna á sveigjanlegan og óháðan hátt og tryggja þannig markvissari og stýrðari ályktun og þjálfunarferli. 

InstantID: Tilraunir og niðurstöður

InstantID ramminn útfærir stöðuga dreifingu og þjálfar hana á LAION-Face, stórum opnum gagnasafni sem samanstendur af yfir 50 milljón mynd-textapörum. Að auki safnar InstantID ramma yfir 10 milljón mannsmyndum með sjálfvirkni sem myndast sjálfkrafa af BLIP2 líkaninu til að auka enn frekar gæði myndsköpunar. InstantID ramminn einbeitir sér fyrst og fremst að einstaklingsmyndum og notar fyrirfram þjálfað andlitslíkan til að greina og draga andlitsauðkenni innfellingar úr mannlegum myndum, og í stað þess að þjálfa uppskornu andlitsgagnasettin, þjálfar upprunalegu mannamyndirnar. Ennfremur, meðan á þjálfun stendur, frystir InstantID ramminn forþjálfaða texta í mynd líkanið og uppfærir aðeins færibreytur IdentityNet og Image Adapter. 

Aðeins mynd kynslóð

InstantID líkanið notar tóma vísbendingu til að leiðbeina myndvinnsluferlinu með því að nota aðeins tilvísunarmyndina og niðurstöðurnar án leiðbeininganna eru sýndar á eftirfarandi mynd. 

'Empty Prompt' kynslóð eins og sýnt er á myndinni hér að ofan sýnir getu InstantID ramma til að viðhalda ríkum merkingarlegum andlitseinkennum eins og sjálfsmynd, aldur og tjáningu. Hins vegar er rétt að hafa í huga að með því að nota tómar leiðbeiningar gæti ekki verið hægt að endurtaka niðurstöðurnar á öðrum merkingarfræði eins og kyni nákvæmlega. Ennfremur, í myndinni hér að ofan, nota dálkarnir 2 til 4 mynd og hvetja, og eins og sjá má sýnir myndin sem myndast ekki neina hnignun á textastýringargetu og tryggir einnig samkvæmni auðkenna. Að lokum nota dálkarnir 5 til 9 mynd, skyndi- og staðstýringu, sem sýnir fram á samhæfni líkansins við fyrirfram þjálfuð staðstýringarlíkön sem gerir InstantID líkaninu kleift að kynna staðstýringar á sveigjanlegan hátt með því að nota fyrirfram þjálfaðan ControlNet íhlut. 

Það er líka rétt að taka fram að fjöldi tilvísunarmynda hefur veruleg áhrif á myndina sem myndast, eins og sýnt er á myndinni hér að ofan. Þó InstantID ramma sé fær um að skila góðum árangri með einni tilvísunarmynd, framleiða margar tilvísunarmyndir betri gæði mynd þar sem InstantID rammi tekur meðaltal auðkennisinnfellinga sem myndkvaðningu. Áfram er nauðsynlegt að bera InstantID ramma saman við fyrri aðferðir sem búa til sérsniðnar myndir með einni tilvísunarmynd. Eftirfarandi mynd ber saman niðurstöður sem myndast af InstantID ramma og núverandi nýjustu líkönum fyrir sérsniðna myndgerð með einni tilvísun. 

Eins og sést er InstantID ramminn fær um að varðveita andlitseiginleika þökk sé innfellingu auðkennis ber í eðli sínu ríkar merkingarfræðilegar upplýsingar, svo sem sjálfsmynd, aldur og kyn. Það væri óhætt að segja að InstantID ramminn sé betri en núverandi ramma í sérsniðinni myndgerð þar sem það er fær um að varðveita mannlega sjálfsmynd á sama tíma og viðheldur stjórn og stílfræðilegum sveigjanleika. 

Final Thoughts

Í þessari grein höfum við talað um InstantID, lausn sem byggir á dreifingarlíkönum fyrir myndagerð. InstantID er „plug and play“-eining sem sér um myndgerð og sérstillingu á viðeigandi hátt í ýmsum stílum með aðeins einni tilvísunarmynd og tryggir einnig mikla trú. InstantID ramminn einbeitir sér að samstundis varðveislu myndmyndunar og reynir að brúa bilið á milli skilvirkni og nákvæmni með því að kynna einfalda plug and play einingu sem gerir rammanum kleift að sjá um sérsniðna mynd með því að nota aðeins eina andlitsmynd en viðhalda mikilli tryggð.

"Verkfræðingur að atvinnu, rithöfundur utanbókar". Kunal er tæknilegur rithöfundur með djúpa ást og skilning á gervigreind og ML, tileinkað því að einfalda flókin hugtök á þessum sviðum með grípandi og upplýsandi skjölum.