Følg os

Andersons vinkel

Kampen for Zero-Shot-tilpasning i generativ AI

mm
Timothy Chalomet erstatter Jack Nicholson i The Shining (1980), takket være det nye HyperLoRA-system. Kilde: https://arxiv.org/pdf/2503.16944

Hvis du vil placere dig selv i et populært billed- eller videogenereringsværktøj – men du ikke allerede er berømt nok til, at grundmodellen kan genkende dig – skal du træne en lav rang tilpasning (LoRA) model ved hjælp af en samling af dine egne billeder. Når først den er oprettet, tillader denne personlige LoRA-model den generative model at inkludere din identitet i fremtidige output.

Dette kaldes almindeligvis tilpasning inden for forskning i billed- og videosyntese. Det opstod først et par måneder efter fremkomsten af ​​Stable Diffusion i sommeren 2022 med Google Researchs drømmekabine projekt, der tilbyder tilpasningsmodeller med høj gigabyte i et lukket kildeskema, der snart blev tilpasset af entusiaster og frigivet til fællesskabet.

LoRA-modeller fulgte hurtigt efter og tilbød lettere træning og langt lettere filstørrelser, til minimale eller ingen omkostninger i kvalitet, og dominerede hurtigt tilpasningsscenen for Stable Diffusion og dens efterfølgere, senere modeller som f.eks. Flux, og nu nye generative videomodeller som Hunyuan video og Wan 2.1.

Skyl og gentag

Problemet er, som vi har bemærket før, at hver gang en ny model udkommer, skal der trænes en ny generation af LoRA'er, hvilket repræsenterer betydelig friktion på LoRA-producenter, som måske træner en række specialmodeller for kun at finde ud af, at en modelopdatering eller populær nyere model betyder, at de skal starte forfra.

Derfor er nulskudstilpasningstilgange blevet en stærk tråd i litteraturen på det seneste. I dette scenarie, i stedet for at skulle kurere et datasæt og træne din egen undermodel, leverer du blot et eller flere fotos af emnet, der skal injiceres i generationen, og systemet fortolker disse inputkilder til et blandet output.

Nedenfor ser vi, at udover ansigtsbytning er et system af denne type (her ved hjælp af PuLID) kan også inkorporere ID-værdier i stiloverførsel:

Eksempler på overførsel af ansigts-ID ved brug af PuLID-systemet. Kilde: https://github.com/ToTheBeginning/PuLID?tab=readme-ov-file

Eksempler på overførsel af ansigts-ID ved brug af PuLID-systemet. Kilde: https://github.com/ToTheBeginning/PuLID?tab=readme-ov-file

Mens udskiftning af et arbejdskrævende og skrøbeligt system som LoRA med en generisk adapter er en fantastisk (og populær) idé, den er også udfordrende; den ekstreme sans for detaljer og dækning, der opnås i LoRA-træningsprocessen, er meget vanskelig at efterligne i et enkelt forsøg. IP-adapter-stilmodel, som skal matche LoRAs detaljeringsniveau og fleksibilitet uden den forudgående fordel ved at analysere et omfattende sæt af identitetsbilleder.

HyperLoRA

Med dette i tankerne er der en interessant ny artikel fra ByteDance, der foreslår et system, der genererer faktisk LoRA-kode. på farten, som i øjeblikket er unik blandt zero-shot løsninger:

Indtast billeder til venstre. Lige for det, en fleksibel række af output baseret på kildebillederne, der effektivt producerer deepfakes af skuespillerne Anthony Hopkins og Anne Hathaway. Kilde: https://arxiv.org/pdf/2503.16944

Indtast billeder til venstre. Lige for det, en fleksibel række af output baseret på kildebillederne, der effektivt producerer deepfakes af skuespillerne Anthony Hopkins og Anne Hathaway. Kilde: https://arxiv.org/pdf/2503.16944

Papiret siger:

"Adapterbaserede teknikker såsom IP-Adapter fryser de grundlæggende modelparametre og anvender en plug-in-arkitektur for at muliggøre nul-skuds-inferens, men de udviser ofte en mangel på naturlighed og autenticitet, som ikke må overses i portrætsynteseopgaver.

"[Vi] introducerer en parameter-effektiv adaptiv genereringsmetode, nemlig HyperLoRA, der bruger et adaptivt plug-in-netværk til at generere LoRA-vægte, der kombinerer LoRAs overlegne ydeevne med nul-shot-kapaciteten i adapterskemaet.

"Gennem vores omhyggeligt designede netværksstruktur og træningsstrategi opnår vi personlig portrætgenerering med nul billeder (understøtter både enkelt- og flerbilledinput) med høj fotorealisme, nøjagtighed og redigerbarhed."

Det mest nyttige er, at systemet som trænet kan bruges med eksisterende KontrolNet, hvilket muliggør et højt niveau af specificitet i generation:

Timothy Chalomet gør en uventet munter optræden i The Shining (1980), baseret på tre inputbilleder i HyperLoRA.

Timothy Chalomet optræder uventet muntert i 'The Shining' (1980), baseret på tre inputfotos i HyperLoRA, hvor en ControlNet-maske definerer outputtet (i samspil med en tekstprompt).

Med hensyn til om det nye system nogensinde vil blive gjort tilgængeligt for slutbrugere, har ByteDance en rimelig rekord i denne henseende, efter at have udgivet den meget kraftfulde LatentSync læbe-synkronisering ramme, og har kun lige udgivet også Uendelig Dig rammer.

Negativt giver papiret ingen indikation af en hensigt om at udgive, og de træningsressourcer, der er nødvendige for at genskabe værket, er så ublu, at det ville være udfordrende for entusiastsamfundet at genskabe (som det gjorde med DreamBooth).

nyt papir er titlen HyperLoRA: Parameter-effektiv adaptiv generation til portrætsyntese, og kommer fra syv forskere på tværs af ByteDance og ByteDances dedikerede afdeling for intelligent skabelse.

Metode

Den nye metode anvender den stabile diffusionsmodel for latent diffusion (LDM) SDXL som grundmodel, selvom principperne synes anvendelige for diffusionsmodeller generelt (dog kan uddannelseskravene – se nedenfor – gøre det vanskeligt at anvende på generative videomodeller).

Træningsprocessen for HyperLoRA er opdelt i tre faser, der hver er designet til at isolere og bevare specifik information i det lærte vægte. Formålet med denne afgrænsede procedure er at forhindre identitetsrelevante træk i at blive forurenet af irrelevante elementer såsom tøj eller baggrund, samtidig med at der opnås hurtig og stabil konvergens.

Konceptuelt skema for HyperLoRA. Modellen er opdelt i 'Hyper ID-LoRA' for identitetstræk og 'Hyper Base-LoRA' for baggrund og tøj. Denne adskillelse reducerer funktionslækage. Under træning fryses SDXL-basen og indkoderne, og kun HyperLoRA-moduler opdateres. Ved udledning er det kun ID-LoRA, der kræves for at generere personlige billeder.

Konceptuelt skema for HyperLoRA. Modellen er opdelt i 'Hyper ID-LoRA' for identitetsfunktioner og 'Hyper Base-LoRA' for baggrund og tøj. Denne adskillelse reducerer funktionslækage. Under træning fryses SDXL-basen og encoderne, og kun HyperLoRA-moduler opdateres. Ved inferens kræves kun ID-LoRA for at generere personlige billeder.

Den første fase fokuserer udelukkende på at lære en 'Base-LoRA' (nederst til venstre i skemabilledet ovenfor), som fanger identitets-irrelevante detaljer.

For at håndhæve denne adskillelse slørede forskerne bevidst ansigtet i træningsbillederne, hvilket gjorde det muligt for modellen at hæfte sig på ting som baggrund, belysning og positur – men ikke identitet. Denne 'opvarmningsfase' fungerer som et filter, der fjerner mindre distraktioner, før identitetsspecifik læring begynder.

I anden fase, en ID-LoRA (øverst til venstre i skemabilledet ovenfor) introduceres. Her er ansigtsidentitet kodet ved hjælp af to parallelle veje: a CLIP Vision Transformer (KLIP ViT) for strukturelle funktioner og InsightFace AntelopeV2 encoder for mere abstrakte identitetsrepræsentationer.

Overgangstilgang

CLIP-funktioner hjælper modellen med at konvergere hurtigt, men risikerer overmontering, hvorimod antilope-indlejringer er mere stabile, men langsommere at træne. Derfor begynder systemet med at stole mere på CLIP og gradvist indfaser antilope for at undgå ustabilitet.

I den sidste fase er de CLIP-guidede opmærksomhedslag frosset helt. Kun de AntelopeV2-forbundne opmærksomhedsmoduler fortsætter med at træne, hvilket gør det muligt for modellen at forfine identitetsbevarelse uden at forringe troskaben eller almenheden af ​​tidligere lærte komponenter.

Denne trinvise struktur er i det væsentlige et forsøg på adskillelse. Identitets- og ikke-identitetstræk adskilles først og forfines derefter uafhængigt. Det er et metodisk svar på de sædvanlige fejltilstande for personalisering: identitetsdrift, lav redigerbarhed og overtilpasning til tilfældige funktioner.

Mens du vægter

Efter at CLIP ViT og AntelopeV2 har udtrukket både strukturelle og identitetsspecifikke træk fra et givet portræt, føres de opnåede træk derefter gennem en perceiver resampler (afledt af det førnævnte IP-Adapter-projekt) – et transformer-baseret modul, der kortlægger funktionerne til et kompakt sæt af koefficienter.

To separate resamplere bruges: en til at generere Base-LoRA-vægte (som koder for baggrunds- og ikke-identitetselementer) og en anden til ID-LoRA-vægte (som fokuserer på ansigtsidentitet).

Skema til HyperLoRA-netværket.

Skema til HyperLoRA-netværket.

Outputkoefficienterne kombineres derefter lineært med et sæt indlærte LoRA-basismatricer, hvilket producerer fulde LoRA-vægte uden behov for finjustere basismodellen.

Denne tilgang gør det muligt for systemet at generere personlige vægte helt på farten, kun ved hjælp af billedkodere og letvægtsprojektion, mens LoRA's evne til at modificere basismodellens adfærd direkte udnyttes.

Data og test

For at træne HyperLoRA brugte forskerne en delmængde af 4.4 millioner ansigtsbilleder fra LAION-2B datasæt (nu bedst kendt som datakilden for de originale 2022 stabile diffusionsmodeller).

InsightFace blev brugt til at bortfiltrere ikke-portrætansigter og flere billeder. Billederne blev derefter kommenteret med BLIP-2 billedtekstsystem.

Med hensyn til dataforøgelse, blev billederne tilfældigt beskåret omkring ansigtet, men altid fokuseret på ansigtsområdet.

De respektive LoRA-rækker skulle tilpasse sig den tilgængelige hukommelse i træningssetuppet. Derfor blev LoRA-rangeringen for ID-LoRA sat til 8, og rangeringen for Base-LoRA til 4, mens otte-trins gradientakkumulering blev brugt til at simulere en større batch størrelse end det faktisk var muligt på hardwaren.

Forskerne trænede modulerne Base-LoRA, ID-LoRA (CLIP) og ID-LoRA (identitetsindlejring) sekventielt til henholdsvis 20K, 15K og 55K iterationer. Under ID-LoRA-træning tog de stikprøver fra tre konditioneringsscenarier med sandsynligheder på 0.9, 0.05 og 0.05.

Systemet blev implementeret ved hjælp af PyTorch og Diffusers, og hele træningsprocessen kørte i cirka ti dage på 16 NVIDIA A100 GPU'er*.

ComfyUI-tests

Forfatterne byggede arbejdsgange i ComfyUI synteseplatform til at sammenligne HyperLoRA med tre rivaliserende metoder: Øjeblikkelig ID; den førnævnte IP-adapter, i form af IP-adapter-FaceID-Portræt rammer; og den ovenfor citerede PuLID. Konsistente frø, prompter og prøveudtagningsmetoder blev brugt på tværs af alle rammer.

Forfatterne bemærker, at Adapter-baserede (i stedet for LoRA-baserede) metoder generelt kræver lavere Klassificeringsfri vejledning (CFG) skalaer, hvorimod LoRA (inklusive HyperLoRA) er mere eftergivende i denne henseende.

Så for en retfærdig sammenligning brugte forskerne den open source SDXL finjusterede checkpoint-variant LEOSAMs Hej Verden på tværs af testene. For kvantitative tests Unsplash-50 billeddatasæt blev brugt.

Metrics

For at opnå et troskabsbenchmark målte forfatterne ansigtslighed ved hjælp af cosinusafstande mellem CLIP-billedindlejringer (CLIP-I) og separate identitetsindlejringer (ID Sim) udtrukket via CurricularFace, en model, der ikke bruges under træning.

Hver metode genererede fire hovedbilleder i høj opløsning pr. identitet i testsættet, med resultaterne derefter gennemsnittet.

Redigerbarhed blev vurderet i begge ved at sammenligne CLIP-I-score mellem output med og uden identitetsmodulerne (for at se, hvor meget identitetsbegrænsningerne ændrede billedet); og ved at måle CLIP billedtekstjustering (CLIP-T) på tværs af ti hurtige variationer, der dækker frisurer, tilbehør, tøjog baggrunde.

Forfatterne omfattede Arc2Face grundmodel i sammenligningerne – en baseline trænet på faste billedtekster og beskårne ansigtsområder.

For HyperLoRA blev to varianter testet: en med kun ID-LoRA-modulet og en anden med både ID- og Base-LoRA, hvor sidstnævnte blev vægtet til 0.4. Mens Base-LoRA forbedrede troskaben, begrænsede den en smule redigeringsmulighederne.

Resultater for den indledende kvantitative sammenligning.

Resultater for den indledende kvantitative sammenligning.

Af de kvantitative tests kommenterer forfatterne:

'Base-LoRA hjælper med at forbedre troskaben, men begrænser redigerbarheden. Selvom vores design afkobler billedfunktionerne i forskellige LoRA'er, er det svært at undgå at lække gensidigt. Således kan vi justere vægten af ​​Base-LoRA for at tilpasse os forskellige applikationsscenarier.

'Vores HyperLoRA (Fuld og ID) opnår den bedste og næstbedste ansigtstrohed, mens InstantID viser overlegenhed i ansigts-ID-lighed, men lavere ansigtstrohed.

"Begge disse målinger bør betragtes sammen for at evaluere nøjagtigheden, da ligheden mellem ansigts-ID er mere abstrakt, og ansigtsnøjagtigheden afspejler flere detaljer."

I kvalitative test kommer de forskellige afvejninger, der er involveret i det væsentlige forslag, frem (bemærk venligst, at vi ikke har plads til at gengive alle billederne for kvalitative resultater, og henvis læseren til kildepapiret for flere billeder i bedre opløsning):

Kvalitativ sammenligning. Fra top til bund var de prompter, der blev brugt: hvid skjorte og ulveører (se papiret for yderligere eksempler).

Kvalitativ sammenligning. Fra top til bund var de anvendte prompter: 'hvid skjorte' og 'ulveører' (se opgaven for yderligere eksempler).

Her kommenterer forfatterne:

'Skinnet af portrætter genereret af IP-Adapter og InstantID har tilsyneladende AI-genereret tekstur, som er lidt [overmættet] og langt fra fotorealisme.

'Det er en almindelig mangel ved Adapter-baserede metoder. PuLID forbedrer dette problem ved at svække indtrængen til basismodellen, overgå IP-adapter og InstantID, men stadig lider af sløring og mangel på detaljer.

"I modsætning hertil ændrer LoRA direkte basismodellens vægte i stedet for at introducere ekstra opmærksomhedsmoduler, hvilket normalt genererer meget detaljerede og fotorealistiske billeder."

Forfatterne hævder, at fordi HyperLoRA modificerer basismodelvægtene direkte i stedet for at stole på eksterne opmærksomhedsmoduler, bevarer den den ikke-lineære kapacitet af traditionelle LoRA-baserede metoder, hvilket potentielt giver en fordel i troskab og giver mulighed for forbedret indfangning af subtile detaljer såsom pupilfarve.

I kvalitative sammenligninger hævder artiklen, at HyperLoRAs layouts var mere sammenhængende og bedre afstemt med prompterne, og lignede dem produceret af PuLID, mens de var betydeligt stærkere end InstantID eller IP-Adapter (som lejlighedsvis ikke fulgte prompterne eller producerede unaturlige kompositioner).

Yderligere eksempler på ControlNet-generationer med HyperLoRA.

Yderligere eksempler på ControlNet-generationer med HyperLoRA.

Konklusion

Den konsekvente strøm af forskellige one-shot tilpasningssystemer i løbet af de sidste 18 måneder har nu fået en kvalitet af desperation. Meget få af tilbuddene har gjort et bemærkelsesværdigt fremskridt i forhold til det nyeste; og dem, der har avanceret det lidt, har en tendens til at have ublu træningskrav og/eller ekstremt komplekse eller ressourcekrævende slutningskrav.

Selvom HyperLoRAs eget træningsprogram er lige så svælgende som mange lignende nylige bidrag, ender mindst én med en model, der kan håndtere ad hoc tilpasning ud af kassen.

Fra artiklens supplerende materiale bemærker vi, at inferenshastigheden for HyperLoRA er bedre end IP-Adapter, men dårligere end de to andre tidligere metoder – og at disse tal er baseret på en NVIDIA V100 GPU, som ikke er typisk forbrugerhardware (selvom nyere 'indenlandske' NVIDIA GPU'er kan matche eller overgå V100's maksimale 32 GB VRAM).

Konkurrerende metoders inferenshastigheder i millisekunder.

Konkurrerende metoders inferenshastigheder i millisekunder.

Det er rimeligt at sige, at tilpasning af nulpunkter stadig er et uløst problem fra et praktisk synspunkt, da HyperLoRAs betydelige hardwarekrav uden tvivl er i modstrid med dens evne til at producere en virkelig langsigtet enkelt fundamentsmodel.

 

* Repræsenterer enten 640 GB eller 1280 GB VRAM, afhængigt af hvilken model der blev brugt (dette er ikke specificeret)

Først offentliggjort mandag den 24. marts 2025

Forfatter på maskinlæring, domænespecialist i menneskelig billedsyntese. Tidligere leder af forskningsindhold hos Metaphysic.ai.
Personlig side: martinanderson.ai
Kontakt: [e-mail beskyttet]
Twitter: @manders_ai