Andersons hoek

De Strijd voor Zero-Shot Aanpassing in Generatieve AI

Published March 24, 2025

Updated April 26, 2026

Martin Anderson

Timothy Chalomet replaces Jack Nicholson in The Shining (1980), thanks to the new HyperLoRA system. Source: https://arxiv.org/pdf/2503.16944

Als je jezelf in een populaire afbeelding- of videogeneratie-tool wilt plaatsen – maar je bent nog niet beroemd genoeg voor het foundation model om je te herkennen – moet je een low-rank adaptation (LoRA) model trainen met een collectie van je eigen foto’s. Zodra dit persoonlijke LoRA-model is gemaakt, stelt het de generatieve model in staat om je identiteit op te nemen in toekomstige uitvoer.

Dit wordt gewoonlijk aanpassing genoemd in de beeld- en videosyntheseronderzoekssector. Het ontstond een paar maanden na de komst van Stable Diffusion in de zomer van 2022, met Google Research’s DreamBooth project dat hoge gigabyte-aanpassingsmodellen aanbood, in een gesloten bron schema dat later werd aangepast door enthousiastelingen en vrijgegeven aan de gemeenschap.

LoRA-modellen volgden snel en boden gemakkelijker training en veel lichtere bestandsgroottes, met minimale of geen kwaliteitsverlies, en domineerden snel de aanpassingsscène voor Stable Diffusion en zijn opvolgers, latere modellen zoals Flux, en nu nieuwe generatieve videomodellen zoals Hunyuan Video en Wan 2.1.

Herhaling

Het probleem is, zoals we eerder hebben opgemerkt, dat elke keer dat een nieuw model wordt uitgebracht, er een nieuwe generatie LoRA’s getraind moet worden, wat aanzienlijke wrijving voor LoRA-producers vertegenwoordigt, die mogelijk een reeks aangepaste modellen trainen, alleen om te ontdekken dat een modelupdate of een populairder model betekent dat ze opnieuw moeten beginnen.

Daarom zijn zero-shot aanpassingsbenaderingen een sterke streng in de literatuur geworden. In dit scenario hoeft u in plaats van een dataset te cureren en uw eigen submodel te trainen, alleen een of meer foto’s van het onderwerp dat in de generatie moet worden geïnjecteerd, en de systemen interpreteren deze invoerbronnen in een samengestelde uitvoer.

Hieronder zien we dat, naast gezichtsverwisseling, een systeem van dit type (hier met PuLID) ook ID-waarden in stijltransfer kan opnemen:

Voorbeelden van gezichts-ID-overdracht met het PuLID-systeem. Source: https://github.com/ToTheBeginning/PuLID?tab=readme-ov-file

Terwijl het vervangen van een arbeidsintensief en broos systeem zoals LoRA met een generische adapter een geweldig (en populair) idee is, is het ook uitdagend; de extreme aandacht voor detail en dekking die wordt behaald in het LoRA-trainingsproces is heel moeilijk na te bootsen in een one-shot IP-Adapter-stijl model, dat LoRA’s niveau van detail en flexibiliteit moet evenaren zonder het voordeel van het analyseren van een uitgebreide set identiteitsafbeeldingen.

HyperLoRA

Met dit in gedachten is er een interessant nieuw artikel van ByteDance dat een systeem voorstelt dat daadwerkelijk LoRA-code op de vlieg genereert, wat momenteel uniek is onder zero-shot oplossingen:

Links, invoerbeeld. Rechts daarvan, een flexibele reeks uitvoer op basis van de bronafbeeldingen, waardoor diepe vervalsingen van acteurs Anthony Hopkins en Anne Hathaway worden gegenereerd. Source: https://arxiv.org/pdf/2503.16944

Het artikel vermeldt:

‘Adapter-gebaseerde technieken zoals IP-Adapter bevriezen de parameters van het basismodel en gebruiken een plug-in-architectuur om zero-shot-inferentie mogelijk te maken, maar ze vertonen vaak een gebrek aan naturaliteit en authenticiteit, die niet mogen worden genegeerd in portretsynthesetaak.

‘[We] introduceren een parameter-efficiënte adaptieve generatiemethode, genaamd HyperLoRA, die een adaptieve plug-in-netwerk gebruikt om LoRA-gewichten te genereren, waardoor de superieure prestaties van LoRA worden gecombineerd met de zero-shot-mogelijkheid van de adapter-schema.

‘Door onze zorgvuldig ontworpen netwerkstructuur en trainingsstrategie bereiken we zero-shot-persoonlijke portretgeneratie (ondersteuning voor zowel enkele als meerdere beeldinvoer) met hoge fotorealisme, geloofwaardigheid en bewerkbaarheid.’

Meestal kan het systeem, zoals getraind, worden gebruikt met bestaande ControlNet, waardoor een hoog niveau van specificiteit in generatie mogelijk wordt:

Timothy Chalomet maakt een onverwacht vrolijke verschijning in ‘The Shining’ (1980), op basis van drie invoerfoto’s in HyperLoRA, met een ControlNet-masker dat de uitvoer definieert (in combinatie met een tekstprompt).

Wat betreft de vraag of het nieuwe systeem ooit beschikbaar zal worden gesteld aan eindgebruikers, heeft ByteDance een redelijke staat van dienst op dit gebied, aangezien ze het zeer krachtige LatentSync lip-sync-framework hebben uitgebracht, en onlangs ook het InfiniteYou framework.

Negatief gezien geeft het artikel geen indicatie van een intentie om het uit te brengen, en de benodigde trainingsbronnen om het werk te recreëren zijn zo exorbitant dat het een uitdaging zou zijn voor de enthousiastelingengemeenschap om het te recreëren (zoals ze dat met DreamBooth deden).

Het nieuwe artikel heet HyperLoRA: Parameter-Efficiënte Adaptieve Generatie voor Portretsynthese, en komt van zeven onderzoekers uit ByteDance en ByteDance’s gewijd aan Intelligent Creation-afdeling.

Methode

De nieuwe methode gebruikt het Stable Diffusion latent diffusie model (LDM) SDXL als basismodel, hoewel de principes toepasbaar lijken op diffusiemodellen in het algemeen (hoewel de trainingsvereisten – zie hieronder – het moeilijk kunnen maken om het toe te passen op generatieve videomodellen).

De trainingsprocedure voor HyperLoRA wordt onderverdeeld in drie fasen, elk ontworpen om specifieke informatie in de geleerde gewichten te isoleren en te behouden. Het doel van deze afgesloten procedure is om te voorkomen dat identiteitsrelevante functies worden verontreinigd door irrelevante elementen zoals kleding of achtergrond, terwijl tegelijkertijd snelle en stabiele convergentie wordt bereikt.

Conceptueel schema voor HyperLoRA. Het model is opgesplitst in ‘Hyper ID-LoRA’ voor identiteitsfuncties en ‘Hyper Base-LoRA’ voor achtergrond en kleding. Deze scheiding vermindert functielekage. Tijdens de training worden de SDXL-basis en encoders bevroren, en alleen HyperLoRA-modules worden bijgewerkt. Bij inferentie is alleen ID-LoRA nodig om persoonlijke beelden te genereren.

De eerste fase richt zich volledig op het leren van een ‘Base-LoRA’ (linksonder in schema-afbeelding hierboven), die identiteitsirrelevante details vastlegt.

Om deze scheiding af te dwingen, hebben de onderzoekers de gezichten in de trainingsbeelden expres vervaagd, waardoor het model kon vasthaken aan dingen zoals achtergrond, verlichting en pose – maar niet identiteit. Deze ‘opwarmfase’ fungeert als een filter, waardoor lage niveau-storende factoren worden verwijderd voordat identiteitsspecifiek leren begint.

In de tweede fase wordt een ‘ID-LoRA’ (bovenlinks in schema-afbeelding hierboven) geïntroduceerd. Hier wordt de gezichtsidentiteit gecodeerd met behulp van twee parallelle paden: een CLIP Vision Transformer (CLIP ViT) voor structurele functies en de InsightFace AntelopeV2 encoder voor meer abstracte identiteitsrepresentaties.

Overgangsbenadering

CLIP-functies helpen het model snel te convergeren, maar lopen het risico overfitting, terwijl Antelope-embeddings stabielere zijn maar langzamer trainen. Daarom begint het systeem met een zwaardere afhankelijkheid van CLIP en faset Antelope langzaam in, om instabiliteit te voorkomen.

In de laatste fase worden de CLIP-geleide aandachtlaag bevroren. Alleen de AntelopeV2-gekoppelde aandachtmodules worden verder getraind, waardoor het model identiteitsbehoud kan verfijnen zonder de geloofwaardigheid of generaliteit van eerder geleerde componenten te verslechteren.

Deze gefaseerde structuur is in wezen een poging tot disentanglement. Identiteits- en niet-identiteitsfuncties worden eerst gescheiden en vervolgens onafhankelijk verfijnd. Het is een methodische reactie op de gebruikelijke foutmodi van personalisatie: identiteitsverschuiving, lage bewerkbaarheid en overfitting op incidentele functies.

Terwijl u wacht

Nadat CLIP ViT en AntelopeV2 zowel structurele als identiteitspecifieke functies van een gegeven portret hebben geëxtraheerd, worden de verkregen functies doorgegeven aan een perceiver resampler (afgeleid van het eerder genoemde IP-Adapter-project) – een transformer-gebaseerd module dat de functies kaart naar een compacte set van coëfficiënten.

Twee afzonderlijke resamplers worden gebruikt: een voor het genereren van Base-LoRA-gewichten (die achtergrond en niet-identiteitsfuncties coderen) en een voor ID-LoRA-gewichten (die zich richten op gezichtsidentiteit).

Schema voor het HyperLoRA-netwerk.

De uitvoercoëfficiënten worden vervolgens lineair gecombineerd met een set van geleerde LoRA-basismatrices, waardoor volledige LoRA-gewichten worden gegenereerd zonder dat het basismodel fijn moet worden afgesteld.

Deze benadering stelt het systeem in staat om persoonlijke gewichten geheel op de vlieg te genereren, met behulp van alleen beeldencoders en lichtgewichtprojectie, terwijl het nog steeds LoRA’s mogelijkheid om het basismodelgedrag rechtstreeks te wijzigen, benut.

Gegevens en tests

Om HyperLoRA te trainen, gebruikten de onderzoekers een subset van 4,4 miljoen gezichtsbeelden uit de LAION-2B dataset (nu het beste bekend als de gegevensbron voor de oorspronkelijke 2022 Stable Diffusion-modellen).

InsightFace werd gebruikt om niet-portretgezichten en meerdere beelden te filteren. De beelden werden vervolgens geannoteerd met het BLIP-2 onderschriftingsysteem.

In termen van gegevensverrijking werden de beelden willekeurig uitgesneden rond het gezicht, maar altijd gefocust op het gezichtsgebied.

De respectieve LoRA-rangen moesten zich aanpassen aan het beschikbare geheugen in de trainingsopstelling. Daarom werd de LoRA-rang voor ID-LoRA ingesteld op 8 en de rang voor Base-LoRA op 4, terwijl achtstaps gradientaccumulatie werd gebruikt om een grotere batchgrootte te simuleren dan feitelijk mogelijk was op de hardware.

De onderzoekers trainden de Base-LoRA-, ID-LoRA- (CLIP-) en ID-LoRA- (identiteitsembeddings-) modules opeenvolgend voor 20K, 15K en 55K iteraties. Tijdens ID-LoRA-training werden drie conditioneringsscenario’s bemonsterd met waarschijnlijkheden van 0,9, 0,05 en 0,05.

Het systeem werd geïmplementeerd met PyTorch en Diffusers, en het volledige trainingsproces duurde ongeveer tien dagen op 16 NVIDIA A100 GPU’s*.

ComfyUI-tests

De auteurs bouwden workflows in de ComfyUI syntheseplatform om HyperLoRA te vergelijken met drie rivaliserende methoden: InstantID; de eerder genoemde IP-Adapter, in de vorm van het IP-Adapter-FaceID-Portrait framework; en het eerder genoemde PuLID. Consistente zaden, prompts en bemonsteringsmethoden werden gebruikt voor alle frameworks.

De auteurs merken op dat adapter-gebaseerde (in plaats van LoRA-gebaseerde) methoden over het algemeen lagere Classifier-Free Guidance (CFG) schalen vereisen, terwijl LoRA (inclusief HyperLoRA) soepeler is in dit opzicht.

Dus, voor een eerlijke vergelijking, gebruikten de onderzoekers de open-source SDXL fijngestelde checkpoint-variant LEOSAM’s Hello World voor alle tests. Voor kwantitatieve tests werd de Unsplash-50 beelddataset gebruikt.

Metrieken

Voor een geloofwaardigheidsbenchmark maten de auteurs de gezichtsovereenkomst met behulp van cosinusafstanden tussen CLIP-beeldembeddings (CLIP-I) en afzonderlijke identiteitsembeddings (ID Sim) die via CurricularFace werden geëxtraheerd, een model dat niet tijdens de training werd gebruikt.

Elk model genereerde vier high-resolution hoofdshots per identiteit in de testset, met resultaten die vervolgens werden gemiddeld.

Bewerkbaarheid werd beoordeeld in zowel door CLIP-I-scores te vergelijken tussen uitvoer met en zonder identiteitsmodules (om te zien hoeveel de identiteitsbeperkingen de afbeelding veranderden); en door CLIP-afbeelding-tekstuitlijning (CLIP-T) te meten over tien promptvariaties die hairstijlen, accessoires, kleding en achtergronden dekten.

De auteurs hebben de Arc2Face basismodel opgenomen in de vergelijkingen – een basislijn getraind op vaste onderschriften en gesneden gezichtsgebieden.

Voor HyperLoRA werden twee varianten getest: een die alleen het ID-LoRA-module gebruikte en een die zowel ID- als Base-LoRA gebruikte, met Base-LoRA gewogen op 0,4. Terwijl Base-LoRA de geloofwaardigheid verbeterde, beperkte het enigszins de bewerkbaarheid.

Resultaten voor de initiële kwantitatieve vergelijking.

Van de kwantitatieve tests merken de auteurs op:

‘Base-LoRA helpt om de geloofwaardigheid te verbeteren, maar beperkt de bewerkbaarheid. Hoewel ons ontwerp de beeldfuncties in verschillende LoRA’s ontwart, is het moeilijk om te voorkomen dat ze onderling lekken. Daarom kunnen we het gewicht van Base-LoRA aanpassen om aan te passen aan verschillende toepassingsscenario’s.

‘Onze HyperLoRA (Volledig en ID) bereiken de beste en tweede beste gezichtsgeloofwaardigheid, terwijl InstantID superioriteit toont in gezichts-ID-overeenkomst, maar lagere gezichtsgeloofwaardigheid.

‘Beide metrieken moeten samen worden overwogen om de geloofwaardigheid te evalueren, aangezien de gezichts-ID-overeenkomst meer abstract is en de gezichtsgeloofwaardigheid meer details weerspiegelt.’

In kwalitatieve tests komen de essentiële compromissen van het wezenlijke voorstel aan de orde (let op dat we geen ruimte hebben om alle afbeeldingen voor kwalitatieve resultaten te reproduceren en verwijzen de lezer naar het bronartikel voor meer afbeeldingen in betere resolutie):

Kwalitatieve vergelijking. Van boven naar beneden, de prompts die werden gebruikt waren: ‘witte shirt’ en ‘wolforen’ (zie artikel voor aanvullende voorbeelden).

Hier merken de auteurs op:

‘De huid van portretten gegenereerd door IP-Adapter en InstantID heeft een opvallende AI-gegenereerde textuur, die enigszins oversaturated is en ver van fotorealisme.

‘Het is een veelvoorkomende tekortkoming van adapter-gebaseerde methoden. PuLID verbetert dit probleem door de inbreuk op het basismodel te verzwakken, waardoor het IP-Adapter en InstantID overtreft, maar nog steeds lijdt aan vervaagding en gebrek aan details.

‘In tegenstelling tot LoRA, die het basismodelgewicht rechtstreeks wijzigt in plaats van extra aandachtmodules in te voeren, genereert het meestal hooggedetailleerde en fotorealistische beelden.’

De auteurs beweren dat omdat HyperLoRA het basismodelgewicht rechtstreeks wijzigt in plaats van te vertrouwen op externe aandachtmodules, het de niet-lineaire capaciteit van traditionele LoRA-gebaseerde methoden behoudt, wat mogelijk een voordeel biedt in geloofwaardigheid en een betere vastlegging van subtiele details zoals pupilkleur.

In kwalitatieve vergelijkingen beweert het artikel dat HyperLoRA’s lay-outs coherentere en beter aansluiten bij prompts waren, en vergelijkbaar waren met die gegenereerd door PuLID, maar aanzienlijk sterker dan InstantID of IP-Adapter (die soms faalden om prompts te volgen of onnatuurlijke composities produceerden).

Verdere voorbeelden van ControlNet-generaties met HyperLoRA.

Conclusie

De constante stroom van verschillende one-shot aanpassingssystemen in de afgelopen 18 maanden heeft inmiddels een kwaliteit van wanhoop aangenomen. Slechts weinig van de aanbiedingen hebben een opmerkelijke vooruitgang geboekt op de stand van de techniek; en die wel vooruitgang hebben geboekt, hebben vaak exorbitante trainingsvereisten en/of extreem complexe of resource-intensieve inferentievereisten.

Hoewel HyperLoRA’s eigen trainingsregime even adembenemend is als veel recente soortgelijke inzendingen, eindigt men tenminste met een model dat ad hoc aanpassing uit de doos kan doen.

Uit het aanvullende materiaal van het artikel merken we op dat de inferentiesnelheid van HyperLoRA beter is dan die van IP-Adapter, maar slechter dan de twee andere voormalige methoden – en dat deze cijfers zijn gebaseerd op een NVIDIA V100 GPU, die niet typisch is voor consumentenhardware (hoewel nieuwere ‘domestice’ NVIDIA GPU’s deze V100’s maximum van 32 GB VRAM kunnen evenaren of overtreffen).

De inferentiesnelheden van concurrerende methoden, in milliseconden.

Het is redelijk om te zeggen dat zero-shot aanpassing nog steeds een onopgelost probleem is vanuit een praktisch oogpunt, aangezien HyperLoRA’s aanzienlijke hardwarevereisten mogelijk in strijd zijn met zijn vermogen om een echt langdurig enkel basismodel te produceren.

* Vertegenwoordigend 640 GB of 1280 GB VRAM, afhankelijk van het model dat werd gebruikt (dit is niet gespecificeerd)

Eerst gepubliceerd op maandag 24 maart 2025

Unite.AI