Andersonov kut
Borba za Zero-Shot prilagodbu u Generative AI

Ako se želite pozicionirati u popularnom alatu za generiranje slika ili videa – ali već niste dovoljno poznati da vas temeljni model prepozna – morat ćete obučiti prilagodba niskog ranga (LoRA) model koristeći zbirku vlastitih fotografija. Nakon izrade, ovaj personalizirani LoRA model omogućuje generativnom modelu da uključi vaš identitet u buduće rezultate.
Ovo se obično naziva prilagodbu u sektoru istraživanja sinteze slika i videa. Prvi put se pojavio nekoliko mjeseci nakon pojave Stabilne difuzije ljeti 2022., s Google Researchom kabina za snove projekt koji nudi modele za prilagodbu velikih gigabajta u shemi zatvorenog koda koju su entuzijasti ubrzo prilagodili i objavili zajednici.
LoRA modeli su brzo uslijedili i ponudili lakšu obuku i daleko manje veličine datoteka, uz minimalne ili nikakve troškove kvalitete, brzo dominirajući scenom prilagodbe za Stable Diffusion i njegove nasljednike, kasnije modele kao što su Tok, a sada i novi generativni video modeli poput Hunyuan video i Wan 2.1.
Isperite i ponovite
Problem je, kao što smo već napomenuli, da svaki put kada se novi model pojavi, potrebna mu je nova generacija LoRA-a koje treba obučiti, što predstavlja značajna trvenja za LoRA-proizvođače, koji mogu trenirati niz prilagođenih modela samo da bi otkrili da ažuriranje modela ili popularni noviji model znači da moraju početi ispočetka.
Stoga su zero-shot prilagodba pristupi u zadnje vrijeme postali jaka nit u literaturi. U ovom scenariju, umjesto da morate pripremati skup podataka i trenirati vlastiti podmodel, jednostavno dostavljate jednu ili više fotografija subjekta koje će se ubaciti u generiranje, a sustav tumači te ulazne izvore u pomiješani izlaz.
U nastavku vidimo da osim zamjene lica, sustav ove vrste (ovdje koristi PuLID) također može uključiti ID vrijednosti u prijenos stila:

Primjeri prijenosa identifikacije lica korištenjem PuLID sustava. Izvor: https://github.com/ToTheBeginning/PuLID?tab=readme-ov-file
Iako je zamjena radno intenzivnog i krhkog sustava kao što je LoRA generičkim adapterom odlična (i popularan) ideja, to je također izazovno; iznimna pažnja posvećena detaljima i pokrivenost dobivena u procesu obuke LoRA vrlo je teško oponašati u jednom pokušaju IP-adapter-stilski model, koji mora odgovarati razini detalja i fleksibilnosti LoRA-e bez prethodne prednosti analize sveobuhvatnog skupa slika identiteta.
HiperLoRA
Imajući to na umu, ByteDance je u zanimljivom novom radu predložio sustav koji generira stvarni LoRA kod. u letu, koji je trenutno jedinstven među zero-shot rješenjima:

Na lijevoj strani unesite slike. Upravo od toga, fleksibilan raspon izlaza temeljen na izvornim slikama, učinkovito stvarajući deepfakeove glumaca Anthonyja Hopkinsa i Anne Hathaway. Izvor: https://arxiv.org/pdf/2503.16944
U radu se navodi:
'Tehnike koje se temelje na adapterima kao što je IP-adapter zamrzavaju temeljne parametre modela i koriste plug-in arhitekturu kako bi se omogućio nulti zaključak, ali često pokazuju nedostatak prirodnosti i autentičnosti, koji se ne smiju zanemariti u zadacima sinteze portreta.
'[Mi] predstavljamo parametarski učinkovitu prilagodljivu metodu generiranja, naime HyperLoRA, koja koristi prilagodljivu plug-in mrežu za generiranje LoRA težine, spajajući superiornu izvedbu LoRA-e s sposobnošću zero-shot sheme adaptera.
'Zahvaljujući našoj pažljivo osmišljenoj mrežnoj strukturi i strategiji treniranja, postižemo generiranje personaliziranih portreta bez ikakvog snimanja (uz podršku za pojedinačne i višestruke slikovne unose) s visokim fotorealizmom, vjernošću i mogućnošću uređivanja.'
Najkorisnije je da se obučeni sustav može koristiti s postojećim ControlNet, omogućujući visoku razinu specifičnosti u generiranju:

Timothy Chalomet neočekivano se veselo pojavljuje u filmu 'Isijavanje' (1980.), temeljenom na tri ulazne fotografije u HyperLoRA-i, s ControlNet maskom koja definira izlaz (u skladu s tekstualnim upitom).
Što se tiče toga hoće li novi sustav ikada biti dostupan krajnjim korisnicima, ByteDance ima razumnu evidenciju u tom pogledu, nakon što je objavio vrlo moćan LatentSync okvir za sinkronizaciju usana, a tek sam objavio i InfiniteYou okvir.
Negativno, dokument ne daje naznake namjere objavljivanja, a resursi za obuku potrebni za ponovno stvaranje rada toliko su pretjerani da bi zajednici entuzijasta bilo teško ponovno ga stvoriti (kao što je bilo s DreamBoothom).
The novom papiru naslovljen je HyperLoRA: Parametarski učinkovito prilagodljivo generiranje za sintezu portreta, a dolazi od sedam istraživača iz ByteDancea i ByteDanceovog namjenskog odjela za inteligentno stvaranje.
način
Nova metoda koristi model latentne difuzije stabilne difuzije (LDM) SDXL kao temeljni model, iako se načela čine primjenjivima na modele difuzije općenito (međutim, zahtjevi za obukom – vidi dolje – mogli bi otežati primjenu na generativne video modele).
Proces obuke za HyperLoRA podijeljen je u tri faze, od kojih je svaka osmišljena da izolira i sačuva specifične informacije u naučenom Utezi. Cilj ovog odvojenog postupka je spriječiti da obilježja bitna za identitet budu zagađena nebitnim elementima kao što su odjeća ili pozadina, u isto vrijeme uz postizanje brze i stabilne konvergencije.

Konceptualna shema za HyperLoRA. Model je podijeljen na 'Hyper ID-LoRA' za identitetske značajke i 'Hyper Base-LoRA' za pozadinu i odjeću. Ovo odvajanje smanjuje curenje značajki. Tijekom obuke, SDXL baza i enkoderi su zamrznuti, a ažuriraju se samo HyperLoRA moduli. Prilikom zaključivanja, za generiranje personaliziranih slika potreban je samo ID-LoRA.
Prva faza je u potpunosti usmjerena na učenje a 'Base-LoRA' (dolje lijevo na gornjoj slici sheme), koja bilježi detalje nebitne za identitet.
Kako bi pojačali ovo odvajanje, istraživači su namjerno zamutili lice na slikama za obuku, omogućujući modelu da se uhvati za stvari poput pozadine, osvjetljenja i poze - ali ne i za identitet. Ova faza 'zagrijavanja' djeluje kao filter, uklanjajući smetnje niske razine prije nego što započne učenje specifično za identitet.
U drugoj fazi, an 'ID-LoRA' (gore lijevo na gornjoj slici sheme). Ovdje se identitet lica kodira pomoću dva paralelna puta: a CLIP Transformator vida (KLIP ViT) za strukturne značajke i InsightFace AntelopeV2 koder za apstraktnije prikaze identiteta.
Prijelazni pristup
Značajke CLIP-a pomažu modelu brzo konvergirati, ali rizik prekomjerno opremanje, dok su Antelope ugradnje stabilnije, ali se sporije treniraju. Stoga sustav počinje s većim oslanjanjem na CLIP i postupno prelazi u Antelope kako bi se izbjegla nestabilnost.
U završnoj fazi, CLIP-vođeni slojevi pažnje su zamrznut u cijelosti. Samo moduli pažnje povezani s AntelopeV2 nastavljaju obuku, omogućujući modelu da poboljša očuvanje identiteta bez degradiranja vjernosti ili općenitosti prethodno naučenih komponenti.
Ova fazna struktura je u biti pokušaj prevazilaženje teškoća. Identitetske i neidentitetske značajke najprije se odvajaju, a zatim se zasebno pročišćavaju. To je metodičan odgovor na uobičajene načine neuspjeha personalizacije: pomicanje identiteta, slaba mogućnost uređivanja i prekomjerno opremanje slučajnih značajki.
Dok težite
Nakon što su CLIP ViT i AntelopeV2 izdvojili i strukturne značajke i značajke specifične za identitet iz danog portreta, dobivene značajke zatim prolaze kroz perceiver resampler (izvedeno iz gore spomenutog projekta IP-Adapter) – modul temeljen na transformatoru koji mapira značajke u kompaktni skup koeficijenti.
Koriste se dva odvojena resamplera: jedan za generiranje pondera Base-LoRA (koji kodira elemente pozadine i neidentiteta) i drugi za pondere ID-LoRA (koji se fokusira na identitet lica).

Shema za HyperLoRA mrežu.
Izlazni koeficijenti se zatim linearno kombiniraju sa skupom naučenih LoRA osnovnih matrica, proizvodeći pune LoRA težine bez potrebe za fino podešavanje osnovni model.
Ovaj pristup omogućuje sustavu generiranje personaliziranih težina potpuno u hodu, koristeći samo kodere slike i laganu projekciju, dok još uvijek iskorištava sposobnost LoRA-e da izravno mijenja ponašanje osnovnog modela.
Podaci i testovi
Kako bi trenirali HyperLoRA, istraživači su koristili podskup od 4.4 milijuna slika lica iz LAION-2B skup podataka (sada najpoznatiji kao izvor podataka za izvorne modele stabilne difuzije 2022.).
InsightFace korišten je za filtriranje neportretnih lica i više slika. Slike su zatim označene s BLIP-2 sustav titlovanja.
U pogledu povećanje podataka, slike su bile nasumično izrezane oko lica, ali su uvijek bile fokusirane na područje lica.
Odgovarajući LoRA činovi morali su se prilagoditi dostupnoj memoriji u postavkama obuke. Stoga je LoRA rang za ID-LoRA postavljen na 8, a rang za Base-LoRA na 4, dok je osam koraka gradijentna akumulacija korišten je za simulaciju većeg veličina serije nego što je zapravo bilo moguće na hardveru.
Istraživači su trenirali module Base-LoRA, ID-LoRA (CLIP) i ID-LoRA (ugrađivanje identiteta) sekvencijalno za 20K, 15K, odnosno 55K iteracija. Tijekom ID-LoRA treninga, uzorkovali su tri scenarija uvjetovanja s vjerojatnostima od 0.9, 0.05 i 0.05.
Sustav je implementiran korištenjem PyTorcha i difuzora, a cijeli proces obuke trajao je otprilike deset dana na 16 NVIDIA A100 GPU-ova*.
ComfyUI testovi
Autori su izgradili tijek rada u ComfyUI platforma za sintezu za usporedbu HyperLoRA s tri suparničke metode: InstantID; gore spomenuti IP-adapter, u obliku IP-Adapter-FaceID-Portret okvir; i gore citirani PuLID. U svim okvirima korišteni su dosljedni izvori, upute i metode uzorkovanja.
Autori napominju da metode koje se temelje na adapteru (a ne na temelju LoRA) općenito zahtijevaju niže Upute bez klasifikatora (CFG), dok je LoRA (uključujući HyperLoRA) popustljivija u tom pogledu.
Stoga su za poštenu usporedbu istraživači koristili SDXL fino podešenu varijantu kontrolne točke otvorenog koda LEOSAM-ov Pozdrav svijete preko testova. Za kvantitativne testove, Unsplash-50 korišten je skup slikovnih podataka.
Metrika
Za referentnu vrijednost vjernosti, autori su mjerili sličnost lica koristeći kosinusne udaljenosti između ugrađivanja CLIP slike (CLIP-I) i odvojenih ugrađivanja identiteta (ID Sim) ekstrahiranih putem CurricularFace, model koji se ne koristi tijekom treninga.
Svaka metoda generirala je četiri slike glave visoke rezolucije po identitetu u testnom skupu, s rezultatima koji su zatim izračunati prosjek.
Mogućnost uređivanja procijenjena je u oba slučaja usporedbom CLIP-I rezultata između izlaza sa i bez modula identiteta (kako bi se vidjelo koliko su ograničenja identiteta promijenila sliku); i mjerenjem CLIP poravnanja slike i teksta (CLIP-T) kroz deset brzih varijacija koje pokrivaju frizure, pribor, odjećai pozadina.
Autori su uključili Arc2Face temeljni model u usporedbama – osnovna linija uvježbana na fiksiranim titlovima i izrezanim regijama lica.
Za HyperLoRA su testirane dvije varijante: jedna koja koristi samo ID-LoRA modul, a druga koja koristi i ID- i Base-LoRA, pri čemu je potonji ponderiran na 0.4. Iako je Base-LoRA poboljšao vjernost, malo je ograničio mogućnost uređivanja.

Rezultati za početnu kvantitativnu usporedbu.
Što se tiče kvantitativnih testova, autori komentiraju:
'Base-LoRA pomaže u poboljšanju vjernosti, ali ograničava mogućnost uređivanja. Iako naš dizajn odvaja značajke slike u različite LoRA-e, teško je izbjeći međusobno curenje. Stoga možemo prilagoditi težinu Base-LoRA-e kako bismo se prilagodili različitim scenarijima primjene.
'Naš HyperLoRA (Full i ID) postiže najbolju i drugu najbolju vjernost lica dok InstantID pokazuje superiornost u sličnosti ID-a lica, ali nižu vjernost lica.
'Obje ove metrike trebale bi se uzeti u obzir zajedno kako bi se procijenila vjernost, budući da je sličnost identifikacije lica apstraktnija, a vjernost lica odražava više detalja.'
U kvalitativnim testovima, različiti kompromisi uključeni u bitnu propoziciju dolaze do izražaja (imajte na umu da nemamo prostora za reprodukciju svih slika za kvalitativne rezultate i uputite čitatelja na izvorni rad za više slika u boljoj rezoluciji):

Kvalitativna usporedba. Od vrha do dna, korišteni su uputama: 'bijela košulja' i 'vučje uši' (vidi rad za dodatne primjere).
Ovdje komentiraju autori:
'Koža portreta generiranih IP-Adapterom i InstantID-om ima očiglednu teksturu generiranu umjetnom inteligencijom, koja je malo [prezasićena] i daleko od fotorealizma.
'To je uobičajeni nedostatak metoda temeljenih na adapteru. PuLID poboljšava ovaj problem slabljenjem upada u osnovni model, nadmašujući IP-Adapter i InstantID, ali i dalje pate od zamućivanja i nedostatka detalja.
'Nasuprot tome, LoRA izravno mijenja težine osnovnog modela umjesto uvođenja dodatnih modula pažnje, obično generirajući vrlo detaljne i fotorealistične slike.'
Autori tvrde da budući da HyperLoRA izravno mijenja težine osnovnog modela umjesto da se oslanja na vanjske module pažnje, zadržava nelinearni kapacitet tradicionalnih metoda temeljenih na LoRA-i, potencijalno nudeći prednost u vjernosti i dopuštajući poboljšano hvatanje suptilnih detalja kao što je boja zjenice.
U kvalitativnim usporedbama, rad tvrdi da su HyperLoRA-ini rasporedi bili koherentniji i bolje usklađeni s uputama, te slični onima koje je proizveo PuLID, iako su znatno jači od InstantID-a ili IP-Adaptera (koji povremeno nisu uspjeli slijediti upute ili su proizvodili neprirodne kompozicije).

Daljnji primjeri ControlNet generacija s HyperLoRA.
Zaključak
Konzistentan tok različitih jednokratnih sustava za prilagodbu tijekom posljednjih 18 mjeseci do sada je poprimio očajnu kvalitetu. Vrlo je mali broj ponuda napravio značajan napredak u odnosu na najsuvremenije; a oni koji su malo napredovali obično imaju pretjerane zahtjeve za obukom i/ili iznimno složene ili resursno intenzivne zahtjeve za zaključivanjem.
Iako je vlastiti režim treninga HyperLoRA-e jednako uzbudljiv kao i mnogi slični nedavni unosi, barem jedan završava s modelom koji to može podnijeti. ad hoc prilagodba izvan okvira.
Iz dodatnog materijala rada primjećujemo da je brzina zaključivanja HyperLoRA-e bolja od IP-Adaptera, ali lošija od dvije prethodne metode - te da se ove brojke temelje na NVIDIA V100 GPU-u, koji nije tipičan potrošački hardver (iako noviji 'domaći' NVIDIA GPU-ovi mogu parirati ili čak premašiti maksimalnih 100 GB VRAM-a koje ima V32).

Brzine zaključivanja konkurentskih metoda, u milisekundama.
Može se reći da prilagodba bez ikakvog napora ostaje neriješen problem s praktičnog stajališta, budući da su značajni hardverski zahtjevi HyperLoRA-e vjerojatno u suprotnosti s njezinom sposobnošću da stvori doista dugoročan model s jednim temeljem.
* Predstavlja 640 GB ili 1280 GB VRAM-a, ovisno o tome koji je model korišten (ovo nije navedeno)
Prvi put objavljeno u ponedjeljak, 24. ožujka 2025