Anderson’un Açısı
Sıfır Atış Özelleştirme Mücadelesi İçin Üretken AI

Eğer popüler bir görüntü veya video oluşturma aracına kendinizi yerleştirmek istiyorsanız, ancak already yeterli ünlü değilsiniz ve temel model tarafından tanınmıyorsanız, kendi fotoğraflarınızdan oluşan bir koleksiyon kullanarak bir düşük-rank adaptasyon (LoRA) modeli eğitmek zorundasınız. Bu kişisel LoRA modeli oluşturulduktan sonra, üretken modelin gelecekteki çıktılarında kimliğinizi içermesine izin verir.
Bu, görüntü ve video sentez araştırma alanında genellikle özelleştirme olarak adlandırılır. Stable Diffusion’un 2022 yazında ortaya çıkmasından birkaç ay sonra, Google Research’in DreamBooth projesi, kapalı kaynak şema olarak yüksek gigabayt özelleştirme modelleri sunarak, ancak kısa sürede topluluk tarafından uyarlanıp yayınlandı.
LoRA modelleri kısa süre sonra ortaya çıktı ve daha kolay eğitim ve çok daha hafif dosya boyutları sunarak, kalitede minimal veya hiç kayıp olmadan, Stable Diffusion ve halefleri için özelleştirme sahnesini hızla domine etti ve şimdi yeni üretken video modelleri gibi Flux ve Hunyuan Video ve Wan 2.1 gibi.
Yıkama ve Tekrarlama
Sorun, önceden belirttiğimiz gibi, her yeni model ortaya çıktığında, yeni bir LoRA neslinin eğitilmesi gerekir, bu da LoRA üreticileri için önemli bir sürtüşme yaratır, çünkü birden fazla özel model eğitebilirler, ancak bir model güncellemesi veya popüler yeni model, her şeyi yeniden baştan başlatmaları gerektiği anlamına gelir.
Bu nedenle, son zamanlarda literatürde güçlü bir şekilde sıfır atış özelleştirme yaklaşımları ortaya çıktı. Bu senaryoda, kendi alt modelinizi eğitmek ve bir veri kümesi oluşturmak yerine, üretime enjekte edilecek konuyla ilgili bir veya daha fazla fotoğrafı sağlarsınız ve sistem bu girdi kaynaklarını birleştirilmiş bir çıktıya dönüştürür.
Aşağıda, yüz değiştirme dışında, bu tür bir sistem (burada PuLID kullanılarak) stil aktarımına ID değerlerini de dahil edebilir:

PuLID sistemi kullanarak yüz ID aktarımının örnekleri. Kaynak: https://github.com/ToTheBeginning/PuLID?tab=readme-ov-file
Bir LoRA gibi emek yoğun ve kırılgan bir sistemi, bir genel adaptörle değiştirmek harika bir fikir (ve popüler bir fikir), ancak zorlu bir görevdir; LoRA eğitimi sürecinde elde edilen aşırı dikkat ve kapsam, bir atışta IP-Adapter tarzı modelde taklit edilmesi çok zordur, bu model LoRA’nın ayrıntı ve esneklik seviyesini, önceden bir dizi kimlik görüntüsünü analiz etmenin avantajı olmadan eşleştirmelidir.
HyperLoRA
Bu noktada, ByteDance’dan gelen bir makale, aslında gerçek LoRA kodu üreten bir sistem öneriyor, bu da sıfır atış çözümleri arasında benzersizdir:

Solda, girdi görüntüleri. Sağda, kaynak görüntülerine dayalı esnek bir çıktı aralığı, efektif olarak Anthony Hopkins ve Anne Hathaway’in deepfake’lerini üretiyor. Kaynak: https://arxiv.org/pdf/2503.16944
Makalede şunlar belirtiliyor:
‘Adapter tabanlı teknikler gibi IP-Adapter, temel model parametrelerini dondurur ve bir eklenti mimarisi kullanır, sıfır atış çıkarımı sağlar, ancak genellikle doğal olmayan ve otantik olmayan bir görünüm sergiler, portre sentezleme görevlerinde göz ardı edilemeyecek bir durum.
‘HyperLoRA adlı bir parametre-etkin adaptif üretim yöntemi sunuyoruz, bu, bir adaptif eklenti ağı kullanır ve LoRA ağırlıklarını üretir, LoRA’nın üstün performansını sıfır atış yeteneği ile birleştirir.
‘Dikkatlice tasarlanmış ağ yapımız ve eğitim stratejimizle, yüksek fotoğrafik gerçeklik, sadakat ve düzenlenebilirlik ile kişisel portre üretimi sağlar, hem tek hem de çoklu görüntü girişini destekler.’
En kullanışlı yönü, eğitilen sistem, mevcut ControlNet ile kullanılabilir, bu da üretimde yüksek özgüllük sağlar:

HyperLoRA ile ControlNet kullanarak üretilen Timothy Chalomet’in The Shining (1980) filmindeki beklenmedik bir görünümü, bir ControlNet maskesi ile metin.prompt’u birleştirerek.
Yeni sistemin son kullanıcılara sunulup sunulmayacağı konusunda, ByteDance’in bu konuda makul bir kaydı vardır, çünkü güçlü LatentSync lip-syncing framework’ünü ve yeni InfiniteYou framework’ünü yayınladı.
Olumsuz olarak, makalede sistemin yayınlanacağına dair hiçbir işaret yok ve çalışmayı yeniden yaratmak için gereken eğitim kaynakları o kadar müthiş ki, topluluk tarafından yeniden yaratılması zor olacaktır (DreamBooth gibi).
Yeni makale, HyperLoRA: Portre Sentezleme için Parametre-Etkin Adaptif Üretim olarak adlandırıldı ve ByteDance ve ByteDance’ın Intelligent Creation bölümünden yedi araştırmacı tarafından geldi.
Yöntem
Yeni yöntem, Stable Diffusion latent difüzyon modeli (LDM) SDXL‘i temel model olarak kullanıyor, ancak prensipler, genel olarak difüzyon modellerine uygulanabilir gibi görünüyor (ancak, eğitim talepleri – aşağıya bakınız – bu yöntemin üretken video modellerine uygulanmasını zorlaştırabilir).
HyperLoRA eğitimi süreci, her biri öğrenilen belirli bilgileri izole etmek ve korumak için tasarlanmış üç aşamaya bölünmüştür. Bu ring-fenced prosedürün amacı, kimlikle ilgili özellikleri, giysi veya arka plan gibi alakasız unsurlar tarafından kirlenmemesini sağlamak ve aynı zamanda hızlı ve稳il bir yakınsama elde etmektir.

HyperLoRA’nın kavramsal şeması. Model, kimlik özellikleri için ‘Hyper ID-LoRA’ ve arka plan ve giysi için ‘Hyper Base-LoRA’ olarak bölünmüştür.
İlk aşama, yalnızca ‘Base-LoRA’ (şema resminin sol alt köşesinde) öğrenmeye odaklanır, bu, kimlikle alakasız ayrıntıları yakalar.
Bu ayrımı zorlamak için, araştırmacılar, eğitim görüntülerindeki yüzleri kasıtlı olarak bulanıklaştırdı, böylece model, yüz değil, arka plan, aydınlatma ve poz gibi şeylere odaklanabildi. Bu ‘ısınma’ aşaması, kimlikle ilgili öğrenme başlamadan önce düşük seviyeli dağılmaları ortadan kaldıran bir filtre olarak çalışır.
İkinci aşamada, ‘ID-LoRA’ (şema resminin sol üst köşesinde) tanıtılır. Burada, yüz kimliği, iki paralel yol boyunca kodlanır: yapısal özellikler için CLIP Vision Transformer (CLIP ViT) ve daha soyut kimlik temsilmaları için InsightFace AntelopeV2 kodlayıcı.
Geçiş Yaklaşımı
CLIP özellikleri, modelin hızlı bir şekilde yakınsamasına yardımcı olur, ancak aşırı uyarlama riski taşır, oysa Antelope gömme daha stabil ancak daha yavaş eğitimlidir. Bu nedenle sistem, CLIP’e daha fazla güvenerek başlar ve yavaş yavaş Antelope’u devreye sokar, böylece modelin istikrarsızlığa karşı daha dayanıklı olmasını sağlar.
Son aşamada, CLIP kılavuzlu dikkat katmanları tamamen dondurulur. Sadece AntelopeV2 bağlı dikkat modülleri eğitimine devam eder, bu da modelin kimlik korunumu olmadan önce öğrenilen bileşenlerin sadakati ve genelliğini bozmadan kimlik korunumunu iyileştirmesine olanak tanır.
Bu aşama, temel olarak bir ayrıştırma girişimidir. Kimlik ve kimlik dışı özellikleri önce ayırır, sonra bağımsız olarak iyileştirir. Bu, kişiselleşme için geleneksel başarısızlık modlarına karşı metodik bir yanıttır: kimlik kayması, düşük düzenlenebilirlik ve tesadüfi özelliklere karşı aşırı uyarlama.
Senin Ağırlığını Verirken
CLIP ViT ve AntelopeV2, bir portreden hem yapısal hem de kimlikle ilgili özellikleri çıkardıktan sonra, elde edilen özellikleri, bir perceiver resampler (yukarıda belirtilen IP-Adapter projesinden türetilen) aracılığıyla geçirir – bu, bir.transformer tabanlı modüldür ve özellikleri, bir dizi katsayıya haritalar.
İki ayrı resampler kullanılır: biri Base-LoRA ağırlıklarını (arka plan ve kimlik dışı unsurları kodlar) üretmek için ve diğeri ID-LoRA ağırlıklarını (yüz kimliğini odaklar) üretmek için.

HyperLoRA ağı yapısı şeması.
Çıktı katsayıları, daha sonra öğrenilen bir dizi LoRA temel matrisleriyle lineer olarak birleştirilir, bu da temel modeli fine-tune etmeden tam LoRA ağırlıklarının üretilmesini sağlar.
Bu yaklaşım, sistemi, yalnızca görüntü kodlayıcıları ve hafif projeksiyon kullanarak, LoRA’nın temel modelin davranışını doğrudan değiştirme yeteneğinden yararlanarak, tamamen uçtan uca kişiselleştirilmiş ağırlıklar üretmesine olanak tanır.
Veri ve Testler
HyperLoRA’yı eğitmek için araştırmacılar, 4.4 milyon yüz görüntüsünden oluşan bir alt küme olan LAION-2B veri kümesini kullandılar.
InsightFace, portre olmayan yüzleri ve çoklu görüntüleri filtrelemek için kullanıldı. Görüntüler daha sonra BLIP-2 altyazı sistemi ile etiketlendi.
Veri artırma açısından, görüntüler yüz bölgesine odaklanarak rastgele kırpıldı.
LoRA sıraları, eğitim kurulumunda mevcut olan belleğe uymak zorundaydı. Bu nedenle, ID-LoRA için LoRA sıralaması 8’e, Base-LoRA için ise 4’e ayarlandı ve sekiz adımlı gradyan biriktirme kullanıldı, bu da daha büyük bir toplu işleme boyutu simüle edilmesini sağladı.
Araştırmacılar, Base-LoRA, ID-LoRA (CLIP) ve ID-LoRA (kimlik gömme) modüllerini sırasıyla 20K, 15K ve 55K iterasyonlar için eğitti. ID-LoRA eğitimi sırasında, üç koşuldan örnekler 0.9, 0.05 ve 0.05 olasılıkları ile örneklendi.
Sistem, PyTorch ve Diffusers kullanılarak uygulandı ve tam eğitim süreci yaklaşık on gün sürdü ve 16 NVIDIA A100 GPU’su kullanıldı.
ComfyUI Testleri
Yazarlar, HyperLoRA’yı üç rakip yöntemle karşılaştırmak için ComfyUI sentez platformunda iş akışları oluşturdular: InstantID; yukarıda bahsedilen IP-Adapter, IP-Adapter-FaceID-Portrait çerçevesi olarak; ve yukarıda bahsedilen PuLID. Tüm çerçevelerde tutarlı tohumlar, promt’lar ve örnek alma yöntemleri kullanıldı.
Yazarlar, adapter tabanlı (LoRA tabanlı değil) yöntemlerin genellikle daha düşük Sınıflandırıcı-Olmayan Rehberlik (CFG) ölçeklerine ihtiyaç duyduğunu belirtiyorlar.
Bu nedenle, araştırmacılar, açık kaynaklı SDXL fine-tuned checkpoint varyantı LEOSAM’s Hello World‘i testler boyunca kullandılar. Nicel testler için Unsplash-50 görüntü veri kümesi kullanıldı.
Metrikler
Yüz benzerliği için bir referans noktası olarak, yazarlar, CLIP görüntü gömme arasındaki kosinüs mesafelerini ölçtü ve ayrıca CurricularFace modeli kullanılarak çıkarılan kimlik benzerliği (ID Sim) ölçtü.
Her yöntem, test kümesindeki her kimlik için dört yüksek çözünürlüklü portre üretti ve sonuçlar ortalamalandı.
Düzenlenebilirlik, CLIP-I puanları arasındaki farkı karşılaştırarak hem ID-LoRA hem de ID-LoRA + Base-LoRA için değerlendirildi; ve ayrıca, on farklı varyasyon için BLIP-2 altyazı sistemi kullanılarak CLIP görüntü-metin hizalama (CLIP-T) ölçüldü.
Yazarlar, Arc2Face temel modelini karşılaştırmalara dahil etti – bu, sabit altyazılar ve yüz bölgesine odaklanan bir model üzerinde eğitildi.
HyperLoRA için, iki varyant test edildi: yalnızca ID-LoRA kullanan bir varyant ve hem ID-LoRA hem de Base-LoRA kullanan bir varyant (sonuncusu 0.4 ağırlıklı). Base-LoRA, sadakat iyileşti, ancak düzenlenebilirliği biraz kısıtladı.

İlk nicel karşılaştırma sonuçları.
Nicel testlerden, yazarlar şunları belirtiyorlar:
‘Base-LoRA, sadakati iyileştirir, ancak düzenlenebilirliği sınırlar. Tasarımımız, görüntü özelliklerini farklı LoRA’lar arasında ayırır, ancak birbirlerine sızmasını tamamen önlemek zor. Bu nedenle, Base-LoRA’nın ağırlığını farklı uygulama senaryolarına uyarlamak için ayarlayabiliriz. ‘
‘HyperLoRA (Tam ve ID), en iyi ve ikinci en iyi yüz sadakatine ulaşır, InstantID yüz ID benzerliğinde üstünlük gösterir, ancak yüz sadakati daha düşük.’
‘Her iki ölçüt de birlikte değerlendirilmelidir, çünkü yüz ID benzerliği daha soyut ve yüz sadakati daha fazla ayrıntı反映 eder.’
Nitel testlerde, temel önermenin içinde yer alan çeşitli ticaretler öne çıkıyor (lütfen not edin, niteliksel sonuçların tümünü burada yeniden üretmeye yeterli alanımız yok ve okuyucuyu kaynak makaleye yönlendiriyoruz):

Nitel karşılaştırma. Üstten aşağıya, kullanılan promt’lar: ‘beyaz gömlek’ ve ‘kurt kulaklıkları’.
Burada yazarlar şunları belirtiyorlar:
‘IP-Adapter ve InstantID tarafından üretilen portrelerin derisi, belirgin bir AI-üretimi dokusu vardır, biraz fazla doygun ve fotogerçekçilikten uzak.’
‘Bu, adapter tabanlı yöntemlerin ortak bir zayıflığıdır. PuLID, bu sorunu, temel modele müdahaleyi zayıflatarak iyileştirir, IP-Adapter ve InstantID’den daha iyi performans gösterir, ancak vẫn bulanıklaşma ve ayrıntı eksikliği yaşar.’
‘Öte yandan, LoRA, dış dikkat modülleri eklemek yerine, doğrudan temel model ağırlıklarını değiştirir, genellikle yüksek ayrıntı ve fotogerçekçi görüntüler üretir.’
Yazarlar, HyperLoRA’nın, temel model ağırlıklarını doğrudan değiştirdiği için, geleneksel LoRA tabanlı yöntemlerin非lineer kapasitesini koruduğunu ve bu nedenle sadakat ve ince ayrıntı yakalamada bir avantaj sunabileceğini iddia ediyorlar.
Nitel karşılaştırmalarda, makale, HyperLoRA’nın düzenlerinin daha tutarlı ve promt’larla daha iyi hizalanmış olduğunu, PuLID ile benzer olduğunu, ancak InstantID veya IP-Adapter’dan daha güçlü olduğunu belirtiyor (bu son ikisi bazen promt’ları takip etmekte başarısız oluyor veya doğal olmayan kompozisyonlar üretiyor).

HyperLoRA ile ControlNet kullanarak üretilen ilave örnekler.
Sonuç
Son 18 ayda, çeşitli sıfır atış özelleştirme sistemlerinin sürekli akışı, artık bir umutsuzluk niteliği kazanmıştır. Bu önerilerin çok azı, durumun state-of-the-art üzerinde önemli bir ilerleme kaydetmiştir; ve durumun state-of-the-art’ı biraz ilerletenlerin, genellikle aşırı eğitim talepleri ve/veya çok karmaşık veya kaynak yoğun çıkarım talepleri vardır.
HyperLoRA’nın kendi eğitim rejimi de, birçok recent benzer girişiminkine benzer şekilde, nefes kesici düzeydedir; ancak en azından, sonunda, kutudan çıktığında ad hoc özelleştirmeyi destekleyen bir model ile sonuçlanırsınız.
Makalenin ek malzemelerinden, HyperLoRA’nın çıkarım hızının IP-Adapter’den daha iyi, ancak diğer iki önceki yöntemden daha kötü olduğunu not ediyoruz – ve bu rakamlar, tipik tüketici donanımı olmayan bir NVIDIA V100 GPU’suna dayanmaktadır (ancak daha yeni ‘ev’ NVIDIA GPU’ları bu V100’ün maksimum 32GB VRAM’ini eşleyebilir veya aşabilir).

Rakip yöntemlerin çıkarım hızları, milisaniye cinsinden.
Adil olmak gerekirse, sıfır atış özelleştirme, pratik bir bakış açısıyla, hala çözülmemiş bir problem olarak kalıyor, çünkü HyperLoRA’nın önemli donanım gereksinimleri, aslında uzun vadeli tek bir temel model üretme yeteneğiyle çelişiyor.
* Bu, 640GB veya 1280GB VRAM’ı temsil ediyor, hangisinin kullanıldığı belirtilmiyor
İlk olarak 24 Mart 2025 Pazartesi günü yayınlandı












