Yapay Zekâ

InstantID: Saniyeler İçinde Kimlik Koruyucu Nesne Oluşturma

Published March 12, 2024

Updated April 4, 2026

Kunal Kejriwal

Son yıllarda, DALL-E, GLIDE, Stable Diffusion, Imagen gibi büyük metin-görsel difüzyon modellerinin sahneye çıkmasıyla birlikte, AI destekli görsel oluşturma teknolojisi önemli bir büyüme gösterdi. Görsel oluşturma AI modellerinin benzersiz bir mimariye ve eğitim yöntemlerine sahip olmasına rağmen, hepsi ortak bir odak noktasına sahiptir: Referans görsellerine dayalı olarak tutarlı karakter ID, konu ve stil ile kişiselleştirilmiş görsel oluşturma. Görsel oluşturma AI çerçevelerinin önemli oluşturma yetenekleri sayesinde, modern görsel oluşturma AI çerçeveleri, görsel animasyon, sanal gerçeklik, E-Ticaret, AI portreleri ve daha fazlası gibi alanlarda uygulamalar buldu. Ancak, önemli oluşturma yeteneklerine rağmen, bu çerçevelerin tümü ortak bir engel paylaşıyor: Çoğu, insan nesnelerinin narin kimlik ayrıntılarını koruyarak kişiselleştirilmiş görseller oluşturamıyor.

Kişiselleştirilmiş görseller oluştururken narin ayrıntıları korumak, özellikle yüksek bir doğruluk ve detay standardı gerektiren ve genel nesne görsel oluşturma görevlerine kıyasla daha nüanslı bir anlamsal gereksinimi olan insan yüzü kimliği görevleri için kritik önem taşıyor. Ayrıca, son yıllarda LoRA, DreamBooth, Metin İvmesi ve daha fazlası gibi kişiselleştirilmiş görsel sentez çerçeveleri önemli ölçüde ilerledi. Ancak, kişiselleştirilmiş görsel oluşturma AI modelleri hala gerçek dünya senaryolarında dağıtıma uygun değil, çünkü yüksek depolama gereksinimleri var, birden fazla referans görseli gerektiriyor ve genellikle uzun bir ayarlanma süreci gerekiyor. Diğer yandan, mevcut ID-embedding tabanlı yöntemler yalnızca bir seule réféans gerektiriyor, ancak bunlar ya halka açık önceden eğitilmiş modellerle uyumlu değil, ya da birçok parametre boyunca aşırı bir ayarlanma süreci gerektiriyor, ya da yüz doğruluğunu korumakta başarısız oluyor.

Bu zorlukları gidermek ve görsel oluşturma yeteneklerini daha da geliştirmek için, bu makalede InstantID adlı bir difüzyon modeli tabanlı çözüm olan görsel oluşturma hakkında konuşacağız. InstantID, çeşitli stiller boyunca yalnızca bir seule réféans görseli ile görsel oluşturma ve kişiselleştirme işlemlerini gerçekleştiren ve aynı zamanda yüksek doğruluk sağlayan bir tak ve oynat modülüdür. Bu makalenin ana amacı, okuyucularımıza InstantID çerçevesinin teknik temelleri ve bileşenleri hakkında kapsamlı bir anlayış sağlamak, modelin mimarisini, eğitim sürecini ve uygulama senaryolarını ayrıntılı olarak inceleyeceğiz. Şimdi başlayalım.

InstantID: Saniyeler İçinde Kimlik Koruyucu Görsel Oluşturma

Metin-görsel difüzyon modellerinin ortaya çıkışı, görsel oluşturma teknolojisinin ilerlemesine önemli ölçüde katkıda bulundu. Bu modellerin ana amacı, kişiselleştirilmiş ve özelleştirilmiş görsel oluşturma, ve bir veya daha fazla referans görseli kullanarak tutarlı konu, stil ve karakter ID ile görseller oluşturma. Bu çerçevelerin tutarlı görseller oluşturma yeteneği, görsel animasyon, AI portre oluşturma, E-Ticaret, sanal ve artırılmış gerçeklik ve daha fazlası gibi çeşitli endüstrilerde potansiyel uygulamalar yarattı.

Ancak, önemli yeteneklerine rağmen, bu çerçeveler temel bir zorlukla karşılaşıyor: Çoğu, insan konularının narin ayrıntılarını doğru bir şekilde koruyarak kişiselleştirilmiş görseller oluşturamıyor. İnsan yüzü kimliğinin, genel nesneler veya stillerle kıyaslandığında daha yüksek bir doğruluk ve detay standardı gerektirdiği ve daha gelişmiş bir anlamsal gereksinimi olduğu unutulmamalıdır. Mevcut metin-görsel modelleri, ayrıntılı metinsel açıklamalara dayanır ve özelleştirilmiş görsel oluşturma için güçlü anlamsal alaka elde etmekte zorlanırlar. Ayrıca, bazı büyük önceden eğitilmiş metin-görsel çerçeveleri, kontrollüğü artırmak için uzaysal koşullama kontrolleri ekler, bu da görsel oluşturma sürecini vücut duruşları, derinlik haritaları, kullanıcı tarafından çizilen çizimler, anlamsal segmentasyon haritaları ve daha fazlası gibi unsurlar kullanarak ince yapısal kontrolü sağlar. Ancak, bu eklemelere ve geliştirmelere rağmen, bu çerçeveler yalnızca referans görseline kısmi bir doğruluk sağlayabilir.

Bu engelleri aşmak için, InstantID çerçevesi anlık kimlik koruyucu görsel sentez üzerinde odaklanıyor ve basit bir tak ve oynat modülü tanıtarak, yalnızca bir seule yüz görseli kullanarak görsel kişiselleştirme işlemlerini gerçekleştirebiliyor ve aynı zamanda yüksek doğruluk sağlıyor. Ayrıca, referans görselinden yüz kimliğini korumak için, InstantID çerçevesi metinsel açıklamaları, landmark görselleri ve yüz görsellerini birleştiren zayıf uzaysal ve güçlü anlamsal koşulları rehberlik eden yeni bir yüz kodlayıcısı uyguluyor.

InstantID çerçevesini mevcut metin-görsel oluşturma çerçevelerinden ayıran üç ayırt edici özellik vardır.

Uyumluluk ve Tak ve Oynat: InstantID çerçevesi, UNet çerçevesinin tam parametrelerini eğitmek yerine, bir hafif adaptör üzerinde odaklanıyor. Sonuç olarak, InstantID çerçevesi mevcut önceden eğitilmiş modellerle uyumlu ve tak ve oynat edilebilir.

Ayarlanma Gerektirmez: InstantID çerçevesinin metodolojisi, yalnızca bir seule ileri propagasyon için gereksinim duyduğu için ayarlanma gereksinimini ortadan kaldırıyor, bu da modeli çok pratik ve ekonomik hale getiriyor.
Üstün Performans: InstantID çerçevesi, yalnızca bir seule réféans görseli kullanarak, çok yüksek bir esneklik ve doğruluk gösteriyor, bu da eğitim tabanlı yöntemlerle benzer bir performans sağlıyor.

Genel olarak, InstantID çerçevesinin katkıları aşağıdaki noktalarla kategorize edilebilir.

InstantID çerçevesi, önceden eğitilmiş metin-görsel difüzyon modelleri için yenilikçi bir ID-koruyucu uyarlama yöntemidir, verimlilik ve doğruluk arasındaki boşluğu kapatmayı amaçlar.
InstantID çerçevesi, önceden eğitilmiş modellerde ID-koruyucu olmadan herhangi bir ek maliyet olmadan ID-koruyucu sağlar, aynı difüzyon modelini kullanarak özel olarak ayarlanmış modellerle uyumlu ve tak ve oynat edilebilir.

InstantID: Metodoloji ve Mimarisi

Önceden bahsedildiği gibi, InstantID çerçevesi, önceden eğitilmiş metin-görsel difüzyon modellerine ID-koruyucu yetenekleri kazandıran bir hafif adaptördür.

Mimari hakkında konuşacak olursak, InstantID çerçevesi, yüksek hesaplama verimliliği ile difüzyon işlemini gerçekleştiren Stable Diffusion modeli üzerine kuruludur. Giriş görseli için, kodlayıcı önce görseli bir aşağı örnekleyici faktör ve gizli boyutlarla birlikte bir gizli temsil içine haritalar. Ayrıca, gürültülü bir gürültüye sahip normally dağılmış bir gürültüyü temizlemek için, difüzyon işlemi bir temizleme UNet bileşeni benimser. Koşul, bir önceden eğitilmiş CLIP metin kodlayıcısı bileşeni tarafından oluşturulan metinsel açıklamaların bir gömme şeklidir.

Ayrıca, InstantID çerçevesi bir ControlNet bileşeni kullanır, bu da önceden eğitilmiş bir difüzyon modeline uzaysal kontrol eklemeye olanak tanır, geleneksel metinsel açıklamaların ötesine geçer. ControlNet bileşeni, Stable Diffusion çerçevesinden UNet mimarisini bir kopya olarak entegre eder, bu kopya middle bloklarda ve kodlayıcı bloklarda sıfır convolution katmanı içerir. Benzerliklerine rağmen, ControlNet bileşeni Stable Diffusion modelinden farklıdır, bunlar son kalan itemde farklılık gösterir. ControlNet bileşeni, uzaysal koşul bilgilerini gibi pozlar, derinlik haritaları, çizimler ve daha fazlasını kodlar ve bu bilgileri UNet Blokuna ekler, ve sonra bunları orijinal ağa gömer.

InstantID çerçevesi ayrıca IP-Adapter veya Görsel Açıklama Adaptörü’nden esinlenen bir yaklaşım benimser, bu da metinsel açıklamalarla paralel olarak görsel açıklama yetenekleri kazandırır, bu da orijinal metin-görsel modellerini değiştirmeye gerek kalmadan gerçekleşir. IP-Adapter bileşeni ayrıca, görsel özelliklerini gömmek için ekstra cross-attention katmanları kullanır, diğer parametreleri değiştirmeden.

Metodoloji

Kısa bir bakış için, InstantID çerçevesi, yalnızca bir seule réféans ID görseli kullanarak farklı stiller veya pozlar ile kişiselleştirilmiş görseller oluşturmayı amaçlar, ve aynı zamanda yüksek doğruluk sağlar. Aşağıdaki şekil, InstantID çerçevesinin bir genel bakışını sağlar.

Gördüğünüz gibi, InstantID çerçevesi üç temel bileşenden oluşur:

Görseldeki yüz özelliklerinin güçlü anlamsal bilgilerini yakalayan bir ID gömme bileşeni.
Görselleri görsel açıklamalar olarak kullanmayı sağlayan bir hafif adaptör ve bir ayrı cross-attention bileşeni.
Referans görselinden ayrıntılı özelliklerini kodlayan bir IdentityNet bileşeni, ekstra uzaysal kontrol ile.

ID Gömme

Mevcut yöntemlerin çoğunun aksine, FaceStudio, PhotoMaker, IP-Adapter ve daha fazlası, önceden eğitilmiş bir CLIP görsel kodlayıcısını görsel açıklamaları çıkarmak için kullanır, InstantID çerçevesi ID-koruyucu görevinde daha güçlü bir doğruluk ve daha güçlü anlamsal ayrıntılar üzerinde odaklanıyor. CLIP bileşeninin içkin sınırlamalarının, zayıf olarak hizalanmış veriler üzerinde eğitilmesinden kaynaklandığı unutulmamalıdır, bu nedenle CLIP kodlayıcısı tarafından kodlanan özellikler主要 olarak geniş ve belirsiz anlamsal bilgiler gibi renkler, stiller ve kompozisyonu yakalar. Bu özellikler, metin gömme şekillerine genel bir katkı olarak hareket edebilir, ancak ID-koruyucu görevleri için uygun değildir, çünkü güçlü anlamsal bilgiler ve yüksek doğruluk gerektirir. Ayrıca, yüz temsil modelleri ve özellikle yüz tanıma ile ilgili son araştırmalar, yüz temsilinin karmaşık görevlerde, yüz yeniden yapılandırma ve tanıma gibi, verimli olduğunu gösterdi. InstantID çerçevesi, bir önceden eğitilmiş yüz modelini kullanarak referans görselinden yüz ID gömme şekillerini çıkarmak ve görsel oluşturma sürecini rehberlik etmek için bu bilgileri kullanmak istiyor.

Görsel Adaptör

Önceden eğitilmiş metin-görsel difüzyon modellerinin görsel açıklama görevlerindeki yetenekleri, özellikle metinsel açıklamalarla yeterli bir şekilde tanımlanamayan senaryolarda, metinsel açıklamaları önemli ölçüde geliştirir. InstantID çerçevesi, IP-Adapter modelinin kullandığı stratejiye benzer bir strateji benimser, bu da görselleri görsel açıklamalar olarak kullanmayı sağlayan bir hafif adaptör ve bir ayrı cross-attention bileşeni içerir. Ancak, InstantID çerçevesi, ID gömme şekillerini görsel açıklamalar olarak kullanarak, daha anlamsal olarak zengin ve daha nüanslı bir açıklama entegrasyonu elde etmeye çalışır.

IdentityNet

Mevcut yöntemler, görsel açıklamaları metinsel açıklamalarla entegre edebiliyor, ancak InstantID çerçevesi, bu yöntemlerin yalnızca kaba özellikler üzerinde birleştirme sağladığını ve ID-koruyucu görsel oluşturma için yeterli olmadığını savunuyor. Ayrıca, görsel ve metinsel tokenleri doğrudan cross-attention katmanlarına eklemek, metinsel tokenlerin kontrolünü zayıflatabilir, ve görsel tokenlerin gücünü artırmaya çalışmak, metinsel tokenlerin düzenleme görevlerindeki yeteneklerini bozabilir. Bu zorlukları aşmak için, InstantID çerçevesi ControlNet adlı bir alternatif özellik gömme yöntemini benimser, bu da uzaysal bilgileri girdi olarak kullanır ve UNet ayarları ile tutarlılık sağlar.

InstantID çerçevesi, geleneksel ControlNet mimarisinde iki değişiklik yapar: Koşullu girdiler için, InstantID çerçevesi 5 yüz anahtarı yerine ince yapısal OpenPose yüz anahtarlarını kullanır. İkincisi, InstantID çerçevesi, ControlNet mimarisindeki cross-attention katmanlarında koşullar olarak metinsel açıklamalar yerine ID gömme şekillerini kullanır.

Eğitim ve Çıkarım

Eğitim aşamasında, InstantID çerçevesi IdentityNet ve Görsel Adaptör parametrelerini optimize eder, önceden eğitilmiş difüzyon modelinin parametrelerini dondurur. Tüm InstantID pipeline’ı, insan konularını içeren görsel-metin çiftleri üzerinde eğitilir ve Stable Diffusion çerçevesinde kullanılan görev özel görsel koşulları içeren bir eğitim hedefi kullanır. InstantID eğitim metodunun öne çıkan özelliği, Görsel Adaptör içindeki görsel ve metinsel cross-attention katmanlarının ayrılmasıdır, bu da InstantID çerçevesinin görsel koşullarının ağırlıklarını esnek ve bağımsız bir şekilde ayarlamasına olanak tanır, bu da daha hedefe yönelik ve kontrollü bir çıkarım ve eğitim sürecini sağlar.

InstantID: Deneyler ve Sonuçlar

InstantID çerçevesi, Stable Diffusion modelini uygular ve LAION-Face adlı büyük bir açık kaynaklı veri seti üzerinde eğitir, bu veri seti 50 milyondan fazla görsel-metin çiftini içerir. Ayrıca, InstantID çerçevesi BLIP2 modeli tarafından otomatik olarak oluşturulan 10 milyondan fazla insan görseli toplar, bu da görsel oluşturma kalitesini daha da geliştirir. InstantID çerçevesi, principalmente tek kişilik görsellere odaklanır ve önceden eğitilmiş bir yüz modelini kullanarak insan görsellerinden yüz ID gömme şekillerini çıkarmak için kullanır, ve eğitim için kırpılmış yüz veri setleri yerine orijinal insan görsellerini kullanır. Eğitim sırasında, InstantID çerçevesi önceden eğitilmiş metin-görsel modelinin parametrelerini dondurur ve yalnızca IdentityNet ve Görsel Adaptör parametrelerini günceller.

Görsel Yalnızca Oluşturma

InstantID modeli, boş bir açıklama kullanarak yalnızca referans görseli ile görsel oluşturma sürecini rehberlik eder, ve aşağıdaki görselde boş açıklama olmadan sonuçlar gösterilir.

‘Boş Açıklama’ oluşturma, yukarıdaki görselde gösterildiği gibi, InstantID çerçevesinin zengin anlamsal yüz özelliklerini, kimlik, yaş ve ifade gibi, güçlü bir şekilde koruduğunu gösterir. Ancak, boş açıklamalar kullanarak diğer anlamsal bilgiler gibi cinsiyetin doğru bir şekilde yeniden üretilip üretilmeyeceği belirsizdir. Ayrıca, yukarıdaki görselde, 2. ila 4. sütunlar bir görsel ve bir açıklama kullanır, ve görselde görüldüğü gibi, oluşturulan görsel, metinsel kontrol yeteneklerinde herhangi bir bozulma göstermez ve aynı zamanda kimlik tutarlılığını sağlar. Son olarak, 5. ila 9. sütunlar bir görsel, bir açıklama ve uzaysal kontrol kullanır, bu da modelin önceden eğitilmiş uzaysal kontrol modelleri ile uyumlu olduğunu gösterir, ve InstantID modelinin önceden eğitilmiş ControlNet bileşeni kullanarak uzaysal kontrolleri esnek bir şekilde tanıtmasını sağlar.

Ayrıca, referans görseli sayısı oluşturulan görsel üzerinde önemli bir etkiye sahiptir, yukarıdaki görselde gösterildiği gibi. InstantID çerçevesi tek bir réféans görseli kullanarak iyi sonuçlar elde edebilir, ancak birden fazla referans görseli daha yüksek kaliteli bir görsel oluşturur, çünkü InstantID çerçevesi ID gömme şekillerinin ortalama değerini görsel açıklama olarak alır. Devam ederek, InstantID çerçevesini, tek bir réféans görseli kullanarak kişiselleştirilmiş görsel oluşturma için mevcut yöntemlerle karşılaştırmak önemlidir. Aşağıdaki şekil, InstantID çerçevesi ve mevcut durumun en iyi modelleri tarafından oluşturulan sonuçların karşılaştırmasını sağlar.

Gördüğünüz gibi, InstantID çerçevesi yüz özelliklerini korur, çünkü ID gömme şekilleri zengin anlamsal bilgiler taşır, kimlik, yaş ve cinsiyet gibi. InstantID çerçevesinin, kişiselleştirilmiş görsel oluşturma görevinde mevcut çerçeveleri aştığını söylemek güvenlidir, çünkü insan kimliğini korurken aynı zamanda kontrol ve stil esnekliğini sağlar.

Son Düşünceler

Bu makalede, InstantID adlı bir difüzyon modeli tabanlı çözüm olan görsel oluşturma hakkında konuştuk. InstantID, çeşitli stiller boyunca yalnızca bir seule réféans görseli ile görsel oluşturma ve kişiselleştirme işlemlerini gerçekleştiren ve aynı zamanda yüksek doğruluk sağlayan bir tak ve oynat modülüdür. InstantID çerçevesi, anlık kimlik koruyucu görsel sentez üzerinde odaklanıyor ve basit bir tak ve oynat modülü tanıtarak, yalnızca bir seule yüz görseli kullanarak görsel kişiselleştirme işlemlerini gerçekleştirebiliyor ve aynı zamanda yüksek doğruluk sağlıyor.

Kunal Kejriwal

Mesleği mühendis, kalbi yazar. Kunal, AI ve ML'ye derin bir sevgi ve anlayışla technical writer, bu alanlardaki karmaşık kavramları etkileyici ve bilgilendirici belgelerle basitleştirmeye adanmış.