Yapay zeka modelleri ve platformları

MLLM Guided Image Editing veya MGIE: Bir Giriş

Yayınlandı 23 Şubat 2024

Güncellendi 22 Mayıs 2026

Yazan

Kunal Kejriwal

GUIDING INSTRUCTION-BASED IMAGE EDITING VIA MULTIMODAL LARGE LANGUAGE MODELS

Görsel tasarım araçları ve görme dili modelleri, multimedya endüstrisinde yaygın uygulamalara sahiptir. Son yıllarda önemli ilerlemeler kaydedilmesine rağmen, bu araçların kullanımı için vẫn sağlam bir anlayış gerekli olmaktadır. Erişilebilirlik ve kontrolü artırmak için, multimedya endüstrisi giderek metin yönlendirmeli veya talimat tabanlı görüntü düzenleme tekniklerini benimsemektedir. Bu teknikler, geleneksel bölgesel maskelerden veya ayrıntılı açıklamalardan ziyade doğal dil komutlarını kullanır, daha esnek ve kontrollü görüntü manipülasyonu sağlar. Ancak, talimat tabanlı yöntemler genellikle tam olarak yakalamak ve uygulamak için mevcut modellere zorlu olabilecek kısa talimatlar sağlar. Ayrıca, gerçekçi görüntüler oluşturma yetenekleri ile bilinen difüzyon modelleri, görüntü düzenleme sektöründe yüksek talep görmektedir.

Dahası, Çoklu Modal Büyük Dil Modelleri (MLLM’ler), görsel farkındalıkla yanıt oluşturma ve çapraz modal anlayış görevlerinde etkileyici performans göstermiştir. MLLM Guided Image Editing (MGIE), MLLM’lerden esinlenen bir çalışmadır ve bu modellerin yeteneklerini değerlendirir, metin veya yönlendirme aracılığıyla düzenleme nasıl desteklediğini analiz eder. Bu yaklaşım, açıklayıcı talimatlar sağlamak ve bunları türetmek için öğrenmeyi içerir. MGIE düzenleme modeli, görsel bilgileri anlar ve uçtan uca eğitim yoluyla düzenleme veya manipülasyon gerçekleştirir. Bu makalede, MGIE’nin global görüntü optimizasyonu, Photoshop tarzı değişiklikler ve yerel düzenleme üzerindeki etkisini değerlendireceğiz. Ayrıca, ifade edici talimatlar gerektiren talimat tabanlı görüntü düzenleme görevlerindeki MGIE’nin önemini tartışacağız. MGIE keşfine başlayalım.

MLLM Guided Image Editing veya MGIE: Bir Giriş

Çoklu Modal Büyük Dil Modelleri ve Difüzyon Modelleri, etkileyici üretken yetenekleri nedeniyle hiện kullanılan en yaygın AI ve ML çerçeveleridir. Bir yandan, gerçekçi ve görsel olarak çekici görüntüler üretebilen Difüzyon modelleri bulunurken, diğer yandan metin, dil, konuşma ve görüntü/video gibi çeşitli içerikleri üretebilen Çoklu Modal Büyük Dil Modelleri bulunmaktadır.

Difüzyon modelleri, görsel manipülasyonu gerçekleştirmek için girdi amaç açıklamasının değişimini yansıtan latent çapraz modal haritaları değiştirir ve ayrıca bir yönlendirme maskesi kullanarak bir görüntünün belirli bir bölgesini düzenleyebilir. Ancak, Difüzyon modellerinin multimedya uygulamaları için yaygın olarak kullanılması, karmaşık açıklamalara veya bölgesel maskelere güvenmek yerine, kullanıcıların görüntüyü doğrudan metin talimatları veya komutları kullanarak düzenleme yapmasına olanak tanıyan talimat tabanlı düzenleme yaklaşımlarını kullanmasıdır. Büyük Dil Modelleri, doğal dil işleme görevlerinde önemli ilerlemeler kaydetmiştir. Metin özetleme, makine çevirisi, metin oluşturma ve soru cevaplandırma gibi çeşitli görevlerde etkileyici performans gösterirler. Büyük Dil Modelleri, genellikle büyük ve çeşitli bir eğitim verisi kümesiyle eğitilir, bu da onlara görsel yaratıcılık ve bilgi sağlar, böylece çeşitli görsel dil görevlerini gerçekleştirebilirler. Büyük Dil Modelleri üzerine inşa edilen Çoklu Modal Büyük Dil Modelleri, görüntüleri doğal girdiler olarak kullanabilir ve uygun görsel olarak farkındalıkla yanıtlar sağlayabilir.

Bununla birlikte, Difüzyon Modelleri ve MLLM çerçeveleri görüntü düzenleme görevleri için yaygın olarak kullanılsa da, metin tabanlı talimatlar ile ilgili bazı rehberlik sorunları vardır ve bu, MGIE veya MLLM Guided Image Editing’in geliştirilmesine yol açmıştır. MGIE, bir difüzyon modeli ve bir MLLM modeli içeren AI destekli bir çerçevedir, aşağıdaki resimde gösterildiği gibi.

MGIE mimarisi içinde, difüzyon modeli, uçtan uca eğitim yoluyla görüntüyü düzenlemek için laten hayal gücü ile amaçlanan hedefi gerçekleştirmek üzere eğitilir. MLLM çerçevesi, precisa ve ifade edici metin talimatlarını tahmin etmek için öğrenir. Birlikte, difüzyon modeli ve MLLM çerçevesi, içgüdüsel görsel türetime izin veren modalite dönüşümünü gerçekleştirir. Bu modaliteler, Çoklu Modal Büyük Dil Modeli’nden laten görsel hayal gücü olarak görev yapar ve difüzyon modelini düzenleme görevlerini gerçekleştirmek için yönlendirir. MGIE çerçevesi, böylece görsel algı görevleri için makul görüntü düzenleme gerçekleştirebilir.

MGIE çerçevesi, iki mevcut yaklaşımı temel alır: Talimat Tabanlı Görüntü Düzenleme ve Görsel Büyük Dil Modelleri. Talimat tabanlı görüntü düzenleme, görsel manipülasyonu önemli ölçüde geliştirebilir ve insan komutlarına uymayı sağlayabilir. Talimat tabanlı görüntü düzenleme için iki ana çerçeve kullanılır: GAN çerçeveleri ve Difüzyon Modelleri. GAN veya Generatif Karşıt Ağlar, görüntüleri değiştirebilir, ancak belirli alanlarla sınırlı olabilir veya gerçekçi olmayan sonuçlar üretebilir. Diğer yandan, büyük ölçekli eğitimle difüzyon modelleri, küresel haritalar için çapraz modal dikkat haritalarını kontrol edebilir ve görüntü düzenleme ve dönüşüm gerçekleştirebilir. Talimat tabanlı düzenleme, genellikle bölgesel maskelerden veya ayrıntılı açıklamalardan ziyade doğrudan komutları girdi olarak alır. Ancak, verilen talimatların belirsiz veya düzenleme görevleri için yeterli olmadığı bir olasılık vardır.

Görsel Büyük Dil Modelleri, metin oluşturma ve genelleme yetenekleri ile çeşitli görevlerde tanınır ve güçlü metinsel bir anlayışa sahiptir, ayrıca yürütülebilir programlar veya sahte kod üretebilirler. Büyük Dil Modellerinin bu yeteneği, MLLM’lerin görüntüleri algılamasını ve görsel özellikler ile talimat ayarlaması yoluyla uygun yanıtlar sağlamasını sağlar, son modeller MLLM’leri kullanarak girdi metni veya sohbet ile ilgili görüntüler oluşturur. Ancak, MGIE’yi MLLM’lerden veya VLLM’lerden ayıran şey, MLLM’lerin görüntüleri oluşturabilmesidir, MGIE ise görüntü düzenleme yeteneklerini türetilen talimatlar ile geliştirir.

MGIE: Mimarisi ve Yöntemi

Geleneksel olarak, büyük dil modelleri doğal dil işleme görevleri için kullanılmıştır. Ancak MLLM’ler popüler hale geldikten sonra, LLM’ler görüntüleri algılayarak makul yanıtlar üretebilecek şekilde güçlendirilmiştir. Bir Çoklu Modal Büyük Dil Modeli, önceden eğitilmiş bir LLM’den başlatılır ve görsel özellikleri çıkarmak ve görsel özellikleri dil moduna projelendirmek için bir görsel kodlayıcı ve bir adaptör içerir. Bu nedenle, MLLM çerçevesi görsel girdileri algılayabilir, ancak çıktı vẫn metinle sınırlıdır.

Önerilen MGIE çerçevesi, bu sorunu çözmeyi amaçlar ve bir MLLM’nin, verilen metinsel talimata dayalı olarak bir girdi görüntüsünü bir çıktı görüntüsüne düzenleme yapmasını sağlar. Bunu gerçekleştirmek için, MGIE çerçevesi bir MLLM içerir ve ifade edici metin talimatlarını türetmek için eğitilir. Ayrıca, MGIE çerçevesi, görme ve dil modası arasındaki boşluğu köprülemek için özel görüntü tokenleri ekler ve modaları dönüştürmek için düzenleme başlığını benimser. Bu modalar, Çoklu Modal Büyük Dil Modeli’nden laten görsel hayal gücü olarak görev yapar ve difüzyon modelini düzenleme görevlerini gerçekleştirmek için yönlendirir. MGIE çerçevesi, böylece görsel algı görevleri için makul görüntü düzenleme gerçekleştirebilir.

İfade Edici Talimat

Geleneksel olarak, Çoklu Modal Büyük Dil Modelleri, talimat ayarlaması ve özellikler hizalaması sayesinde görsel ile ilgili yanıtlar sağlayabilir. MGIE çerçevesi, görüntüyü düzenlemek için bir metin ipucu kullanır ve düzenleme komutu için ayrıntılı bir açıklama türeterek, bu açıklamalar genellikle çok uzun veya tekrarlı açıklamalar içerebilir, bu da niyetin yanlış anlaşılmasına neden olabilir, bu nedenle MGIE, özetlenmiş açıklamalar elde etmek için önceden eğitilmiş bir özetleyici uygular, böylece MLLM, özetlenmiş çıktılar üretebilir. Çerçeve, ifade edici talimat olarak kabul edilen bu kısaltılmış ancak açık talimatları kullanır ve çoklu modal büyük dil modelini öğretme ile güçlendirmek için cross-entropy kaybını uygular.

İfade edici talimat kullanmak, metin talimatına kıyasla daha somut bir fikir sağlar ve görüntü düzenleme verimliliğini artırır. Ayrıca, MGIE çerçevesi,推論 döneminde, uzun açıklamalar üretmek yerine ifade edici talimatlar türeterek, dış özetleme bağımlılığı olmadan çalışır. MGIE modeli, görsel hayal gücünü elde edebilir, ancak hala dil modasına bağlıdır. Bu engeli aşmak için, MGIE modeli, ifade edici talimattan sonra, eğitilebilir kelime gömme ile belirli bir sayıda görsel token ekler, böylece MLLM, dil modeli başlığı kullanarak bunları üretebilir.

Görüntü Düzenleme ile Laten Hayal Gücü

Sonraki adımda, MGIE çerçevesi, düzenleme başlığını kullanarak görüntü talimatını gerçek görsel rehberliğe dönüştürür. Düzenleme başlığı, MLLM’den gelen sıralı görsel tokenleri anlamlı laten semantik olarak düzenleme rehberliği olarak eşleştiren bir dizi-dizi modeldir. Daha spesifik olarak, kelime gömme üzerindeki dönüşüm, görsel modalite中的 genel bir temsil olarak yorumlanabilir ve düzenleme niyetleri için örnek farkındalıkla görsel hayal gücü bileşeni kullanır. Ayrıca, görsel hayal gücü ile görüntü düzenleme rehberliği sağlamak için, MGIE çerçevesi, mimarisine bir laten difüzyon modeli entegre eder, bu, bir varyasyonel oto-encoder ve laten uzaydaki gürültü difüzyonunu içerir. Laten difüzyon modelinin birincil amacı, laten girişi koruyarak düzenleme rehberliğine uyan laten hedefi üretmektir. Difüzyon süreci, laten hedefe düzenli zaman aralıklarında gürültü ekler ve gürültü seviyesi her zaman adımda artar.

MGIE’nin Öğrenimi

Aşağıdaki şekil, önerilen MGIE çerçevesinin öğrenme algoritmasını özetler.

Görüldüğü gibi, MLLM, talimat kaybını kullanarak ifade edici talimatlar türeterek öğrenir. Girdi görüntü talimatlarından laten hayal gücü kullanarak, çerçeve, düzenleme başlığını dönüştürür ve difüzyon modelini düzenleme görevlerini gerçekleştirmek için yönlendirir. Son olarak, çerçeve, ağırlıkların çoğunu dondurur, böylece parametre-verimli uçtan uca eğitim sağlar.

MGIE: Sonuçlar ve Değerlendirme

MGIE çerçevesi, birincil ön eğitim verisi olarak IPr2Pr veri kümesini kullanır ve bu, 1 milyondan fazla CLIP filtro edilmiş veri ve GPT-3 modelinden çıkarılan talimatları içerir, ayrıca Prompt-to-Prompt modeli ile görüntüler sentezlenir. Ayrıca, MGIE çerçevesi, talimat tabanlı görüntü düzenleme görevleri için bir réféans olarak CLIP metin kodlayıcısı ile bir difüzyon modeli üzerine inşa edilen InsPix2Pix çerçevesini kullanır. MGIE modeli ayrıca, yalnızca metin girdilerinden ifade edici talimatlar üreten, ancak görsel algılamayı içermeyen bir LLM yönlendirmeli görüntü düzenleme modelini dikkate alır.

Nicel Analiz

Aşağıdaki şekil, sıfır çekim ayarında eğitilen modellerin düzenleme sonuçlarını özetler. GIER ve EVR verisi için Photoshop tarzı değişiklikler, ifade edici talimatlar, belirsiz komutlar yerine somut hedefleri ortaya koyabilir, bu da düzenleme sonuçlarının düzenleme niyetlerine daha iyi uyduğunu gösterir.

Her ne kadar LGIE ve MGIE, InsPix2Pix modeli ile aynı veri üzerinde eğitilmiş olsalar da, büyük dil modeli ile öğrenme sayesinde ayrıntılı açıklamalar sunabilirler, ancak LGIE tek bir modaya mahkumdur. MGIE çerçevesi, görüntülere erişimi sayesinde önemli bir performans artışı sağlayabilir, çünkü bu görüntüleri kullanarak açık talimatlar türetebilir.

Belirli amaçlar için talimat tabanlı görüntü düzenleme görevlerindeki performansı değerlendirmek için, geliştiriciler her veri kümesi için birkaç modeli ince ayarlar, aşağıdaki tabloda özetlenmiştir.

Görüldüğü gibi, Photoshop tarzı düzenleme görevleri için EVR ve GIER’de uyarlanan modeller, performansı artırır. Ancak, ince ayarın, ifade edici talimatları daha alan spesifik hale getirdiği ve MGIE çerçevesinin, alanla ilgili rehberlik öğrenerek difüzyon modelinin somut düzenlenmiş sahneleri göstermesini sağlayan bir performans artışı sağladığı unutulmamalıdır. Ayrıca, görsel olarak farkındalıkla rehberlik, düzenleme hedefleri ile daha iyi hizalanır, bu da MGIE çerçevesinin LGIE’ye kıyasla tutarlı olarak üstün sonuçlar vermesini sağlar.

Aşağıdaki şekil, girdi veya gerçek hedef görüntüleri ve ifade edici talimatlar arasında CLIP-S puanını gösterir. Daha yüksek bir CLIP puanı, talimatların düzenleme kaynağı ile ilgili olduğunu gösterir ve MGIE’nin, hem girdi hem de çıktı görüntüleri için LGIE modeline kıyasla daha yüksek bir CLIP puanına sahip olduğu görülür.

Niteliksel Sonuçlar

Aşağıdaki görüntü, MGIE çerçevesinin nitel analizini mükemmel bir şekilde özetler.

Bilindiği gibi, LGIE çerçevesi, tek bir modaya bağlıdır ve bu nedenle yalnızca dil tabanlı bir anlayışa sahiptir, bu da görüntüyü düzenlemek için yanlış veya alakasız açıklamalar türeterek eğilimlidir. Ancak, MGIE çerçevesi çok modaldır ve görüntülere erişimi sayesinde, düzenleme görevlerini tamamlar ve hedef ile çok iyi hizalanmış açık görsel hayal gücü sağlar.

Son Düşünceler

Bu makalede, MLLM Guided Image Editing veya MGIE’yi tartıştık, bu, Çoklu Modal Büyük Dil Modellerini değerlendiren ve metin veya yönlendirme aracılığıyla düzenleme nasıl desteklediğini analiz eden bir çalışmadır. MGIE düzenleme modeli, görsel bilgileri anlar ve uçtan uca eğitim yoluyla düzenleme veya manipülasyon gerçekleştirir. MGIE çerçevesi, belirsiz ve kısa rehberlik yerine, görsel olarak farkındalıkla talimatlar üreterek makul görüntü düzenleme sağlar.

Kunal Kejriwal

Mesleği mühendis, kalbi yazar. Kunal, AI ve ML'ye derin bir sevgi ve anlayışla technical writer, bu alanlardaki karmaşık kavramları etkileyici ve bilgilendirici belgelerle basitleştirmeye adanmış.

Unite.AI

MLLM Guided Image Editing veya MGIE: Bir Giriş

MLLM Guided Image Editing veya MGIE: Bir Giriş

MGIE: Mimarisi ve Yöntemi

İfade Edici Talimat

Görüntü Düzenleme ile Laten Hayal Gücü

MGIE’nin Öğrenimi

MGIE: Sonuçlar ve Değerlendirme

Nicel Analiz

Niteliksel Sonuçlar

Son Düşünceler

Daha fazlasını keşfedin