Yapay Zekâ
Görsel Talimat Ayarlaması için Piksel Düzeyinde Anlama ile Osprey

Görsel talimat ayarlaması yöntemlerindeki recent gelişmelerle, Multimodal Büyük Dil Modelleri (MLLM’ler), dikkat çekici genel amaçlı görme-dil yetenekleri sergilediler. Bu yetenekler, modern genel amaçlı görsel asistanların temel bileşenlerini oluştururlar. MiniGPT-4, LLaVA, InstructBLIP ve diğerleri gibi recent modeller, etkileyici görsel akıl yürütme ve talimatları izleme yetenekleri sergiler. Bunların大 çoğunluğu, görüntü-metin çiftlerini görüntü düzeyinde görme-dil hizalaması için kullanmalarına rağmen, bu alanda iyi performans sergilerler. Ancak, kutu düzeyinde ve görüntü düzeyinde anlama bağımlılıkları, MLLM’lerin piksel düzeyinde ince görsel-dil hizalaması görevlerinde performanslarını tekrarlayamamasının birincil nedenidir. Ayrıca, eğitim için maskeli talimat verisi bulunmasının sınırlı olması, MLLM’leri daha da geliştirmekte zorluklara neden olur.
Osprey, dil talimatlarına ince görsel maskeleri entegre ederek piksel düzeyinde görsel-dil anlama sağlamak amacıyla tasarlanmış bir maskeli talimat eğitimi yöntemidir. Bunu başarmak için, Osprey çerçevesi 700 binden fazla örnek içeren bir maskeli bölge-metin veri seti oluşturur ve Büyük Dil Modellerine (LLM’ler) piksel düzeyinde temsil ekler. Osprey çerçevesi, bir görme-dil modeli tasarlamak için bir konvolüsyonel CLIP modelini görme kodlayıcısı olarak benimser ve mimarisine bir maskeli görsel çıkarıcı entegre eder. Bu, yüksek çözünürlüklü girişimden görsel maskeli özelliklerin kesin bir şekilde çıkarılmasını sağlar.
Bu makalede, Osprey çerçevesini ve mimarisini daha derinlemesine inceleyeceğiz. Ayrıca, 700 binden fazla örnek içeren oluşturulan bölge-metin veri setini ve çeşitli bölge anlama görevlerindeki performansını karşılaştıracağız. Şimdi başlayalım.
Osprey: Piksel Anlama ile Görsel Talimat Ayarlaması
MiniGPT-4, Otter, Qwen-LV, InstructBLIP ve diğerleri gibi Multimodal Büyük Dil Modelleri, genel amaçlı görsel asistanlar geliştirmede ön plana çıkıyorlar ve istisnai çok modelli ve görme üretme yetenekleri ile tanınıyorlar. Ancak, Multimodal Büyük Dil Modelleri, ince görsel anlama görevlerinde, örneğin kaptiyonlama, bölge sınıflandırma ve akıl yürütme gibi görevlerde tatmin edici sonuçlar vermemekte zorlanıyorlar. İnce görsel anlama görevlerinde düşük performansın birincil nedeni, bölge düzeyinde hizalamanın olmamasıdır. Recent MLLM’ler gibi GPT4RoI, Shikra ve diğerleri, nesne düzeyinde görsel talimat ayarlamasıyla birlikte, sınırlayıcı kutu belirtilen bölgeleri işleyerek, bölge düzeyinde anlama yeteneklerini görme-dil modellerine kazandırmayı hedefliyorlar.
Bölge düzeyinde anlama yeteneklerini etkinleştirmeye yönelik yaklaşım, performansı geliştirebilir, ancak seyrekleşmiş sınırlayıcı kutuları doğrudan başvurulan bölge girişi olarak kullanmak, alakasız arka plan özelliklerine neden olabilir ve büyük dil modellerinde görsel talimat ayarlaması için bölge-metin çifti hizalamasını etkileyebilir. Tahmin sürecinde, kutu düzeyinde başvurulan girişin nesneyi ve temsilini kesin bir şekilde tespit edemeyebilir, bu da anlamsal sapmaya neden olabilir, aşağıdaki resimde gösterildiği gibi.

Karşılaştırıldığında, kaba sınırlayıcı kutular yerine ince maskeleri başvurulan giriş olarak kullanmak, nesneleri daha kesin bir şekilde temsil edebilir. Recent olarak geliştirilen SAM veya Segment Anything Model, milyarlarca yüksek kaliteli maske üzerinde eğitilir, sıfır-shot nesnelerde etkileyici segmentasyon kalitesi sergiler ve noktaları veya basit sınırlayıcı kutuları promt olarak kullanmayı destekler. Ancak, SAM çerçevesi birincil anlamsal etiketler oluşturamaz, nor dapatetailed anlamsal kaptiyonlar ve öznitelikler sağlayamaz. Sonuç olarak, mevcut modeller içsel çok modelli ince görsel bilgisi eksikliği vardır ve gerçek dünya sahnelerinde sınırlı anlama yeteneklerine sahiptirler.
Mevcut MLLM’lerin karşılaştığı zorlukları ele almak için, Osprey, bir maskeli talimat eğitimi yöntemi olarak, multimodal büyük dil modellerini piksel düzeyinde ince anlama için genişletmeyi hedefliyor. Osprey çerçevesi, maskeli bölge özellikleri kesin bir şekilde yakalamak için bir maskeli görsel çıkarıcı bileşeni benimser. Çerçeve, daha sonra görsel özellikleri dil talimatlarıyla birleştirir ve büyük dil modeline girdi dizisi oluşturmak için kullanır ve yüksek çözünürlüklü girişi kullanmayı kolaylaştırmak için konvolüsyonel CLIP mimarisini benimser. Mimarisinin tasarımı nedeniyle, Osprey çerçevesi nesne düzeyinde ve parça düzeyinde bölgelerde ince anlamsal anlama yeteneklerine ulaşabilir ve nesne öznitelikleriyle birlikte birincil nesne kategorisi ve karmaşık sahnelerin geliştirilmiş açıklamalarını sağlar.
Görsel talimat ayarlaması yeteneklerini kullanarak, Osprey çerçevesi, görme-dil modellerinin görüntü düzeyinde ve kutu düzeyinde anlama yeteneklerinin ötesinde yeni yetenekler sağlar, çünkü Osprey çerçevesi, raflardan SAM’lerden sınıf-agnostic maskeleri kullanarak ince görsel anlama yeteneklerine sahiptir. Ayrıca, Osprey, başvurulan nesne sınıflandırma, açık-sözlük tanıma, bölge düzeyinde kaptiyonlama ve ayrıntılı bölge açıklama görevleri gibi çeşitli görevlerde etkileyici yeteneklere sahiptir.
Osprey: Yöntem ve Mimari
Aşağıdaki şekil, büyük bir dil modeli, piksel düzeyinde maskeli görsel çıkarıcı ve görüntü düzeyinde görme kodlayıcısından oluşan Osprey çerçevesinin mimari özetini gösterir.

Verilen bir görüntü, girdi dili ve başvurulan maskeli bölgeler için, çerçeve, görsel özellikleri ve dil talimatlarını büyük dil modeline göndermek için dönüştürme ve tokenizasyon işlemlerini gerçekleştirir ve sonra ince anlamsal anlama elde eder.
Konvolüsyonel CLIP Görme Kodlayıcısı
Çok modelli büyük dil modellerinin çoğunda kullanılan görme kodlayıcısı, ViT tabanlı bir CLIP modeli ile gösterilir. Bu nedenle, çerçeve 224×224 piksel veya 336×336 piksel gibi bir görüntü çözünürlüğü benimser. Ancak, ViT tabanlı CLIP modelinin kullanılması, modelin piksel düzeyinde görüntü anlama yeteneklerini elde etmesini zorlaştırır, bu da küçük bölgelerde daha da belirginleşir. Ayrıca, ViT mimarisinin hesaplamalı yükü, giriş görüntü çözünürlüğünü artırma olasılığını engeller.
Bu zorluğu ele almak için, Osprey çerçevesi mimarisinde konvolüsyonel bir CLIP modelini görme kodlayıcısı olarak benimser. Geleneksel olarak, CNN tabanlı CLIP modelleri, farklı giriş çözünürlüklerinde vision transformer tabanlı CLIP modellerine kıyasla etkileyici genelleme yetenekleri sergiler. CNN tabanlı bir CLIP modeli benimsemek, hızlı tahmin ve verimli eğitim için olanak sağlar ve modelin performansını etkilemez. Ayrıca, bir CNN tabanlı CLIP modeli, her bir nesne bölgesinde özellik çıkarma için doğrudan kullanılan çok ölçekli özellik haritaları oluşturabilir.
Maskeli Görsel Çıkarıcı
Mevcut bölge tabanlı modellerin seyrekleşmiş sınırlayıcı kutuları başvurulan giriş olarak kullanmalarının aksine, Osprey çerçevesi nesne tabanlı temsil için ayrıntılı maskeli bölgeleri kullanır. Osprey modeli, her bir nesne bölgesinde piksel düzeyinde özellikler yakalamak için bir maskeli görsel çıkarıcı bileşeni kullanır. Maskeli görsel çıkarıcı bileşeni, maskeli düzeyde görsel özellikler kodlar ve ayrıca her bir bölgenin mekansal konum bilgisini toplar.
Bunu gerçekleştirmek için, Osprey önce görme kodlayıcısı tarafından üretilen çok düzeyli görüntü özelliklerini kullanır ve her bir düzey için, çerçeve maskeli bölgede yer alan tüm özellikleri havuzlar. Model, daha sonra her bir özelliği lineer bir proje katmanına geçirerek bölge düzeyinde gömme oluşturur ve çok düzeyli özellikleri toplama yaparak birleştirir. Model, daha sonra görsel maskeli token oluşturmak için bir MLP katmanı kullanır. Ayrıca, Osprey, her bir nesne bölgesinin mekansal geometrisini, piksel düzeyinde konum ilişkisini kodlayarak korur. Son olarak, Osprey, her bir maskeli bölge gömme için görsel maskeli token ve ilgili mekansal tokenleri içerir.
LLM Tokenizasyonu
Önceden bahsedildiği gibi, model, bir görüntüyü önceden eğitilmiş bir CNN tabanlı görme kodlayıcısına besleyerek görüntü düzeyinde gömme oluşturur. Metinsel bilgiler için, model önce önceden eğitilmiş LLM tokenizatörlerini kullanarak metin dizilerini tokenize eder ve sonra bu tokenize metin dizilerini metin gömmelerine projeler. Maskeli bölgeler için, model bir özel tokeni bir yer tutucu olarak tanımlar ve sonra bunu bir mekansal token ile bir maskeli token ile değiştirir. Model, metin girişinde bir nesne bölgesine atıfta bulunduğunda, bölgenin adını takiben yer tutucuyu ekler, bu da maskeli bölgelerin metinlerle iyi bir şekilde karışmasına ve cümlelerin tokenizasyon boşluğu olmadan oluşmasına olanak sağlar. Ayrıca, kullanıcı talimatlarının yanı sıra, model bir ön ek promt içerir, bu da bir özel token olarak hizmet eder ve daha sonra görme kodlayıcısının görüntü düzeyinde gömmesiyle değiştirilir. Son olarak, çerçeve, bölge düzeyinde ve görüntü düzeyinde görsel tokenleri metin tokenleriyle birleştirir ve büyük dil modeline besler, böylece kullanıcı talimatlarını ve görüntüyü farklı bölgelerle birlikte anlar.
Osprey: Üç Aşamlı Eğitim Süreci
Osprey çerçevesi, her biri bir sonraki token tahmini kaybını en aza indirerek denetlenen üç aşamlı bir eğitim süreci benimser.
Aşama 1: Görüntü-Metin Hizalama Eğitim
İlk aşamada, Osprey çerçevesi CNN tabanlı CLIP görme kodlayıcısını kullanarak görüntü düzeyinde özellikler ve dil bağlantısını eğitmek için kullanılır. İlk aşamada, çerçeve üç bileşen kullanır: önceden eğitilmiş bir büyük dil modeli, önceden eğitilmiş bir görme kodlayıcısı ve bir görüntü düzeyinde projeleyici. Çerçeve ayrıca, Osprey’nin çok modelli üretme yeteneklerini artırmaya yardımcı olan bir MLP katmanını görme-dil bağlantısı olarak benimser.
Aşama 2: Maskeli-Metin Hizalama Ön-Eğitimi
İkinci aşamada, Osprey ilk aşamada eğitilen ağırlıkları yükler ve maskeli görsel çıkarıcı bileşenini kullanarak piksel düzeyinde bölge özelliklerini yakalar. İkinci aşamada, çerçeve yalnızca maskeli görsel çıkarıcıyı, dil gömmelerini maskeli bölge özellikleriyle hizalamak için eğitmek için kullanır. Ayrıca, model, parça düzeyinde ve kamu düzeyinde nesne düzeyinde veri setlerinden piksel düzeyinde maskeli çiftleri ve kısa metinleri toplar ve bunları talimatları izleme verilerine dönüştürmek için kullanır.
Aşama 3: Sonuna Kadar İnce Ayar
Üçüncü ve son aşamada, model görme kodlayıcısının ağırlıklarını sabit tutar ve büyük dil modelini, maskeli bölge özelliği çıkarıcısını ve görüntü düzeyinde projeleyicisini ince ayarlar. Üçüncü aşamanın birincil amacı, modelin kullanıcı talimatlarını doğru bir şekilde izlemesini sağlamak ve piksel düzeyinde bölge anlama görevlerini verimli bir şekilde gerçekleştirmektir.
Üç eğitim aşamasını uyguladıktan sonra, Osprey çerçevesi karmaşık senaryoları anlar, bunlar kullanıcı talimatları tarafından tanımlanır ve piksel düzeyinde maskeli bölgelere dayanır.
Osprey: Deneysel Sonuçlar
Performansını değerlendirmek için, Osprey geliştiricileri, modelin sınıflandırma, piksel düzeyinde bölge tabanlı tanıma ve karmaşık açıklamalar gibi görevlerdeki yeteneklerini göstermek için geniş bir deneysel çalışma yürütür.

Açık-Sözlük Segmentasyon
Açık-sözlük segmentasyonunun birincil amacı, maskeli bölge tanımasını ve ilgili kategorisini açık bir şekilde üretmektir. Açık-sözlük segmentasyonu gerçekleştirmek için, Osprey önce bir girdi metin promt kullanır, daha sonra model, modelin performansını açık-sözlük tanıma görevlerinde değerlendirmek için gerçek maskeli bölgeleri benimser. Büyük dil modeli tarafından üretilen cümle yanıtına dayanarak, Osprey, sözlük listesi ve her bir veri setinin çıktısı arasındaki anlamsal benzerliği hesaplar. Aşağıdaki şekil, Osprey’i mevcut çok modelli büyük dil modelleriyle karşılaştırır.

Görülebileceği gibi, Osprey çerçevesi, Cityscapes ve ADE20K-150 veri setlerinde mevcut yöntemleri önemli bir marjla geride bırakır. Sonuçlar, Osprey’in ince görsel-dil anlama ve tanıma yeteneklerini göstermektedir.
Referans Nesne Sınıflandırma
Referans Nesne Sınıflandırma görevinde, modelin bir görüntünün belirli bir bölgesindeki nesneyi sınıflandırması gerekir. Sınıflandırma yeteneklerini değerlendirmek için, Osprey çerçevesi iki anlamsal alaka metriği kullanır: Anlamsal IoU (S-IoU) ve Anlamsal Benzerlik (SS). Anlamsal IoU, gerçek ve tahmin edilen etiketler arasındaki kelime örtüşmesini temsil eder, जबकi Anlamsal Benzerlik, anlamsal uzayda tahmin edilen ve/veya gerçek etiketler arasındaki benzerliği ölçer. Aşağıdaki resim, Osprey’in kutu düzeyinde ve görüntü düzeyinde yaklaşımlarla karşılaştırıldığında Referans Nesne Sınıflandırma görevindeki performansını gösterir.

Ayrıntılı Bölge Açıklaması
Ayrıntılı Bölge Açıklaması görevinde, model talimatları izleme yeteneklerini ve diğer bölge düzeyinde açıklama yeteneklerini değerlendirir. Model, önceden tanımlanmış bir liste中的 bir girdi çıkışı promtını rastgele seçer ve GPT-4 LLM çerçevesini kullanarak, modelin çıktısının kalitesini başvurulan bölgelerle kapsamlı bir şekilde ölçer. Talimat oluşturma işlem hattını kullanarak, model sorular oluşturur ve GPT-4’ün cevaplarını arar, ardından LLM, başvurulan anlama ve anlamsal doğruluğun doğruluğunu değerlendirir. Aşağıdaki tablo, Osprey’in state-of-the-art modellerle karşılaştırıldığında Ayrıntılı Bölge Açıklama görevlerindeki performansını gösterir.

Bölge Düzeyinde Kaptiyonlama
Osprey çerçevesi ayrıca, aşağıdaki resimde yer alan Sonuçlarda gösterildiği gibi, Bölge Düzeyinde Kaptiyonlama görevlerinde mevcut yaklaşımları geride bırakır.

Son Düşünceler
Bu makalede, Osprey’i, multimodal büyük dil modellerini piksel düzeyinde ince görsel anlama için genişletmeyi hedefleyen bir maskeli talimat eğitimi yöntemi olarak tanıttık. Osprey çerçevesi, 700 binden fazla örnek içeren bir maskeli bölge-metin veri seti oluşturur ve büyük dil modellerine piksel düzeyinde temsil ekler. Osprey çerçevesi, multimodal büyük dil modellerini ince görsel anlama için önemli ölçüde geliştirmeyi hedefliyor ve bir CNN tabanlı CLIP modeli ve bir maskeli görsel çıkarıcı kullanarak, nesne düzeyinde ve parça düzeyinde bölgelerde anlama yeteneklerine ulaşabiliyor.












