saplama Osprey ile Piksel Düzeyinde Anlayış için Görsel Talimat Ayarlaması - Unite.AI
Bizimle iletişime geçin

Yapay Zeka

Osprey ile Piksel Düzeyinde Anlayış için Görsel Talimat Ayarlaması

mm
Güncellenmiş on

Görsel talimat ayarlama yöntemlerinin yakın zamanda geliştirilmesiyle birlikte, Çok Modlu Büyük Dil Modelleri (MLLM'ler) dikkate değer genel amaçlı görme dili yetenekleri göstermiştir. Bu yetenekler, onları modern genel amaçlı görsel asistanlar için temel yapı taşları haline getiriyor. MiniGPT-4, LLaVA, InstructBLIP ve diğerleri de dahil olmak üzere yeni modeller, etkileyici görsel akıl yürütme ve talimatları takip etme yetenekleri sergiliyor. Her ne kadar çoğunluğu görüntü düzeyinde görüş-dil hizalaması için görüntü-metin çiftlerine güvense de, bu alanda iyi performans gösteriyorlar. Bununla birlikte, kutu düzeyinde ve görüntü düzeyinde anlayışa güvenmeleri, MLLM'lerin ince taneli görüş dili hizalama görevlerindeki performanslarını piksel düzeyinde kopyalamada yetersiz kalmasının temel nedenidir. Ek olarak, eğitim için maske tabanlı talimat verilerinin sınırlı kullanılabilirliği, MLLM'lerin daha da geliştirilmesinde zorluklar yaratmaktadır.

Osprey, temel amacı MLLM'leri genişletmek olan bir maske metni öğretimi eğitim yöntemidir. Piksel seviyesinde görsel dil anlayışını elde etmek için dil öğretiminde ince taneli maskelenmiş bölgeleri içerir. Bunu başarmak için Osprey çerçevesi, 700 binin üzerinde örnek içeren maske tabanlı bir bölge metni veri kümesini düzenler. Bir vizyon-dil modeli tasarlamak için Büyük Dil Modellerine (LLM'ler) piksel düzeyinde temsil enjekte eder. Özellikle Osprey çerçevesi, görüntü kodlayıcı olarak evrişimli bir CLIP modelini benimsiyor ve mimarisine maske duyarlı bir görsel çıkarıcı entegre ediyor. Bu, görsel maske özelliklerinin yüksek çözünürlüklü girişten hassas şekilde çıkarılmasına olanak tanır.

Bu yazıda Osprey çerçevesini tartışacağız ve mimarisini daha derinlemesine inceleyeceğiz. Ayrıca 700 binin üzerinde örnekle seçilmiş bölge metni veri kümesini inceleyeceğiz ve çeşitli bölge anlama görevlerindeki performansını karşılaştıracağız. Öyleyse başlayalım.

Osprey: Görsel Talimat Ayarlamayla Piksel Anlayışı

MiniGPT-4, Otter, Qwen-LV, InstructBLIP ve diğerleri gibi Multimodal Büyük Dil Modelleri, genel amaçlı görsel asistanların geliştirilmesinde öncüdür ve olağanüstü multimodal ve görüntü oluşturma yetenekleriyle tanınırlar. Bununla birlikte, Çok Modlu Büyük Dil Modelleri, altyazı ekleme, bölge sınıflandırması ve akıl yürütme gibi ince taneli görüntü anlama görevlerinde tatmin edici olmayan sonuçlar sunduğundan büyük bir zorlukla karşı karşıyadır. İnce taneli görüntü anlama görevlerinde ortalamanın altındaki performansın ana nedeni, bölge düzeyinde uyum eksikliğidir. Son MLLM'ler GPT4RoI gibi Shikra ve diğerleri, sınırlayıcı kutuyla belirlenen bölgeleri işleyerek ve nesne düzeyinde uzamsal özelliklerle görsel talimat ayarlamasından yararlanarak görme dili modellerinde bölge düzeyinde anlayış sağlamayı amaçlıyor. 

Bölge düzeyinde anlayışı etkinleştirme yaklaşımı performansı artırabilse de, doğrudan başvuran giriş bölgesi olarak seyrek sınırlayıcı kutuların kullanılması, büyük dil modellerinde görsel talimat ayarlaması için hatalı bölge-metin çifti hizalamasına yol açan ilgisiz arka plan özelliklerini ortaya çıkarabilir. Çıkarım işlemi sırasında, kutu düzeyindeki başvuran girdi nesneyi tam olarak algılayamayabilir ve temsil edemeyebilir; bu, aşağıdaki resimde gösterildiği gibi anlamsal sapmaya neden olabilir. 

Buna karşılık, başvuran girdi olarak kaba sınırlayıcı kutular yerine ince taneli maskelerin kullanılması, nesneleri daha kesin bir şekilde temsil edebilir. Yakın zamanda geliştirilen SAM veya Her Şeyi Segmente Alma Modeli, milyarlarca yüksek kaliteli maskeyi eğitir, sıfır atışlı nesnelerde olağanüstü segmentasyon kalitesi gösterir ve istem olarak noktaların veya basit sınırlayıcı kutuların kullanımını destekler. Ancak SAM çerçevesi birincil anlamsal etiketler oluşturamadığı gibi ayrıntılı anlamsal başlıklar ve nitelikler de sağlayamaz. Sonuç olarak, mevcut modeller, doğası gereği çok modlu ince taneli bilgilerden yoksundur ve gerçek dünyadaki sahnelere ilişkin sınırlı bir anlayışa sahiptir. 

Mevcut MLLM'lerin karşılaştığı zorlukların üstesinden gelmek için yeni bir maske-metin öğretimi eğitim yöntemi olan Osprey, piksel düzeyinde ayrıntılı anlayış için çok modlu büyük dil modellerinin yeteneklerini genişletmeyi amaçlamaktadır. Osprey çerçevesi, değişen ayrıntı düzeyine sahip görsel maske özelliklerini hassas bir şekilde yakalayan, maskeye duyarlı bir görsel çıkarıcı sunar. Çerçeve daha sonra büyük dil modeli için giriş dizisini oluşturmak üzere görsel özellikleri dil talimatlarıyla birleştirir ve yüksek çözünürlüklü girişin kullanımını kolaylaştırmak için evrişimli CLIP mimarisinden yararlanır. Tasarımı ve mimarisi sayesinde Osprey çerçevesi, nesne düzeyi ve parça düzeyi bölgeleri için ayrıntılı anlamsal anlayış elde edebilir ve birincil nesne kategorisinin yanı sıra ayrıntılı nesne nitelikleri ve karmaşık sahnelerin gelişmiş açıklamalarını sağlar. 

Osprey çerçevesi, görsel talimat ayarlama yeteneklerinden yararlanarak, sahnelerin görüntü düzeyinde ve kutu düzeyinde anlaşılmasının ötesinde yeni yetenekler sağlar; çünkü Osprey çerçevesi, kullanıma hazır SAM'lerden sınıftan bağımsız maskeler kullanarak ayrıntılı anlambilim üretebilir. Ek olarak Osprey, atıfta bulunan nesne sınıflandırması, açık kelime dağarcığı tanıma, bölgesel düzeyde altyazı ekleme ve ayrıntılı bölge tanımlama görevlerinde de dikkate değer yetenekler sergiliyor. 

Osprey: Metodoloji ve Mimari

Aşağıdaki şekil, büyük bir dil modeli, piksel düzeyinde maske duyarlı görsel çıkarıcı ve görüntü düzeyinde görüntü kodlayıcıdan oluşan Osprey çerçevesinin mimariye genel bakışını göstermektedir. 

Belirli bir görüntü, giriş dili ve başvuran maske bölgeleri için çerçeve, ayrıntılı anlamsal anlayışlar elde etmek amacıyla dil yerleştirme dizilerini ve serpiştirilmiş maske özelliklerini büyük dil modeline göndermeden önce yerleştirmeler oluşturmak üzere dönüştürme ve simgeleştirme gerçekleştirir.

Evrişimli CLIP Görüş Kodlayıcı

Çoklu modlu sistemlerin çoğunda kullanılan görüntü kodlayıcı büyük dil modelleri ViT tabanlı bir CLIP modeli kullanılarak örneklenmiştir. Sonuç olarak çerçeve, 224x224 piksel veya 336 x 336 piksel görüntü çözünürlüğünü benimser. Bununla birlikte, ViT tabanlı CLIP modelinin kullanılması, modelin piksel düzeyindeki temsillerin ince taneli görüntü anlayışını elde etmesini zorlaştırır; bu sorun, küçük bölgelerde daha da güçlenir. Ayrıca, ViT mimarisiyle ilişkili aşırı hesaplama, giriş görüntü çözünürlüğünün artırılması olasılığını engeller. 

Bu zorluğun üstesinden gelmek için Osprey çerçevesi, mimarisinde görüntü kodlayıcı olarak evrişimli bir CLIP modeli uygular. Geleneksel olarak Evrişimsel Sinir Ağları tabanlı CLIP modelleri, görüntü transformatörü tabanlı CLIP modelleriyle karşılaştırıldığında farklı giriş çözünürlüklerinde dikkate değer genelleme yetenekleri sergilemiştir. CNN tabanlı bir CLIP modelinin uygulanması, modelin performansından ödün vermeden hızlı çıkarım ve etkili eğitim için yer açar. Ayrıca, CNN tabanlı bir CLIP modeli, çerçevenin daha sonra her bir sonraki nesne bölgesinde özellik çıkarımı için doğrudan kullandığı çok ölçekli özellik haritalarını üretme kapasitesine sahiptir. 

Maske Uyumlu Görsel Çıkarıcı

Yönlendiren girdi olarak seyrek sınırlayıcı kutular kullanan mevcut bölge tabanlı modellerin aksine, Osprey çerçevesi, nesne tabanlı gösterimleri uygulamak için ayrıntılı maske bölgelerini kullanır. Osprey modeli, her nesne bölgesindeki piksel düzeyindeki özellikleri yakalamak için maskeyi tanıyan bir görsel çıkarıcı bileşeni kullanır. Maskware görsel çıkarıcı bileşeni, maske düzeyindeki görsel özellikleri kodlar ve ayrıca her bölgenin uzamsal konum bilgisini toplar. 

Bunu uygulamak için, Osprey ilk olarak maske havuzlama işlemini benimsemek üzere görüntü kodlayıcı tarafından oluşturulan çok seviyeli görüntü özelliklerini kullanır ve her bir seviye özelliği için çerçeve, maske bölgesi içinde yer alan tüm özellikleri bir havuzda toplar. Model daha sonra, her özelliği bölge düzeyinde yerleştirmeler üreten doğrusal bir projeksiyon katmanından geçirerek farklı katmanlardaki özellikleri kodlar ve toplama gerçekleştirerek çok düzeyli özellikleri birleştirir. Model daha sonra görsel maske belirtecini üretmek için bir MLP katmanı kullanır. Ayrıca Osprey, her nesne bölgesi için bir ikili maske uygulayarak piksel düzeyindeki konum ilişkisini kodlayarak nesne bölgesinin uzamsal geometrisini korur. Sonunda Osprey, her maske bölgesi yerleştirmesi için görsel maske jetonunu ve ilgili uzamsal jetonlarını içerir. 

Yüksek Lisans Tokenizasyonu

Daha önce de belirtildiği gibi model, bir görüntünün görüntü düzeyindeki yerleştirmelerini, onu önceden eğitilmiş bir CNN tabanlı görsel kodlayıcıya besleyerek çıkarır. Metinsel bilgi için, model ilk önce metin dizilerini simgeleştirmek için önceden eğitilmiş LLM belirteçlerini kullanır ve ardından bu simgeleştirilmiş metin dizilerini metin yerleştirmeleri. Maske tabanlı bölgeler için model, özel bir belirteci yer tutucu olarak tanımlar ve ardından bunu bir maske belirteci ile birlikte uzamsal bir belirteçle değiştirir. Model, metin girişinde bir nesne bölgesine atıfta bulunduğunda, bölge adından sonra yer tutucuyu ekler; bu, maske bölgelerinin metinlerle iyi bir şekilde karışmasını sağlar ve böylece simgeleştirme alanı olmadan tam cümleler elde edilir. Ayrıca, kullanıcı talimatlarının yanı sıra model, yer tutucu görevi gören ve daha sonra görüntü kodlayıcının görüntü düzeyindeki yerleştirmeleriyle değiştirilen özel bir belirteç olan bir önek istemi de içerir. Son olarak çerçeve, bölge düzeyindeki ve görüntü düzeyindeki görsel belirteçleri metin belirteçleriyle birlikte birleştirir ve kullanıcı talimatlarını ve nesnedeki farklı bölgelere sahip görüntüyü anlamak için onu geniş dil modeline besler. 

Osprey : Üç Aşamalı Eğitim Süreci

Osprey çerçevesi, eğitim aşamalarının her birinin bir sonraki jeton tahmin kaybını en aza indirerek denetlendiği üç aşamalı bir eğitim sürecini kullanır.

1. Aşama: Resim-Metin Hizalama Eğitimi

İlk aşamada Osprey çerçevesi, görüntü düzeyi özellikleri eğitmek için CNN tabanlı CLIP görüntü kodlayıcıyı ve modeli görüntü-metin özellik hizalaması için eğitmek amacıyla dil bağlayıcıyı kullanır. İlk aşamada çerçeve üç bileşeni kullanır: önceden eğitilmiş bir büyük dil modeli, önceden eğitilmiş bir görüntü kodlayıcı ve bir görüntü düzeyi projektörü. Çerçeve aynı zamanda Osprey'in çok modlu üretken yeteneklerini geliştirmeye yardımcı olan vizyon dili bağlayıcısı olarak hizmet edecek bir MLP katmanını da benimser. 

Aşama 2: Maske-Metin Hizalaması Ön Eğitimi

İkinci aşamada Osprey, ilk aşamada eğitilen ağırlığı yükler ve piksel düzeyindeki bölge özelliklerini yakalamak için Mask-Aware Visual Extractor bileşenini kullanır. İkinci aşamada çerçeve, dil yerleştirmelerini maske tabanlı bölge özellikleriyle hizalamak için yalnızca Maske-Aware Visual Extractor'ı eğitir. Ayrıca model, parça düzeyindeki ve genel kullanıma açık nesne düzeyindeki veri kümelerinden piksel düzeyindeki maske çiftlerini ve kısa metinleri toplar ve modeli daha fazla eğitmek için bunları talimat takip eden verilere dönüştürür. 

Aşama 3: Uçtan Uca İnce Ayar

Üçüncü ve son aşamada model, görüntü kodlayıcının ağırlıklarını sabitler ve mimarisindeki büyük dil modeline, maske tabanlı bölge özellik çıkarıcısına ve görüntü düzeyi projektör bileşenlerine ince ayar yapar. Üçüncü aşamadaki eğitimin temel amacı, modelin kullanıcı talimatlarını doğru bir şekilde takip etme ve piksel düzeyindeki bölge anlama görevlerini verimli bir şekilde gerçekleştirme yeteneğini genişletmektir. 

Üç eğitim aşamasını uyguladıktan sonra Osprey çerçevesi, kullanıcı talimatlarıyla tanımlanan ve piksel düzeyindeki maske bölgelerine dayalı karmaşık senaryoları anlama yeteneğine sahiptir. 

Osprey : Deneysel Sonuçlar

Performansını değerlendirmek için Osprey geliştiricileri, modelin sınıflandırma, piksel düzeyinde bölge tabanlı tanıma ve karmaşık açıklamalar konusundaki yeteneklerini göstermek üzere çok çeşitli deneyler yürütür. 

Açık Kelime Segmentasyonu

Açık kelime dağarcığının birincil amacı, maske tabanlı bölge tanımayı ve ilgili kategoriyi açıkça oluşturmaktır. Açık kelime dağarcığı bölümlendirmesini gerçekleştirmek için, Osprey ilk önce bir giriş metni istemi kullanır, ardından model, modelin açık kelime dağarcığı tanıma görevlerindeki performansını değerlendirmek üzere model müdahalesi için temel gerçek maske bölgelerini benimser. Çok modlu geniş dil modeli tarafından oluşturulan cümle yanıtını temel alarak Osprey, kelime listesi ile her veri kümesinin çıktısı arasındaki anlamsal benzerliği hesaplar. Aşağıdaki şekil Osprey'i son teknoloji ürünü çok modlu büyük dil modelleriyle karşılaştırmaktadır. 

Görülebileceği gibi Osprey çerçevesi, hem Şehir Manzaraları hem de ADE20K-150 veri kümesinde mevcut yöntemleri önemli bir farkla geride bırakıyor. Sonuçlar, Osprey'in mevcut yaklaşımlardan daha iyi performans gösterme ve ince taneli nesne bölgelerinde sağlam bir anlayış ve tanıma sağlama becerisini göstermektedir. 

Referans Veren Nesne Sınıflandırması

Referans Nesne Sınıflandırması görevinde modelin, nesneyi görüntünün belirli bir bölgesinde sınıflandırması gerekir. Osprey çerçevesi, sınıflandırma yeteneklerini değerlendirmek için Anlamsal IoU veya S-IoU ve Anlamsal Benzerlik veya SS dahil olmak üzere iki anlamsal alaka ölçütü kullanır. Anlamsal IoU, temel gerçek ve tahmin etiketleri arasındaki kelimelerin örtüşmesini temsil ederken Anlamsal Benzerlik, semantik bir alanda tahmin edilen benzerliği ve/veya temel gerçek etiketlerini ölçer. Aşağıdaki görüntü, kutu düzeyinde ve görüntü düzeyinde yaklaşımlar kullanan modellerle karşılaştırıldığında Osprey'in Yönlendiren Nesne Sınıflandırması görevindeki performansını göstermektedir. 

Ayrıntılı Bölge Açıklaması

Ayrıntılı Bölge Açıklaması görevinde model, diğer bölge düzeyindeki yaklaşımlarla birlikte talimat takip eden ayrıntılı açıklama yetenekleri üzerindeki performansını değerlendirir. Model, önceden tanımlanmış istemler listesinden rastgele bir girdi çıkarım istemi seçer ve girdi yönlendiren bölgelere karşı model tarafından oluşturulan yanıtın kalitesini kapsamlı bir şekilde ölçmek için GPT-4 LLM çerçevesinden yararlanır. Model, talimat oluşturma hattını kullanarak sorular üretir ve GPT-4'ün yanıtlarını arar ve bunun ardından Yüksek Lisans, anlambilimin doğruluğunu ve atıfta bulunulan anlayışın kesinliğini değerlendirir. Aşağıdaki tablo, Ayrıntılı Bölge Açıklaması görevlerinde Osprey'in son teknoloji modellere karşı performansını göstermektedir. 

Bölge Düzeyinde Altyazı

Osprey çerçevesi aynı zamanda aşağıdaki görüntüde yer alan sonuçlarla Bölge Düzeyinde Altyazı Oluşturma görevlerindeki mevcut yaklaşımlardan daha iyi performans göstermektedir. 

Son Düşüncelerimiz

Bu makalede, piksel düzeyinde görsel dil anlayışını elde etmek için ince taneli maskelenmiş bölgeleri dil öğretimine dahil ederek MLLM'leri genişletmeyi amaçlayan bir maske metin öğretimi eğitim yöntemi olan Osprey'den bahsettik. Osprey çerçevesi, amacına ulaşmak için 700 binin üzerinde örnek içeren maske tabanlı bir bölge metni veri kümesini seçiyor ve bir görüş dili modeli tasarlamak için LLM'ye piksel düzeyinde temsil enjekte ediyor. Osprey çerçevesi, ince taneli görsel anlayış için MLLM'leri önemli ölçüde geliştirmeyi amaçlamaktadır ve Osprey, CNN tabanlı bir CLIP modeli ve maskeye duyarlı bir görsel çıkarıcı uygulayarak, hem parça düzeyinde hem de nesne düzeyinde görüntüleri anlama becerisine ulaşır. 

"Meslek olarak bir mühendis, ezbere bir yazar". Kunal, yapay zeka ve makine öğrenimine derin bir sevgi ve anlayışa sahip, ilgi çekici ve bilgilendirici belgeleriyle bu alanlardaki karmaşık kavramları basitleştirmeye kendini adamış bir teknik yazardır.