Yapay Zekâ

LLaVA-UHD: Bir LMM Herhangi Bir Aspect Oranını ve Yüksek Çözünürlüklü Görüntüleri Algılar

Published June 6, 2024

Updated April 27, 2026

Kunal Kejriwal

LLaVA-UHD: an LMM Perceiving Any Aspect Ratio and High-Resolution Images

Büyük Dil Modellerinin yakın zamanda gösterdiği ilerleme ve gelişme, görme-dil akıl yürütme, anlama ve etkileşim yeteneklerinde önemli bir artışa yol açmıştır. Modern çerçeveler, bu yeteneği gerçekleştirmek için görsel sinyalleri LLM’lere veya Büyük Dil Modellerine yansıtarak, görsel kodlama stratejilerinin çok önemli bir rol oynadığı çeşitli senaryolarda dünyayı görsel olarak yorumlama yeteneklerini sağlar. Ancak, gerçek dünya görüntüleri yalnızca çeşitli senaryolara sahip olmakla kalmaz, aynı zamanda çözünürlük ve en boy oranlarında önemli ölçüde değişir, bu da LLM’ler için farklı alanlar ve görevler için önemli zorluklar oluşturur. Gerçek dünya görüntülerinin oluşturduğu önemli varyansı ele almak için, modern büyük dil modelleri, 224×224 gibi düşük bir çözünürlükte ve 1:1 gibi sabit bir en boy oranında görüntüleri algılar. Bu tür bir uzlaşmanın, LLM’lerin gerçek dünya uygulamalarına genelleme garantisi sağlaması rağmen, genellikle görüntünün içeriğini önemli ölçüde bulanıklaştırır ve aynı zamanda ciddi şekil bozulmasına neden olur. Bu uzlaşmanın, özellikle optik karakter tanıma ve küçük nesne anlama gibi ince görevler için optimize edilen büyük çoklu modellilik modelleri veya LMM’lerin yeteneklerini önemli ölçüde etkilediği görülür. Ayrıca, çözünürlük ve en boy oranı önceden belirlenmiş olduğundan, modeller yalnızca bulanık görüntülere en iyi tahminlerde bulunabilir, bu da model sanrısına yol açar, modelin görüntülerde gerçeklere dayanmayan metin yanıtları ürettiği bir durumdur.

Bu makalede, LLaVA-UHD’den bahsedeceğiz, bu approach LLaVA-1.5 ve GPT-4V çerçevelerini temsilatif örnekler olarak alır ve onların görsel kodlama stratejilerindeki sistematik hataları ortaya çıkarmaya çalışır. LLaVA-UHD çerçevesi, bir çoklu modellilik modeli, bu zorlukları ele almak için bir girişimdir. LLaVA-UHD çerçevesi, yüksek çözünürlükte ve herhangi bir en boy oranında görüntüleri algılayabilir. LLaVA-UHD çerçevesi, üç ana bileşenden oluşur. İlk olarak, verimliliği artırmak ve kodlamayı uzatmak için yerel çözünürlüklü görüntüleri daha küçük değişken boyutlu dilimlere ayıran bir görüntü modülleme stratejisi. Sonraki, görsel kodlayıcılar tarafından üretilen görüntü tokenlerini daha da sıkıştıran bir sıkıştırma modülü. Son olarak, büyük dil modelleri için dilim tokenlerini organize eden bir uzaysal şema. Kapsamlı deneyler, LLaVA-UHD çerçevesinin 9 benchmarkte mevcut büyük dil modellerini geçebildiğini gösterir. Ayrıca, yalnızca %94 çıkarım hesaplama kullanarak, LLaVA-UHD çerçevesi 672×1088 gibi 6 kat daha büyük çözünürlüklü görüntüleri destekleyebilir.

LLaVA-UHD : Herhangi Bir En Boy Oranında ve Yüksek Çözünürlükte Görüntüleri Etkin Bir Şekilde Algılar

Görme-dil akıl yürütme, anlama ve etkileşim, son zamanlarda Büyük Dil Modelleri’ndeki recent itme sayesinde önemli bir ilerleme kaydetmiştir. Modern çerçevelerde, aynı şey, büyük dil modellerinin (LLM’ler) görsel sinyalleri yorumlama yeteneklerini gerçekleştirmek için görsel sinyalleri LLM’lere yansıtarak yapılır, görsel kodlama stratejilerinin çok önemli bir rol oynadığı çeşitli senaryolarda dünyayı görsel olarak yorumlama yeteneklerini sağlar. Gerçek dünya görüntülerindeki senaryo farklılıkları, LLM’lerin farklı alanlar ve görevler için dar bir kapsamını yansıtır, mentre gerçek dünya görüntülerindeki çözünürlük ve en boy oranı farklılıkları, büyük iç sınıf varyasyonlarını gösterir ve bunlar zorluklarla dolu gerçek dünya görüntüleridir. Diğer yandan, küçük ölçekli görüntüler varyansı azaltırken, BERT’den sonra gelen modeller, gerçek dünya görüntülerini düşük çözünürlükte (örneğin, LLaVA-UHD için 224×224) ve sabit bir en boy oranında (1:1) ele alır. Bu uzlaşmanın, LLM’lerin gerçek dünya uygulamalarına genelleme garantisi sağlaması rağmen, genellikle görüntünün içeriğini önemli ölçüde bulanıklaştırır ve aynı zamanda ciddi şekil bozulmasına neden olur. Bu, büyük çoklu modellilik modellerinin veya LMM’lerin yeteneklerini, özellikle optik karakter tanıma ve küçük nesne anlama gibi ince görevler için optimize edilen modellerin yeteneklerini önemli ölçüde etkiler. Ayrıca, çözünürlük ve en boy oranı önceden belirlenmiş olduğundan, modeller yalnızca bulanık görüntülere en iyi tahminlerde bulunabilir, bu da model sanrısına yol açar, modelin görüntülerde gerçeklere dayanmayan metin yanıtları ürettiği bir durumdur.

Neden benchmark LMM modelleri yüksek çözünürlükte ve değişken en boy oranında görüntüleri algılayamaz? İki ana neden vardır. İlk olarak, görsel kodlayıcılar sabit çözünürlüklerde önceden eğitildiğinden, model ve kodlayıcıya farklı en boy oranlarına ve çözünürlüklere sahip görüntüleri işlemek zorlaşır, bu da modelin adaptasyonunu önemli ölçüde etkiler. İkinci olarak, görme dönüşümleri kullanarak yüksek çözünürlüklü görüntüleri doğrudan kodlamak, hesaplanma maliyeti açısından görüntünün boyutuna bağlı olarak önemli bir maliyetle ilişkilidir. Ayrıca, büyük dil modellerinin yüksek çözünürlüklü görüntüler için büyük miktarda görsel tokeni işlemesi, modelin genel verimliliğini önemli ölçüde etkiler. Bu zorlukları ele almak için, LLaVA-UHD, yüksek çözünürlüklü görüntüleri ve herhangi bir en boy oranını algılayabilen bir büyük çoklu modellilik modeli, LLaVA-1.5 ve GPT-4V çerçevelerini temsilatif örnekler olarak alır ve onların görsel kodlama stratejilerindeki sistematik hataları ortaya çıkarmaya çalışır.

Yukarıdaki görüntü, GPT-4V’nin bir görüntüdeki nesne sayısını belirleme deney sonuçlarını yansıtır. LLaVA-UHD çerçevesinin temelinde, üç bileşen bulunur. İlk olarak, yerel çözünürlüklü görüntüleri daha küçük değişken boyutlu dilimlere ayıran bir görüntü modülleme stratejisi, kodlama verimliliğini ve uzatmasını sağlar. Diğer yandan, recent LLM’lerin görüntüleri birkaç sabit çözünürlük ve en boy oranına uydurmasına karşılık, LLaVA-UHD çerçevesinin oluşturduğu değişken boyutlu dilimlerin, yerel çözünürlüklü görüntülere tam olarak adapte olmasını sağlar, bu da şekilleri bozmaz, yeniden boyutlandırma veya doldurmayı gerektirmez. İkinci olarak, model, görsel tokenleri bir sıkıştırma katmanı kullanarak mütevazi bir uzunluğa sıkıştırır, bu da LLM’ler için hesaplamayı önemli ölçüde azaltır. Son olarak, model, sıkıştırılmış dilim tokenlerini bir uzaysal şemada organize eder, bu da dilimlerin görüntülerdeki konumlarını büyük dil modellerine bildirir.

LLaVA-UHD : Yöntem ve Mimarisi

GPT-4V ve LLaVA-1.5 gibi mevcut çerçeveleri inceleyen pilot deneylerden elde edilen bilgiler temelinde, LLaVA-UHD çerçevesi, aşağıdaki görüntüde gösterilen üç bileşenli bir mimari uygular.

İlk olarak, yerel çözünürlüklü görüntüleri daha küçük değişken boyutlu dilimlere ayıran bir görüntü modülleme stratejisi, verimliliği ve kodlama uzatmasını sağlar. İkinci olarak, görsel kodlayıcılar tarafından üretilen görüntü tokenlerini daha da sıkıştıran bir sıkıştırma modülü. Son olarak, büyük dil modelleri için dilim tokenlerini organize eden bir uzaysal şema. Bu bileşenlere daha ayrıntılı bir bakış atalım.

Modülize Görsel Kodlama

Yüksek çözünürlüklü ve farklı en boy oranına sahip görüntüleri işlemek için yaygın bir yaklaşım, doğrudan kodlama için hedef şekle göre Vision Transformer veya ViT’nin konum gömmelemelerini interpolasyon etmektir. Ancak, bu yaklaşımın uygulanması genellikle yüksek hesaplanma maliyetleri ve dağılım dışı sorunlarla ilişkilidir, bu da performansı daha da azaltır. Bu zorluğu ele almak için, LLaVA-UHD çerçevesi, yerel çözünürlüklü görüntüleri daha küçük değişken boyutlu dilimlere ayıran bir modülize görsel kodlama stratejisi sunar, bu dilimlerin her birinin şekli, görsel kodlayıcıların standart önceden eğitim ayarlarına oldukça yakındır. Değişken boyutlu dilimlerin kullanılması sayesinde, LLaVA-UHD çerçevesi, yerel çözünürlüklü görüntülere tam olarak adapte olmayı başarır, bu da şekilleri bozmaz, yeniden boyutlandırma veya doldurmayı gerektirmez. Ayrıca, görüntü dilimleme stratejisinin temel amacı, yüksek çözünürlüklü görüntülerin minimum değişikliklerle işlenmesini sağlar.

Ayrıca, mevcut LLM’lerin çoğunun, statik bir çözünürlüğe sahip görüntü dilimlerini kodlama uygulaması, modelin yerel çözünürlüklere tam olarak adapte olmasını engeller, çünkü yalnızca birkaç önceden tanımlanmış sabit şekil dilimine erişebilirler. Ayrıca, statik dilim çözünürlüğü, modelin performansı, verimliliği ve doğruluğunu olumsuz etkiler, çünkü şekilleri bozan yeniden boyutlandırma veya doldurmayı kaçınılmaz olarak gerektirir. Bu sorunu ele almak için, LLaVA-UHD çerçevesi, görüntü dilimlerini, bölme stratejisi tarafından tanımlanan en boy oranında kodlama önerir. Daha spesifik olarak, LLaVA-UHD çerçevesi, orijinal görüntüyü, görsel kodlayıcıların önceden eğitim ayarlarına göre en boy oranına uygun olarak orantılı olarak yeniden boyutlandırır, bu da görsel kodlayıcıların position embedding dizisinin içinde kalmasını sağlar.

Sıkıştırma Katmanı

LLM’lerin, yüksek çözünürlüklü görüntüleri işlerken karşılaştığı ortak bir sorun, görsel tokenlerin sayısıdır, bu da önemli bir hesaplanma maliyeti oluşturur (örneğin, LLaVA-1.5 çerçevesi, 672×1008 çözünürlüklü bir görüntüyü işlerken yaklaşık 3500 görsel token üretir). Bu zorluğu ele almak için, LLaVA-UHD modeli, her görüntü dilimi için görsel tokenleri sıkıştırmak için bir paylaşılan perceiver resampler katmanı uygular. Model, daha sonra görsel kodlayıcıların çıktısını, görsel tokenlerin sayısını azaltmak için bir dizi sorgu vektörü aracılığıyla çapraz dikkat kullanarak örnekler. MLPLerle (Multilayer Perceptron) temel alınan yaygın görsel projeksiyon stratejilerine kıyasla, LLaVA-UHD’nin uyguladığı perceiver örneklemesi, görsel tokenlerin sayısını, görüntünün çözünürlüğü ne olursa olsun, makul ve sabit tutar, bu da LLaVA-UHD çerçevesini yüksek çözünürlüklü görüntü işleme ve anlama görevleri için daha uygun hale getirir.

Görüntü Dilimlerinin Uzaysal Şeması

Görüntü dilimlerinin uzaysal organizasyonunu büyük dil modellerine bildirmek, görüntülerin dinamik olarak bölünmesi nedeniyle gerekli bir uygulamadır. LLaVA-UHD çerçevesi, dilimlerin相对 konumunu büyük dil modellerine bildirmek için iki özel token kullanarak bir uzaysal şema tasarlar ve uygular. Bu uzaysal şemada, LLaVA-UHD çerçevesi, bir satırdaki dilim temsilelerini ayırmak için “,” kullanır ve farklı satırları “n” ile ayırır.

LLaVA-UHD : Deneyler ve Sonuçlar

LLaVA-UHD çerçevesi, genel görsel soru cevaplandırma benchmarkları, optik karakter tabanlı görsel soru cevaplandırma benchmarkları, sanrılama benchmarkı ve kapsamlı benchmarklar dahil olmak üzere 9 popüler benchmarkta değerlendirilir. Ayrıca, LLaVA-UHD çerçevesi, LLaVA-1.5, MiniGPT-v2, InstructBLIP, BLIP-2 gibi güçlü temel modellerle karşılaştırılır.

LLaVA-UHD çerçevesinin 9 popüler benchmarktaki performansı özetlenir ve popüler benchmarklar ile karşılaştırılır.

Yukarıdaki performansa dayanarak, LLaVA-UHD çerçevesinin, güçlü temel modelleri, özellikle daha büyük miktarda veri üzerinde eğitilen güçlü genel temel modelleri ve daha fazla hesaplama gerektiren Fuyu-8B, Monkey gibi LLM’leri geçen 9 popüler benchmarkta üstün performans gösterdiği sonucuna varılabilir. İkinci olarak, sonuçlar, LLaVA-UHD çerçevesinin LLaVA-1.5 mimarisinden önemli ölçüde daha iyi sonuçlar elde ettiğini ve LLaVA-1.5’in yalnızca 336×336 çözünürlüklü görüntüleri desteklerken, LLaVA-UHD çerçevesinin 672×1088 çözünürlüklü görüntüleri ve herhangi bir en boy oranını, aynı miktarda görsel token ile destekleyebildiğini gösterir.

Son Düşünceler

Bu makalede, LLaVA-UHD’den bahsettik, bu approach LLaVA-1.5 ve GPT-4V çerçevelerini temsilatif örnekler olarak alır ve onların görsel kodlama stratejilerindeki sistematik hataları ortaya çıkarmaya çalışır. LLaVA-UHD çerçevesi, bir çoklu modellilik modeli, bu zorlukları ele almak için bir girişimdir. LLaVA-UHD çerçevesi, yüksek çözünürlükte ve herhangi bir en boy oranında görüntüleri algılayabilir. LLaVA-UHD çerçevesi, üç ana bileşenden oluşur. İlk olarak, yerel çözünürlüklü görüntüleri daha küçük değişken boyutlu dilimlere ayıran bir görüntü modülleme stratejisi, verimliliği ve kodlama uzatmasını sağlar. İkinci olarak, görsel kodlayıcılar tarafından üretilen görüntü tokenlerini daha da sıkıştıran bir sıkıştırma modülü. Son olarak, büyük dil modelleri için dilim tokenlerini organize eden bir uzaysal şema. Kapsamlı deneyler, LLaVA-UHD çerçevesinin 9 benchmarkte mevcut büyük dil modellerini geçebildiğini gösterir. Ayrıca, yalnızca %94 çıkarım hesaplama kullanarak, LLaVA-UHD çerçevesi 672×1088 gibi 6 kat daha büyük çözünürlüklü görüntüleri destekleyebilir.

Kunal Kejriwal

Mesleği mühendis, kalbi yazar. Kunal, AI ve ML'ye derin bir sevgi ve anlayışla technical writer, bu alanlardaki karmaşık kavramları etkileyici ve bilgilendirici belgelerle basitleştirmeye adanmış.