Yapay Zeka
EAGLE: Kodlayıcıların Bir Karışımıyla Çok Modlu Büyük Dil Modelleri için Tasarım Alanını Keşfetmek
Karmaşık görsel bilgileri doğru bir şekilde yorumlama yeteneği, çok modlu büyük dil modelleri (MLLM'ler) için önemli bir odak noktasıdır. Son çalışmalar, geliştirilmiş görsel algının halüsinasyonları önemli ölçüde azalttığını ve optik karakter tanıma ve belge analizi gibi çözünürlüğe duyarlı görevlerde performansı iyileştirdiğini göstermektedir. Birkaç yeni MLLM bunu, bir dizi görme kodlayıcısı kullanarak başarmaktadır. Başarılarına rağmen, uzman seçimi ve birden fazla görme uzmanının entegrasyonu gibi kritik yönleri ele alan sistematik karşılaştırmalar ve ayrıntılı ablasyon çalışmaları eksiktir. Bu makale, bir dizi görme kodlayıcısı ve çözünürlük kullanan MLLM'ler için tasarım alanının kapsamlı bir incelemesini sunmaktadır; bu, kodlayıcıların bir karışımıyla çok modlu büyük dil modelleri için tasarım alanını keşfetmeye çalışan Eagle çerçevesidir. Bulgular, çeşitli mevcut stratejilerde ortak olan birkaç temel ilkeyi ortaya koyarak, akıcı ancak etkili bir tasarım yaklaşımına yol açmaktadır. Eagle, görsel belirteçleri bir dizi tamamlayıcı görme kodlayıcısından birleştirmenin, daha karmaşık karıştırma mimarileri veya stratejileri kadar etkili olduğunu keşfeder. Ek olarak, Eagle, vizyon odaklı kodlayıcılar ile dil belirteçleri arasındaki boşluğu kapatmak için Ön Hizalama'yı tanıtarak model tutarlılığını artırır. Ortaya çıkan MLLM ailesi Eagle, başlıca MLLM kıyaslamalarında diğer önde gelen açık kaynaklı modelleri geride bırakır.
Eagle'ın çalışması, çok modlu büyük dil modelleri (MLLM'ler) genel mimari tasarımıyla ilgilidir. Daha önce bahsedilen temsili açık kaynaklı araştırma hattının yanı sıra, diğer önemli MLLM aileleri arasında MiniGPT-4, Lynx, Otter, QwenVL, CogVLM, VILA, GPT-4V, Gemini ve Llama 3.1 bulunur, ancak bunlarla sınırlı değildir. Görme sinyallerinin dil modeline nasıl entegre edildiğine bağlı olarak, MLLM'ler genel olarak "çapraz-modal dikkat" modelleri ve "önek ayarlama" modelleri olarak kategorize edilebilir. İlki, çapraz-modal dikkat kullanarak farklı LLM katmanlarına görsel bilgi enjekte ederken, ikincisi görsel belirteçleri dil belirteci dizisinin bir parçası olarak ele alır ve bunları doğrudan metin gömmeleriyle ekler. Eagle'ın modeli, LLaVA tarzı çok modlu bir mimariyi izleyerek önek ayarlama ailesine aittir. MLLM'nin hızla büyüyen bir alan olduğu göz önüne alındığında, Eagle daha fazla bilgi edinmek için daha detaylı çalışmalara ve anketlere başvurulmasını öneriyor.
Eagle'ın çalışması, MLLM'ler için görme kodlayıcı tasarımlarını iyileştirmeye odaklanan araştırmalarla yakından ilişkilidir. İlk çalışmalar genellikle CLIP ve EVA-CLIP gibi görme dili hizalama görevlerinde önceden eğitilmiş görme kodlayıcılarını benimsemiştir. SigLIP ve InternVL gibi daha güçlü görme kodlayıcıları, daha iyi tasarımlar, daha büyük model boyutları ve daha etkili eğitim tarifleriyle görme dili görevlerini geliştirmek için önerilmiştir. Modeller genellikle düşük çözünürlüklü görüntülerde önceden eğitildiğinden ve ince taneli ayrıntıları kodlama yeteneğinden yoksun olabileceğinden, MLLM giriş çözünürlüğünü artırmak için sıklıkla daha yüksek çözünürlük uyarlaması gerçekleştirilir. Daha yüksek çözünürlük uyarlamasına ek olarak, LLaVA-NeXT, LLaVA-UHD, Monkey, InternLM-XComposer ve InternVL gibi modeller, görüntülerin daha düşük çözünürlüklü parçalara bölündüğü ve ayrı ayrı işlendiği yüksek çözünürlüklü girişi işlemek için döşeme veya uyarlamalı döşeme kullanır. Daha yüksek çözünürlükleri işleme yeteneği ek görüş uzmanlarının dahil edilmesiyle mümkün olsa da, bu yaklaşım döşeme tekniklerinden biraz farklıdır, ancak her ikisi de uyumludur ve birleştirilebilir.
EAGLE: Çok Modlu LLM'ler için Tasarım Alanını Keşfetmek İçin Kodlayıcı Karışımını Kullanma
Büyük dil modellerinin (LLM) başarısı, onların görsel algı yeteneklerini etkinleştirmeye yönelik önemli bir ilgi uyandırdı ve gerçek dünyada görmelerine, anlamalarına ve akıl yürütmelerine olanak sağladı. Bunların özünde çok modlu büyük dil modelleri (MLLM'ler), görüntülerin görüntü kodlayıcıları tarafından bir dizi görsel belirtece dönüştürüldüğü ve metin yerleştirmeleriyle eklendiği tipik bir tasarımdır. CLIP genellikle görüntü kodlayıcısı olarak seçilir çünkü görsel temsili, görüntü-metin çiftleri üzerinde önceden eğitim yoluyla metin alanıyla hizalanır. Mimarilere, eğitim tariflerine ve görüntü belirteçlerinin dil modeline enjekte edilme biçimine bağlı olarak, önemli MLLM aileleri arasında Flamingo, BLIP, PaLI, PaLM-E ve LLaVA bulunur. Bu modellerin çoğu, önceden eğitilmiş görüntü kodlayıcılarındaki ve LLM dizi uzunluğundaki sınırlamalar nedeniyle nispeten düşük giriş çözünürlüklerini korur. Eagle'ın çalışması, gelişmiş algı için birden fazla görüntü kodlayıcısı kullanan modellerle yakından uyumludur. Mini-Gemini ve LLaVA-HR, yüksek çözünürlüklü görsel özelliklerin düşük çözünürlüklü görsel belirteçlerle birleştirilmesini önermektedir. Çözünürlük sorunlarının yanı sıra, bu önceden eğitilmiş görüntü kodlayıcıları, metin okuma veya nesneleri yerelleştirme gibi belirli yeteneklerden yoksun olabilir. Bu sorunu çözmek için çeşitli modeller, görme kodlayıcısının yeteneklerini geliştirmek amacıyla farklı görme görevlerinde önceden eğitilmiş görme kodlayıcılarını entegre eder.
Örneğin, Mousi ve Brave gibi modeller, kanal veya belirteç yönü boyunca birleştirerek farklı görüntü kodlayıcılarından gelen görsel belirteçleri birleştirir. RADIO, farklı görüntü kodlayıcılarının yeteneklerini tek bir modelde birleştirmek için çoklu öğretmen damıtma yöntemini sunar. MoAI, IVE ve Prismer, MLLM'lerin yanıtlar üretmesi için ek bilgileri tamamlamak üzere OCR, algılama veya derinlik tahmini gibi görüntü uzmanlarının çıktılarını kullanır. MoVA, verilen görüntü ve talimatlara dayanarak optimum bir görüntü modeli atamak için bir yönlendirme ağı tasarlar.
Son araştırmalar, daha güçlü görüntü kodlayıcı tasarımlarının, görüntü kalitesinin azaltılmasında önemli olduğunu göstermiştir. MLLM halüsinasyonları ve optik karakter tanıma (OCR) gibi çözünürlüğe duyarlı görevlerde performansın iyileştirilmesi. Birkaç çalışma, ön eğitim verilerini ve parametrelerini ölçeklendirerek veya görüntüleri düşük çözünürlüklü parçalara bölerek görüntü kodlayıcısının yeteneğini artırmaya odaklanır. Ancak, bu yaklaşımlar genellikle büyük eğitim kaynağı talepleri getirir. Verimli ancak güçlü bir strateji, farklı görevler ve giriş çözünürlükleriyle önceden eğitilmiş görsel kodlayıcıları, daha yüksek çözünürlüklü kodlayıcıları CLIP kodlayıcısıyla birleştirerek, farklı kodlayıcılardan özellikleri sırayla ekleyerek veya farklı kodlayıcıların faydalarını en üst düzeye çıkarmak için daha karmaşık birleştirme ve yönlendirme stratejileri benimseyerek karıştırmaktır. Bu "görüş uzmanlarının karışımı" yaklaşımı etkili olduğunu kanıtladı, ancak titiz ablasyonla tasarım alanının ayrıntılı bir çalışması hala eksik ve Eagle'ı bu alanı yeniden ziyaret etmeye motive etti. Temel sorular devam ediyor: hangi görüş kodlayıcı kombinasyonları seçilmeli, farklı uzmanlar nasıl birleştirilmeli ve eğitim stratejileri daha fazla görüş kodlayıcısıyla nasıl ayarlanmalı.
Bu soruları ele almak için Eagle, MLLM algısını iyileştirmek için sistematik olarak görüntü karışımı kodlayıcıları tasarım alanını araştırır. Bu tasarım alanının keşfi aşağıdaki adımları içerir: 1) Çeşitli görüntü kodlayıcılarını kıyaslamak ve daha yüksek çözünürlüklü adaptasyon aramak; 2) Görüntü kodlayıcı birleştirme stratejileri arasında "elma ile elma" karşılaştırması yapmak; 3) Çoklu görüntü kodlayıcılarının optimum kombinasyonunu kademeli olarak belirlemek; 4) Görüntü uzmanı ön hizalamasını ve veri karışımını iyileştirmek. Keşif adımları aşağıdaki görüntüde gösterilmiştir.

Eagle'ın çalışması, görme-dil uyumu, öz-denetimli öğrenme, algılama, segmentasyon ve OCR gibi farklı görev ve çözünürlüklerde önceden eğitilmiş görme kodlayıcılarının performansını kapsamaktadır. Eagle, dairesel bir yaklaşım kullanarak temel CLIP kodlayıcısıyla başlar ve her seferinde bir uzman daha ekleyerek her turda en iyi gelişmeyi sağlayan uzmanı seçer.
Eagle'ın çalışması, MLLM'lerde çoklu görüntü kodlayıcılarını kullanan ilk çalışma olmasa da, sistematik çalışma bu ortamda birkaç önemli bulguya yol açmaktadır:
- MLLM eğitimleri sırasında vizyon kodlayıcılarının kilidini açmak önemlidir. Bu, çoklu görüş kodlayıcılarını veya öğretmenlerini dikkate alan LLaVA ve benzeri modellerin aksinedir; bu modellerde görüş kodlayıcılarını dondurmak yaygın bir uygulamadır.
- Son zamanlarda önerilen bazı füzyon stratejilerinin önemli avantajlar sağlamadığı görülmektedir. Bunun yerine, basit ama rekabetçi bir füzyon stratejisi olarak doğrudan kanal birleştirme, en iyi verimliliği ve performansı sunmaktadır.
- Ek görme uzmanlarının dahil edilmesi istikrarlı kazanımlara yol açar. Bu, tek kodlayıcıları ölçeklendirmenin yanı sıra MLLM algısını sistematik olarak geliştirmek için umut verici bir yol haline getirir. İyileştirme, özellikle görüntü kodlayıcıları kilitlendiğinde belirginleşir.
- Ön hizalama aşaması çok önemlidir. Eagle, metin hizalaması olmayan görme uzmanlarının birlikte eğitilmeden önce dondurulmuş bir LLM ile ayrı ayrı ince ayarlandığı bir ön hizalama aşaması sunar. Bu aşama, görüntü karışımı kodlayıcı tasarımında MLLM performansını önemli ölçüde artırır.
Kartal: Metodoloji ve Mimari
Görme kodlayıcıları arasında yeni füzyon stratejilerine veya mimarilerine odaklanan önceki yöntemlerin aksine, Eagle'ın amacı, ayrıntılı ablasyonlarla desteklenen ve gereksiz bileşenleri kaldıran, farklı görme kodlayıcılarını birleştirmek için minimalist bir tasarım belirlemektir. Aşağıdaki şekilde gösterildiği gibi, Eagle, temel CLIP kodlayıcısını farklı mimarilere, ön eğitim görevlerine ve çözünürlüklere sahip bir grup görme uzmanına genişleterek başlar. Eagle daha sonra bu uzmanlarla farklı füzyon mimarilerini ve yöntemlerini karşılaştırır ve birden fazla kodlayıcıyla ön eğitim stratejilerinin nasıl optimize edileceğini araştırır.

Son olarak, Eagle tüm bulguları birleştirir ve yaklaşımı farklı çözünürlüklere ve alan bilgisine sahip birden fazla uzman görüntü kodlayıcısına genişletir. 1.5 bin görüntü-metin çiftinden oluşan LLaVA-595 ile aynı ön eğitim verilerini kullanan Eagle, bir dizi görevden veri toplayarak ve bunları LLaVA-1.5, Laion-GPT4V, ShareGPT-4V, DocVQA, synDog-EN, ChartQA, DVQA ve AI2D dahil olmak üzere çok modlu konuşmalara dönüştürerek denetlenen ince ayar aşamasına geçer ve 934 bin örnekle sonuçlanır.
Model ilk olarak 256'lık bir toplu boyuta sahip bir dönem için görüntü-metin çiftleriyle önceden eğitilir, burada tüm model dondurulur ve yalnızca projektör katmanı güncellenir. İkinci aşamada, model 128'lik bir toplu boyuta sahip bir dönem için denetlenen ince ayar verilerinde ince ayarlanır. Bu keşif için Eagle, altta yatan dil modeli olarak Vicuna-7B'yi kullanır. Öğrenme oranları ilk aşama için 1e-3 ve ikinci aşama için 2e-5 olarak ayarlanır.
Daha Güçlü CLIP Kodlayıcı
Eagle, birçok kişi için birincil tercih haline gelen CLIP modeliyle keşfe başlıyor MLLM'ler. CLIP modellerinin çok modlu görevleri geliştirdiği bilinse de, sınırlamaları da iyi belgelenmiştir. Örneğin, mevcut birçok MLLM, giriş çözünürlükleri olarak önceden eğitilmiş CLIP çözünürlüklerini (örneğin 224 × 224 veya 336 × 336) kullanma eğilimindedir. Bu durumlarda, kodlayıcılar genellikle OCR ve belge anlama gibi çözünürlüğe duyarlı görevler için önemli olan ince ayrıntılı ayrıntıları yakalamakta zorlanır.

Arttırılmış giriş çözünürlüğünü ele almak için yaygın bir yaklaşım, giriş görüntülerinin döşemelere bölündüğü ve ayrı ayrı kodlandığı döşemedir. Başka bir daha basit yöntem, giriş çözünürlüğünü doğrudan ölçeklendirmek ve gerekirse görüntü dönüştürücü modelinin konum yerleştirmelerini enterpole etmektir. Eagle, bu iki yaklaşımı farklı çözünürlüklerde dondurulmuş ve dondurulmuş olmayan görüntü kodlayıcılarla karşılaştırır ve sonuçlar yukarıdaki tabloda yer alır. Bulgular aşağıdaki gibi özetlenebilir:
- CLIP kodlayıcısının dondurulmasının çözülmesi, çözünürlükler aynı kaldığında performans düşüşü olmaksızın, CLIP ön eğitim çözünürlüğünden farklı olan daha yüksek bir MLLM giriş çözünürlüğüne enterpole edildiğinde önemli bir iyileştirmeye yol açar.
- CLIP kodlayıcısını dondurmak ve doğrudan daha yüksek bir MLLM giriş çözünürlüğüne uyarlamak performansı önemli ölçüde düşürür.
- Karşılaştırılan stratejiler arasında, dondurulmamış bir CLIP kodlayıcı ile doğrudan 448 × 448'e enterpolasyon yapmanın performans ve maliyet açısından hem etkili hem de verimli olduğu kanıtlanmıştır.
- En iyi CLIP kodlayıcısı, daha az ön eğitim verisine sahip çok daha küçük bir model (300M'ye karşı 6B) olmasına rağmen InternVL'ye yakın bir performans elde ediyor.
CLIP-448'in Eagle'ın ayarı LLaVA-HR ve InternVL ile eşleştirmesine izin verdiğini belirtmekte fayda var, burada CLIP kodlayıcıları benzer şekilde 448 × 448 giriş ve çıkış 1024 yama belirteci alacak şekilde uyarlanmıştır. Daha fazla araştırma için Eagle, eğitim sırasında giriş çözünürlüğünü ölçeklendirme ve görme kodlayıcısını açma gibi basit bir stratejiyi takip eder.

Eagle, tasarım farklılıklarına rağmen mevcut popüler füzyon stratejilerinin genel hatlarıyla şu şekilde kategorize edilebileceğini gözlemlemektedir:
- Sıra Ekleme:Farklı omurgalardan gelen görsel tokenları daha uzun bir dizi halinde doğrudan eklemek.
- Kanal Bağlantısı: Sıra uzunluğunu artırmadan görsel belirteçleri kanal boyutu boyunca birleştirmek.
- LLaVA-HR:Karışık çözünürlüklü bir adaptör kullanarak düşük çözünürlüklü görüntü kodlayıcılarına yüksek çözünürlüklü özellikler enjekte etmek.
- Mini İkizler: CLIP belirteçlerini, eş-yerleşik yerel pencerelerde başka bir yüksek çözünürlüklü görüntü kodlayıcısına çapraz katılım sağlamak için düşük çözünürlüklü sorgular olarak kullanma.
- Deforme Edilebilir Dikkat: Mini-Gemini'nin üstüne tanıtılan, vanilya pencere dikkatinin deforme edilebilir dikkat ile değiştirildiği yeni bir temel çizgi.

LLaVA'nın orijinal ön eğitim stratejisinde olduğu gibi bir projektörü aynı anda birden fazla görme uzmanını hizalamak üzere eğitmek yerine, önce her bir uzmanın temsilini bir sonraki belirteç tahmini denetimini kullanarak daha küçük bir dil modeliyle (uygulamada Vicuna-7B) hizalarız. Aşağıdaki şekilde gösterildiği gibi, ön hizalama ile tüm eğitim süreci üç adımdan oluşur: 1) dil modelini dondurarak, her bir önceden eğitilmiş görme uzmanını kendi projektörüyle SFT verileri üzerinde eğitmek; 2) ilk adımdaki tüm görme uzmanlarını birleştirmek ve yalnızca projektörü görüntü-metin çiftleri verileriyle eğitmek; 3) tüm modeli SFT verileri üzerinde eğitmek.

Kartal: Deneyler ve Sonuçlar
Eagle, stratejilerini titizlikle geliştirdikten sonra model için şu ilkeleri belirlemiştir: (1) optimize edilmiş bir eğitim tarifiyle daha fazla görme uzmanı entegre etme; (2) doğrudan kanal birleştirme yoluyla birden fazla görme uzmanını birleştirme; (3) ön hizalama yoluyla görme uzmanlarını ayrı ayrı önceden eğitme. Bu bölümde, Eagle modellerinin avantajlarını daha fazla göstermek için ek eğitim verileri dahil edilmiş ve Eagle çeşitli görevlerde mevcut en son teknoloji MLLM'lerle karşılaştırılmıştır. Eagle, dil modelleri olarak Vicuna-v1.5-7B, Llama3-8B ve Vicuna-v1.5-13B'yi kullanır. Görme kodlayıcıları için, Bölüm 2.6'daki sonuçlara dayanarak, Eagle modelleri dört görme kodlayıcısı içeren Eagle-X4 olarak gösterilir: CLIP, ConvNeXt, Pix2Struct ve EVA-02 ve ek bir SAM görme kodlayıcısı içeren Eagle-X5.
Görsel Soru Cevaplama Görevleri
Eagle, model serisini GQA, VQAv2 ve VizWiz dahil olmak üzere üç Görsel Soru Cevaplama (VQA) kıyaslamasında karşılaştırır. Aşağıdaki tabloda gösterildiği gibi, Eagle-X5, ek görme uzmanlarını dahil etmenin avantajlarını vurgulayarak GQA ve VQAv2'de en son teknoloji performansına ulaşır.

OCR ve Grafik Anlama Görevleri
Eagle'ın OCR, belge ve grafik anlama yeteneklerini değerlendirmek için model OCRBench, TextVQA ve ChartQA'da kıyaslanmıştır. Yukarıdaki tabloda gösterildiği gibi, Eagle, yüksek çözünürlüklü mimarisi ve farklı görüntü kodlayıcılarının entegrasyonundan yararlanarak TextVQA'da rakiplerini önemli ölçüde geride bırakmaktadır. Özellikle, Eagle, karmaşık görüntü parçacığı ayrıştırması gerektirmeden 1024'e kadar belirteci destekleyen basit bir tasarıma sahiptir.
Aşağıdaki şekil OCR ve belge anlama vakalarına dair örnekler sunmaktadır. Yüksek çözünürlüklü uyarlama ve daha fazla görme uzmanının dahil edilmesiyle Eagle, görüntülerdeki küçük metinleri tanımlayabilir ve kullanıcı talimatlarına göre bilgileri doğru bir şekilde çıkarabilir.

Diğer görme görevlerinde önceden eğitilmiş uzmanları tanıtmanın faydalarını daha iyi anlamak için, aşağıdaki şekil yalnızca ConvNeXt ve CLIP görme kodlayıcıları olan bir modelin sonuçlarını Eagle-X5'in sonuçlarıyla karşılaştırarak görselleştirir. Tam görme kodlayıcıları setiyle, model hataları başarıyla düzeltir ve görme dili hizalaması konusunda önceden eğitilmiş yüksek çözünürlüklü görme kodlayıcılarıyla donatılmış olsa bile, Eagle'ın yeteneklerinin çeşitli görme görevlerinde önceden eğitilmiş ek görme uzmanlarının entegre edilmesiyle daha da geliştirildiğini gösterir.

Çok Modlu Karşılaştırmalı Değerlendirme
Eagle, MME, MMBench, SEED, MathVista, MMMU, ScienceQA ve POPE dahil olmak üzere farklı bakış açılarından yeteneklerini göstermek için MLLM'ler için yedi kıyaslama ölçütüne göre değerlendirilir. Özellikle, MME, MMBench ve SEED muhakeme, tanıma, bilgi ve OCR içeren çeşitli gerçek dünya görevlerindeki genel performansı değerlendirir. MMMU, üniversite düzeyinde bilgi gerektiren çeşitli alanlardan gelen zorlu sorunlara odaklanır. POPE, MLLM'lerin görsel halüsinasyonlarını değerlendirir. Bu değerlendirmede kullanılan ölçümler, bu kıyaslama ölçütlerinin varsayılan ayarlarına uymaktadır. Eagle, MME için algı puanını, MMBench için en_dev bölünmesini, SEED için görüntü bölünmesini, MathVista için test-mini bölünmesini, MMMU için val bölünmesini, POPE için F1 puanını ve ScienceQA için görüntü puanını bildirerek diğer modellerden bildirilen puanlarla uyumluluğu garanti eder.

Son Düşüncelerimiz
Bu makalede, görme kodlayıcılarını çok modlu büyük dil modellerine entegre etmek için tasarım alanının derinlemesine bir analizi olan Eagle'dan bahsettik. Yeni birleştirme paradigmaları tasarlamaya odaklanan önceki çalışmalardan farklı olarak, Eagle sistematik tasarım seçimlerinin önemli olduğunu bulur ve bir dizi yararlı teknik keşfeder. Eagle, adım adım bireysel görme kodlayıcılarının eğitim reçetesini optimize eder, genişletilebilir ve verimli bir birleştirme yöntemi belirler ve kademeli olarak farklı alan bilgisine sahip görme kodlayıcılarını birleştirir. Sonuçlar, temel tasarım alanı değerlendirmelerinin kritik önemini vurgular.






