Yapay Zekâ

Mini-Gemini: Çok Modlu Görme Dilleri Modellerinin Potansiyelini Madencilik

Published April 26, 2024

Updated April 4, 2026

Kunal Kejriwal

Mini-Gemini: Mining the Potential of Multi-modality Vision Language Models

Büyük dil modellerindeki ilerlemeler, büyük dil modelleri konusunda önemli bir hız kazandırmış ve doğal dil işleme veya NLP’nin gelişimini önemli ölçüde hızlandırmıştır. Transformer çerçevesinin tanıtılması, dil modellerinin gelişimini kolaylaştıran bir dönemeç noktası olmuştur ve bu, OPT ve BERT gibi dil modellerinin derin bir dil anlayışını sergilemelerine olanak tanımıştır. Ayrıca, GPT veya Üretken Ön-Eğitimli Transformer modellerinin ortaya çıkışı, otoregresif modelleme ile yeni bir paradigmı tanıttı ve dil öngörüsü ve üretimi için güçlü bir yöntem oluşturdu. GPT-4, ChatGPT, Mixtral, LLaMA gibi dil modellerinin ortaya çıkışı, her modelin karmaşık dil işleme görevlerindeki performansı daha da artırmıştır. Mevcut yöntemler arasında, talimat ayarlaması, önceden eğitilmiş büyük dil modellerinin çıktısını iyileştirmek için önemli bir teknik olarak ortaya çıkmıştır ve bu modellerin belirli görsel görevler için özel araçlarla entegre edilmesi, onların adaptasyonlarını ve gelecekteki uygulamalar için kapıları açmıştır. Bu, geleneksel metin tabanlı işlemlerden çok daha öteye gider ve çok modlu etkileşimleri içerir.

Doğal dil işleme ve bilgisayar görme modellerinin birleşmesi, VLM’leri veya Görme Dilleri Modellerini ortaya çıkarmıştır. Bu modeller, dil ve görme modellerini birleştirerek, çapraz modda anlama ve akıl yürütme yetenekleri elde etmişlerdir. Görsel ve dil modellerinin birleşmesi ve ortaya çıkışı, hem dil işleme hem de görsel anlama gerektiren görevleri ilerletmede önemli bir rol oynamıştır. Devrim niteliğindeki CLIP gibi modellerin ortaya çıkışı, görme görevleri ile dil modelleri arasındaki boşluğu daha da kapatmış ve çapraz modlu uygulamaların uygulanabilirliğini ve pratikliğini göstermiştir. Daha recent çerçeveler gibi LLaMA ve BLIP, özel talimat verisi kullanarak, modelin güçlü yeteneklerini gösteren etkili stratejiler geliştirmek için tasarlanmışlardır. Ayrıca, büyük dil modellerini görüntü çıktıları ile birleştirmek, recent çok modlu araştırmaların odağıdır ve recent yöntemler, görüntü üretimi yerine görüntü alma yaklaşımını kullanarak görüntü çıktıları ve aralarında metinler oluşturabilmektedir.

Bununla birlikte, ve görme dilleri modellerinin temel akıl yürütme ve görsel diyaloğu kolaylaştıran hızlı ilerlemelerine rağmen, GPT-4 gibi gelişmiş modeller ile görme dilleri modelleri arasında önemli bir performans boşluğu vẫn mevcuttur. Mini-Gemini, görme dilleri modelleri ile daha gelişmiş modeller arasındaki boşluğu, üç方面ten VLM yönlendirmeli üretim, yüksek kaliteli veri ve yüksek çözünürlüklü görsel tokenler aracılığıyla daraltmaya çalışan bir girişimdir. Görsel tokenleri iyileştirmek için, Mini-Gemini çerçevesi, görsel token sayısını artırmadan yüksek çözünürlüklü iyileştirme için ek bir görsel kodlayıcı kullanmayı önerir. Mini-Gemini çerçevesi ayrıca, resimlerin kesin anlaşılmasını ve akıl yürütme tabanlı üretimini teşvik etmek amacıyla yüksek kaliteli bir veri seti oluşturur. Genel olarak, Mini-Gemini çerçevesi, görme dilleri modellerinin potansiyelini madencilik yapmaya çalışır ve aynı anda görüntü akıl yürütme, anlama ve üretme yetenekleri ile mevcut çerçeveleri güçlendirmeyi hedefler. Bu makale, Mini-Gemini çerçevesini derinlemesine ele almayı amaçlar ve mekanizma, metodoloji, mimari ve diğer güncel çerçeveler ile karşılaştırmasını keşfeder. Şimdi başlayalım.

Mini-Gemini: Çok Modlu VLM’leri Hızlandırma

Yıllar içinde, büyük dil modelleri evrimleşmiştir ve şimdi remarkebıl çok modlu yeteneklere sahiptir ve mevcut görme dilleri modellerinin önemli bir parçası haline gelmiştir. Ancak, büyük dil modellerinin çok modlu performansı ile görme dilleri modelleri arasında bir boşluk vardır ve recent araştırmalar, görme dilleri modellerini görüntüler ve videolar kullanarak büyük dil modelleri ile birleştirmenin yollarını aramaktadır. Görme görevleri için, görüntü çözünürlüğü, minimal görsel hallucinations ile çevreleyen ortamı açıkça tanımlayan önemli bir unsurdur. Boşluğu kapatmak için, araştırmacılar, mevcut görme dilleri modellerini geliştirmek için modeller geliştiriyorlar ve iki ortak yaklaşım, çözünürlüğü artırmak ve görsel token sayısını artırmaktır. Görsel token sayısını artırmak ve daha yüksek çözünürlüklü görüntüler kullanmak, görsel anlama yeteneğini gerçekten geliştirir, ancak bu artış genellikle artan hesaplama gereksinimleri ve ilgili maliyetler ile birlikte gelir, özellikle birden fazla görüntü işlenirken. Ayrıca, mevcut modellerin yetenekleri, mevcut verilerin kalitesi ve uygulanabilirliği, hızlandırılmış bir geliştirme süreci için yetersiz kalıyor ve araştırmacıları “görme dilleri modellerinin gelişimini kabul edilebilir maliyetlerle nasıl hızlandırabiliriz?” sorusuyla bırakıyor.

Mini-Gemini çerçevesi, bu soruyu cevaplamaya çalışan bir girişimdir ve görme dilleri modellerinin potansiyelini, üç方面ten VLM yönlendirmeli üretim veya genişletilmiş uygulamalar, yüksek kaliteli veri ve yüksek çözünürlüklü görsel tokenler aracılığıyla keşfetmeye çalışır. İlk olarak, Mini-Gemini çerçevesi, görsel ayrıntıları iyileştirirken görsel token sayısını koruyarak, daha yüksek çözünürlüklü adaylar oluşturmak için bir ConvNet mimarisini uygular. Mini-Gemini çerçevesi, kamu tarafından erişilebilen yüksek kaliteli veri setlerini birleştirir ve bu iyileştirmeleri, devlet-sanat generatif ve büyük dil modelleri ile entegre eder, böylece VLM’lerin performansı iyileştirilir ve kullanıcı deneyimi geliştirilir. Mini-Gemini çerçevesi tarafından uygulanan çok yönlü strateji, görme dilleri modellerinin gizli yeteneklerini keşfetmesini sağlar ve nguồn kısıtlamaları ile önemli ilerlemeler kaydeder.

Genel olarak, Mini-Gemini çerçevesi, her iki metin ve görüntü girişini ve çıkışını işleyebilen bir herhangi bir şeye herhangi bir şey paradigmını kullanır. Özellikle, Mini-Gemini çerçevesi, girdi resimlerinin görsel tokenlerini iyileştirmek için verimli bir işlem hattı sunar ve ikiz kodlayıcı sistemini tanır: ilk kodlayıcı, yüksek çözünürlüklü resimler için kullanılırken, ikinci kodlayıcı, düşük kaliteli görsel gömme için kullanılır. Çıktı sırasında, kodlayıcılar, dikkat mekanizması ile birlikte çalışır, düşük çözünürlüklü kodlayıcı görsel sorgular oluştururken, yüksek çözünürlüklü kodlayıcı, referans için anahtar ve değerler sağlar. Veri kalitesini artırmak için, Mini-Gemini çerçevesi, kamu kaynaklarına dayalı olarak daha fazla veri toplar ve üretir, görev odaklı talimatlar, üretimle ilgili veri ve yüksek çözünürlüklü yanıtlar dahil, artan miktar ve iyileştirilmiş kalite, modelin genel performansı ve yeteneklerini iyileştirir. Ayrıca, Mini-Gemini çerçevesi, görme dilleri modelini gelişmiş generatif modeller ile entegre ederek, eşzamanlı metin ve görüntü üretimi destekler.

Mini-Gemini: Metodoloji ve Mimari

Temelde, Mini-Gemini çerçevesi kavramsal olarak basittir ve üç bileşenden oluşur.

Çerçeve, düşük çözünürlüklü görsel gömme ve yüksek çözünürlüklü adaylar sağlamak için ikiz görsel kodlayıcılar kullanır.
Çerçeve, düşük çözünürlüklü görsel sorgular ve yüksek çözünürlüklü bölgeler arasında yama düzeyinde madencilik yapmak için yama bilgi madenciliği uygulamayı önerir.
Mini-Gemini çerçevesi, metni görüntülerle birleştirmek için büyük dil modelini kullanır, hem üretim hem de anlama için eşzamanlı olarak.

İkiz-Görme Kodlayıcılar

Mini-Gemini çerçevesi, hem metin hem de görüntü girişlerini işleyebilir ve bunları ayrı ayrı veya birleştirerek işleyebilir. Aşağıdaki resimde gösterildiği gibi, Mini-Gemini çerçevesi, işleme sürecini, yüksek çözünürlüklü resimden düşük çözünürlüklü resim oluşturmak için iki lineer enterpolasyon kullanarak başlatır.

Çerçeve daha sonra bu resimleri işler ve onları çoklu ızgara görsel gömme olarak kodlar, iki paralel görüntü akışında. Daha spesifik olarak, Mini-Gemini çerçevesi, düşük çözünürlüklü akışlar için geleneksel işlemeyi korur ve görsel gömme korumak için CLIP ön-eğitimli Görsel Transformer kullanır, böylece model, büyük dil modellerindeki sonraki etkileşimler için görsel yamalar arasındaki uzun menzilli ilişkiyi korur. Yüksek çözünürlüklü akışlar için, Mini-Gemini çerçevesi, yüksek çözünürlüklü görüntü işleme için CNN veya Konvolüsyonel Sinir Ağları tabanlı kodlayıcıyı benimser.

Yama Bilgi Madenciliği

İkiz görsel kodlayıcılar, LR gömme ve HR özelliklerini oluştururken, Mini-Gemini çerçevesi, görme dilleri modellerinin potansiyelini, görsel tokenler ile genişletmek için yama bilgi madenciliği uygulamayı önerir. Büyük dil modellerinde verimliliği sağlamak için, Mini-Gemini çerçevesi, düşük çözünürlüklü görsel gömme olarak sorguyu alır ve HR özellik adaylarından ilgili görsel ipuçlarını geri çağırmayı hedefler, çerçevenin HR özellik haritasını anahtar ve değer olarak alır.

Aşağıdaki resimde gösterildiği gibi, formül, görsel ipuçlarını rafine etme ve sentezleme sürecini kapsar, bu da sonraki büyük dil modeli işlemleri için gelişmiş görsel tokenlerin oluşturulmasına yol açar. Süreç, çerçevenin her sorgu için HR özellik haritasındaki karşılık gelen alt bölgesinde madencilik yapmasını sağlar, piksel başına özellik sayısı ile, verimliliği artırır. Bu tasarıma bağlı olarak, Mini-Gemini çerçevesi, görsel token sayısını artırmadan HR özellik ayrıntılarını çıkarabilir ve hesaplama uygulanabilirliği ile ayrıntı zenginliği arasında denge kurar.

Metin ve Görüntü Üretimi

Mini-Gemini çerçevesi, görsel tokenleri ve girdi metin tokenlerini, otoregresif üretim için büyük dil modellerine girdi olarak birleştirir. Geleneksel görme dilleri modellerinin aksine, Mini-Gemini çerçevesi, metin-sadece ve metin-görüntü üretimi olarak hem girdi hem de çıktı olarak destekler, yani herhangi bir şeye herhangi bir şey çıkarımı, ve bu, görüntüleri yüksek kaliteli olarak üretmesini sağlar. Recent çalışmaların, üretim modellerinin metin gömme ve büyük dil modelleri arasındaki domaine boşluğuna odaklanması aksine, Mini-Gemini çerçevesi, dil talimatlarının latent difüzyon modellerinde bağlam ilgili görüntüler oluşturmak için yüksek kaliteli talimatlara çevrilmesini hedefler. Ayrıca, talimat ayarlaması ve çapraz mod hizalaması hakkında daha iyi bir anlayış için, Mini-Gemini çerçevesi, kamu tarafından erişilebilen yüksek kaliteli veri setlerinden örnekleri toplar ve GPT-4 turbo çerçevesini kullanarak, 13K talimat takibi veri setini oluşturur, böylece görüntü üretimi desteklenir.

Mini-Gemini: Deneyler ve Sonuçlar

Performansını değerlendirmek için, Mini-Gemini çerçevesi, HR görsel kodlayıcı için ön-eğitimli ConvNext-L çerçevesi ile ve LR görsel kodlayıcı için CLIP ön-eğitimli Görsel Transformer ile oluşturulur. Eğitim verimliliği sağlamak için, Mini-Gemini çerçevesi, iki görsel kodlayıcıyı sabit tutar ve tüm aşamalarda yama bilgi madenciliği projeksiyonlarını optimize eder ve talimat ayarlaması aşamasında büyük dil modelini optimize eder.

Aşağıdaki tablo, Mini-Gemini çerçevesinin performansını, çeşitli ayarlamalar altında, devlet-sanat modelleri ile ve özel modelleri ile karşılaştırır. Gözlemlendiği gibi, Mini-Gemini, mevcut çerçevelerden daha iyi performans gösterir ve normal çözünürlükte tutarlı bir şekilde daha iyi sonuçlar verir ve Gemma-2B ile birlikte verimli modeller kategorisinde üstün performans gösterir. Ayrıca, daha büyük büyük dil modelleri kullanıldığında, Mini-Gemini çerçevesinin ölçeklenebilirliği açıktır.

Yüksek çözünürlüklü ve genişletilmiş görsel tokenler üzerindeki performansını değerlendirmek için, deneyler LR görsel kodlayıcı için 672 ve görsel kodlayıcı için 1536 girdi boyutu ile gerçekleştirilir. Daha önce bahsedildiği gibi, HR görsel kodlayıcının ana amacı, yüksek çözünürlüklü aday bilgileri sunmaktır. Gözlemlendiği gibi, Mini-Gemini çerçevesi, devlet-sanat çerçevelerine kıyasla üstün performans gösterir.

Ayrıca, Mini-Gemini çerçevesinin gerçek dünya ayarlamalarındaki görsel anlama yeteneklerini değerlendirmek için, geliştiriciler modeli çeşitli akıl yürütme ve anlama görevlerine uygular, aşağıdaki resimde gösterildiği gibi. Gözlemlendiği gibi, Mini-Gemini çerçevesi, geniş bir karmaşık görev yelpazesi çözebilmekte ve yama bilgi madenciliği ve yüksek kaliteli verilerin uygulanması sayesinde, sadece tanınma yeteneğinin ötesine geçen, ayrıntılı unsurları ayrıntılı olarak tanımlayabilme yeteneğine sahiptir.

Aşağıdaki şekil, Mini-Gemini çerçevesinin üretme yeteneklerinin kapsamlı bir değerlendirmesini sağlar.

ChatIllusion ve AnyGPT gibi recent modellere kıyasla, Mini-Gemini çerçevesi, daha güçlü çok modlu anlama yetenekleri gösterir ve girdi talimatlarına daha iyi uyumlu metin-görüntü altyazıları oluşturur ve kavramsal benzerlikte daha güçlü görüntü-metin yanıtları üretir. Daha da wichtig, Mini-Gemini çerçevesi, sadece metin eğitim verisi ile yüksek kaliteli içeriği üretme yeteneğinde, bu da Mini-Gemini’nin güçlü semantik yorumlama ve görüntü-metin hizalama yeteneklerini gösteren bir yetenektir.

Son Düşünceler

Bu makalede, Mini-Gemini’den bahsettik, bu çok modlu görme dilleri modelleri için güçlü ve akıllı bir çerçevedir. Mini-Gemini çerçevesinin primary amacı, görme dilleri modellerinin potansiyelini, yüksek kaliteli veri, stratejik tasarım ve genişletilmiş fonksiyonel kapsam kullanarak madencilik yapmaktır. Mini-Gemini, görme dilleri modelleri ile daha gelişmiş modeller arasındaki boşluğu, üç方面ten VLM yönlendirmeli üretim, yüksek kaliteli veri ve yüksek çözünürlüklü görsel tokenler aracılığıyla daraltmaya çalışan bir girişimdir. Görsel tokenleri iyileştirmek için, Mini-Gemini çerçevesi, görsel token sayısını artırmadan yüksek çözünürlüklü iyileştirme için ek bir görsel kodlayıcı kullanmayı önerir. Mini-Gemini çerçevesi ayrıca, resimlerin kesin anlaşılmasını ve akıl yürütme tabanlı üretimini teşvik etmek amacıyla yüksek kaliteli bir veri seti oluşturur. Genel olarak, Mini-Gemini çerçevesi, görme dilleri modellerinin potansiyelini madencilik yapmaya çalışır ve aynı anda görüntü akıl yürütme, anlama ve üretme yetenekleri ile mevcut çerçeveleri güçlendirmeyi hedefler.

Kunal Kejriwal

Mesleği mühendis, kalbi yazar. Kunal, AI ve ML'ye derin bir sevgi ve anlayışla technical writer, bu alanlardaki karmaşık kavramları etkileyici ve bilgilendirici belgelerle basitleştirmeye adanmış.