saplama Mini-Gemini: Çok Modlu Vizyon Dili Modellerinin Potansiyelini Araştırmak - Unite.AI
Bizimle iletişime geçin

Yapay Zeka

Mini-Gemini: Çok Modlu Vizyon Dili Modellerinin Potansiyelini Araştırmak

mm

Yayınlanan

 on

Mini-Gemini: Çok Modlu Vizyon Dili Modellerinin Potansiyelini Araştırmak

Gelişmeler büyük dil modelleri gelişimini önemli ölçüde hızlandırdı doğal dil işlemeveya NLP. Dönüştürücü çerçevesinin tanıtılmasının, OPT ve BERT dahil olmak üzere derin dilsel anlayış sergileyen yeni bir dil modeli dalgasının geliştirilmesini kolaylaştıran bir dönüm noktası olduğu kanıtlandı. Ayrıca, GPT veya Üretken Önceden Eğitimli Transformatör modellerinin başlangıcı, otoregresif modelleme ile yeni bir paradigma sunmuş ve dil tahmini ve üretimi için sağlam bir yöntem oluşturmuştur. GPT-4, ChatGPT, Mixtral, LLaMA ve diğerleri gibi dil modellerinin ortaya çıkışı, her modelin karmaşık dil işlemeyi içeren görevlerde gelişmiş performans göstermesiyle hızlı evrimi daha da hızlandırdı. Mevcut yöntemler arasında, talimat ayarlama, önceden eğitilmiş büyük dil modellerinin çıktısını iyileştirmek için anahtar bir teknik olarak ortaya çıkmıştır ve bu modellerin görsel görevlere yönelik özel araçlarla entegrasyonu, bunların uyarlanabilirliğini ön plana çıkarmış ve gelecekteki uygulamalar için kapılar açmıştır. Bunlar, çok modlu etkileşimleri içerecek şekilde LLM'lerin geleneksel metin tabanlı işlenmesinin çok ötesine uzanır.

Ayrıca, doğal dil işleme ve bilgisayarlı görme modellerinin yakınsaması, modlar arası kavrama ve muhakeme yetenekleri elde etmek için dil ve görme modellerini birleştiren VLM'lerin veya Görme Dili Modellerinin ortaya çıkmasına neden olmuştur. Görsel ve dilsel modellerin entegrasyonu ve ortaya çıkışı, hem dil işlemeyi hem de görsel anlamayı gerektiren görevlerin ilerletilmesinde önemli bir rol oynamıştır. CLIP gibi devrim niteliğindeki modellerin ortaya çıkışı, vizyon görevleri ile dil modelleri arasındaki boşluğu daha da kapatarak modlar arası uygulamaların uygulanabilirliğini ve pratikliğini ortaya koydu. LLaMA ve BLIP gibi daha yeni çerçeveler, modelin güçlü yeteneklerini gösteren etkili stratejiler geliştirmek için özel talimat verilerinden yararlanıyor. Ek olarak, büyük dil modellerini görüntü çıktılarıyla birleştirmek son zamanlardaki çok modlu araştırmaların odak noktasıdır; son yöntemler, görüntü çıktıları ve aralıklı metinler üretmek için görüntü alma yaklaşımını kullanarak doğrudan oluşturmayı atlayabilmektedir.

Bununla birlikte, temel akıl yürütmeyi ve görsel diyaloğu kolaylaştıran görme dili modellerindeki hızlı gelişmelere rağmen, GPT-4 gibi gelişmiş modeller ile görme dili modelleri arasında hala önemli bir performans farkı bulunmaktadır. Mini-Gemini, VLM'lerin potansiyelini üç açıdan daha iyi performans elde ederek, görme dili modelleri ile daha gelişmiş modeller arasındaki boşluğu daraltma girişimidir: VLM destekli nesil, yüksek kaliteli veriler ve yüksek çözünürlüklü görsel belirteçler. Mini-Gemini çerçevesi, görsel belirteçleri geliştirmek için, görsel belirteçlerin sayısını artırmadan yüksek çözünürlüklü iyileştirme için ek bir görsel kodlayıcı kullanmayı önerir. Mini-Gemini çerçevesi ayrıca görüntülerin kesin olarak anlaşılmasını ve akıl yürütmeye dayalı oluşturmayı teşvik etmek amacıyla yüksek kaliteli bir veri kümesi oluşturur. Genel olarak Mini-Gemini çerçevesi, görme dili modellerinin potansiyelini ortaya çıkarmaya çalışır ve mevcut çerçeveleri aynı anda görüntü akıl yürütme, anlama ve üretken yeteneklerle güçlendirmeyi amaçlar. Bu makale Mini-Gemini çerçevesini derinlemesine ele almayı amaçlamaktadır ve çerçevenin mekanizmasını, metodolojisini, mimarisini ve en son teknoloji çerçevelerle karşılaştırmasını araştırıyoruz. Öyleyse başlayalım. 

Mini-Gemini: Çok Modlu VLM'leri Hızlandırma

Yıllar geçtikçe büyük dil modelleri gelişti ve artık dikkate değer çoklu mod yetenekleriyle gurur duyuyorlar ve mevcut görüş dili modellerinin önemli bir parçası haline geliyorlar. Bununla birlikte, büyük dil modellerinin çok modlu performansı ile görme dili modelleri arasında bir boşluk vardır ve yakın zamanda yapılan araştırmalar, görüntüleri ve videoları kullanarak görmeyi büyük dil modelleriyle birleştirmenin yollarını arar. Görme görevlerinin kendisi için görüntü çözünürlüğü, çevredeki ortama rağmen minimum görsel halüsinasyonların açıkça sağlanması için çok önemli bir unsurdur. Aradaki boşluğu kapatmak için araştırmacılar mevcut görsel anlayışı geliştirecek modeller geliştiriyorlar. görüş dili modelleriEn yaygın yaklaşımlardan ikisi şunlardır: çözünürlüğün arttırılması ve görsel belirteçlerin sayısının arttırılması. Daha yüksek çözünürlüklü görüntülere sahip görsel belirteçlerin sayısını artırmak, görsel anlayışı geliştirse de, özellikle birden fazla görüntü işlenirken bu artışa genellikle artan hesaplama gereksinimleri ve ilgili maliyetler eşlik eder. Ayrıca, mevcut modellerin yetenekleri, mevcut verilerin kalitesi ve uygulanabilirliği, hızlandırılmış bir geliştirme süreci için yetersiz kalıyor ve araştırmacılar şu soruyla karşı karşıya kalıyor: "Kabul edilebilir maliyetlerle vizyon dili modellerinin geliştirilmesi nasıl hızlandırılır?"?

Mini-Gemini çerçevesi, görme dili modellerinin potansiyelini üç açıdan keşfetmeye çalışırken soruyu yanıtlama girişimidir: VLM destekli nesil veya genişletilmiş uygulamalar, yüksek kaliteli veriler ve yüksek çözünürlüklü görsel belirteçler. İlk olarak Mini-Gemini çerçevesi, daha yüksek çözünürlüklü adayları verimli bir şekilde oluşturmak için bir ConvNet mimarisini uygulayarak büyük dil modeli için görsel belirteç sayılarını korurken görsel ayrıntıları geliştirir. Mini-Gemini çerçevesi, verilerin kalitesini artırmak amacıyla kamuya açık yüksek kaliteli veri kümelerini birleştirir ve bu geliştirmeleri, VLM'lerin performansını artırmak ve geliştirmek amacıyla son teknoloji ürünü üretken ve büyük dil modelleriyle bütünleştirir. kullanıcı deneyimi. Mini-Gemini çerçevesi tarafından uygulanan çok yönlü strateji, vizyon dili modellerinin gizli yeteneklerini keşfetmesine olanak tanır ve belirgin kaynak kısıtlamalarıyla önemli ilerlemeler elde eder. 

Genel olarak Mini-Gemini çerçevesi, hem metni hem de görüntüleri girdi ve çıktı olarak işleyebildiği için herhangi bir paradigmadan yararlanır. Özellikle Mini-Gemini çerçevesi, girdi görüntüleri için görsel belirteçleri geliştirmek için etkili bir işlem hattı sunar ve ikiz kodlayıcılardan oluşan bir çift kodlayıcı sistemine sahiptir: ilk kodlayıcı yüksek çözünürlüklü görüntüler içindir, ikinci kodlayıcı ise düşük çözünürlüklü görüntüler içindir. kaliteli görsel yerleştirme. Çıkarım sırasında kodlayıcılar, düşük çözünürlüklü kodlayıcının görsel sorgular oluşturduğu, yüksek çözünürlüklü kodlayıcının ise referans için anahtar ve değerler sağladığı bir dikkat mekanizmasında çalışır. Veri kalitesini artırmak için Mini-Gemini çerçevesi, görev odaklı talimatlar, üretimle ilgili veriler ve yüksek çözünürlüklü yanıtlar dahil olmak üzere kamu kaynaklarına dayalı olarak daha fazla veri toplar ve üretir; artan miktar ve gelişmiş kalite, genel performansı iyileştirir ve modelin yetenekleri. Ayrıca Mini-Gemini çerçevesi, görme dili modelinin gelişmiş üretken modellerle entegrasyonunun bir sonucu olarak eşzamanlı metin ve görüntü üretimini destekler. 

Mini-Gemini: Metodoloji ve Mimari

Mini-Gemini çerçevesi özünde kavramsal olarak basittir ve üç bileşenden oluşur. 

  1. Çerçeve, düşük çözünürlüklü görsel yerleştirmeler ve yüksek çözünürlüklü adaylar sağlamak için çift görüşlü kodlayıcılar kullanır. 
  2. Çerçeve, düşük çözünürlüklü görsel sorgular ve yüksek çözünürlüklü bölgeler arasında yama düzeyinde madencilik yapmak için yama bilgisi madenciliğinin uygulanmasını önermektedir. 
  3. Mini-Gemini çerçevesi, aynı anda hem oluşturma hem de anlama amacıyla metni görsellerle birleştirmek için geniş bir dil modeli kullanır. 

Çift Görüşlü Kodlayıcılar

Mini-Gemini çerçevesi, hem metin hem de resim girişlerini işleyebilir; bunları tek tek veya bir arada işleme seçeneği vardır. Aşağıdaki görüntüde gösterildiği gibi Mini-Gemini çerçevesi, ilgili yüksek çözünürlüklü görüntüden düşük çözünürlüklü bir görüntü oluşturmak için çift doğrusal enterpolasyon kullanarak süreci başlatır. 

Çerçeve daha sonra bu görüntüleri işler ve bunları iki paralel görüntü akışına çoklu ızgaralı görsel yerleştirmeye kodlar. Daha spesifik olarak, Mini-Gemini çerçevesi, düşük çözünürlüklü akışlar için geleneksel boru hattını korur ve görsel yerleştirmeleri kodlamak için CLIP ile önceden eğitilmiş bir Görsel Transformer kullanır ve modelin, büyük dilde sonraki etkileşimler için görsel yamalar arasındaki uzun vadeli ilişkiyi korumasını kolaylaştırır. modeller. Yüksek çözünürlüklü akışlar için Mini-Gemini çerçevesi, uyarlanabilir ve verimli yüksek çözünürlüklü görüntü işleme için CNN veya Evrişim Sinir Ağları tabanlı kodlayıcıyı kullanır. 

Yama Bilgi Madenciliği

LR yerleştirmelerini ve HR özelliklerini oluşturan çift görüşlü kodlayıcılarla Mini-Gemini çerçevesi, gelişmiş görsel belirteçlerle görüş dili modellerinin potansiyelini genişletmek amacıyla yama bilgisi madenciliğinin uygulanmasını önerir. Büyük dil modellerinde verimlilik için görsel belirteçlerin sayısını korumak amacıyla Mini-Gemini çerçevesi, düşük çözünürlüklü görsel yerleştirmeleri sorgu olarak alır ve İK özelliği adaylarından ilgili görsel ipuçlarını almayı amaçlar. Anahtar ve değer olarak İK özellik haritası.

Yukarıdaki görüntüde gösterildiği gibi formül, görsel ipuçlarının iyileştirilmesi ve sentezlenmesi sürecini kapsar; bu, daha sonraki büyük dil modeli işlemesi için gelişmiş görsel belirteçlerin üretilmesine yol açar. Süreç, çerçevenin her bir sorgu için madenciliği, piksel bazında özellik sayımı ile İK özellik haritasındaki karşılık gelen alt bölgesiyle sınırlandırabilmesini sağlar ve bu da verimliliğin artmasına neden olur. Bu tasarım sayesinde Mini-Gemini çerçevesi, görsel belirteç sayısını artırmadan İK özellik ayrıntılarını çıkarabiliyor ve hesaplamalı fizibilite ile ayrıntı zenginliği arasında bir denge sağlıyor. 

Metin ve Görüntü Üretimi

Mini-Gemini çerçevesi, otomatik gerilemeli nesil için büyük dil modellerine girdi olarak görsel belirteçleri ve giriş metni belirteçlerini birleştirir. Geleneksel görüş dili modellerinden farklı olarak Mini-Gemini çerçevesi, girdi ve çıktı olarak metin-görüntü oluşturmanın yanı sıra yalnızca metin oluşturmayı, yani herhangi bir çıkarımı destekler ve bu olağanüstü görüntü-metin anlama ve akıl yürütme yeteneklerinin bir sonucudur. Mini-Gemini yüksek kaliteli görüntüler üretebilmektedir. Üretim modellerinin metin yerleştirmeleri ile büyük dil modelleri arasındaki alan boşluğuna odaklanan son çalışmaların aksine Mini-Gemini çerçevesi, kullanıcı talimatlarını bağlama uygun görüntüler üreten yüksek kaliteli bilgi istemlerine çevirerek dil istemleri alanındaki boşluğu optimize etmeye çalışır. Gizli difüzyon modellerinde. Ayrıca, talimat ince ayarının ve çapraz modalite hizalamasının daha iyi anlaşılması için Mini-Gemini çerçevesi, halka açık yüksek kaliteli veri kümelerinden örnekler toplar ve görüntü oluşturmayı desteklemek üzere veri kümesini takip eden 4K talimatı daha da oluşturmak için GPT-13 turbo çerçevesini kullanır. 

Mini-İkizler: Deneyler ve Sonuçlar

Performansını değerlendirmek için Mini-Gemini çerçevesi, HR görüntü kodlayıcıya yönelik önceden eğitilmiş ConvNext-L çerçevesi ve önceden eğitilmiş bir CLIP ile örneklenir. Görüntü Trafosu LR görüntü kodlayıcı için. Eğitim verimliliğini sağlamak için Mini-Gemini çerçevesi, iki görüntü kodlayıcıyı sabit tutar ve tüm aşamalarda yama bilgisi madenciliği projektörlerini optimize eder ve talimat ayarlama aşaması sırasında büyük dil modelini optimize eder. 

Aşağıdaki tablo, Mini-Gemini çerçevesinin performansını farklı ortamlardaki son teknoloji modellerle karşılaştırmakta ve ayrıca özel modelleri de dikkate almaktadır. Gözlemlenebileceği gibi Mini-Gemini, normal çözünürlükte sürekli olarak geniş bir LLM yelpazesinde mevcut çerçevelerden daha iyi performans gösteriyor ve verimli modeller kategorisinde Gemma-2B ile yapılandırıldığında üstün performans sergiliyor. Ayrıca, daha büyük dil modelleri kullanıldığında Mini-Gemini çerçevesinin ölçeklenebilirliği belirgindir. 

Yüksek çözünürlük ve genişletilmiş görsel belirteçlerdeki performansını değerlendirmek için deneyler, LR görüntü kodlayıcı için 672 ve görsel kodlayıcı için 1536 giriş boyutuyla gerçekleştirilir. Daha önce de belirtildiği gibi HR görsel kodlayıcının temel amacı yüksek çözünürlüklü aday bilgileri sunmaktır. Görüldüğü gibi Mini-Gemini çerçevesi, en gelişmiş çerçevelerle karşılaştırıldığında üstün performans sunmaktadır. 

Ayrıca, Mini-Gemini çerçevesinin gerçek dünya ortamlarındaki görsel anlama becerisini değerlendirmek için geliştiriciler, modeli aşağıdaki resimde gösterildiği gibi çeşitli akıl yürütme ve anlama görevlerine uygular. Görülebileceği gibi Mini-Gemini çerçevesi, yama bilgisi madenciliği ve yüksek kaliteli verilerin uygulanması sayesinde çok çeşitli karmaşık görevleri çözebilmektedir. Ancak daha etkileyici olan şey, Mini-Gemini çerçevesinin, yalnızca tanınma becerisinin ötesine geçen ayrıntılara keskin bir katkı göstermesi ve karmaşık unsurları karmaşık bir şekilde tanımlamasıdır. 

Aşağıdaki şekil Mini-Gemini çerçevesinin üretken yeteneklerinin kapsamlı bir değerlendirmesini sunmaktadır. 

ChatIllusion ve AnyGPT gibi yeni modellerle karşılaştırıldığında Mini-Gemini çerçevesi, daha güçlü çok modlu anlama yetenekleri sergileyerek, görüntüye metin giriş talimatlarıyla daha iyi uyum sağlayan altyazılar ve görselden metne yanıtların daha güçlü kavramsal benzerliğe sahip olmasını sağlar. Daha da etkileyici olanı, Mini-Gemini çerçevesinin, yalnızca metin eğitim verileriyle çok modelli insan talimatlarını kullanarak yüksek kaliteli içerik oluşturma konusunda olağanüstü bir yeterlilik göstermesidir; bu, Mini-Gemini'nin güçlü anlamsal yorumlama ve görüntü-metin hizalama becerilerini gösteren bir yetenektir. 

Son Düşüncelerimiz

Bu makalede çok modlu görüş dili modelleri için güçlü ve kolaylaştırılmış bir çerçeve olan Mini-Gemini'den bahsettik. Mini-Gemini çerçevesinin temel amacı, yüksek kaliteli verileri, çerçevenin stratejik tasarımını ve genişletilmiş işlevsel kapsamı kullanarak vizyon dili modellerinin gizli yeteneklerinden yararlanmaktır. Mini-Gemini, VLM'lerin potansiyelini üç açıdan daha iyi performans elde ederek, görme dili modelleri ile daha gelişmiş modeller arasındaki boşluğu daraltma girişimidir: VLM destekli nesil, yüksek kaliteli veriler ve yüksek çözünürlüklü görsel belirteçler. Mini-Gemini çerçevesi, görsel belirteçleri geliştirmek için, görsel belirteçlerin sayısını artırmadan yüksek çözünürlüklü iyileştirme için ek bir görsel kodlayıcı kullanmayı önerir. Mini-Gemini çerçevesi ayrıca görüntülerin kesin olarak anlaşılmasını ve akıl yürütmeye dayalı oluşturmayı teşvik etmek amacıyla yüksek kaliteli bir veri kümesi oluşturur. Genel olarak Mini-Gemini çerçevesi, görme dili modellerinin potansiyelini ortaya çıkarmaya çalışır ve mevcut çerçeveleri aynı anda görüntü akıl yürütme, anlama ve üretken yeteneklerle güçlendirmeyi amaçlar.

"Meslek olarak bir mühendis, ezbere bir yazar". Kunal, yapay zeka ve makine öğrenimine derin bir sevgi ve anlayışa sahip, ilgi çekici ve bilgilendirici belgeleriyle bu alanlardaki karmaşık kavramları basitleştirmeye kendini adamış bir teknik yazardır.