Yapay Zekâ

Büyük Çoğul Modelliğin Perdesi: 2024’te Dil Modelleri Manzarasını Şekillendirme

Published January 8, 2024

Updated April 27, 2026

Dr. Tehseen Zia

Dünyayı deneyimlediğimizde, duyularımız (görme, sesler, kokular) bize çeşitli bilgiler sağlar ve farklı iletişim yöntemleri kullanarak kendimizi ifade ederiz, Örneğin yüz ifadeleri ve jestler. Bu duyular ve iletişim yöntemleri, birlikte modlar olarak adlandırılır ve bizim algılayışımız ve iletişim kurma şeklimizi temsil eder. Bu insan yeteneğinden esinlenerek, büyük çoklu model (LMM), bir dizi oluşturucu ve çoklu model AI‘nın birleşimi, metin, resimler ve ses gibi farklı türlerde içerik oluşturmak ve anlamak için geliştirilmektedir. Bu makalede, bu yeni ortaya çıkan alana dalıyor, LMM’lerin (Büyük Çoğul Modelleri) ne olduğu, nasıl inşa edildiği, mevcut örnekleri, karşılaştığı zorlukları ve potansiyel uygulamaları keşfediyoruz.

2024’te Oluşturucu AI’nin Evrimi: Büyük Dil Modellerinden Büyük Çoğul Modellerine

Son raporunda, McKinsey 2023’ü oluşturucu AI için bir突破 yılı olarak belirledi, bu da alanda birçok ilerlemeye yol açtı. Büyük dil modellerinin (LLM’ler) insan benzeri dil anlamak ve üretmek konusunda uzmanlaşmış bir yükselişine tanık olduk. Ayrıca, resim oluşturma modelleri önemli ölçüde evrimleşti ve metinsel.prompt’lardan görseller oluşturma yeteneklerini gösterdi. Ancak, metin, resim veya ses gibi bireysel modlarda önemli ilerlemelere rağmen, oluşturucu AI, generation sürecinde bu modları sorunsuz bir şekilde birleştirmede zorluklarla karşılaştı. Dünya doğası gereği çoklu modlu olduğundan, AI’nin çoklu modlu bilgiyle başa çıkması çok önemlidir. Bu, anlamlı bir şekilde insanlarla etkileşim kurmak ve gerçek dünya senaryolarında başarılı operasyonlar için gereklidir.

Dolayısıyla, birçok AI araştırmacısı, LMM’lerin 2024’te AI araştırması ve geliştirmesinde bir sonraki sınır olarak yükselişini bekliyor. Bu gelişen sınır, oluşturucu AI’nin metin, resimler, ses, video ve diğer modlardan oluşan çeşitli çıktıları işleyip üretme kapasitesini artırmaya odaklanıyor. Vurgulamak önemlidir ki, tüm çoklu modlu sistemler LMM olarak nitelendirilemez. Midjourney ve Stable Diffusion gibi modeller, çoklu modlu olsalar da, LLM’lerin varlığına sahip olmadıkları için LMM kategorisine uymazlar. Diğer bir deyişle, LMM’leri LLM’lerin uzantısı olarak tanımlayabiliriz, onlara çeşitli modları etkili bir şekilde işleme yeteneği sağlar.

LMM’ler Nasıl Çalışır?

Araştırmacılar çeşitli yaklaşımları keşfetmelerine rağmen, LMM’ler genellikle üç temel bileşen ve işlemi içerir. İlk olarak, her veri modu için kodlayıcılar, o mod için özel veri temsilmaları (gömme olarak adlandırılır) oluşturmak için kullanılır. İkincisi, farklı mekanizmalar, farklı modlardan gömme’yi birleşik bir çoklu modlu gömme alanına hizalamak için kullanılır. Üçüncüsü, oluşturucu modeller için, metin yanıtları oluşturmak için bir LLM kullanılır. Girişler metin, resim, video ve ses olabileceğinden, araştırmacılar, dil modellerinin farklı modları düşünerek yanıtlar vermesini sağlamak için yeni yollar üzerinde çalışıyorlar.

2023’te LMM’lerin Gelişimi

Aşağıda, 2023’te geliştirilen bazı dikkat çekici LMM’leri kısaca özetledim.

LLaVA açık kaynaklı bir LMM’dir ve Wisconsin-Madison Üniversitesi, Microsoft Research ve Columbia Üniversitesi tarafından ortaklaşa geliştirilmiştir. Model, açık kaynaklı bir GPT4 sürümünü sunmayı amaçlar. Meta’nın Llama LLM‘sini kullanarak, CLIP görsel kodlayıcısını güçlü görsel anlama için entegre eder. LLaVA’nın sağlık odaklı varyantı, LLaVA-Med, tıbbi resimlerle ilgili soruları yanıtlamak için kullanılabilir.
ImageBind Meta tarafından oluşturulan açık kaynaklı bir modeldir ve insan algısının çoklu modlu verilere bağlanma yeteneğini taklit eder. Model, altı modu – metin, resimler/videolar, ses, 3B ölçüm, sıcaklık verileri ve hareket verileri – birleştirir ve bu çeşitli veri türleri arasında birleşik bir temsil öğrenir. ImageBind, resimlerdeki nesneleri ses, 3B şekiller, sıcaklık ve hareket gibi özelliklerle bağlayabilir. Model, Örneğin metinden sahne veya ses oluşturmak için kullanılabilir.
SeamlessM4T Meta tarafından çok dilli topluluklar arasında iletişim kurmak için tasarlanmış bir çoklu modeldir. SeamlessM4T, çeviri ve transkripsiyon görevlerinde exceller ve konuşma-konuşma, konuşma-metin, metin-konuşma ve metin-metin çevirilerini destekler. Model, bu çevirileri gerçekleştirmek için otomatik olmayan metin-ünite çözücü kullanır. Geliştirilmiş sürüm, SeamlessM4T v2, SeamlessExpressive ve SeamlessStreaming gibi modellerin temelini oluşturur ve diller arası ifade korunmasını vurgular ve minimum gecikmeyle çeviriler sağlar.
GPT4, OpenAI tarafından sunulan bir önceki sürümün GPT3.5‘in bir ilerlemesidir. Detaylı mimari ayrıntıları tam olarak açıklanmasa da, GPT4, metin yalnızca, görme yalnızca ve ses yalnızca modellerini sorunsuz bir şekilde entegre etmesi ile bilinir. Model, hem yazılı hem de grafik girişlerden metin oluşturabilir. Görsellerdeki mizah açıklamaları, ekran görüntülerinden metin özetleme ve şemaları içeren sınav sorularına yetkin bir şekilde yanıt verme gibi çeşitli görevlerde exceller. GPT4, ayrıca çeşitli girdi veri formatlarını etkili bir şekilde işleme yeteneği ile tanınır.
Gemini, Google DeepMind tarafından yaratılmış ve tek modlu bileşenleri birleştirmeden çeşitli görevlerde sorunsuz bir şekilde etkileşime girebilmesi ile kendini ayırt eder. Bu model, hem metin hem de çeşitli ses-görsel girişleri kolayca yönetir ve metin ve resim formatlarında çıktı üretme yeteneğini gösterir.

Büyük Çoğul Modellerinin Zorlukları

Daha Fazla Veri Modu Entegrasyonu: Mevcut LMM’lerin çoğu metin ve resimlerle çalışır. Ancak, LMM’ler metin ve resimlerin ötesine geçmeli, video, müzik ve 3B gibi modları da kapsamalıdır.
Çeşitli Veri Seti Erişimi: LMM’lerin geliştirilmesi ve eğitilmesi için çoklu modlu oluşturucu AI modellerinin temel bir zorluğu, birden fazla modu içeren büyük ve çeşitli veri setlerine ihtiyaç duymalarıdır. Örneğin, metin ve resimleri birlikte üretebilen bir modeli eğitmek için, birbirleriyle ilgili metin ve resim girişlerini içeren bir veri setine ihtiyaç vardır.
Çoklu Modlu Çıktı Oluşturma: LMM’ler çoklu modlu girişleri işleyebilir, ancak grafik veya animasyonlar gibi çeşitli çıktıları oluşturmak hala bir zorluktur.
Talimatları Takip Etmek: LMM’ler, sadece tamamlamaya değil, diyalog ve talimatları takip etme görevlerini de ustaca gerçekleştirmek zorundadır.
Çoklu Modlu Mantık: Mevcut LMM’ler bir modu başka bir modla dönüştürmede exceller, ancak çoklu modlu verilerin karmaşık mantık görevleri için sorunsuz entegrasyonu, Örneğin sesli talimatlara dayalı yazılı sözcük problemlerini çözmede, zorlu bir görevdir.
LMM’leri Sıkıştırma: LMM’lerin kaynak yoğunluğu, onları sınırlı hesaplama kaynaklarına sahip kenar cihazları için uygunsuz hale getirir. LMM’leri verimliliği artırmak ve kaynak kısıtlamalı cihazlarda dağıtıma uygun hale getirmek için sıkıştırma, önemli bir araştırma alanıdır.

Potansiyel Kullanım Alanları

Eğitim: LMM’ler, metin, resim ve sesin birleşiminden oluşan çeşitli ve etkileyici öğrenme materyalleri oluşturmak yoluyla eğitimi dönüştürebilir. LMM’ler, ödevlere kapsamlı geri bildirim sağlar, işbirlikçi öğrenme platformlarını teşvik eder ve etkileşimli simülasyonlar ve gerçek dünya örnekleri yoluyla beceri gelişimini destekler.
Sağlık Hizmetleri: Geleneksel AI tanı sistemlerinin tek bir modu hedeflemesine karşılık, LMM’ler çoklu modu entegre ederek tıbbi tanıları geliştirir. Ayrıca, sağlık hizmeti sağlayıcıları ve hastalar arasında dil engelleri üzerinden iletişim kurmaya yardımcı olur ve hastanelerde çeşitli AI uygulamaları için merkezi bir depo görevi görür.
Sanat ve Müzik Oluşturma: LMM’ler, benzersiz ve ifade edici çıktılar için farklı modları birleştirebilir. Örneğin, bir sanat LMM, görsel ve işitsel unsurları birleştirebilir, böylece bir daldırma deneyimi sağlar. Benzer şekilde, bir müzik LMM, enstrümantal ve vokal unsurları birleştirebilir, dinamik ve ifade edici besteler oluşturur.
Kişiselleştirilmiş Öneriler: LMM’ler, çeşitli modlarda kullanıcı tercihlerini analiz ederek içerik tüketimi için kişiselleştirilmiş öneriler sağlayabilir, Örneğin filmler, müzik, makaleler veya ürünler.

Hava Tahmini ve Çevresel İzleme: LMM’ler, uydu görüntüleri, atmosferik koşullar ve tarihi kalıplar gibi çeşitli modlardan verileri analiz ederek hava tahmini ve çevresel izleme doğruluğunu geliştirebilir.

Sonuç

Büyük Çoğul Modelleri (LMM) manzarası, oluşturucu AI’de önemli bir ilerlemeyi temsil eder ve sağlık hizmetleri, eğitim, sanat ve kişiselleştirilmiş öneriler gibi çeşitli alanlarda ilerlemeler vaat eder. Ancak, daha fazla veri modunu entegre etme, kaynak yoğunluğunu azaltma gibi zorluklar, LMM’lerin tam potansiyelini gerçekleştirmek için gereken devam eden araştırma çabalarını vurgular.