Connect with us

En İyi AI Modelleri Uzun Belgelerde Kayboluyor

Yapay Zekâ

En İyi AI Modelleri Uzun Belgelerde Kayboluyor

mm

LMU Münih, Münih Makine Öğrenimi Merkezi ve Adobe Araştırma’dan araştırmacıların yaptığı bir yeni çalışma, AI dil modellerinde bir zayıflık ortaya çıkardı: uzun belgeleri anlamakta zorlanıyorlar. Araştırma ekibinin bulguları, en gelişmiş AI modellerinin bile basit kelime eşleştirmelerine güvenemeyecekleri zaman bilgiyi bağlamaktaki güçlüklerini gösteriyor.

AI’nin Okuma Becerilerindeki Gizli Problem

Uzun bir araştırma makalesinde belirli bir detayı bulmaya çalışmayı düşünün. Belki de onu tarayarak, gerekli bilgileri bir araya getirmek için farklı bölümler arasında zihinsel bağlantılar kurarsınız. Çoğu AI modeli, aslında tamamen farklı bir şekilde çalışıyor. Bunun yerine, genellikle Ctrl+F gibi exact kelime eşleştirmelerini bulmaya güveniyorlar.

Araştırma ekibi, çeşitli AI modellerini test etmek için NOLIMA (No Literal Matching) adlı yeni bir benchmark geliştirdi. Sonuçlar, AI modellerinin 2.000 kelimeden uzun metinlerle karşılaştıklarında performanslarının dramatik bir şekilde düştüğünü gösterdi. 32.000 kelimeye ulaştıklarında – yaklaşık bir kısa kitabın uzunluğu – çoğu model normal kapasitelerinin yarısında performans gösteriyor. Bu, GPT-4o, Gemini 1.5 Pro ve Llama 3.3 70B gibi büyük modellerin test edilmesini içeriyordu.

Bir tıp araştırmacının hasta kayıtlarını analiz etmek için AI kullandığını veya bir hukuk ekibinin davayla ilgili belgeleri gözden geçirmek için AI kullandığını düşünün. AI, ilgili bilgilerin arama sorgusundan farklı kelimeler kullanması nedeniyle önemli bağlantıları kaçırdığı takdirde sonuçlar önemli olabilir.

Kelime Eşleştirmesinin Yeterli Olmaması

Mevcut AI modelleri, metni bir dikkat mekanizması kullanarak işlerler. Bu sistem, AI’nin kelimeler ve fikirlerin arasındaki ilişkileri anlamak için metnin farklı kısımlarına odaklanmasına yardımcı olur. Kısa metinlerle çalışırken bu yeterli olur. Ancak araştırma, bu mekanizmanın özellikle exact kelime eşleştirmelerine güvenemeyeceği zaman metinler uzadıkça bunaldığını gösteriyor.

NOLIMA testi, AI modellerine kelime eşleştirmelerine güvenmek yerine bağlamı anlamalarını gerektiren sorular sordu. Sonuçlar çok açıklayıcıydı. Modeller kısa metinlerle iyi performans gösterse de, metin uzunluğu arttıkça bu bağlantılar kurma yetenekleri önemli ölçüde düştü. Hatta akıl yürütme görevleri için özel olarak tasarlanmış modeller, daha uzun belgelerle çalışırken %50’nin altında bir doğruluk oranıyla skorladı.

Kelime eşleştirmesinin dayanağı olmadan, AI modelleri:

  • Farklı terminoloji kullanan ilgili kavramları bağlamakta zorlanıyor
  • Çok adımlı akıl yürütme yollarını takip etmekte
  • Anahtar bağlamdan sonra görünen ilgili bilgileri bulmakta
  • Alakasız bölümlerde aldatıcı kelime eşleştirmelerini görmezden gelmekte

Rakamlar Hikayeyi Anlatıyor

Araştırma bulguları, AI modellerinin daha uzun metinlerle nasıl başa çıktığının çarpıcı bir resmini çiziyor. GPT-4o en güçlü performansı gösterdi, yaklaşık 8.000 token (yaklaşık 6.000 kelime) uzunluğuna kadar etkili kaldı. Ancak bu en iyi performans gösteren model bile daha uzun metinlerle birlikte önemli bir düşüş gösterdi. Diğer modeller, Gemini 1.5 Pro ve Llama 3.3 70B dahil, 2.000 ila 8.000 token arasında keskin bir performans düşüşü yaşadı.

Performans düşüşü, görevlerin birden fazla akıl yürütme adımını gerektirdiğinde daha da belirgin hale geldi. Örneğin, bir modelin bir karakterin belirli bir yerin yakınında yaşadığını ve o yerin belirli bir şehirde olduğunu anlaması gerekiyorsa, başarı oranı önemli ölçüde düştü. Araştırma, bu tür çok adımlı akıl yürütmelerin 16.000 tokenden daha uzun metinlerde özellikle zorlu olduğunu gösterdi, bu sogar Chain-of-Thought prompting gibi akıl yürütmeyi iyileştirmeye yönelik tekniklerin kullanılmasıyla bile.

Bu bulguların özellikle dikkat çekici olmasının nedeni, AI modellerinin uzun bağlamları işleme yetenekleri hakkındaki iddiaları sorgulamasıdır. Çoğu model, geniş bağlam pencerelerini desteklediğini iddia etse de, NOLIMA benchmark’u etkili anlamanın bu teorik sınırlara ulaşmadan önce düştüğünü gösteriyor.

Kaynak: Modarressi et al.

Ağaçların Arasında Ormanı Kaybeden AI

Bu sınırlamalar, AI’yi gerçek dünya uygulamalarında nasıl kullandığımız için ciddi sonuçlar doğuruyor. Bir hukuk AI sisteminin davayla ilgili yasaları aradığını düşünün. Arama sorgusundan farklı terminoloji kullandıkları için ilgili先 misalleri kaçırabilir. Sistem, bunun yerine arama terimlerini paylaşan menos ilgili davalarla daha fazla ilgilenebilir.

Arama ve belge analizi üzerindeki etki özellikle endişe verici. Mevcut AI destekli arama sistemleri genellikle Retrieval-Augmented Generation (RAG) adlı bir tekniğe güvenir. Bu sistemler, doğru bilgi içeren bir belgeyi başarıyla alıntıladığında bile, AI sorgudan farklı kelimeler kullanıldığında belgenin ilgili olduğunu tanımakta zorlanabilir. Bunun yerine, AI yüzey düzeyinde benzerliklere sahip menos ilgili belgelerle daha fazla ilgilenmeye eğilimlidir.

AI Kullanıcıları İçin:
İlk olarak, daha kısa sorgular ve belgeler muhtemelen daha güvenilir sonuçlar verecektir. Uzun metinlerle çalışırken, bunları daha küçük, odaklanmış segmentlere ayırmak AI performansını korumaya yardımcı olabilir.

İkincisi, kullanıcılar bir AI’nin farklı bir belgenin farklı kısımları arasında bağlantı kurmasını istediğinde özellikle dikkatli olmalıdır. Araştırma, AI modellerinin en çok zorlandığı şeyin, özellikle paylaşılan kelime dağarcığı yoluyla açık olmayan bağlantılar kurması gerektiğini gösteriyor.

Son olarak, bu sınırlamalar insan denetiminin devam eden önemini vurguluyor. AI, metinleri işleme ve analiz etme için güçlü bir araç olabilir, ancak karmaşık belgelerin önemli bağlantılarını tanımlamanın tek yolu olarak kullanılmamalıdır.

Bu bulgular, AI teknolojisindeki hızlı ilerlemeye rağmen, bu sistemlerin bilgiyi insanlardan çok farklı bir şekilde işlediğini hatırlatıyor. Bu sınırlamaları anlamak, AI araçlarını etkili bir şekilde kullanmak ve insan yargısının hala gerekli olduğu zamanları bilmek için çok önemlidir.

Sonraki Adımlar

Uzun metinleri işleme yetenekleri açısından AI modellerinin sınırlamalarını anlamak, AI gelişiminin geleceği hakkında önemli soruları gündeme getiriyor. NOLIMA benchmark’u arkasındaki araştırma, AI metin işleme yaklaşımımızın önemli bir şekilde yeniden ele alınması gerektiğine işaret ediyor, özellikle de modellerin daha uzun pasajlardaki bilgileri nasıl işlediğine dikkat çekiyor.

Mevcut çözümler sadece kısmi başarı gösterdi. Akıl yürütme adımlarını teşvik eden Chain-of-Thought prompting, performansı biraz iyileştiriyor. Örneğin, bu tekniği kullandığında, Llama 3.3 70B daha uzun bağlamları işleme yeteneğini gösterdi. Ancak bu yaklaşım da 16.000 tokenden daha uzun metinlerle başa çıkmada yetersiz kalıyor, daha temel çözümlere ihtiyacımız olduğunu gösteriyor.

AI modellerinin metni işleme şeklini oluşturan dikkat mekanizması yeniden düşünülmeli. Bunu, kalabalık bir odada bir konuşmayı takip etmeye çalışmak gibi düşünün – konuşma ne kadar uzarsa, önce bahsedilen tüm önemli noktaları takip etmek o kadar zorlaşır. Mevcut AI modelleri benzer bir zorlukla karşılaşıyor, ancak çok daha büyük bir ölçekte.

Geleceğe bakıldığında, araştırmacılar several vaat edilen yönleri keşfediyor. Bir yaklaşım, AI’nin uzun metinlerdeki bilgileri organize etme ve önceliklendirme yollarını geliştirmeyi içeriyor, basit kelime eşleştirmelerinden öte, daha derin kavramsal bağlantıları anlamaya doğru ilerleyerek.

Geliştirme alanlarının bir başka yönü, AI modellerinin “latent hops” dediğimiz, farklı bilgi parçalarını bağlamak için gerekli mantıksal adımları iyileştirmeyi hedefliyor. Mevcut modeller, özellikle uzun metinlerde, bu bağlantılar kurmakta zorlanıyor, ancak yeni mimariler bu boşluğu kapatmaya yardımcı olabilir.

AI araçlarını bugün kullananlar için bu bulgular birkaç pratik yaklaşımı öneriyor:

AI ile çalışırken, uzun belgeleri anlamlı segmentlere ayırarak mantıksal bölümler oluşturmayı düşünün. Bu, önemli bağlamları korumaya yardımcı olur. Örneğin, bir araştırma makalesini analiz ediyorsanız, metodoloji ve sonuç bölümlerini birlikte tutabilirsiniz, çünkü bunlar genellikle ilgili bilgileri içerir.

Uzun metinleri analiz etmesi için AI’ye talimat verdiğinizde, ilgilendiğiniz bağlantıları cụ olarak belirtin. Geniş sorular sormak yerine, AI’yi ilgilenilen ilişkiler kurmaya yönlendirin. Bu, modelin bağımsız olarak bu bağlantıları kurma konusundaki mevcut sınırlamalarını telafi etmeye yardımcı olur.

Belki de en önemlisi, AI’nin uzun metinlerle ilgili yetenekleri hakkında gerçekçi beklentilere sahip olun. Bu araçlar birçok görev için çok faydalı olsa da, karmaşık belgelerin tek analizi olarak kullanılmamalıdır. İnsanların uzun metinler boyunca bağlamı koruma ve kavramsal bağlantılar kurma yetenekleri, AI’nin şu anki yeteneklerinden üstündür.

Bu alanda AI gelişiminin yolu hem zorlu hem de heyecan verici. Bu sınırlamaları daha iyi anladıkça, gerçekten uzun metinleri anlamaya değil, yalnızca işleyen AI sistemlerine doğru ilerleyebiliriz. O zamana kadar, AI’yi sınırlamalarıyla birlikte kullanmak ve güçlü yanlarını takdir etmek anlamına gelir.

Alex McFarland yapay zeka muhabiri ve yazarıdır ve yapay zekadaki son gelişmeleri araştırıyor. Birçok yapay zeka başlangıç şirketi ve dünya çapındaki yayınlarda işbirliği yaptı.