Connect with us

Unutkan AI’nın ‘O Düşünceyi Tut’mayı Daha Uzun Süreli Öğrenmesi

Anderson’un Açısı

Unutkan AI’nın ‘O Düşünceyi Tut’mayı Daha Uzun Süreli Öğrenmesi

mm
AI-generated image: A robot with ChatGPT logo at laptop, with vice on open head and glowing text emerging from head. GPT-image-1.

Dil modelleri genellikle bir konuşmanın başlangıcını hatırlayamaz. Yeni bir metin sıkıştırma yöntemi bunu değiştirebilir ve AI sohbet oturumlarını çok daha az sinir bozucu hale getirebilir.

 

Sohbet AI sistemleri gibi ChatGPT, genellikle konuşmanın önceki kısımlarını kaybeder, kendini tekrar eder veya daha önce kabul edilen kuralları göz ardı eden cevaplar verir.

Bunun nedeni, Büyük Dil Modellerinin (LLM) sınırlı bir odaklanma yeteneğine sahip olması, yani ‘bağlam penceresi’ olarak tanımlanan bir dikkat penceresi – doğrudan hedeflenen ve birkaç komşu nesneyi aydınlatan bir fener gibi.

Bu ‘unutkan’ eğilimlerin düzeltilmesi, bu kısıtlamalar nedeniyle dikkat üzerindeki kısıtlamalardan kaynaklanmaktadır, dil tabanlı AI modelleri üzerine araştırmaların en önemli yönlerinden birisidir – en azından bu sendrom faydalı ve tutarlı çok tur konuşmalarının olasılığını ciddi şekilde sınırlar ve LLM’lerin tıbbi ve hukuki gibi çeşitli doğruluk-kritik bağlamlardaki faydasını engeller.

Çözüm

Çin’den yeni bir araştırma, AI modeli çalıştıran bir GPU’nun sınırlı kaynaklarına sığabilecek çok daha fazla metni sağlayan yeni bir yöntemini öneriyor – 20 katlık bir sıkıştırma gelişmesi elde ediyor ve %98 doğruluk oranını koruyor:

[kapak resmini göster]
Yeni yöntem, Context Cascade Compression (C3), DeepSeek-OCR’nin metni görüntülere sıkıştırma yönteminden esinlenmiştir, ancak iki dil modeli (orta ve büyük) kullanarak uzun metni doğrudan gizil gömme嵌lara sıkıştırması, optik yaklaşımdan daha iyi bir performans elde eder.

Araştırmacılar, yeni makalede, C3 yönteminin süper performansının temel mimari tasarımına atfedilebileceğini belirtiyorlar:

‘C3 paradigmasının süper performansı, temel mimari tasarımına atfedilebilir. DeepSeek-OCR analizi, performans azalışının “karmaşık düzen” ve “düşük çözünürlükte görüntü bulanıklığı” gibi faktörlerden kaynaklandığını varsayar – optik yolun doğuştan sınırlamaları.’

‘C3 paradigması, doğrudan metin alanında çalışarak, bu görsel alan artifactlerine tamamen bağışık. Metni piksellere dönüştürme ve sonra bu pikselleri kodlama ile ilgili bilgi kaybını önler. Bunun yerine, önceden eğitilmiş bir LLM’nin güçlü anlamsal anlayışını kullanarak metin bilgilerini doğrudan verimli bir gizil temsil içine damıtmayı sağlar.’

Yeni yöntem, uzun bir konuşmanın tamamını sıkıştırarak ve sohbet sırasında aralıklarla güncelleyerek, LLM’nin normalde önceki gerçekleri unutmasına ve ‘unutkan’ davranışına yol açmasını önleyebilir.

Bu, bir konuşmanın tutarlılığını ve AI’nin konuşma anımsama yeteneğini önemli ölçüde geliştirebilir.

Makine öğrenimi üzerine yazar, insan görüntü sentezinde alan uzmanı. Metaphysic.ai'de eski araştırma içeriği başkanı.
Kişisel site: martinanderson.ai
İletişim: [email protected]