Connect with us

AI Sohbet Modelleri Sonsuz gevezelik yoluyla Masrafları Artırabilir

Anderson’un Açısı

AI Sohbet Modelleri Sonsuz gevezelik yoluyla Masrafları Artırabilir

mm
AI-generated image: a salad full of chopped-up one-dollar bills. GPT-1, Firefly V3, et al.

Popüler AI sohbet modelleri, anlamsız sözler yoluyla büyük miktarda ödenen tokenleri gizlice boşa harcar. Etkilenen modeller aslında bunu yaptıklarını bilirler, ancak kendilerini durduramazlar.

 

Büyük Mantık Modelleri (LRMs) gibi ChatGPT-5 ve Google Gemini, mantık için daha fazla ücret alır – bir problemi adım adım çözme, bu da sadece hızlı bir şekilde sonraki kelimeyi tahmin etmekten çok daha fazla hesaplama gücünü kullanır. Simüle edilmiş mantık süreci daha uzun sürer ve çalıştırılması daha pahalıdır;因此, kullanıcılar bu “ek düşünme süresini” ödemek zorunda kalırlar.

Ancak, son zamanlarda bir devlet-sanat LLM kullandıysanız, tokenlerinizi genellikle sorunları çözmek için değil, gevezelik ve gereksiz sözler için harcadığınızı fark edebilirsiniz. Bu, aşırı iltifat, sözü fazla veya gereksiz cevaplar veya bir tür ‘gevezelik’ şeklinde ortaya çıkabilir – sanki AI tuhaf bir durumda yakalanmış ve gevezelik yaparak kendini kurtarmaya çalışıyormuş gibi.

Tabii ki, LLM’lerin yenilgiyi kabul etmesi, alternatif yollar önermesi veya açıklama istemesini tercih ederiz. Ancak bu tür bir AI’ye cevap bilmediğini itiraf ettirmek bile büyük bir zorlukdır.

Bu arada, daha düşük veya ücretsiz seviyedeki kullanıcılar, sorguları ve etkileşimleri ne kadar hedeflenmiş veya ekonomik olursa olsun, tokenlerini hızlı bir şekilde tüketebilirler, çünkü AI kendisi konuşmayı sever; ve bu durumda, konuşmak ucuz değildir.

Kelime Çorbası

Yukarıda bahsedilen ‘gevezelik’ konusunda, yeni bir akademik işbirliği, LRM’lerin neden tokenlerinizi boşa harcadığını açıklamak ve bir çözüm önermek için, LRM’lerin ‘kelime çorbası’ döngüsüne yakalanmaya eğilimli olduğunu öne sürüyor – bir tür karışıklık durumu, mantık süreci自己 referanslı kör sokaklara girer ve sizin parasını ödersiniz*.

Araştırmacılar, bir LRM’nin işlediği tokenlerin önemli bir kısmının tekrarlamalar ve gereksizliklerden oluştuğunu ve modelin自己 awareness sahibi olduğunu, ancak pahalı döngüyü durduramadığını keşfettiler.

Makale şöyle diyor:

‘Tokenlerin önemli bir kısmının anlamsız tekrarlamalar olduğunu gösteriyoruz – “kelime çorbası” olarak adlandırdığımız şey – bunlar, anlamlı bir anlam katkısı sağlamadan decoding bütçesini tüketir. İlginç bir şekilde, LRMs’in自己 awareness sahibi olduğunu, ancak bunları durduramadığını gözlemliyoruz: her mantık parçasının sonunda gelen <\n\n> tokenlerinin gizli durumları, kelime çorbası davranışını gerçek zamanlı olarak tespit etmemize olanak tanıyan kalıplar gösterir.

‘Bir kez tespit edildikten sonra, basit bir kesme ve ardından bir yeniden oluşturma isteği önemli ölçüde uzunluk tasarrufu sağlar ve minimum kalite kaybı ile sonuçlanır.’

Yeni çalışmanın önerdiği çözüm, bir LRM’nin hatalı mantık sürecini gerçek zamanlı olarak durdurabilen bir müdahaledir, bu da eğitim verilerine dahil edilmeden veya herhangi bir zarar vermeden gerçekleştirilebilir. Çerçeve, KelimeÇorbasıKesici olarak adlandırılmıştır ve GitHub‘da halka açık olarak yayınlandı.

İlk çalışma DeepSeek varyantlarına odaklansa da, makale bu istenmeyen davranışın benzer şekilde mimariye sahip daha geniş bir LRM yelpazesine (ChatGPT ve Google Gemini gibi popüler API-only teklifleri de dahil olmak üzere) uygulanabileceğini iddia ediyor.

Makale, önceki çalışmaları da not eder:

‘Önceki teklifler gibi Demystifying Long Chain-of-Thought Reasoning in LLMs ve Small Models Struggle to Learn from Strong Reasoners, aynı şekilde Chain-of-Thought (CoT) reasoning modellerinin küçük bir kısmını kullanarak bu sınıf modeller arasında daha geniş bir sorunu kurmaya çalışırlar:’

[LRMs] büyük miktarda decoding bütçesini boşa harcarlar, sadece自己 referanslı tekrarlamalar yaparak – kelime çorbası, genellikle kamu sözcülerinin anlamsız veya jargon dolu cevaplar vermesi için kullanılan bir terim.’

… (devam ediyor)

Makine öğrenimi üzerine yazar, insan görüntü sentezinde alan uzmanı. Metaphysic.ai'de eski araştırma içeriği başkanı.
Kişisel site: martinanderson.ai
İletişim: [email protected]