Bizimle iletişime geçin

Anderson'ın Açısı

Düşünce Zinciri Yönteminin Başlıca Dil Modellerinde 'Dekoratif' Olduğu Kanıtlandı

mm
Bir robotun akıllı telefon kullanarak sınavda kopya çektiğini gösteren yapay zeka tarafından oluşturulmuş bir görüntü (GPT1.5).

Yeni bir araştırma, ChatGPT ve Claude dahil olmak üzere mevcut önde gelen tüm yapay zeka dil modellerinin cilalı adım adım açıklamalarının yalnızca 'süsleme' niteliğinde olduğunu ve genellikle uydurma olduğunu belirlemenin kolay bir yolunu sunuyor. sonra Yapay zeka cevabın ne olduğuna karar verdi.

 

Geçtiğimiz yıl, yapay zekâ alanında faaliyet gösteren şirketlerden bir dizi önemli araştırma yayınlandı, bunlar arasında Antropik ve Apple'Akıl yürütme yeteneğine sahip yapay zekâlar' olarak adlandırılan sistemlerin genellikle adım adım açıklamalar ürettiğini belirtmiştir. Cevaplarını gerçekte neyin etkilediğini yansıtmıyor..

Çeşitli nedenlerden dolayı, tartışma kısa sürede şu noktaya geldi: sert karşı argümanlar ve çeşitli yorumlar (dahil olmak üzere bu bölgede), düşünce zincirinin (CoT(Mantıksal çıkarım) Sadece son kullanıcıları rahatlatmak için tasarlanmış yüzeysel bir süsleme ya da gerçek bir mantıksal çıkarım sürecinin kanıtı değildir.

ChatGPT 'çalışmalarını gösteriyor' – peki yanıtlamaya karar vermiş mi?

ChatGPT 'çalışmalarını gösteriyor' – peki yanıtını önceden belirlemiş mi?

Göster ve Anlat

Şimdi, Hindistan'dan ilginç bir yeni makale, ChatGPT ve diğer büyük Büyük Dil Modellerinin (LLM'ler) arayüzlerindeki etkileyici 'çıkarım animasyonlarının' yapay zekanın bir sonuca giden adımları gerçekten gösterip göstermediğini ölçmek için ucuz ve kolayca tekrarlanabilir bir yöntem sunuyor.

MKS yeni araştırma Bu çalışma, Allahabad'daki Hindistan Bilgi Teknolojileri Enstitüsü (IIITA) ve Delhi'deki Ulusal Elektronik ve Bilgi Teknolojileri Enstitüsü (NIELIT) bünyesindeki iki araştırmacıdan geliyor.

Yazarlar, tescilli ve açık kaynaklı çok sayıda LLM'de, kullanıcılara sunulan düşünce zinciri mantığının neredeyse tüm durumlarda 'süsleyici', yani uydurma olduğunu tespit ettiler. sonra Yapay zeka sunacağı cevabı belirledi.

Yazarlar, ChatGPT5.4, Claude Opus 4.6-R ve DeepSeek-V3.2 gibi yazılımları test ederek, sunulan 10-15 CoT göstergesinden herhangi birinin çıkarılmasının cevabı değiştirdiğini buldular. zamanın %17'inden daha azıVe tek başına herhangi bir adımın doğru cevabı bulmak için yeterli olduğu.

Yazarlar*:

'Sağlık, finans ve hukuk alanlarında yapay zekâya ilişkin düzenleyici çerçeveler giderek daha fazla şu gereklilikleri ortaya koymaktadır:' “açıklanabilir” [sistemler]Sonuçlarımız, standart yaklaşımın –modelden çalışmasını göstermesini istemenin– şeffaflık yanılsaması yarattığını göstermektedir.

'Açıklamalar akıcı, alana uygun ve ince bir şekilde yanlış: modelin gerçekleştirmediği bir akıl yürütme biçimini tanımlıyorlar.'

"Eozinofili, embolik bir süreci düşündürüyor" diye yazan bir tıbbi yapay zeka, eozinofiliyi hiç dikkate almış olmayabilir. Soru kökünden cevaba kadar kalıp eşleştirmesi yapmış ve sonrasında akıl yürütmeyi uydurmuş olabilir."

'AB Yapay Zeka Yasası'nın (Madde 13) uyarınca, yüksek riskli bir yapay zeka sistemi "ilgili mantık hakkında anlamlı bilgi" sağlamalıdır. Bulgularımız, öncü modellerin çoğundan gelen düşünce zinciri açıklamalarının bu standardı karşılamadığını göstermektedir; cevaba ulaşmada kullanılan "mantık", açıklamada tanımlanan mantık değildir.'

Yazarlar, test edilen daha küçük modellerden ikisinin, çok özel koşullar altında, yaygın olan ikiliğin kalıbını kırdığını gözlemliyorlar: MiniMax-M25 Gerçek bir adım bağımlılığı sergiledi duyguları analiz, süre Kimi-K25 CoT işleme ihtiyacının %39 oranında gerçek olduğunu ortaya koydu – ancak bu sadece şu durumlarda geçerliydi: konu sınıflandırması.

Diğer tüm durumlarda, daha büyük ve daha iyi bilinen modellerde olduğu gibi, gösterilen akıl yürütme adımları tamamen performatif görünüyordu; modeller bunun yerine şunları kullanıyordu: kısayolları.

Küçük Modeller Daha Çok Çabalıyor

Yazarlar, test edilen on API modelinin yanı sıra, bir dizi daha küçük açık ağırlıklı modeli de denediler.0.8 ila 8 milyar parametre arasında değişen (ki bu günümüzde oldukça mütevazı bir rakam) bu daha küçük yapay zekâların gerçekten akıl yürüttüğünü ve gösterdikleri CoT'nin genellikle -her zaman olmasa da- yararlı ve doğru sonuçlara ulaşmak için gerekli olduğunu buldular.

Daha küçük modellerde adım adım akıl yürütme ihtiyacının %55 olduğu görülürken, yazarların iddiasına göre bu oran daha büyük modellerde ortalama %11'dir. 'Çok adımlı akıl yürütmeyi tamamen atlamayı öğrenmişler ve yazılı akıl yürütmelerinde yansıtmadıkları içsel kısayollar aracılığıyla doğru cevaplara ulaşıyorlar.'.

Yazarlar, bir model bir görevi ne kadar iyi yaparsa, o kadar az mantıksal adıma ihtiyaç duyacağını öne sürüyorlar (ancak bu, eğitim verisi dağılımında en güçlü olan cevaba göre rasyonel analizi bir kenara bırakma kavramına daha diplomatik bir yaklaşımdır).††:

'Küçük modeller matematiksel mantık yürütmede doğru sonuçlar verir çünkü onlar , eğer mülteci statüleri sona erdirilmemişse Amerika'ya geldikten bir yıl sonra—kısayol kullanmak için gerekli parametrik bilgiye sahip değiller.

'Sınır modeller, yeterince matematiksel kalıbı içselleştirmiş durumda ve bu nedenle açık zincirleme akıl yürütme gereksiz hale geliyor. CoT (Co-T) yine de doğruluğu artırıyor (üretimi yapılandırarak), ancak bireysel adımlar artık benzersiz bilgi taşımıyor.'

Yöntem

Modelleri test etmek için kullanılan yöntem üç kritere dayanmaktadır:

zorunluluk Her bir CoT adımını sırayla kaldırır ve ardından cevabın değişip değişmediğini kontrol eder. Kaldırılması sonucu değiştiren her adım 'gerekli' olarak sayılır; yeterlik Her bir adımı ayrı ayrı ele alır ve tek başına cevabı bulup bulamayacağını test eder; bu tür adımların her biri yeterli sayılır. Sipariş hassasiyeti Adımları karıştırır ve cevabın değişip değişmediğini gözlemler (çünkü gerçek mantık, anahtar kelimelerden ziyade sıralamaya bağlı olmalıdır).

Birlikte ele alındığında, yüksek zorunluluk ve alçak yeterlik gerçek adım adım mantığı gösterirken düşük gereksinim ve yüksek yeterlilik Sonucu etkilemeden kaldırılabilecek, yeniden düzenlenebilecek veya azaltılabilecek açıklamaları belirtin.

Yazarlar, bu yöntemin beyaz kutu model erişimine olan ihtiyacı ortadan kaldırdığını, çünkü ChatGPT ve Claude gibi kapalı kaynaklı, yalnızca API erişimi olan modellerde birkaç dolara uygulanabildiğini ve doğal olarak yerel olarak kurulabilen açık kaynaklı modellerde de aynı başarıyla uygulanabildiğini belirtiyorlar.

Ayrıca, önceki çalışmaların ya iç analizi kolaylaştıran açık ağırlıklı modeller kullandığını ya da daha basit, ikili modeller kullandığını belirtiyorlar. Evet Hayır Bu yanıtlar, bir API modelinin içsel mantık yürütme süreçleri hakkında çok daha az bilgi ortaya koymaktadır.

Minimum Maliyet

Yazarlar gerçek akıl yürütmeyi şu şekilde tanımlıyorlar: zorunluluk ve yeterlik, yüksek zorunluluk ve alçak yeterlik Bu durum, her adımın kendine özgü bir öneme sahip olduğunu gösterir. Tersine, dekoratif akıl yürütme düşük bir öneme sahiptir. zorunluluk ve yüksek yeterlikBu, adımların cevabı değiştirmeden kaldırılabileceği veya tek başına kullanılabileceği anlamına gelir.

zorunluluk Tek başına ele alındığında, birden fazla geçerli yol bulunabileceğinden, bu durum belirsizleşebilir. Bu nedenle yeterlik Bu yöntem, herhangi bir adımın sonucu zaten kodlayıp kodlamadığını test etmek için kullanılır ve sipariş hassasiyeti Modelin yüzeysel ipuçlarından ziyade sıralamaya bağlı olup olmadığını kontrol eder.

Bu yaklaşım, şunlara dayanmaktadır: Müdahaleyle Tutarlı Açıklama (ICE) çerçevesi, yalnızca metin girişi ve metin çıkışı API erişimi gerektirir ve altı adımlı bir zincir için 15 değerlendirme içerir; model başına maliyeti yaklaşık 1-2 dolardır.

ICE çerçevesi, model davranışını şu şekilde sınıflandırır: zorunluluk ve yeterlik üç desene ayrılıyor: Dekoratif Düşük gereklilik ve yüksek yeterlilik gösterir; bu da adımların gereksiz olduğu ve cevaba her halükarda ulaşılacağı anlamına gelir. Bu durum çoğu model ve görevde baskındır; Gerçekten Sadık Yüksek gereklilik ve yüksek yeterlilik gösteriyor, yani her adım gerçek bir sinyal taşıyor (ve daha önce de belirtildiği gibi, bu MiniMax-M2.5'te duygu analizinde ortaya çıkıyor); ve Bağlama Bağlı Yüksek gereklilik ve düşük yeterlilik gösteriyor, yani adımlar yalnızca sırayla birlikte çalışın (Bu özellik, Kimi-K2.5 ve MiniMax'te konu sınıflandırmasında ve küçük modellerde matematiksel işlemlerde karşımıza çıkar.)

Testler

Yeniden gözden geçirilmiş ICE yaklaşımıyla test edilen, öncelikle API tabanlı on model şunlardı: SohbetGPT-5.4; Claude Opus 4.6-R; DeepSeek-V3.2; GPT-OSS-120B; Kimi-K2.5; Qwen3.5-397B; Qwen3.5-122B; MiniMax-M2.5; GLM-5; Ve Nemotron-Ultra (253B parametre).

Her model dört görev üzerinde test edildi: duygu sınıflandırması (kullanılarak (SST-2); matematiksel kelime problemleri (kullanarak) GSM8Kkonu sınıflandırması (kullanarak) AG Haberlerive tıbbi soru-cevaplama (kullanarak (MedQAİlk testler şunlar üzerinde yapıldı: Duygu ve matematik:

Önde gelen on dil modelinin adım adım akıl yürütmeyi nasıl ele aldığını değerlendiren testler. 'Gereklilik', bir adımın kaldırılmasının cevabı değiştirip değiştirmediğini izler; 'yeterlilik', tek başına bir adımın hala sonucu üretebilip üretemediğini kontrol eder; ve 'karıştırma', sıranın önemli olup olmadığını test eder. Çoğu model, SST-2 ve GSM8K üzerinde ikna edici ancak temel olmayan açıklamalar sunarken, MiniMax-M2.5 duygu analizi için adımlarına daha fazla güvenir. Hem MiniMax hem de Kimi-K2.5, konu sınıflandırmasında daha gerçekçi adım adım akıl yürütme gösterir. Kaynak - https://arxiv.org/pdf/2603.22816

Önde gelen on dil modelinin adım adım akıl yürütmeyi nasıl ele aldığını değerlendiren testler yapıldı. 'Gereklilik', bir adımın kaldırılmasının cevabı değiştirip değiştirmediğini; 'yeterlilik', tek başına bir adımın hala sonucu üretebilip üretemediğini; ve 'karıştırma', sıranın önemli olup olmadığını test eder. Çoğu model, SST-2 ve GSM8K üzerinde ikna edici ancak temel olmayan açıklamalar sunarken, MiniMax-M2.5 duygu analizi için adımlarına daha fazla güveniyor. Hem MiniMax hem de Kimi-K2.5, konu sınıflandırmasında daha gerçekçi adım adım akıl yürütme gösteriyor. Kaynak

Yazarlar bu sonuçlarla ilgili olarak şunları belirtiyor:

'Modellerin büyük çoğunluğu, "Dekoratif Akıl Yürütme" (ICE taksonomisinde Şanslı Adımlar) olarak adlandırdığımız bir örüntü sergiliyor; bu örüntüde adım gerekliliği %17'nin altında, adım yeterliliği ise hem duygu hem de matematik açısından %60'ın üzerinde oluyor.'

'Basitçe söylemek gerekirse: Herhangi bir mantıksal adımı kaldırsanız bile cevap neredeyse hiç değişmez, ancak tek bir adım bile cevabı geri getirmek için yeterlidir.'

SST-2 duygu testinde, GPT-5.4 neredeyse hiçbir zaman yazılı mantığına güvenmedi, çünkü bir adımı kaldırmak cevabı değiştirdi. 500'ün sadece %0.1'i Bu durum, açıklamanın karar verildikten sonra eklendiğini göstermektedir.

Claude Opus 4.6-R, %14.8 ile adımlarına biraz daha fazla bağımlıydı, ancak adımlarının %91'i tek başına yine de cevabı üretebiliyordu; bu nedenle daha uzun açıklamaları daha ayrıntılıydı, ancak yine de çoğunlukla 'süsleme' niteliğindeydi.

Ardından araştırmacılar diğer alanları da ekleyerek tekrar test ettiler:

Dört alanda (SST-2, GSM8K, AG News ve MedQA) adım düzeyinde sadakat ve doğruluk. Çoğu model-görev çifti, yüksek doğruluğa rağmen, sınırlı istisnalar dışında, dekoratif kalmaktadır: MiniMax-M2.5 ve Kimi-K2.5, AG News'te bağlama bağlı veya gerçekten adıma bağlı akıl yürütme sergilerken, genel performans düşük sadakatin rastgele tahminle açıklanamayacağını doğrulamaktadır.

Dört alanda (SST-2; GSM8K; AG News; ve MedQA) adım düzeyinde sadakat ve doğruluk. Çoğu model-görev çifti, yüksek doğruluğa rağmen "dekoratif" kaldı; sınırlı istisnalar dışında: MiniMax-M2.5 ve Kimi-K2.5, AG News'te bağlama bağlı veya gerçekten adıma bağlı akıl yürütme sergilerken, genel performans düşük sadakatin rastgele tahminle açıklanamayacağını doğruladı.

Yazarlar şunları gözlemliyor:

'Dört alanlı sonuçlar, temel bulguyu güçlendiriyor: Kısayol modelleri için dekoratif akıl yürütme, alanlar arasında evrenseldir. Claude Opus, MedQA'da %1.7'lik bir gereklilik gösteriyor (486 örnek, %93.4 doğruluk) – model ortalama 5.8 adımdan oluşan ayrıntılı tıbbi akıl yürütme zincirleri yazıyor, ancak herhangi bir adımı kaldırmak neredeyse hiçbir zaman teşhisi değiştirmiyor.'

AG News, modeller arasındaki en büyük farkları gösterdi; Kimi-K2.5 ve MiniMax gerçekten adım adım mantık yürütmelerine güvenirken, diğer sistemlerin çoğu nihai cevaba çok az etki eden açıklamalar üretiyordu.

Dört görevin tamamında test edilen DeepSeek-V3.2, baştan sona dekoratif bir performans sergiledi; en uzun açıklamaları yazmasına rağmen, cevapları nadiren adımlara bağlıydı.

Çıkış Rijitliği

Yapılan testler, yazarların "dördüncü bir olgu" olarak adlandırdığı bir olayın daha söz konusu olduğunu gösterdi. çıkış sertliğiBazı modeller, konuya ve muhtemelen diğer koşullara bağlı olarak, mantıksal çıkarım süreçlerini çıktı olarak vermeye pek meyilli değildir. Aşağıda, Claude Opus'un 61 yaşındaki bir adamın sağlık durumu hakkındaki bir soruya verdiği yanıtın mantıksal çıkarımını; ve altında da GPT-OSS-120B'nin çıktısını görüyoruz:

Konuşkanlık ve suskunluk.

Konuşkanlık ve suskunluk.

Yazarlar, Çıktı Katılığının göreve bağlı olduğunu belirtiyor:

Modeller, görevler genelinde "çalışmalarını gösterme" sıklığı açısından büyük farklılıklar göstermektedir. Claude ve DeepSeek, alan ne olursa olsun neredeyse her zaman çok adımlı açıklamalar üretirken, Qwen3.5-397B bunu nadiren yapmaktadır. Diğerleri ise göreve bağlı olarak davranışlarını değiştirir; bazıları sınıflandırma için ayrıntılı mantık zincirleri üretirken, tıbbi sorular için çok daha az sayıda örnek sunmaktadır.

Modeller, görevler genelinde "çalışmalarını gösterme" sıklığı açısından büyük farklılıklar göstermektedir. Claude ve DeepSeek, alan ne olursa olsun neredeyse her zaman çok adımlı açıklamalar üretirken, Qwen3.5-397B bunu nadiren yapmaktadır. Diğerleri ise göreve bağlı olarak davranışlarını değiştirir; bazıları sınıflandırma için ayrıntılı mantık zincirleri üretirken, tıbbi sorular için çok daha az sayıda örnek sunmaktadır.

Şunları gözlemlerler:

'İçsel muhakemeyi atlama olasılığı en yüksek olan modeller, dışsal muhakemeyi de atlama olasılığı en yüksek olan modellerdir. GPT-OSS-120B, duygu analizi sorularının %99'unda ve konu sınıflandırma sorularının %100'ünde çok adımlı muhakeme üretir, ancak tıbbi soruların yalnızca %38'inde bunu yapar. Tıbbi sorguların %62'sinde ise yalnızca bir cevap mektubu üretir.'

Bu örüntü rastgele görünmüyor: GPT-OSS-120B, duygu ve konu sınıflandırma öğelerinin neredeyse tamamı için çok adımlı açıklamalar üretirken, çoğu tıbbi soruda tek harfli bir cevaba geçiyor (ki bu sorularda genellikle hiçbir görünür gerekçe sunmuyor).

Yazarlar, kademeli testlerin analiz için yazılı zincirler gerektirmesi nedeniyle, tek bir belirteçle yanıt veren bir modelin bu yöntemlerle değerlendirilemeyeceğini; dolayısıyla dışsal akıl yürütmenin yokluğunun doğrudan ölçümü engellediğini varsaymaktadır.

Makale, yüksek riskli uygulamalar için seçilen modellerin test edilmesi gerektiği sonucuna varıyor. bağlılık yanısıra doğrulukve %2 daha az doğru olan ancak gerçekten mantıklı bir şekilde akıl yürüten bir modelin tercih edilebilir olabileceğini öne sürüyorlar; bunun en önemli nedenlerinden biri de açıklanabilir yapay zekâya ilişkin AB ve diğer yeni düzenlemeleri karşılamasıdır. Şu anda, çalışmada bulunan kanıtlara dayanarak, CoT özellikli neredeyse tüm LLM'ler neredeyse her zaman 'hile yapıyor'.

Sonuç

Bu, burada ele alabileceğimizden daha kapsamlı testler ve tartışmalar sunan ilginç bir makale ve okuyucuya kaynak materyale başvurmasını tavsiye ederim.

Geçen yılki tartışmalardan yola çıkarak ortaya çıkan temel mesaj, en yüksek riskli yapay zeka platformlarının, modellerinin henüz karşılayamadığı standartları simüle etme konusunda keskin ve yanıltıcı bir tavır sergilemeye istekli olabileceğidir.

Dahası, açık kaynaklı API modelleri ile ChatGPT gibi kapalı API modellerinin ölçek ve yetenekleri arasındaki fark o kadar büyüktür ki, genellikle açık kaynaklı API kurulumlarından kapalı kaynaklı API etkilerini makul bir şekilde çıkarım yapmak mümkün değildir; bu da bu süreçlerin ve standartların şeffaflığını daha da azaltmaktadır.

Ancak, açık ve kapalı kaynaklı modelleri kapsayabilecek, gerçekten şeffaf bir test metodolojisinin ortaya çıkması nadirdir; ancak bu tür "ucuz hilelere" gerçek çözümlerin ancak AB gibi güçlü kurumlar büyük yapay zeka portallarının kâr marjlarını tehdit ettiğinde ortaya çıkması muhtemeldir.

 

*Yazarların satır içi alıntılarını hiper bağlantılara dönüştürmem.

Makale, bu daha küçük modellerin tutarlı bir listesini ortaya koymamakta ve bir modelin ek varyantlarını içermekte olup, kesin bir listenin çıkarılmasını çıkarım meselesi haline getirmektedir.

†† Yazarların vurguları.

İlk yayın tarihi Çarşamba, 25 Mart 2026

Makine öğrenimi yazarı, insan görüntü sentezi alanında uzman. Metaphysic.ai'de eski araştırma içeriği başkanı.
Kişisel sitesi: martinanderson.ai
İletişim [e-posta korumalı]
Twitter: @manders_ai