Anderson’un Açısı

Zincir-Düşünme Mantığı Büyük Dil Modellerinde ‘Süsleme’ Olduğunu Kanıtladı

Published March 25, 2026

Updated April 25, 2026

Martin Anderson

An AI-generated image (GPT1.5) depicting a robot cheating in an exam by using a smartphone.

Yeni bir araştırma, tüm güncel önde gelen AI dil modellerinin – ChatGPT ve Claude dahil – parlatılmış adım adım açıklamalarının aslında yalnızca ‘süsleme’ olduğunu ve genellikle AI’nin cevabı kararlaştırdıktan sonra uydurulduğunu belirlemek için kolay bir yol sunuyor.

Geçen yıl, AI’ye odaklanan şirketlerden bir dizi yüksek profilli çalışma, Anthropic ve Apple dahil, sözde ‘mantık AIs’ thường adım adım açıklamalar ürettiğini gösterdi ve bu açıklamalar cevaplara ulaşmak için kullanılan gerçek bilgileri yansıtmıyor.

Çeşitli nedenlerle, tartışma kısa süre sonra kavgalı cevaplar ve çeşitli yorumlar (dahil bu sitede) ile devam etti ve zincir-düşünme (CoT) mantığının yalnızca kullanıcıları rahatlatmak için tasarlanmış bir kozmetik süsleme olup olmadığını veya gerçek bir düşünme sürecinin kanıtı olup olmadığını belirlemek için оставлен вопрос.

ChatGPT ‘çalışmasını gösteriyor’ – ama cevabı zaten kararlaştırdı mı?

Göster ve Anlat

Şimdi, Hindistan’dan ilginç bir yeni makale, ChatGPT ve diğer büyük Büyük Dil Modellerinin (LLM) arayüzlerindeki etkileyici ‘dedüksiyon animasyonları’nın gerçekten AI’nin bir sonuca varmak için adımları çalıştırıp çalıştırmadığına dair kolayca tekrarlanabilir bir yöntem sunuyor.

Yeni araştırma, yeni araştırma, Hindistan İkinci Enformasyon Teknolojisi Enstitüsü (IIITA) ve Delhi’deki Ulusal Elektronik ve Enformasyon Teknolojisi Enstitüsü (NIELIT)’nden iki araştırmacı tarafından gerçekleştirildi.

Yazarlar, neredeyse tüm durumlarda, önemli bir LLM yelpazesi boyunca, kullanıcıya sunulan zincir-düşünme mantığının ‘süsleme’ olduğunu ve AI’nin cevabı kararlaştırdıktan sonra uydurulduğunu buldu.

ChatGPT5.4, Claude Opus 4.6-R ve DeepSeek-V3.2 gibi modelleri test eden yazarlar, herhangi bir tek adımın kaldırılması cevabı her zaman değiştirmediğini ve herhangi bir tek adımın alone yeterli olduğunu buldu.

Yazarlar şunları belirtiyorlar:

‘Sağlık, finans ve hukuk için AI düzenleyici çerçeveleri increasingly “açıklayıcı” [sistemler] gerektirir. Sonuçlarımız, standart yaklaşımın – modelden çalışmasını göstermesini istemek – şeffaflık illüzyonu sunduğunu gösterir.

‘Açıklamalar akıcı, alan uygun ve yanlış bir şekilde ince: tanımladıkları mantık modelin gerçekleştirdiği mantık değildir.

‘Bir tıbbi AI “eosinophilia embolik bir süreç önerir” diye yazıyorsa, mutlaka eosinophilia düşünmüş olması gerekmez. Soru kökünden cevaba kadar kalıpları eşleştirebilir ve mantığı sonra uydurabilir.

‘AB AI Yasası (Madde 13) göre, yüksek riskli bir AI sistemi “mantık involvement” hakkında anlamlı bilgi sağlamalıdır. Bulgularımız, çoğunlukla sınır modellerinin zincir-düşünme açıklamalarının bu standardı karşılamadığını gösterir – cevaba ulaşmak için kullanılan “mantık” açıklamada tanımlanan mantık değildir.’

Yazarlar, test edilen iki küçük modelin ortak desenden farklılaştığını, ancak yalnızca belirli koşullar altında olduğunu gözlemledi: MiniMax-M25 sentiment analizinde gerçek adım bağımlılığı gösterdi, Kimi-K25 ise konu sınıflandırmasında gerçek 39% CoT işleme ihtiyacını gösterdi.

Tüm diğer durumlarda, daha büyük ve tanınmış modeller gibi, gösterilen mantık adımları tamamen göstermelikti ve modeller yerine kısayollar kullandı.

Küçük Modeller Daha Çok Çaba Sarf Ediyor

On API modelinin yanı sıra, yazarlar ayrıca 0.8 ila 8 milyar parametre (bu günlerde oldukça mütevazi) arasında değişen bir dizi küçük açık ağırlıklı modeli denedi ve bu küçük AI’lerin gerçekten düşündüğünü ve gösterdikleri CoT’nin genellikle – ancak her zaman değil – yararlı ve doğru sonuçlara ulaşmak için gerekli olduğunu buldu.

Küçük modeller, büyük modellerin ortalama %11’ine kıyasla %55’lik bir adım-mantık ihtiyacı gösterdi; yazarlar, büyük modellerin tamamen multi-adım mantığını atlamış ve çevrimiçi kısayollar aracılığıyla doğru cevaplara ulaştığını iddia etti.

Yazarlar, bir modelin bir görevde ne kadar iyi olduğuyla, o görevde adım-mantık ihtiyacının azaldığını öne sürdü (bu, daha diplomatik bir şekilde, eğitim veri dağıtımındaki en güçlü cevaba göre mantıksal analizi atlamak olarak yorumlanabilir):

‘Küçük modeller matematikte dürüstçe düşünürler – çünkü zorundalar – parametreli bilgiyi atlayacak kadar güçlü değiller.

‘Ön saflardaki modeller, yeterli matematiksel desenleri dahili hale getirdiler, bu nedenle açık zincir-mantık artık gereksiz hale geldi. CoT hala doğruluğu artırıyor (üretimi yapılandırarak), ancak bireysel adımlar artık benzersiz bilgi taşımiyor.’

Yöntem

Modelleri test etmek için kullanılan yöntem üç kriterden oluşur:

Gerekirlilik her bir CoT adımını sırayla kaldırır ve ardından cevabın değişip değişmediğini kontrol eder. Herhangi bir adımın kaldırılması sonucu değişen cevap, ‘gerekli’ olarak sayılır; Yeterlilik her bir adımı yalıtır ve tek başına cevabı geri alabileceğini test eder, herhangi bir adımın yeterli olarak kabul edilir; ve Sıra duyarlılığı adımları karıştırır ve cevabın değişip değişmediğini观lemler (gerçek düşünme adımlarının diziden ziyade anahtarlara bağlı olması gerekir).

Birlikte taken, yüksek gerekirlilik ve düşük yeterlilik gerçek adım-adım düşünmesini gösterir, जबक düşük gerekirlilik ve yüksek yeterlilik açıklamaların kaldırılabileceğini, yeniden düzenlenebileceğini veya azaltılabileceğini gösterir without cevabı etkilemeden.

Yazarlar, bu yöntemin beyaz kutu model erişimine gerek kalmadan, sadece birkaç dolar karşılığında kapalı kaynaklı, API-only modelleri gibi ChatGPT ve Claude üzerinde gerçekleştirilebileceğini ve doğal olarak açık ağırlıklı modellerde de aynı şekilde başarılı olabileceğini belirtiyorlar.

Ayrıca, önceki çalışmaların ya açık ağırlıklı modelleri kullanmış olduğunu ya da daha basit, ikili evet/hayır cevaplarını kullanmış olduğunu, bu da bir API modelinin iç düşünme süreçleri hakkında çok az şey ortaya koyduğunu belirtiyorlar.

Minimal Maliyet

Yazarlar, gerçek düşünmeyi gerekirlilik ve yeterlilik aracılığıyla tanımlar, yüksek gerekirlilik ve düşük yeterlilik her adımın benzersiz ağırlık taşıdığına işaret eder. Buna karşılık, süsleme düşünmesi düşük gerekirlilik ve yüksek yeterlilik gösterir, yani adımlar kaldırılabiliyor veya tek başına kullanılabiliyor ve cevap değişmiyor.

Gerekirlilik tek başına, yazarlar, bu gerçeğin gizlenmesine neden olabilir, çünkü birden fazla geçerli yol olabilir. Bu nedenle yeterlilik herhangi bir tek adımın zaten sonucu kodlayıp kodlamadığını test etmek için kullanılır ve sıra duyarlılığı modelin diziden ziyade yüzey ipuçlarına bağlı olup olmadığını kontrol eder.

Yaklaşım, Müdahale-Uygun Açıklama (ICE) çerçevesini genişletir, yalnızca metin-giriş, metin-çıkış API erişimini gerektirir ve altı-adımlı bir zincir için 15 değerlendirme gerektirir, yaklaşık 1-2 dolarlık bir maliyetle.

ICE çerçevesi, model davranışını gerekirlilik ve yeterlilik tarafından üç desene ayırır: Süsleme düşük gerekirlilik ve yüksek yeterlilik gösterir, yani adımlar gereksiz ve cevap zaten ulaşıyor; Gerçekten Dürüst yüksek gerekirlilik ve yüksek yeterlilik gösterir, yani her adım gerçek sinyal taşır (ve yukarıda belirtilen gibi, MiniMax-M2.5 sentiment analizinde görünür); ve Bağımlı Bağlam yüksek gerekirlilik ve düşük yeterlilik gösterir, yani adımlar yalnızca birlikte sırayla çalışır (bu, Kimi-K2.5 ve MiniMax’de konu sınıflandırmasında ve küçük modellerde matematikle ilgilenirken görünür).

Testler

Yöntemle test edilen on API modeli ChatGPT-5.4; Claude Opus 4.6-R; DeepSeek-V3.2; GPT-OSS-120B; Kimi-K2.5; Qwen3.5-397B; Qwen3.5-122B; MiniMax-M2.5; GLM-5; ve Nemotron-Ultra (253B parametre).

Her model, dört görevde test edildi: sentiment sınıflandırma (kullanılarak (SST-2); matematiksel kelime problemleri (kullanılarak GSM8K); konu sınıflandırma (kullanılarak AG News); ve tıbbi soru-cevap (kullanılarak (MedQA)).

İlk testler Sentiment ve Matematik için yapıldı:

On önde gelen dil modelinin, adım-adım düşünmesini nasıl ele aldığını değerlendiren testler. ‘Gerekirlilik’ bir adımın kaldırılmasının cevabı değiştirip değiştirmediğini izler; ‘yeterlilik’ bir adımın tek başına cevabı üretebilir olup olmadığını kontrol eder; ve ‘karıştır’ sıranın önemli olup olmadığını test eder. Çoğu model, SST-2 ve GSM8K’de inandırıcı ancak gereksiz açıklamalar sunar, MiniMax-M2.5 ise sentiment için adımlarına daha fazla güveniyor. Hem MiniMax hem de Kimi-K2.5, konu sınıflandırmasında daha gerçek adım-adım düşünmesi gösteriyor. Kaynak

Yazarlar, bu sonuçlar hakkında şunları söylüyor:

‘Çoğunlukla modeller, sentiment ve matematik için “Süsleme Mantık” (ICE taksonomisinde Lucky Steps) desenini sergiler – bir desen जह step necessity %17’den az ve step sufficiency %60’dan fazla.

‘Basitçe söylemek gerekirse: herhangi bir düşünme adımını kaldırabilirsiniz ve cevap neredeyse hiç değişmez, ancak herhangi bir tek adım alone cevabı geri alabilir.’

SST-2 sentiment testinde, GPT-5.4 neredeyse hiç yazılı açıklamalarına güvenmedi, çünkü bir adımın kaldırılması cevabı yalnızca 500 durumda değiştirdi, yani açıklama zaten karar verildikten sonra eklendi.

Claude Opus 4.6-R adımlarına biraz daha fazla güveniyordu, %14,8, ancak %91’inin adımları alone cevabı üretebiliyordu; bu nedenle daha uzun açıklamaları daha ayrıntılıydı, ancak hala çoğunlukla ‘süsleme’ idi.

Araştırmacılar daha sonra diğer alanları ekledi ve tekrar test etti:

Dört alandaki adım-seviyesi dürüstlük ve doğruluk: SST-2; GSM8K; AG News; ve MedQA. Çoğu model-tasca pair, yüksek doğruluğa rağmen süsleme kaldı, sınırlı istisnalarla: MiniMax-M2.5 ve Kimi-K2.5, AG News’de bağımlı veya gerçekten adım-adım düşünmesini gösterdi, genel performans düşük dürüstlüğün rastgele tahminle açıklanmadığını onayladı.

Yazarlar gözlemliyor:

‘Dört-alan sonuçları, merkezi bulguyu güçlendiriyor: süsleme mantık, atlayan modeller için evrensel ve alanlar arasında değişmez. Claude Opus, MedQA’da %1,7 gerekirlilik gösteriyor (486 örnek, %93,4 doğruluk) – model 5,8 adımdan oluşan tıbbi mantık zincirleri yazıyor, ancak herhangi bir adımın kaldırılması neredeyse hiç tanıya etki etmiyor.’

AG News, modeller arasında en büyük farklılıkları gösterdi, Kimi-K2.5 ve MiniMax-M2.5 gerçek adım-adım düşünmesine güveniyordu ve diğer sistemlerin çoğu açıklamaları değişen cevaba etki etmiyordu.

DeepSeek-V3.2, tüm dört görevde süsleme olarak kaldı; en uzun açıklamaları yazmasına rağmen, cevapları genellikle adımlarına bağlı değildi.

Çıkış Katılığı

Testler, yazarların çıkış katılığı olarak adlandırdığı dördüncü bir fenomeni gösterdi: bazı modeller, konuya ve belki de diğer koşullara bağlı olarak, düşünme süreçlerini çıktılamaktan kaçınıyorlar.

Aşağıda, Claude Opus’un bir tıbbi soru hakkında cevabı ve altında GPT-OSS-120B’nin çıktısı görünüyor:

Sözlülük karşı reticence.

Yazarlar, çıkış katılığının görev-bağımlı olduğunu belirtiyorlar:

Görevler arasında, modeller ‘çalışmalarını gösterme’ konusunda keskin bir şekilde farklılaşıyor. Claude ve DeepSeek her zaman, alan bağımsız olarak, çok-adımlı açıklamalar üretiyor, Qwen3.5-397B ise neredeyse hiç yapmıyor. Diğerleri, görevlere bağlı olarak davranışlarını değiştiriyor, bazıları sınıflandırma için ayrıntılı mantık zincirleri üretiyor, ancak tıbbi sorular için çok daha az üretiyor.

Yazarlar gözlemliyor:

‘Modeller, içsel olarak mantığı atlayacak olanlar, aynı zamanda dışsal olarak mantığı省lemek olanlar. GPT-OSS-120B, %99’u sentiment soruları ve %100’ü konu sınıflandırma soruları için çok-adımlı mantık üretiyor – ancak yalnızca %38’i tıbbi sorular için. Tıbbi soruların %62’sinde, yalnızca bir cevap harfi üretiyor.’

Desen rastgele görünmüyor: GPT-OSS-120B, neredeyse tüm sentiment ve konu sınıflandırma öğeleri için çok-adımlı açıklamalar üretiyor, ancak çoğu tıbbi soruda tek bir cevap harfine geçiyor.

Yazarlar, bir modelin dışsal düşünme süreçlerini üretmekten kaçınması nedeniyle, doğrudan ölçümün engellendiğini öne sürüyorlar.

Sonuç

Bu, konuyu daha geniş bir şekilde test eden ve tartışan ilginç bir makale ve okuyucuyu kaynak materyale yönlendirmeyi öneririm.

Merkezi mesaj, geçen yılın tartışmalarından devam ediyor, en yüksek riskli AI platformlarının standartları karşılayamadıklarını simüle etmek için keskin ve dürüstlükten uzak bir şekilde davranmaya istekli olabileceğini gösteriyor.

Ayrıca, açık ağırlıklı ve kapalı API modelleri arasındaki ölçek ve yetenek farkı o kadar büyüktür ki, genellikle kapalı ağırlıklı modellerin etkilerini açık ağırlıklı kurulumlardan makul bir şekilde çıkarılamaz, bu da bu süreçlerin ve standartların bulanıklığını artırır.

Ancak, gerçekten beyaz kutu test metodolojisi ortaya çıktığında, hem açık hem de kapalı kaynaklı modelleri kapsayabilen, gerçek bir çözümün ortaya çıkması muhtemeldir, ancak güçlü kurumlar gibi AB, büyük AI portallarının kar hattını tehdit ettiğinde gerçekleşecektir.

*Yazarların satır içi alıntılarını hyperlink’e dönüştürdüm.

^†Makale, bu küçük modellerin kapsamlı bir listesini açıklamıyor ve bir modelin varyantlarını içeriyor, bu da kesin bir listeyi çıkarmayı bir çıkarım meselesi haline getiriyor.

^††Yazarların vurguları.

İlk olarak Çarşamba, 25 Mart 2026’da yayınlandı

Martin Anderson

Makine öğrenimi üzerine yazar, insan görüntü sentezinde alan uzmanı. Metaphysic.ai'de eski araştırma içeriği başkanı.
Kişisel site: martinanderson.ai
İletişim: [email protected]