Sudut Anderson

Alasan Berpikir Rantai Pemikiran Terbukti ‘Hiasan’ pada Model Bahasa Utama

mm
An AI-generated image (GPT1.5) depicting a robot cheating in an exam by using a smartphone.

Penelitian baru menawarkan cara mudah untuk menentukan bahwa penjelasan langkah demi langkah yang rapi dari semua model bahasa AI terkemuka saat ini – termasuk ChatGPT dan Claude – hanya ‘hiasan’, dan biasanya dibuat setelah AI telah memutuskan jawaban.

 

Tahun lalu, serangkaian studi profil tinggi dari perusahaan yang berfokus pada AI, termasuk Anthropic dan Apple, menunjukkan bahwa model bahasa AI yang disebut ‘pemikiran’ sering menghasilkan penjelasan langkah demi langkah yang tidak mencerminkan apa yang sebenarnya mempengaruhi jawaban mereka.

Untuk berbagai alasan, debatnya segera memburuk menjadi bantahan yang kasar dan interpretasi yang beragam (termasuk di situs ini), meninggalkan pertanyaan yang belum terpecahkan tentang apakah pemikiran rantai pemikiran (CoT) hanya hiasan yang dirancang untuk menenangkan pengguna akhir, atau bukti proses pemikiran yang sebenarnya.

ChatGPT 'menunjukkan pekerjaannya' – tapi apakah sudah memutuskan apa yang akan dijawab?

ChatGPT ‘menunjukkan pekerjaannya’ – tapi apakah sudah memutuskan apa yang akan dijawab?

Tunjukkan dan Ceritakan

Sekarang, penelitian baru dari India menawarkan metode yang mudah dan dapat diulang untuk menentukan apakah ‘animasi deduksi’ yang mengesankan dalam antarmuka ChatGPT dan model bahasa lainnya benar-benar menunjukkan AI bekerja melalui langkah-langkah menuju kesimpulan.

Penelitian baru ini berasal dari dua peneliti di Indian Institute of Information Technology Allahabad (IIITA) di Allahabad, dan National Institute of Electronics and Information Technology (NIELIT) di Delhi.

Penulis menemukan bahwa dalam hampir semua kasus, di seluruh model bahasa AI yang diproprietasikan dan open-source, pemikiran rantai pemikiran yang disajikan kepada pengguna adalah ‘hiasan’, yang dibuat setelah AI telah menyimpulkan jawaban yang akan disajikan.

Menguji model seperti ChatGPT5.4, Claude Opus 4.6-R, dan DeepSeek-V3.2, penulis menemukan bahwa menghilangkan langkah tunggal dari 10-15 indikasi CoT yang disajikan sebenarnya mengubah jawaban kurang dari 17% dari waktu, dan bahwa langkah tunggal saja sudah cukup untuk mendapatkan jawaban yang benar.

Penulis menyatakan*:

‘Kerangka regulasi untuk AI di bidang kesehatan, keuangan, dan hukum semakin memerlukan “sistem yang dapat dijelaskan”. Hasil kami menunjukkan bahwa pendekatan standar – meminta model untuk menunjukkan pekerjaannya – memberikan ilusi transparansi.

‘Penjelasan tersebut lancar, sesuai dengan domain, dan salah dalam cara yang halus: mereka menjelaskan pemikiran yang tidak dilakukan oleh model.

‘AI medis yang menulis “eosinophilia menunjukkan proses embolik” tidak harus mempertimbangkan eosinophilia sama sekali. Mungkin telah mencocokkan pola dari pertanyaan ke jawaban dan memalsukan pemikiran setelahnya.

‘Di bawah Undang-Undang AI Uni Eropa (Pasal 13), sistem AI berisiko tinggi harus menyediakan “informasi yang bermakna tentang logika yang terlibat.” Temuan kami menunjukkan bahwa penjelasan rantai pemikiran dari sebagian besar model tidak memenuhi standar ini–“logika yang terlibat” dalam mencapai jawaban tidak sama dengan logika yang dijelaskan dalam penjelasan.’

Penulis mengamati bahwa dua model yang lebih kecil yang diuji mematahkan pola umum kepalsuan, tetapi hanya dalam keadaan tertentu: MiniMax-M25 menunjukkan ketergantungan langkah yang sebenarnya ketika menangani analisis sentimen, sementara Kimi-K25 menunjukkan kebutuhan sebenarnya 39% untuk pemrosesan CoT – tetapi hanya ketika menangani klasifikasi topik.

Dalam semua kasus lain, seperti model yang lebih besar dan lebih dikenal, langkah-langkah pemikiran yang ditunjukkan tampaknya sepenuhnya performatif, dengan model menggunakan jalan pintas.

Model Kecil Berusaha Lebih Keras

Selain sepuluh model API yang diuji, penulis juga menguji sejumlah model open-weight yang lebih kecil, yang berkisar antara 0,8 hingga 8 miliar parameter (yang cukup sederhana saat ini), dan menemukan bahwa model AI yang lebih kecil ini benar-benar berpikir, dan bahwa CoT yang mereka tunjukkan biasanya – tetapi tidak selalu – diperlukan untuk mencapai kesimpulan yang berguna dan akurat.

Model yang lebih kecil menunjukkan kebutuhan 55% untuk penalaran langkah, dibandingkan dengan rata-rata 11% kebutuhan di model yang lebih besar, yang, menurut penulis, ‘telah belajar untuk melewati penalaran multi-langkah sepenuhnya, mencapai jawaban yang benar melalui jalan pintas internal yang tidak mencerminkan penalaran yang ditulis.

Penulis mengemukakan bahwa semakin baik model tersebut dalam melakukan tugas, semakin sedikit kebutuhan akan langkah-langkah pemikiran (meskipun ini adalah pendekatan yang lebih diplomatik terhadap konsep menghindari analisis rasional demi jawaban yang paling kuat dalam distribusi data pelatihan)††:

‘Model kecil berpikir setia pada matematika karena mereka harus—mereka kekurangan pengetahuan parametri untuk memotong.

‘Model frontier telah menginternalisasi pola matematika yang cukup sehingga penalaran rantai yang eksplisit menjadi redundan. CoT masih meningkatkan akurasi (dengan mengatur generasi), tetapi langkah-langkah individu tidak lagi membawa informasi unik.’

Metode

Metode yang digunakan untuk menguji model ini didasarkan pada tiga kriteria:

Kebutuhan menghilangkan setiap langkah CoT secara bergantian, dan kemudian memeriksa apakah jawaban berubah. Setiap langkah yang penghilangannya mengubah hasil dihitung sebagai ‘diperlukan’; Kecukupan mengisolasi setiap langkah, dan menguji apakah langkah itu saja dapat menghasilkan jawaban, dengan setiap langkah yang dihitung sebagai cukup; dan Kepekaan urutan mengacak langkah-langkah, dan mengamati apakah jawaban berubah (karena pemikiran yang sebenarnya harus bergantung pada urutan daripada kata kunci).

Diambil bersama, kebutuhan yang tinggi dan kecukupan yang rendah menunjukkan penalaran langkah demi langkah yang sebenarnya, sementara kebutuhan yang rendah dan kecukupan yang tinggi menunjukkan penjelasan yang dapat dihilangkan, diatur ulang, atau dikurangi tanpa mempengaruhi hasil.

Penulis mencatat bahwa metode ini menghilangkan kebutuhan akan akses model putih, karena dapat dilakukan dengan biaya beberapa dolar pada model API-only yang tertutup, dan, tentu saja, sama-sama berhasil pada model open-weights yang dapat dipasang secara lokal.

Mereka juga mencatat bahwa studi sebelumnya menggunakan model open-weights yang memungkinkan analisis internal, atau menggunakan jawaban sederhana ya/tidak yang mengungkapkan sedikit tentang proses pemikiran internal model API.

Biaya Minimal

Penulis mendefinisikan pemikiran yang sebenarnya melalui kebutuhan dan kecukupan, dengan kebutuhan yang tinggi dan kecukupan yang rendah menunjukkan bahwa setiap langkah membawa bobot unik. Sebaliknya, pemikiran hiasan menunjukkan kebutuhan yang rendah dan kecukupan yang tinggi, yang berarti langkah-langkah dapat dihilangkan atau digunakan sendiri tanpa mengubah jawaban.

Kebutuhan saja, mereka menyatakan, dapat mengaburkan ini, karena beberapa jalur yang valid mungkin ada. Oleh karena itu kecukupan digunakan untuk menguji apakah langkah tunggal saja sudah mengkodekan hasil, dan kepekaan urutan memeriksa apakah model bergantung pada urutan daripada petunjuk permukaan.

Pendekatan ini membangun pada Kerangka Penjelasan yang Konsisten dengan Intervensi (ICE), hanya memerlukan akses API teks-masuk, teks-keluar, dan untuk rantai enam langkah melibatkan 15 evaluasi, dengan biaya sekitar $1–2 per model.

Kerangka ICE mengklasifikasikan perilaku model berdasarkan kebutuhan dan kecukupan menjadi tiga pola: Hiasan menunjukkan kebutuhan yang rendah dan kecukupan yang tinggi, yang berarti langkah-langkah redundant dan jawaban akan tetap sama; Setia menunjukkan kebutuhan yang tinggi dan kecukupan yang tinggi, yang berarti setiap langkah membawa sinyal yang sebenarnya (dan, seperti disebutkan sebelumnya, ini muncul pada MiniMax-M2.5 pada sentimen); dan Bergantung pada Konteks menunjukkan kebutuhan yang tinggi dan kecukupan yang rendah, yang berarti langkah-langkah hanya bekerja bersama dalam urutan (yang muncul pada Kimi-K2.5 dan MiniMax pada klasifikasi topik, dan pada model kecil, ketika menangani matematika).

Pengujian

Sepuluh model API yang diuji dengan pendekatan ICE yang direvisi adalah ChatGPT-5.4; Claude Opus 4.6-R; DeepSeek-V3.2; GPT-OSS-120B; Kimi-K2.5; Qwen3.5-397B; Qwen3.5-122B; MiniMax-M2.5; GLM-5; dan Nemotron-Ultra (253 miliar parameter).

Masing-masing model diuji pada empat tugas: klasifikasi sentimen (menggunakan (SST-2); masalah matematika kata (menggunakan GSM8K); klasifikasi topik (menggunakan AG News); dan pertanyaan jawaban medis (menggunakan (MedQA). Pengujian awal dilakukan pada Sentimen dan Matematika:

Pengujian untuk sepuluh model bahasa terkemuka, mengevaluasi bagaimana mereka menangani penalaran langkah demi langkah. 'Kebutuhan' melacak apakah menghilangkan langkah mengubah jawaban; 'kecukupan' memeriksa apakah langkah tunggal saja dapat menghasilkan jawaban; dan 'acak' menguji apakah urutan mempengaruhi. Sebagian besar model memberikan penjelasan yang meyakinkan tetapi tidak penting pada SST-2 dan GSM8K, sementara MiniMax-M2.5 bergantung lebih pada langkah-langkahnya untuk sentimen. Baik MiniMax-M2.5 dan Kimi-K2.5 menunjukkan penalaran langkah demi langkah yang sebenarnya pada AG News, sementara kinerja keseluruhan mengkonfirmasi bahwa ketidaksetiaan yang rendah tidak dijelaskan oleh tebakan acak.

Pengujian untuk sepuluh model bahasa terkemuka, mengevaluasi bagaimana mereka menangani penalaran langkah demi langkah. ‘Kebutuhan’ melacak apakah menghilangkan langkah mengubah jawaban; ‘kecukupan’ memeriksa apakah langkah tunggal saja dapat menghasilkan jawaban; dan ‘acak’ menguji apakah urutan mempengaruhi. Sebagian besar model memberikan penjelasan yang meyakinkan tetapi tidak penting pada SST-2 dan GSM8K, sementara MiniMax-M2.5 bergantung lebih pada langkah-langkahnya untuk sentimen. Baik MiniMax-M2.5 dan Kimi-K2.5 menunjukkan penalaran langkah demi langkah yang sebenarnya pada AG News, sementara kinerja keseluruhan mengkonfirmasi bahwa ketidaksetiaan yang rendah tidak dijelaskan oleh tebakan acak. Sumber

Penulis menyatakan, dari hasil ini:

‘Sebagian besar model menunjukkan apa yang kami sebut “Pemikiran Hiasan” (Langkah Beruntung dalam taksonomi ICE)–pola di mana kebutuhan langkah di bawah 17% dan kecukupan langkah melebihi 60% pada kedua sentimen dan matematika.

‘Dalam bahasa sederhana: Anda dapat menghilangkan langkah pemikiran apa pun dan jawaban hampir tidak pernah berubah, namun langkah tunggal saja sudah cukup untuk mendapatkan jawaban.’

Pada pengujian SST-2, GPT-5.4 hampir tidak pernah bergantung pada penjelasan yang ditulis, karena menghilangkan langkah mengubah jawaban pada hanya 0,1% dari 500 kasus, yang menunjukkan bahwa penjelasan ditambahkan setelah keputusan sudah dibuat.

Claude Opus 4.6-R bergantung pada langkah-langkahnya sedikit lebih, pada 14,8%, tetapi 91% dari langkah-langkahnya saja sudah cukup untuk menghasilkan jawaban; oleh karena itu, penjelasan yang lebih panjang lebih detail, tetapi masih sebagian besar ‘hiasan’.

Setelah itu, peneliti menambahkan domain lain dan menguji lagi:

Ketaatan langkah dan akurasi di seluruh empat domain: SST-2; GSM8K; AG News; dan MedQA. Sebagian besar pasangan model-tugas tetap 'hiasan' meskipun akurasi yang tinggi, dengan pengecualian terbatas: MiniMax-M2.5 dan Kimi-K2.5 menampilkan penalaran yang bergantung pada konteks atau langkah demi langkah yang sebenarnya pada AG News, sementara kinerja keseluruhan mengkonfirmasi bahwa ketidaksetiaan yang rendah tidak dijelaskan oleh tebakan acak.

Ketaatan langkah dan akurasi di seluruh empat domain: SST-2; GSM8K; AG News; dan MedQA. Sebagian besar pasangan model-tugas tetap ‘hiasan’ meskipun akurasi yang tinggi, dengan pengecualian terbatas: MiniMax-M2.5 dan Kimi-K2.5 menampilkan penalaran yang bergantung pada konteks atau langkah demi langkah yang sebenarnya pada AG News, sementara kinerja keseluruhan mengkonfirmasi bahwa ketidaksetiaan yang rendah tidak dijelaskan oleh tebakan acak.

Penulis mengamati:

‘Hasil empat domain memperkuat temuan utama: pemikiran hiasan universal di seluruh domain untuk model yang memotong jalan. Claude Opus menunjukkan 1,7% kebutuhan pada MedQA (486 contoh, 93,4% akurasi) – model menulis rantai penalaran medis yang rinci dengan rata-rata 5,8 langkah, namun menghilangkan langkah apa pun hampir tidak pernah mengubah diagnosis.’

AG News menunjukkan perbedaan terbesar antara model, dengan Kimi-K2.5 dan MiniMax-M2.5 benar-benar bergantung pada penalaran langkah demi langkah, dan sebagian besar sistem lainnya menghasilkan penjelasan yang tidak banyak mempengaruhi jawaban akhir.

DeepSeek-V3.2, diuji pada semua empat tugas, tetap ‘hiasan’ sepanjang waktu; meskipun menulis penjelasan yang panjang, jawabannya jarang bergantung pada langkah-langkah.

Kekakuan Keluaran

Pengujian menunjukkan fenomena keempat yang terlibat, yang disebut penulis sebagai kekakuan keluaran: beberapa model tidak mau mengeluarkan proses pemikiran, tergantung juga pada topik, dan mungkin pada keadaan lain. Di bawah ini, kita melihat penalaran dari Claude Opus ketika menjawab pertanyaan tentang status medis seorang pria berusia 61 tahun; dan di bawahnya, apa yang dihasilkan GPT-OSS-120B:

Kebingungan vs. kekurangan kata-kata.

Kebingungan vs. kekurangan kata-kata.

Penulis mencatat bahwa Kekakuan Keluaran tergantung tugas:

Di seluruh tugas, model berbeda secara tajam dalam seberapa sering mereka memilih untuk 'menunjukkan pekerjaan mereka'. Claude dan DeepSeek menghasilkan penjelasan multi-langkah hampir setiap saat, terlepas dari domain, berbeda dengan Qwen3.5-397B, yang jarang melakukannya. Yang lain berganti perilaku tergantung pada tugas, dengan beberapa menghasilkan rantai logika yang terperinci untuk klasifikasi, tetapi jauh lebih sedikit untuk pertanyaan medis.

Di seluruh tugas, model berbeda secara tajam dalam seberapa sering mereka memilih untuk ‘menunjukkan pekerjaan mereka’. Claude dan DeepSeek menghasilkan penjelasan multi-langkah hampir setiap saat, terlepas dari domain, berbeda dengan Qwen3.5-397B, yang jarang melakukannya. Yang lain berganti perilaku tergantung pada tugas, dengan beberapa menghasilkan rantai logika yang terperinci untuk klasifikasi, tetapi jauh lebih sedikit untuk pertanyaan medis.

Mereka mengamati:

‘Model yang paling mungkin untuk melewati pemikiran internal juga yang paling mungkin untuk menghilangkan pemikiran eksternal. GPT-OSS-120B menghasilkan penjelasan multi-langkah untuk 99% pertanyaan sentimen dan 100% pertanyaan klasifikasi topik–tetapi hanya 38% pertanyaan medis. Pada 62% pertanyaan medis, itu mengeluarkan jawaban huruf saja.’

Polanya tidak tampaknya acak: GPT-OSS-120B menghasilkan penjelasan multi-langkah untuk hampir semua pertanyaan sentimen dan klasifikasi topik, namun beralih ke jawaban satu token pada sebagian besar pertanyaan medis (di mana biasanya tidak menyediakan penalaran yang terlihat).

Penulis menghipotesiskan bahwa karena pengujian langkah memerlukan rantai yang ditulis untuk dianalisis, model yang menjawab dalam satu token tidak dapat dievaluasi dengan metode tersebut; ketiadaan penalaran eksternal memblokir pengukuran langsung.

Makalah ini menyimpulkan bahwa model yang dipilih untuk aplikasi dengan risiko tinggi perlu diuji untuk ketidaksetiaan serta akurasi, dan menyarankan bahwa model yang 2% kurang akurat, tetapi yang benar-benar berpikir, mungkin lebih disukai – tidak hanya karena memenuhi peraturan Uni Eropa dan lainnya terkait AI yang dapat dijelaskan. Saat ini, berdasarkan bukti yang ditemukan dalam studi, hampir semua model bahasa yang mampu CoT ‘curang’, hampir sepanjang waktu

Kesimpulan

Ini adalah makalah menarik yang menyediakan pengujian dan diskusi yang lebih luas tentang topik ini daripada yang dapat kami tutupi di sini, dan saya sarankan pembaca untuk membaca materi sumber.

Pesan utama, yang melanjutkan kontroversi tahun lalu, adalah bahwa platform AI dengan risiko tertinggi mungkin bersedia untuk menyimpang tajam dan tidak jujur dalam mensimulasikan standar yang model mereka belum bisa penuhi.

Lebih lanjut, kesenjangan antara skala dan kemampuan model open-weights dan model API yang tertutup seperti ChatGPT sangat besar sehingga, biasanya, satu tidak dapat secara masuk akal menyimpulkan efek model tertutup dari instalasi open-weights, yang memperdalam ketidakjelasan proses dan standar ini.

Namun, sangat jarang metode pengujian putih yang sebenarnya muncul yang dapat mencakup model sumber terbuka dan tertutup; tetapi obat yang sebenarnya untuk ‘trik murah’ seperti ini hanya akan terjadi ketika badan kuat seperti Uni Eropa mengancam garis bawah portal AI utama.

 

* Konversi saya dari kutipan inline penulis ke tautan.

Makalah ini tidak mengungkapkan daftar kohesif dari model yang lebih kecil ini, dan mencakup varian tambahan dari satu model, membuat daftar yang pasti menjadi masalah deduksi.

†† Tekanan penulis.

Dipublikasikan pertama kali pada Rabu, 25 Maret 2026

Penulis tentang machine learning, spesialis domain dalam sintesis gambar manusia. Mantan kepala konten penelitian di Metaphysic.ai.