Kecerdasan buatan

Penelitian Mengungkap LLM Menggunakan Penalaran Sederhana Ketika Kompleksitas Meningkat

Published November 25, 2025

Updated April 1, 2026

Alex McFarland

Tim peneliti menerbitkan studi komprehensif pada 20 November menganalisis lebih dari 192.000 jejak penalaran dari model bahasa besar (LLMs), mengungkap bahwa sistem AI bergantung pada strategi linier yang dangkal daripada proses kognitif hierarkis yang digunakan manusia secara alami.

Tim peneliti memeriksa 18 model yang berbeda di seluruh tugas penalaran teks, visi, dan audio, membandingkan pendekatan mereka dengan 54 jejak berpikir keras manusia yang dikumpulkan secara khusus untuk studi ini. Analisis tersebut membangun taksonomi 28 elemen kognitif yang mencakup kendala komputasi, kontrol meta-kognitif, representasi pengetahuan, dan operasi transformasi—memberikan kerangka untuk mengevaluasi tidak hanya apakah model menghasilkan jawaban yang benar, tetapi bagaimana mereka mencapai kesimpulan tersebut.

Perbedaan Mendasar dalam Arsitektur Kognitif

Penalaran manusia konsisten menunjukkan nesting hierarkis dan pemantauan meta-kognitif—kemampuan untuk merefleksikan dan mengatur proses berpikir sendiri. Manusia dengan mudah mengatur informasi ke dalam struktur yang bersarang sementara secara aktif melacak kemajuan mereka melalui masalah yang kompleks.

LLM sebagian besar menggunakan rantai maju yang dangkal, bergerak langkah demi langkah melalui masalah tanpa organisasi hierarkis atau refleksi diri yang membedakan kognisi manusia. Perbedaan ini menjadi paling menonjol ketika tugas tidak terstruktur atau ambigu, di mana kemampuan adaptasi manusia secara signifikan mengungguli pendekatan AI.

Studi ini menemukan bahwa model bahasa memiliki komponen perilaku yang terkait dengan penalaran yang sukses tetapi sering gagal menerapkan secara spontan. Kinerja bervariasi secara dramatis oleh jenis masalah: penalaran dilema menunjukkan varians tertinggi, dengan model yang lebih kecil mengalami kesulitan yang signifikan, sementara penalaran logis menunjukkan kinerja yang moderat dengan model yang lebih besar umumnya mengungguli model yang lebih kecil. Model menunjukkan kelemahan yang tidak terduga, berhasil pada tugas yang kompleks sementara gagal pada varian yang lebih sederhana.

Perbaikan Kinerja Melalui Penalaran Bimbingan

Tim peneliti mengembangkan bimbingan penalaran waktu uji yang secara otomatis membangun struktur kognitif yang sukses, menunjukkan perbaikan kinerja hingga 66,7% pada masalah yang kompleks ketika model diprompt untuk mengadopsi pendekatan penalaran yang lebih manusiawi. Temuan ini menunjukkan bahwa LLM memiliki kemampuan laten untuk penalaran yang lebih sopistikasi tetapi memerlukan bimbingan yang eksplisit untuk menerapkannya secara efektif.

Jarak antara penalaran manusia dan AI tumbuh lebih lebar ketika kompleksitas tugas meningkat. Sementara model dapat menangani masalah yang sederhana melalui rantai maju saja, mereka bergelut dengan strategi yang rekursif, self-monitoring yang diterapkan manusia secara alami ketika menghadapi tantangan yang ambigu atau berlapis.

Dataset yang tersedia secara publik dari studi ini menyediakan baseline untuk penelitian masa depan yang membandingkan kecerdasan buatan dan manusia. Dengan memetakan 28 elemen kognitif yang berbeda, kerangka ini memungkinkan peneliti untuk menunjukkan dengan tepat di mana penalaran AI gagal daripada hanya mengukur skor akurasi.